写点什么

大模型推理架构

0 人感兴趣 · 1 次引用

  • 最新
  • 推荐

Mooncake 最新进展:SGLang 和 LMCache 基于 Mooncake 实现高效 PD 分离框架

Mooncake 项目与 SGLang、vLLM 等主流大模型推理框架实现合作和适配,这些开源大模型推理框架可以通过使用 Mooncake 发布的 whl 包,支持 pip安装,docker 镜像部署等,实现了 PD 分离框架,极大提升了模型推理效率。

大模型推理架构_大模型推理架构技术文章_InfoQ写作社区