写点什么

Sglang

0 人感兴趣 · 5 次引用

  • 最新
  • 推荐

针对 DeepSeek V3.2 的推理引擎深度优化

百度百舸基于万卡级生产系统实战经验,面向 DeepSeek V3.2 在推理引擎层面做了深度优化,加快推理速度,降低推理成本:通过轻量级 CP 让长文本推理的 TTFT 近乎线性降低,更创新研发 ESS 系统破解长文本推理的显存墙困境。

https://static001.geekbang.org/infoq/07/0751b964e28f36f1c4887e5d82c25dee.png?x-oss-process=image%2Fresize%2Cw_416%2Ch_234

GPUStack v2:推理加速释放算力潜能,开源重塑大模型推理下半场

在大模型推理的下半场,GPUStack v2 不再是简单的模型服务平台,而是高性能推理生态的协调者与赋能者。

https://static001.geekbang.org/infoq/07/0751b964e28f36f1c4887e5d82c25dee.png?x-oss-process=image%2Fresize%2Cw_416%2Ch_234

GPUStack v2:推理加速释放算力潜能,开源重塑大模型推理下半场

在大模型推理的下半场,GPUStack v2 不再是简单的模型服务平台,而是高性能推理生态的协调者与赋能者。

百度百舸 X SGLang 社区 | 开源生产级 MTP 代码,助力 DeepSeek-V3.2 推理服务 2 倍以上吞吐提升

百度百舸 AI 计算平台的研发团队,将持续向 SGLang 社区开源更多生产级别的核心代码

Sglang_Sglang技术文章_InfoQ写作社区