写点什么

推理加速

0 人感兴趣 · 2 次引用

  • 最新
  • 推荐

突破显存瓶颈:基于 DeepSeek-V3.2-Exp 的 Latent Cache 卸载预取方案设计与模拟验证

针对超长上下文场景的测试结果表明,在 MTP = 2 且上下文长度为 128K 的条件下,百度百舸的 Offload-Prefetch 机制能直接带来高达 123% 的吞吐提升。

面向复杂生产场景的 Token 双流:百度百舸开源贡献至 SGLang 社区

相比传统的 Two-Batch Overlap,Token 双流(Two-Chunk Overlap)通过 token 级细粒度划分,在请求长度高度异构的真实业务场景中显著提升了计算和通信 overlap 效率与 GPU 利用率,同时严格保证推理结果正确性,无精度损失。

推理加速_推理加速技术文章_InfoQ写作社区