推理加速
0 人感兴趣 · 1 次引用
- 最新
- 推荐
面向复杂生产场景的 Token 双流:百度百舸开源贡献至 SGLang 社区
相比传统的 Two-Batch Overlap,Token 双流(Two-Chunk Overlap)通过 token 级细粒度划分,在请求长度高度异构的真实业务场景中显著提升了计算和通信 overlap 效率与 GPU 利用率,同时严格保证推理结果正确性,无精度损失。
0 人感兴趣 · 1 次引用
相比传统的 Two-Batch Overlap,Token 双流(Two-Chunk Overlap)通过 token 级细粒度划分,在请求长度高度异构的真实业务场景中显著提升了计算和通信 overlap 效率与 GPU 利用率,同时严格保证推理结果正确性,无精度损失。