#PD分离
0 人感兴趣 · 1 次引用
- 最新
- 推荐
突破显存瓶颈:基于 DeepSeek-V3.2-Exp 的 Latent Cache 卸载预取方案设计与模拟验证
针对超长上下文场景的测试结果表明,在 MTP = 2 且上下文长度为 128K 的条件下,百度百舸的 Offload-Prefetch 机制能直接带来高达 123% 的吞吐提升。
0 人感兴趣 · 1 次引用
针对超长上下文场景的测试结果表明,在 MTP = 2 且上下文长度为 128K 的条件下,百度百舸的 Offload-Prefetch 机制能直接带来高达 123% 的吞吐提升。