写点什么

trt-llm

0 人感兴趣 · 1 次引用

  • 最新
  • 推荐

0 Token 间间隔 100% GPU 利用率,百度百舸 AIAK 大模型推理引擎极限优化 TPS

优化推理引擎的终极目标其实就是,极限提升前向推理的吞吐,同时极限压缩 Token 间间隔,最终提高极限出字率。

trt-llm_trt-llm技术文章_InfoQ写作社区