写点什么

BladeLLM

0 人感兴趣 · 1 次引用

  • 最新
  • 推荐

TAG:BladeLLM 的纯异步推理架构

BladeLLM 设计并实现了基于 Python 的纯异步 LLM 推理架构 -- TAG (Totally Asynchronous Generator) ,以最大程度提高 GPU 利用率,提升引擎性能。

BladeLLM_BladeLLM技术文章_InfoQ写作社区