写点什么

RTP-LLM

0 人感兴趣 · 1 次引用

  • 最新
  • 推荐
https://static001.geekbang.org/infoq/92/92fc9dd2e07038de03727554ee1d7442.jpeg?x-oss-process=image%2Fresize%2Cw_416%2Ch_234

大模型推理优化实践:KV cache 复用与投机采样

在本文中,我们将详细介绍两种在业务中实践的优化策略:多轮对话间的 KV cache 复用技术和投机采样方法。我们会细致探讨这些策略的应用场景、框架实现,并分享一些实现时的关键技巧。

RTP-LLM_RTP-LLM技术文章_InfoQ写作社区