KV缓存
0 人感兴趣 · 2 次引用
- 最新
- 推荐
LMCache - Redis for LLMs 无限高速 KV 缓存系统
LMCache是一个专为大型语言模型(LLM)服务设计的KV缓存系统,通过跨GPU/CPU/本地磁盘的多级缓存架构,显著降低首token延迟(TTFT)并提升吞吐量。支持与vLLM无缝集成,在长上下文场景下可实现3-10倍的性能提升。

LLM 推理优化探微 (2) :Transformer 模型 KV 缓存技术详解
编者按:随着 LLM 赋能越来越多需要实时决策和响应的应用场景,以及用户体验不佳、成本过高、资源受限等问题的出现,大模型高效推理已成为一个重要的研究课题。为此,Baihai IDP 推出 Pierre Lienhart 的系列文章,从多个维度全面剖析 Transformer 大语言模型