LMCache - Redis for LLMs 无限高速 KV 缓存系统
项目标题与描述
LMCache 是一个创新的 LLM 服务引擎扩展,旨在减少首 token 延迟(TTFT)和提高吞吐量,特别针对长上下文场景优化。通过跨多个存储层级(GPU 显存、CPU 内存、本地磁盘)缓存可重用文本的 KV 缓存,LMCache 能够在任何服务实例中复用任意位置的重复文本(不限于前缀),从而节省宝贵的 GPU 计算周期并降低用户响应延迟。
功能特性
跨实例 KV 缓存共享:支持在不同服务实例间共享和复用 KV 缓存
多级存储架构:自动管理 GPU 显存、CPU 内存和本地磁盘的多级缓存
vLLM 深度集成:与 vLLM 无缝协作,提供开箱即用的高性能体验
混合注意力计算:支持 CacheBlend 技术实现高效的混合注意力计算
分布式缓存:支持通过 Redis 实现分布式缓存查找和管理
多模型支持:已测试支持 Llama 3.1 8B 和 DeepSeek V2 Lite 等模型
安装指南
前置要求
Python 3.10+
CUDA 12.1+
PyTorch 2.0+
vLLM 0.3.0+
安装步骤
使用预构建的 Docker 镜像(推荐):
复制代码
从源码安装:
复制代码
安装质量检查工具:
复制代码
使用说明
基础使用
启动集成 vLLM 的服务:
复制代码
基准测试
运行多轮 QA 基准测试:
复制代码
API 示例
使用 OpenAI 兼容 API:
复制代码
核心代码
缓存引擎初始化
复制代码
KV 缓存检索逻辑
复制代码
混合注意力计算
复制代码
更多精彩内容 请关注我的个人公众号 公众号(办公 AI 智能小助手)公众号二维码

办公AI智能小助手
评论