用户实测 YRCloudFile KVCache 丨以存代算显著提升 AI 推理性价比

2025-05-16
北京
本文字数：1496 字
阅读完需：约 5 分钟

KVCache 缓存技术作为提升推理效率的关键手段，已成为大模型系统架构中的“标配”。今年 3 月，焱融高性能分布式文件系统 YRCloudFile 正式官宣率先支持 KVCache 特性，并随即发布了首次实测推理性能数据（推理性能提升13倍，延时缩短超4倍丨实测焱融YRCloudFile KVCache），这一突破性进展吸引了众多 AI 企业级用户的关注。本文所呈现的数据，均来源于用户在实际业务场景中的最新测试结果。

模型推理高度依赖存储系统性能，关键在于借助存储性能，弥补 KV 计算带来的算力和时间损耗。YRCloudFile KVCache 通过“以存代算”的创新架构，将 KV 缓存扩展至高性能存储层，降低计算资源依赖。在保障高并发、低延迟推理性能的同时，显著降低成本，全面提升大语言模型推理的性价比，助力企业高效、低成本地实现 AI 应用落地。

KVCache 缓存规模暴涨高性能存储成破局关键

在大模型推理的解码阶段，每生成一个新 token 都要重新计算之前所有 token 的 KV 值。KVCache 技术通过缓存历史 token 的 KV，节省了重复计算带来的资源消耗。但这种方式是以增加内存占用为代价的，一旦内存容量不足，便会导致推理卡顿甚至中断，因此优化 KVCache 的内存占用成为关键。

如上图所示，以 8 卡 A100 推理 LLAMA3-70B 模型为例，Prefill 2K 的 Token 会产生 5.4GB 的 KV Cache，如果 Prefill 计算 1 分钟会产生 1.65TB 的 KV Cache，如果 Prefill 30 分钟会产生 52.4TB 的 KV Cache。

这种 KVCache 规模的快速增长，使得 GPU 显存和主机内存的容量显得捉襟见肘，难以满足如此庞大的缓存存储需求。引入具备大容量、弹性扩展能力的高性能存储，成为这一问题的关键解法。

用户实测 YRCloudFile KVCache 以存代算显著提升推理性价比

焱融存储 YRCloudFile KVCache 方案通过“HBM + YRCloudFile 高性能分布式文件存储”的组合方式，将 KVCache 从显存扩展至高性能共享存储，不仅缓解了显存压力，还有效避免因缓存占用过高导致的推理卡顿或任务中断，在保障推理效率与响应速度的同时，实现更精准、高性价比的大模型推理。

YRCloudFile KVCache 在实际客户的 AI 推理系统中展现出显著性能优势。推理系统的响应延迟与并发处理能力是衡量用户体验的关键指标。经客户实测，YRCloudFile 在这两个核心维度上均实现了明显优化，显著提升了整体推理效率与稳定性。

测试内容

在相同的 NVIDIA H20 显卡配置下，选用 DeepSeek-R1-Distil-Lama-70B 模型，基于 evalscope （使用 longalpaca 数据集，设定不同 --max-prompt-length 参数），对原生 vLLM 与 vLLM + YRCloudFile KVCache 两种方案在并发数递增时的 TTFT 表现进行对比测试。

测试结论

首先，需要强调的是，TTFT 是衡量推理体验的关键指标。理想情况下，TTFT 应稳定在 2 秒以内，这表明用户体验良好。一旦 TTFT 超过 2 秒，用户体验将显著下降。

在并发数仅达到 5 时，原生 vLLM 的 TTFT 就已突破 2 秒阈值；
搭载 YRCloudFile KVCache 后，在 TTFT 稳定保持在 2 秒以内的前提下，系统可支持的并发数大幅提升至 16，相比原生方案提高了 3.2 倍。

这表明 YRCloudFile KVCache 不仅能够显著降低响应延迟，还能在单位 GPU 资源下承载更多推理请求，大幅提升系统吞吐量和性价比，全面优化大语言模型的推理体验。

在大语言模型推理规模化应用的关键阶段，YRCloudFile KVCache 不仅有效解决了显存瓶颈问题，还能够应对上下文长度不断增长的压力，为大模型推理提供更具弹性与性能优势和性价比的底层支撑。最新的用户实测数据也进一步证明了其在高并发场景下的出色表现。无论是高并发的智能客服场景，还是复杂的多轮对话应用，YRCloudFile KVCache 都能为快速、流畅的推理响应提供坚实保障，助力企业在 AI 推理时代抢占先机。

发布于: 刚刚阅读数: 4

焱融科技

关注

软件定义的混合云统一文件存储 2020-05-29 加入

焱融科技是一家以软件定义存储技术为核心竞争力的高新技术企业，基于软件定义的混合云统一文件存储为企业客户提供高效存储、数据管理和应用服务，打造面向云+AI 时代的高性能存储。

发布

暂无评论

创作场景

用户实测 YRCloudFile KVCache 丨以存代算显著提升 AI 推理性价比

KVCache 缓存规模暴涨 高性能存储成破局关键

用户实测 YRCloudFile KVCache 以存代算显著提升推理性价比

焱融科技

评论

KVCache 缓存规模暴涨高性能存储成破局关键