加速 AI 推理,焱融全闪存储成就 KVCache 以存换算关键一跃
5 月 22 日 - 24 日,CCF 青年精英大会(YEF 2025)于珠海横琴成功举办,汇聚了来自高校、科研院所及企业的中国计算机领域的青年精英、学者与专家,共同探讨科技前沿,开启智慧新篇章。焱融科技 CTO 张文涛受邀参加大会,并在“大模型时代的存储系统建设论坛”上发表了《存储技术在大模型推理效率提升中的关键作用》主题演讲,深入分享焱融存储创新团队在 AI 推理存储技术方面的最新成果,受到广泛关注。
在当前 AI 推理加速技术中,KVCache 作为核心方案备受业界关注。其高效落地的关键在于全闪存储 —— 仅当存储访问延迟低于计算延迟时,“以存换算” 才能实现加速价值,让 KVCache 成为释放 AI 推理性能的重要利器。

以大模型为代表的 AI 技术正加速落地,为各行各业带来前所未有的效率红利与智能体验。对用户而言,其对 AI 的核心期待在于更快、更智能的使用体验。企业在部署大模型应用时,真实诉求通常集中在三方面:响应要快、并发要高、成本可控。要实现这些目标,AI 基础设施需全面演进。尤其在高并发、低延迟的场景中,除算力外,高效稳定的数据流动同样关键——训练如此,推理亦然。底层数据存储的支撑能力,已成为决定 AI 应用体验的重要因素,具备低延迟、高吞吐、高并发访问能力的高性能全闪存储也成为 AI 训推的标配。

在训练阶段,大模型对存储系统提出了极高的数据吞吐与并发读写要求。全闪架构能够有效支撑海量小文件、高频读写等训练负载,确保数据持续流畅地输入计算单元,实现算力资源高效利用。
进入推理阶段,KVCache 成为提升推理效率的关键技术手段。其核心理念是缓存历史 token 的 KVCache,避免重复计算,从而加速推理响应速度。然而,由于 GPU 显存容量有限,难以承载迅猛增长的缓存需求。为此,业内转向将 KVCache 下沉至存储系统的技术路径。但这种策略应用有一个前提条件,是存储访问的速度不能慢于重新计算的速度。换句话说,如果从存储系统中读取 KVCache 的速度还不如 GPU 重新计算,不仅无法提升性能,反而可能适得其反,拖慢整体推理效率。这就使得全闪存成为支撑 KVCache 扩展落地的现实选择。
焱融存储 YRCloudFile KVCache 方案实现了 KVCache 从显存向高性能全闪共享存储的平滑扩展,有效缓解显存压力,同时保障极低延迟的 KVCache 存储访问,确保推理系统的快速响应,帮助企业以更具性价比的方式部署大模型推理服务。根据用户实际 AI 推理业务的实测数据,YRCloudFile KVCache 在推理系统的两大核心指标——响应延迟和并发处理能力上实现了显著提升。在 TTFT 稳定控制在 2 秒以内的前提下,支持的并发数相比原生 vLLM 方案提高了 3.2 倍。

随着大模型推理服务日益走向规模化、实用化、精细化,用户对实时响应体验的需求持续升级,全闪存储也将在其中发挥更加关键的作用。焱融全闪存储一体机 F9000X 凭借世界级领先性能,能够高效支撑千亿级参数模型训练及高并发快速推理。根据国际数据公司 IDC 在今年 4 月发布的《中国软件定义存储(SDS)市场季度跟踪报告,2024Q4》,F9000X 的市场份额大幅提升,在中国 SDS 全闪市场位列第四,充分体现了其在 AI 训练和推理场景下的技术实力和市场竞争力。
未来的竞争不止于 GPU 算力,也在于存力的比拼。焱融科技将继续以 AI 存储技术创新为大模型时代企业的智能变革提供坚实支撑,助力企业以极具性价比的方式支撑用户侧流畅、高效的 AI 体验。
评论