聚焦全球数字经济大会 | 焱融存储推理加速方案成现场焦点
7 月 2 日上午,2025 全球数字经济大会在京开幕。本次大会由北京市人民政府、国家互联网信息办公室、国家数据局、新华通讯社和联合国开发计划署共同主办。中共中央政治局委员、北京市委书记尹力,中宣部副部长、中央网信办主任、国家网信办主任庄荣文,新华社社长傅华致辞,北京市委副书记、市长殷勇主持开幕式。来自全球 50 多个国家及重要国际组织的 300 余位国际嘉宾、上千名代表共襄盛会。

作为国内专业的 AI 存储厂商,焱融科技依托自主研发的高性能存储技术,持续推动 AI 大模型等核心应用的落地实践,为数字经济发展注入关键动能。焱融存储最新技术成果 YRCloudFile KVCache 推理加速方案,在大会重要活动——新技术新产品新方案“首发首秀”现场进行了重大发布,向全球观众展示了公司在 AI 存储领域的技术突破能力,成为现场备受瞩目的创新成果之一。

焱融存储 YRCloudFile KVCache 推理加速方案“首发首秀”现场
焱融 YRCloudFile KVCache 以存代算推动 AI 推理性能跃升
随着大模型技术的加速演进和推理需求的持续攀升,如何在保障响应速度的同时提升系统资源利用率,成为 AI 推理基础设施亟需解决的核心问题。KVCache 技术作为当前提升推理性能的核心优化路径,已经成为 AI 大模型推理产业落地的“标配”。
在实际应用过程中,KVCache 通过缓存历史的键值对计算结果,避免重复计算,显著加速下一轮模型推理响应,尤其在多轮对话、长上下文处理等场景中效果显著。然而,KVCache 的引入也带来了 GPU 显存占用快速上升的问题。当推理任务密集时,GPU 显存容易被大量 KV 缓存占满,导致新请求排队甚至被拒绝,严重影响服务的稳定性与并发性能。
针对这一行业普遍难题,焱融科技基于长期服务众多大模型客户的研发实践,前瞻性识别并深入攻关 KVCache 在推理服务中的关键挑战,率先推出了国内首个支持 KVCache 特性的高性能推理加速方案—— YRCloudFile KVCache。
焱融 YRCloudFile KVCache 推理加速方案通过“GPU 显存 + YRCloudFile 高性能分布式文件存储”组合方式,支持 KVCache 数据的分层存储和智能调度,将 KVCache 从 GPU 显存扩展至高速共享存储系统,保障读取性能的同时,释放 GPU 资源,显著提升推理任务的并发处理能力与系统响应效率。
该方案具备以下关键优势:
缓解 GPU 显存瓶颈:通过将 KVCache 数据从 GPU 显存高效迁移至高性能文件存储,释放 GPU 显存资源,有效提升资源利用率;
提升服务并发与响应速度:通过高吞吐、低延迟的数据访问能力,保障 KVCache 的高命中率和快速读回,维持高并发推理请求的响应能力;
增强资源调度灵活性:配合智能缓存与预读机制,可实现 KVCache 数据的智能分层管理,动态优化资源分配策略,在上下文窗口不断扩展的情况下,依然能够实现快速推理响应。
焱融 YRCloudFile KVCache 推理加速方案体现了焱融科技在 AI 存储技术上的持续创新,更为企业在应对推理服务压力与成本控制之间提供了全新思路与技术路径。通过“以存代算”的架构优化手段,有效释放系统算力,实现推理性价比的全面提升。
除了参与“首发首秀”发布外,焱融科技作为北京信创工委会副理事长单位,还参展了本次大会的数字经济产业国际交流合作体验区 · 北京信息技术应用创新体验区,集中展示其在 AI 存储领域的最新技术实践和落地方案,吸引了大量与会专家、企业代表、现场观众及媒体到访交流。
评论