写点什么

焱融科技携手信通院、青云科技启动“AI 推理高性能存储技术推进计划”

作者:焱融科技
  • 2025-07-23
    北京
  • 本文字数:1480 字

    阅读完需:约 5 分钟

今日下午,2025 可信云大会 - 云基础设施智能化分论坛在北京成功举办。会议期间,北京焱融科技有限公司(以下简称“焱融科技”)与中国信息通信研究院(以下简称“信通院”)、北京青云科技集团股份有限公司(以下简称“青云科技”)共同启动“AI 推理场景高性能存储技术推进计划”。


三方将依托各自优势资源,深入合作,聚焦 AI 推理对高性能、低时延、强兼容存储能力的核心需求,统筹推进标准编制与产业研究,构建协同创新机制,加快适配大模型推理场景的高性能存储体系建设。


推进计划启动仪式现场


启动仪式上,中国信通院云大所云计算部副主任闫丹、焱融科技副总裁黎俊鸿、青云科技副总裁沈鸥代表各方出席,正式宣布推进计划落地。


今年以来,AI 大模型应用全面落地推动推理需求爆发式增长。为了有效提升推理效率,KVCache 技术作为优化响应速度、降低资源消耗的重要手段,受到业界高度关注。同时,KVCache 也让业界进一步认识到,存储与算力同样重要,已成为影响模型推理性能的关键因素。


焱融科技作为 AI 存储领域的技术引领者,率先实现 KVCache 存储突破,业内首推 KVCache 推理加速解决方案。在本次大会上,焱融科技副总裁黎俊鸿深入解读了该方案的技术原理、应用价值与业务实践。他指出,焱融 YRCloudFile KVCache 推理加速方案,可将 KVCache 从 GPU 显存平滑扩展至 YRCloudFile 高性能共享存储,有效缓解显存压力,提升系统的响应速度与并发处理能力。



在现场分享中,黎俊鸿展示了该方案在多个典型推理场景下的性能实测数据,均体现出显著优化效果。测试环境统一采用 NVIDIA H20 显卡与 DeepSeek-671B 模型,贴近真实业务负载:


  • 常规知识库场景:设置最大上下文长度为 1024,模拟 token 缓存命中情况,在 TTFT 为 2 秒的前提下,YRCloudFile KVCache 支持的并发处理能力比原生 vLLM 提升 35%,显著增强系统吞吐能力。


  • 长文本生成场景:最大上下文长度提升至 8192,在并发递增下模拟多任务命中,YRCloudFile KVCache 将推理延时降低 29%-45%,有效优化长文本生成体验。


  • 代码生成场景:设置最大上下文长度 64K, 面对如此复杂的生成任务,YRCloudFile KVCache 实现全缓存命中,推理延时从原生方案的 128 秒降低至 6 秒内,性能提升高达 21 倍,显著缓解显存压力、释放算力潜力。


  • 多轮对话场景:模拟 100 个用户并发,每人最多进行 10 轮对话,YRCloudFile KVCache 在复杂上下文交互中展现出更优性能与更强稳定性,相较原生 vLLM,提供更快响应和更平滑的多轮对话体验,有效支撑大规模对话服务场景。


焱融存储 KVCache 推理加速方案在实际业务中的出色表现,不仅显著优化了大模型推理的 TTFT,大幅提升缓存命中率,更在超长上下文、多轮对话等复杂应用中稳定支撑高并发访问。该方案为企业构建高效、敏捷的推理服务奠定坚实基础,为大模型推理性能优化提供了一套可复制、可落地、具备显著性价比优势的创新路径。


随着 AI 推理纵深推进,“AI 推理场景高性能存储技术推进计划”的启动正当其时。中国信通院、焱融科技、青云科技将依托三方分别在标准制定、产品评估、高性能存储、智算平台等方面的技术与产业优势,促进 AI 推理存储技术的标准化和产业化发展,为行业进步添砖加瓦。


值得一提的是,三方此前已有深厚合作基础。焱融科技作为信通院分布式存储产业方阵成员单位,积极参与了《分布式存储发展白皮书》的编写,并深度参与了信通院牵头制定的文件存储相关标准,包括《高性能文件存储技术要求》和《并行文件存储技术要求》。今年 5 月,焱融高性能分布式文件存储系统 YRCloudFile 与青云 AI 智算平台顺利完成兼容性认证。此次推进计划的启动,将推动三方合作迈向更深层次的协同创新。

用户头像

焱融科技

关注

软件定义的混合云统一文件存储 2020-05-29 加入

焱融科技是一家以软件定义存储技术为核心竞争力的高新技术企业,基于软件定义的混合云统一文件存储为企业客户提供高效存储、数据管理和应用服务,打造面向云+AI 时代的高性能存储。

评论

发布
暂无评论
焱融科技携手信通院、青云科技启动“AI推理高性能存储技术推进计划”_人工智能_焱融科技_InfoQ写作社区