写点什么

WADP:Universal Storage 构建 AI 原生统一数据基础设施

作者:科技热闻
  • 2025-09-16
    浙江
  • 本文字数:4180 字

    阅读完需:约 14 分钟

当前,随着大型语言模型(LLMs)和多模态人工智能的爆发式发展,全球数据量呈指数级增长,数据特性与访问模式也发生根本性转变。AI 发展重心已从“训练主导”转向“推理优化”和“Agent 生态”,这使得对底层基础设施提出了全新的审视与要求。这种范式转变对数据存储提出了前所未有的要求:极致吞吐、低延迟、高并发、多模态数据统管、记忆持久化以及自主可控和安全性。这些要求使得存储不再仅仅是传统的数据持久化介质,而是支撑万亿参数大模型高效训推和 Agent 行动闭环的智能枢纽。

面对这些挑战,传统的竖井式存储架构已显得力不从心,导致数据割裂、管理复杂、效率低下,难以满足 AI 对极致性能、弹性扩展及统一数据访问的严苛要求。传统存储产品“硬件专属、协议分立、无法协同”,性能低、时延大,严重限制了新兴硬件和 AI 数据的价值发挥。打补丁式优化已无法满足 Agent 时代对存力的颠覆性需求,迫使行业必须重构存储基座。

ExponTech AI 原生智能数据平台 WADP 应运而生,旨在为企业构建面向未来的 AI 数据基础设施,驱动智能化转型 。这一重构存储基础设施的理念,正是通用存储(Universal Storage)的核心要义,即构建一个统一、智能、无限扩展的数据平台底座,消除数据孤岛,让企业真正步入“数据随用随取”的 AI 应用新时代 。

01 Universal Storage,为 AI 时代注入强劲动能

WADP(WIDE AI Data Platform)是华瑞指数云最新推出的 AI 原生智能数据平台,以“One Platform, All Workloads”为核心理念,通过统一平台融合替代传统存储阵列、文件系统及大数据存储,一站式承载企业核心生产系统(如关键数据库)与 AI 全流程数据(训练/推理/向量检索),满足高吞吐、低时延、大容量、低成本和智能数据管理的需求。其基于自研 WiDE 分布式数据引擎与天枢元数据引擎,性能较开源 Ceph 提升 30 倍,仅用普通服务器即可媲美高端全闪阵列存储。支持块/文件/对象/AI 专用接口(KV/Semantic)等多协议共池,实现万亿文件管理及微秒级时延。这种“多种存储协议原生互通访问同一份数据”的能力 ,极大提升了数据流动性,消除了传统方案中因数据拷贝产生的延迟和冗余。借助全速 RDMA/IB 网络与 SDS 2.0 架构,可扩展至千节点集群,并支持混合多云部署,将 AI 数据效率提升 10 倍。

02 特性价值:创新引擎增强与全新子产品线

WADP 在核心引擎层面进行了多项突破性增强,显著提升了系统的性能、灵活性和可靠性。

1. 增强的引擎能力:驱动前所未有的灵活性与性价比

1.1 跨池在线卷迁移:简化与动态调整业务

WADP 引入了先进的“跨池在线卷迁移”能力,旨在简化数据管理并支持业务的动态调整。

迁移机制: 基于“日志原理”实现,确保数据迁移过程中基于 IO 粒度的数据一致性,实现“无感 RPO 和 RTO”。

业务无感知: 迁移过程对上层业务完全“无感知”,无需业务系统配合或停机,确保业务连续性。

数据粒度与场景:支持在同集群内以数据卷粒度进行跨池在线热迁移。用户可方便地在各存储池或存储集群间进行数据迁移,充分利用存储空间,实现容量均衡,并根据业务性能要求,将数据在不同性能池之间迁移,如数据库冷热数据动态迁移。

方案优势: WDS 迁移次数无限制,采用并行复制机制,速度快,提供可视化 UI 管理和自定义迁移速度。支持 A/A(Active-Active)模式迁移,天然支持 iSCSI/FC/RBD 等多种协议。结合异构存储纳管特性,还支持第三方 SDS 或传统存储纳管后,实现跨集群跨池数据管理与迁移。

这种在线卷迁移能力,为 AI 工作负载提供了极大灵活性,使得企业能根据 AI 工作负载实时需求,动态调整数据在不同性能层级存储池中的位置,优化资源利用率和成本效益,同时确保 AI 训练和推理的连续性。

1.2 Append Only 存储引擎作为 EC 底座:提升性能与延长寿命

WiDE 存储引擎引入了创新的“Append Only 存储引擎”,作为其纠删码(EC)的底层基础。

工作原理: 无论 SSD 还是 HDD,大块顺序写都能极大提升硬盘吞吐能力。Append Only 引擎采用“ROW 策略”,将随机小 IO 写转换为顺序大块写,从根本上改善了传统覆盖写模式的性能低下局面,并解决了 EC 模式下的写放大问题。

减少写放大: 在 EC 模式下,有效地消除读改写减少写放大问题。

延长 SSD 寿命: 数据以追加方式写入,避免频繁覆盖写和随机写,从而“大大减少 SSD 闪存的擦写次数”,有效延长 SSD 使用寿命。

1.3 自研高性能 EC 实现:高效率与高可靠性的保障

WADP 采用了“自研高性能 EC(Erasure Code)算法”,为数据提供了极致的空间利用率和高可靠性。

灵活的冗余策略: 支持从“2+1、4+2、6+2、8+2 最大可以到 22+2”的不同比例 EC 配置,空间利用率最高可达“91.6%”。支持机柜级、节点级冗余策略,并支持不同比例 EC 的折叠,满足容量与成本平衡。

低时延与快速故障切换: 得益于 Append Only 引擎优势,WADP 在系统常态工作负载运行区间(40%-60%)下,仍能提供“百微秒级的时延响应”。对于磁盘、网络等设备亚健康问题,系统能够实现“毫秒级切换”,确保业务系统稳定运行。

SSD 寿命延长: Append Only 模式下数据以追加方式写入,避免频繁覆盖与随机写,有效减少 SSD 闪存擦写次数,延长 SSD 使用寿命。

WADP 的高性能 EC 不仅提供业界领先的空间利用率,显著降低存储成本,更通过自研算法和与 Append Only 引擎的协同,确保极端负载下的性能稳定性和故障恢复能力 。

1.4 EC 引擎实现软件压缩能力:空间优化与性能兼顾

WADP 的 EC 引擎还集成了“软件压缩能力”,实现了数据存储的进一步优化 。

无损压缩:提供“无损数据压缩和解压缩”,通过算法剔除冗余信息,缩减数据体积而不丢失任何细节,实现“压缩不减质、还原零误差”。

高压缩率:压缩率可达到“≥2:1”,显著降低存储硬件成本。

大幅提升得盘率:结合高效的压缩比在 EC 或者副本场景可以实现超过 100%的得盘率。

2. 全新子产品线:WFS 与 WQS 的发布

除了对核心引擎的增强,华瑞指数云还发布了两款全新的子产品线:WFS 和 WQS,进一步完善了 WADP 在全场景数据融合和 AI 特定需求上的能力 。

2.1 WFS (WiDE File Storage):高性能分布式并行文件系统

WFS 作为 WADP 的“高性能分布式并行文件系统”,其优势在于:

架构优势:“采用独立元数据服务引擎——天枢元数据服务引擎,并支持元数据负载均衡。这种独立元数据设计,是其实现高效元数据服务和高性能的关键,尤其适用于处理 AI 训练中常见的海量小文件场景”

功能特性:支持多协议接口(NFS、CSI-NFS、SMB),提供目录权限管理、文件系统跨池、文件网关 HA(高可用)、小文件合并、访问认证、用户鉴权、用户管理、目录配额和目录 QoS 等丰富功能。

目标场景:专为“AI 大模型、医疗 PACS、企业办公文件存储、云原生 K8S”等场景设计。



WFS 的推出,使得 WADP 能以统一架构,同时满足企业对传统文件存储和 AI 大模型对高性能并行文件系统的需求 。其对小文件合并和高效元数据服务的支持,直接解决了 AI 训练中频繁读写大量小文件带来的性能瓶颈,确保数据加载效率,提升 GPU 利用率。

2.2 重磅发布 AI 原生产品 WQS (WiDE Query Storage):优化推理效率,降低算力成本

WQS(WiDE Query Storage)是华瑞指数云面向 AI 场景推出的“全新 AI 原生产品”,核心目标是“优化推理效率,降低推理算力成本,为 Agent 的运行提供便捷的记忆体服务层。

AI 专用接口能力:基于 WiDE 引擎,提供“AI 场景的专属接口能力”,特别是 KV 和 Semantic 接口。被设计为“面向大模型推理的多级 KVCache 与 Agent 记忆体服务层”。

KVCache 优化:WQS 能将 KVCache 从昂贵的 GPU 显存和 CPU 内存分层到成本更低的 SSD 上,形成 L2/L3 级 KVCache 能力。这“显著降低显存占用”,从而支持“多会话并发与长上下文推理”。通过卸载 KVCache,“大幅提升 LLM 推理效率,并且降低显存和内存的使用成本”。

极低时延:凭借 WiDE 引擎的高性能低时延 KV 读写能力,WQS 能保障关键路径的稳定响应达到“100us 级别”(100 微秒级)。

极高带宽:KVCache 的读写可以逼近物理网络的带宽上限。

语义接口实现:WQS 未来将实现 Semantic 接口,由天枢元数据服务统一进行推理全流程过程中的数据管理跟语义检索。

生态集成:支持即插即用接入 vLLM/LightLLM/SGLang 等主流推理框架。



WQS 直接解决了大模型推理中最核心的成本和性能瓶颈——GPU 显存。通过创新 KVCache 分层技术,WQS 不仅大幅降低推理成本,更提升推理效率和模型处理长上下文能力,加速大型 AI 模型的工业化和普及。

03 以存代算,开创 AIDC 新纪元

华瑞指数云坚持“核心代码全栈自研”,不依赖国外开源“捷径”。WADP 通过“全软件化、分布式化、云化与智能化”,为 AI、高性能分析、核心数据库等场景提供极高性能、超低时延、稳定可靠的统一存储与管理能力。彻底打破了传统竖井式存储架构的局限 ,将企业核心生产系统与 AI 数据管道统一承载于同一平台,实现了数据在块、文件、对象和 AI 专用接口间的原生互通与共享 。可以自如应对 AI 海量小文件和高并发元数据挑战,并赋能了 AI 检索和 Agent 记忆体等高级功能。凭借其统一架构和 AI 原生特性,WADP 能够全面覆盖两大核心应用领域:通用企业存储场景和 AI Infra 存储场景。

在通用企业存储场景,它为数据库、虚拟化、容器和通用文件需求提供了高性能、高可靠的统一解决方案 。而在 AI Infra 存储场景,WADP 更是核心所在。

1、优化 AI 训练与推理工作流: 提供统一数据平台,覆盖 AI 数据全生命周期,通过 WDS 和 WFS 加速数据加载、Checkpoint 写入和模型分发,实现模型秒级加载和 5 倍加速。

2、革命性 L2/L3 SSD KVCache(WQS):通过将 KVCache 从 GPU 显存卸载到 SSD,大幅降低推理成本(节省 60%GPU 卡成本),同时将推理速度提升 5-8 倍,并提供近似无限的持久化内存空间,与主流推理框架无缝兼容。

3、一站式 RAG 全流程数据存储:统一承载结构化和非结构化数据,包括关系型数据库和向量数据库,并借助 WiDE 引擎高性能优化整个 RAG 过程,赋能 Agent 长久记忆。

WADP 卓越的产品能力也得到了世界级权威测试的验证,是目前全球唯一能同时覆盖企业关键业务(SPC-1)与 AI 工作负载(MLPerf Storage)的分布式存储软件。ExponTech 在 2023 年打破了 SPC-1 性能世界纪录,成为全球首个超越高端全闪阵列的分布式存储软件 。在 MLPerf Storage v2.0 评测中,WADP 在 AI 训练和 Checkpoint 写入效率上均取得了全球顶尖成绩,尤其在硬件利用效率上遥遥领先。这些成就共同证明了 WADP 是目前业界在通用存储和 AI 存储领域都具备超高性能、高可靠性及全栈式能力的产品 。

未来,WADP 将在两大领域中不断完善产品能力,真正实现“Universal Storage —— One Platform, All Workloads”的愿景,引领行业迈入“数据随用随取”的 AIDC 新时代,加速千行百业的智能化转型。

用户头像

科技热闻

关注

还未添加个人签名 2021-05-31 加入

还未添加个人简介

评论

发布
暂无评论
WADP:Universal Storage构建AI原生统一数据基础设施_科技热闻_InfoQ写作社区