ScaleFlux CSD5000 赋能 AI 训练存储架构(附测试报告)
在生成式人工智能(Generative AI)及大型语言模型(LLMs)迅猛发展的形势下,AI 对底层存储架构的需求愈发紧迫。英伟达 2024 年调查显示,49% 的客户计划本地与云端同步部署 AI 项目,这使得高性能存储在跨环境部署中的关键地位愈发凸显。然而,传统 HPC 并行文件系统和扩展 NAS 在性能、成本及管理方面面临诸多难题。
MLPerf Storage 基准测试是衡量存储系统在机器学习工作负载下性能的关键指标。Hammerspace 发布的 MLPerf® Storage v1.0 测试报告有力地彰显了其存储系统于高性能计算存储领域的优势。
相比 Dell PowerScale 等扩展 NAS 架构,Hammerspace 通过使用标准以太网,减少 50%的服务器和网络端口,避免了专用网络和客户端软件的需求,大幅降低了成本和功耗,在跨本地与云端环境部署中发挥了重要作用,特别是在支持大规模 AI 训练任务(如 Meta 的 Llama 模型)时,展现了其强大的适应性与性能。
报告中的测试详情主要包含两种配置:
1.公有云超大规模 NAS 配置:云端性能无缝对接
1.1 测试背景: 该测试在 AWS 的公有云基础设施上进行,模拟了一个超大规模 NAS 存储环境。该配置包含 2 个 Anvil 元数据服务器和最多 22 个 Linux 存储服务器节点,并通过 200GbE 或 100GbE 网络连接,使用 pNFSv4.2 协议挂载。
1.2 测试结果:
在 ResNet-50 测试中,22 个 Linux 存储服务器驱动了 370 个模拟 A100 GPU 和 130 个模拟 H100 GPU,实现了 33.7GB/s 和 23.3GB/s 的聚合读性能。
在 3D-Unet 测试中,系统驱动了 35 个模拟 A100 GPU 和 10 个模拟 H100 GPU,分别实现了 50.3GB/s 和 23.7GB/s 的吞吐量。
2. 带 Tier 0 的超大规模 NAS 配置:ScaleFlux CSD5000 赋能 AI 存储
2.1 测试背景: 该测试在物理服务器上进行,采用了 Tier 0 存储技术。此配置通过对比传统配置(2a)和 Tier 0 配置(2b),验证了其在性能上的优势。
2.2 传统配置(2a)
系统架构:采用典型的 Hyperscale NAS 配置,包含两个冗余的 Anvil 元数据服务器(主动 / 被动配置)、四个 Linux 存储服务器(LSS)和两个客户端。Anvil 服务器负责元数据操作和集群协调,LSS 使用内部 ScaleFlux CSD5000 计算存储 NVMe 驱动器提供测试数据。
硬件详情:Anvil 元数据服务器和客户端 / LSS 均采用 SuperMicro SYS - 121C - TN10R 机箱,Intel Xeon Gold 6542Y CPU,Micron 内存、启动驱动器和 NIC,ScaleFlux CSD5000 存储。网络交换机为 SuperMicro SSE - T8032S。
软件详情:Anvil 节点运行 Hammerspace v5.1,LSS 运行 Rocky Linux v9.4,客户端运行 Rocky Linux v9.4 并添加一个上游内核补丁。使用修改后的 MLPerf 基准测试代码,绕过客户端页面缓存。

2.3 Tier 0 配置(2b)
系统架构:展示 Tier 0 性能,包含两个冗余 Anvil 元数据服务器,客户端兼具运行基准测试代码和提供测试数据的功能,其内部 ScaleFlux CSD5000 存储通过 NFSv3 导出并使用 pNFSv4.2 挂载,利用 Tier 0 NFS 协议旁路实现数据本地直接访问,提升吞吐量并降低延迟。
硬件和软件详情:与配置 2a 基本相同。
Tier 0 架构下 ScaleFlux SSD:AI 存储的核心驱动引擎
在本地的 Tier 0 配置下,ScaleFlux SSD 作为 NVMe 存储,转化为全局文件系统的一部分,显著提高了吞吐量,并大幅增加了 GPU 数量,减少了对外部存储的依赖。
ScaleFlux SSD 在多个客户端配置下保持线性扩展性,进一步提升了 GPU 集群的整体性能。
在本地测试中,借助 Tier 0 技术,将服务器内原本作为 NVMe 存储的 ScaleFlux SSD 纳入全局共享存储体系,减少了对外部高性能存储的需求,从而节省了网络带宽、电力和冷却等开支。

2.4 测试结果:
在 3D-Unet 测试中,Tier 0 配置支持的 GPU 数量增加了 32%,吞吐量提高了 28%。
在 单客户端(1U 空间) 配置下,支持 33 个模拟 H100 GPU,吞吐量达 91.8GB/
在 三客户端(3U 空间) 配置下,支持 99 个模拟 H100 GPU,吞吐量达 275.5GB/s。

版权声明: 本文为 InfoQ 作者【ScaleFlux】的原创文章。
原文链接:【http://xie.infoq.cn/article/dfefba7f565b1a6d05a6dee67】。
本文遵守【CC-BY 4.0】协议,转载请保留原文出处及本版权声明。
评论