ScaleFlux CSD5000 赋能 AI 训练存储架构（附测试报告）

2025-01-22
上海
本文字数：1582 字
阅读完需：约 5 分钟

在生成式人工智能（Generative AI）及大型语言模型（LLMs）迅猛发展的形势下，AI 对底层存储架构的需求愈发紧迫。英伟达 2024 年调查显示，49% 的客户计划本地与云端同步部署 AI 项目，这使得高性能存储在跨环境部署中的关键地位愈发凸显。然而，传统 HPC 并行文件系统和扩展 NAS 在性能、成本及管理方面面临诸多难题。

MLPerf Storage 基准测试是衡量存储系统在机器学习工作负载下性能的关键指标。Hammerspace 发布的 MLPerf® Storage v1.0 测试报告有力地彰显了其存储系统于高性能计算存储领域的优势。

相比 Dell PowerScale 等扩展 NAS 架构，Hammerspace 通过使用标准以太网，减少 50%的服务器和网络端口，避免了专用网络和客户端软件的需求，大幅降低了成本和功耗，在跨本地与云端环境部署中发挥了重要作用，特别是在支持大规模 AI 训练任务（如 Meta 的 Llama 模型）时，展现了其强大的适应性与性能。

报告中的测试详情主要包含两种配置：

1.公有云超大规模 NAS 配置：云端性能无缝对接

1.1 测试背景： 该测试在 AWS 的公有云基础设施上进行，模拟了一个超大规模 NAS 存储环境。该配置包含 2 个 Anvil 元数据服务器和最多 22 个 Linux 存储服务器节点，并通过 200GbE 或 100GbE 网络连接，使用 pNFSv4.2 协议挂载。

1.2 测试结果：

在 ResNet-50 测试中，22 个 Linux 存储服务器驱动了 370 个模拟 A100 GPU 和 130 个模拟 H100 GPU，实现了 33.7GB/s 和 23.3GB/s 的聚合读性能。
在 3D-Unet 测试中，系统驱动了 35 个模拟 A100 GPU 和 10 个模拟 H100 GPU，分别实现了 50.3GB/s 和 23.7GB/s 的吞吐量。

2. 带 Tier 0 的超大规模 NAS 配置：ScaleFlux CSD5000 赋能 AI 存储

2.1 测试背景： 该测试在物理服务器上进行，采用了 Tier 0 存储技术。此配置通过对比传统配置(2a)和 Tier 0 配置(2b)，验证了其在性能上的优势。

2.2 传统配置(2a)

系统架构：采用典型的 Hyperscale NAS 配置，包含两个冗余的 Anvil 元数据服务器（主动 / 被动配置）、四个 Linux 存储服务器（LSS）和两个客户端。Anvil 服务器负责元数据操作和集群协调，LSS 使用内部 ScaleFlux CSD5000 计算存储 NVMe 驱动器提供测试数据。
硬件详情：Anvil 元数据服务器和客户端 / LSS 均采用 SuperMicro SYS - 121C - TN10R 机箱，Intel Xeon Gold 6542Y CPU，Micron 内存、启动驱动器和 NIC，ScaleFlux CSD5000 存储。网络交换机为 SuperMicro SSE - T8032S。
软件详情：Anvil 节点运行 Hammerspace v5.1，LSS 运行 Rocky Linux v9.4，客户端运行 Rocky Linux v9.4 并添加一个上游内核补丁。使用修改后的 MLPerf 基准测试代码，绕过客户端页面缓存。

2.3 Tier 0 配置(2b)

系统架构：展示 Tier 0 性能，包含两个冗余 Anvil 元数据服务器，客户端兼具运行基准测试代码和提供测试数据的功能，其内部 ScaleFlux CSD5000 存储通过 NFSv3 导出并使用 pNFSv4.2 挂载，利用 Tier 0 NFS 协议旁路实现数据本地直接访问，提升吞吐量并降低延迟。
硬件和软件详情：与配置 2a 基本相同。
Tier 0 架构下 ScaleFlux SSD：AI 存储的核心驱动引擎
在本地的 Tier 0 配置下，ScaleFlux SSD 作为 NVMe 存储，转化为全局文件系统的一部分，显著提高了吞吐量，并大幅增加了 GPU 数量，减少了对外部存储的依赖。
ScaleFlux SSD 在多个客户端配置下保持线性扩展性，进一步提升了 GPU 集群的整体性能。
在本地测试中，借助 Tier 0 技术，将服务器内原本作为 NVMe 存储的 ScaleFlux SSD 纳入全局共享存储体系，减少了对外部高性能存储的需求，从而节省了网络带宽、电力和冷却等开支。