写点什么

ScaleFlux CSD5000 赋能 AI 训练存储架构(附测试报告)

作者:ScaleFlux
  • 2025-01-22
    上海
  • 本文字数:1582 字

    阅读完需:约 5 分钟

在生成式人工智能(Generative AI)及大型语言模型(LLMs)迅猛发展的形势下,AI 对底层存储架构的需求愈发紧迫。英伟达 2024 年调查显示,49% 的客户计划本地与云端同步部署 AI 项目,这使得高性能存储在跨环境部署中的关键地位愈发凸显。然而,传统 HPC 并行文件系统和扩展 NAS 在性能、成本及管理方面面临诸多难题。

MLPerf Storage 基准测试是衡量存储系统在机器学习工作负载下性能的关键指标。Hammerspace 发布的 MLPerf® Storage v1.0 测试报告有力地彰显了其存储系统于高性能计算存储领域的优势。

相比 Dell PowerScale 等扩展 NAS 架构,Hammerspace 通过使用标准以太网,减少 50%的服务器和网络端口,避免了专用网络和客户端软件的需求,大幅降低了成本和功耗,在跨本地与云端环境部署中发挥了重要作用,特别是在支持大规模 AI 训练任务(如 Meta 的 Llama 模型)时,展现了其强大的适应性与性能。

报告中的测试详情主要包含两种配置:

1.公有云超大规模 NAS 配置:云端性能无缝对接

1.1 测试背景: 该测试在 AWS 的公有云基础设施上进行,模拟了一个超大规模 NAS 存储环境。该配置包含 2 个 Anvil 元数据服务器和最多 22 个 Linux 存储服务器节点,并通过 200GbE 或 100GbE 网络连接,使用 pNFSv4.2 协议挂载。 

1.2 测试结果:

  • 在 ResNet-50 测试中,22 个 Linux 存储服务器驱动了 370 个模拟 A100 GPU 和 130 个模拟 H100 GPU,实现了 33.7GB/s 和 23.3GB/s 的聚合读性能。

  • 在 3D-Unet 测试中,系统驱动了 35 个模拟 A100 GPU 和 10 个模拟 H100 GPU,分别实现了 50.3GB/s 和 23.7GB/s 的吞吐量。

2. 带 Tier 0 的超大规模 NAS 配置:ScaleFlux CSD5000 赋能 AI 存储

2.1 测试背景: 该测试在物理服务器上进行,采用了 Tier 0 存储技术。此配置通过对比传统配置(2a)和 Tier 0 配置(2b),验证了其在性能上的优势。

2.2 传统配置(2a)

  • 系统架构:采用典型的 Hyperscale NAS 配置,包含两个冗余的 Anvil 元数据服务器(主动 / 被动配置)、四个 Linux 存储服务器(LSS)和两个客户端。Anvil 服务器负责元数据操作和集群协调,LSS 使用内部 ScaleFlux CSD5000 计算存储 NVMe 驱动器提供测试数据。

  • 硬件详情:Anvil 元数据服务器和客户端 / LSS 均采用 SuperMicro SYS - 121C - TN10R 机箱,Intel Xeon Gold 6542Y CPU,Micron 内存、启动驱动器和 NIC,ScaleFlux CSD5000 存储。网络交换机为 SuperMicro SSE - T8032S。

  • 软件详情:Anvil 节点运行 Hammerspace v5.1,LSS 运行 Rocky Linux v9.4,客户端运行 Rocky Linux v9.4 并添加一个上游内核补丁。使用修改后的 MLPerf 基准测试代码,绕过客户端页面缓存。



2.3 Tier 0 配置(2b)

  • 系统架构:展示 Tier 0 性能,包含两个冗余 Anvil 元数据服务器,客户端兼具运行基准测试代码和提供测试数据的功能,其内部 ScaleFlux CSD5000 存储通过 NFSv3 导出并使用 pNFSv4.2 挂载,利用 Tier 0 NFS 协议旁路实现数据本地直接访问,提升吞吐量并降低延迟。

  • 硬件和软件详情:与配置 2a 基本相同。

  • Tier 0 架构下 ScaleFlux SSD:AI 存储的核心驱动引擎

  • 在本地的 Tier 0 配置下,ScaleFlux SSD 作为 NVMe 存储,转化为全局文件系统的一部分,显著提高了吞吐量,并大幅增加了 GPU 数量,减少了对外部存储的依赖。

    ScaleFlux SSD 在多个客户端配置下保持线性扩展性,进一步提升了 GPU 集群的整体性能。

    在本地测试中,借助 Tier 0 技术,将服务器内原本作为 NVMe 存储的 ScaleFlux SSD 纳入全局共享存储体系,减少了对外部高性能存储的需求,从而节省了网络带宽、电力和冷却等开支。 



2.4 测试结果:

  • 在 3D-Unet 测试中,Tier 0 配置支持的 GPU 数量增加了 32%,吞吐量提高了 28%。

  • 在 单客户端(1U 空间) 配置下,支持 33 个模拟 H100 GPU,吞吐量达 91.8GB/

  • 在 三客户端(3U 空间) 配置下,支持 99 个模拟 H100 GPU,吞吐量达 275.5GB/s。


下载完整报告:Hammerspace MLperf Storage v1.0 Benchmark Results

发布于: 刚刚阅读数: 5
用户头像

ScaleFlux

关注

帮助客户将数据增长转化为竞争优势。 2022-06-08 加入

提供全球领先的可计算存储芯片解决方案。

评论

发布
暂无评论
ScaleFlux CSD5000赋能AI训练存储架构(附测试报告)_高性能计算_ScaleFlux_InfoQ写作社区