写点什么

为 AI 推理需求的未来做准备:第二部分

作者:ScaleFlux
为AI推理需求的未来做准备:第二部分

ScaleFlux、AIC 和 ExponTech 展示了与 NVIDIA BlueField-3 DPU 配合的惊人存储性能,进一步验证了这一创新解决方案在 AI 推理领域的卓越表现。

回顾第一部分

在第一部分中https://xie.infoq.cn/article/cb8ab3b2a220dd47ededfb9e0,我们探讨了 AIC F2026 AI 推理服务器的初始性能基准测试,突显了其使用两个 DPU 时的可扩展性和效率。AIC F2026 AI 推理服务器在 2U 系统中集成了多达 26 个 ScaleFlux CSD5000 NVMe SSD 和最多 8 个 NVIDIA BlueField-3 数据处理单元(DPU),提供了跟上 AI 工作负载所需的高吞吐量、低延迟和可扩展性。

在 F2026 仅配置 2 个 DPU 的第一轮测试中,团队展示了随着更多计算服务器连接到存储阵列,系统性能的扩展能力。(详细内容请参阅博客"https://xie.infoq.cn/article/cb8ab3b2a220dd47ededfb9e0")

我们还承诺在其他场景下进一步测试该系统。基于这些发现,第二部分深入探讨了更高级的测试场景,包括全面的存储性能评估和 MLPerf 基准测试,以评估系统在各种苛刻 AI 工作负载下的能力。


测试设置

ExponTech 与 NVIDIA、ScaleFlux 和 AIC 合作,对 AIC F2026 进行了一系列性能测试。

硬件配置

  • 存储服务器:一台配备 26 个 ScaleFlux CSD5000 SSD 和四个 BlueField-3 DPU 的 AIC F2026 推理服务器。ScaleFlux SSD 集成了内联数据压缩引擎,可执行线速率数据压缩和解压缩。NVIDIA DPU 提供高达 1600Gbps 的网络带宽。

  • 网络环境:在测试环境中,选择了四个 NVIDIA Spectrum-X 交换机组成第 2 层网络,主要是为了模拟大规模网络,并验证 RoCE 网络是否能有效处理拥塞。此外,测试旨在确保存储软件能在大规模网络场景中保持稳定的存储性能和低延迟。

  • 计算服务器:一台标准 2U 服务器,配备四个 NVIDIA BlueField-3 DPU,提供 800Gbps 网络带宽,并在 DPU 上运行 ExponTech WADP 存储软件。存储软件和网络流量由 DPU 管理,使计算服务器的 GPU 可以自由用于训练或推理任务。由于存储 I/O 由 DPU 处理,计算服务器的 CPU 和内存资源也可用于运行应用程序。

软件配置

ExponTech 下一代分布式存储软件 WADP(一个统一数据平台)在 F2026 推理 AI 服务器的 DPU 上运行。WADP 同时支持:

  • 需要超高 IOPS 和超低延迟的事务性数据(如数据库)

  • 需要海量容量、超高吞吐量和高元数据性能的大规模 AI 数据


测试拓扑图


JBOF 和计算服务器都可以独立扩展,并且可以根据需要添加更多 JBOF 或计算服务器,形成大规模的存储-计算分离集群,用于按需 AI 训练和推理。


测试轮次 1 – 基本存储性能

使用在计算服务器上运行的 FIO,团队收集了各种 I/O 块大小(4K、128K、1MB)的读写性能结果。第一次性能测试配置计算服务器装有单个 DPU。第二次运行则在计算服务器上配置了四个 DPU。在这两种情况下,存储服务器都有四个 DPU 和 26 个 SSD。

结果与第一部分的结果一致,存储服务器性能几乎与拓扑中的 DPU 数量呈线性扩展。增加 F2026 中的 DPU 数量使潜在的 SSD 带宽和 IOPS 得到更充分利用。增加计算服务器上的 DPU 数量使 F2026 的性能得到更充分利用。Spectrum 交换机在计算和存储服务器之间提供了一致的低延迟数据路径。

表 1:FIO 性能结果


关键观察结果

  1. 突破性带宽表现:单个计算节点与单个存储节点连接可实现接近 90 GB/s 的存储带宽,这接近计算节点网卡物理带宽的上限

  2. 线性 IOPS 扩展:单个计算节点的 IOPS 从 80 万扩展到 310 万,几乎与 DPU 数量呈线性扩展。在这两种情况下,计算服务器而非存储服务器是性能的限制因素。考虑到整个存储系统的后端和协议端运行在 DPU 的核心上(功耗低于传统 x86 CPU 核心),测试充分展示了该解决方案惊人的 IO 处理效率。

  3. 出色横向扩展能力:存储系统的 IOPS 数量与部署在存储节点上的 DPU 数量成线性比例,系统的 IOPS 与部署的 DPU 数量成线性扩展,表明系统具有出色的横向扩展能力。

  4. 超低延迟性能:当存储系统使用小 I/O 大小时,并发高压力延迟低至 266 微秒。对于大 I/O 大小,计算节点的网络带宽饱和,延迟保持在 1 毫秒以下。

  5. 灵活升级路径:虽然当前性能取决于 DPU 的处理能力,但这种设置允许针对性地升级 DPU,确保存储系统能够根据需要扩展。


测试轮次 2 – MLPerf

MLPerf 基准测试是一组旨在测量计算机运行人工智能(AI)任务的速度和效率的测试。就像汽车可能被测试速度和燃油效率一样,MLPerf 评估计算机系统处理识别图像、翻译语言或提供推荐等 AI 日常任务的能力。

基准测试背景

MLPerf 由一组公司和研究人员创建,他们希望以公平、透明的方式更容易地比较不同硬件和软件设置的性能。它既检查系统训练 AI 模型(从数据中学习)的速度,也检查训练后做出预测(称为推理)的速度。

这些测试对依赖 AI 的企业和研究人员特别有用,因为它们显示哪些系统最适合他们的需求。MLPerf 还帮助硬件制造商证明其技术的强大。它已成为行业中最受信任的 AI 性能基准测试工具之一。

MLPerf 基准测试套件包括反映常见真实世界 AI 任务的各种测试:

  • 训练基准:图像分类、物体检测、语音识别、自然语言处理、推荐系统

  • 推理基准:在数据中心、边缘设备和服务器环境中测试模型决策速度和准确性

使用 ScaleFlux SSD 和 ExponTech 测试 F2026

团队使用了一台 F2026 和一台通过 NVIDIA Spectrum 网络连接的计算服务器的相同设置。他们使用 MLPerf® Storage Benchmark v1.0 评估存储系统,该基准测试基于真实世界的 MLPerf 训练配置文件模拟 AI 工作负载的 I/O 需求。

使用 ResNet-50 跟踪,存储解决方案实现了相当于支持 240 个模拟 NVIDIA A100 GPU 的性能,持续 22.5 GiB/s 的读取吞吐量。该性能还支持 168 个模拟 NVIDIA H100 GPU,持续 29.4GiB/s 的吞吐量。这一结果展示了阵列提供一致高带宽数据访问的能力,满足大规模 AI 训练的强烈数据摄取需求。

"测试配置中计算服务器的有限能力使结果远低于存储系统的能力。使用更多计算客户端或更强大的计算节点,存储系统的得分会更高!"


——曹宇中,ExponTech 首席技术官

表 2:MLPerf Storage v1.0 测试结果(ResNet-50 模型)


MLPerf Storage v1.0,ResNet-50 测试结果(A100) - 显示性能比较的条形图

MLPerf Storage v1.0,ResNet-50 测试结果(H100) - 显示性能比较的条形图


关键要点

卓越的整体性能:通过 AIC 系统专业知识与 ScaleFlux CSD5000 NVMe SSD、NVIDIA BlueField-3 DPU 和 ExponTech 软件的组合,实现了出色的整体吞吐量、延迟和可扩展性。

超高存储密度:每 2U 阵列 26 个驱动器的超高密度设计。

智能数据压缩:CSD5000 中的透明数据压缩和解压缩可以在不消耗额外系统资源或影响性能的情况下,倍增原始存储容量和存储效率。

全场景 AI 解决方案:适用于所有 AI 管道场景的出色解决方案,如数据收集、数据准备和 RAG。

灵活扩展能力:强大的并行可扩展性,存储节点和计算节点可以独立添加,按比例扩展存储性能和容量。

高可靠性设计:JBOF 内部冗余硬件设计确保了高可靠性和可维护性。

先进网络架构:它支持基于 RoCE 的超大规模网络,采用 RoCE 动态路由和细粒度负载均衡,在基于标准以太网的大规模网络中实现更好的拥塞控制、高效带宽、低抖动和超低延迟。


寻找更多信息或额外测试?请访问http://www.scaleflux.cn与我们联系

发布于: 刚刚阅读数: 5
用户头像

ScaleFlux

关注

帮助客户将数据增长转化为竞争优势。 2022-06-08 加入

提供全球领先的可计算存储芯片解决方案。

评论

发布
暂无评论
为AI推理需求的未来做准备:第二部分_ScaleFlux_InfoQ写作社区