为 AI 推理需求的未来做准备:第一部分

AI 和高性能计算工作负载持续挑战存储基础设施的极限。实时推理的整合将进一步增加对基础设施的需求。为了保持领先地位,行业需要能提供高吞吐量、低延迟和高效扩展的解决方案。
AIC 和 ScaleFlux 最近对其最新存储创新进行了测试,在 AIC F2026 AI 推理服务器中集成了 26 个 ScaleFlux CSD5000 NVMe 固态硬盘和两个 NVIDIA BlueField-3 数据处理单元(DPU),这是一个 2U 闪存阵列(JBOF)。
结果如何?随着需求增加而扩展的突破性性能。
测试设置和方法
通过与 NVIDIA 和 ExponTech 的合作,ScaleFlux 和 AIC 提供了一台装有 26 个 ScaleFlux CSD5000 SSD 和两个 BlueField-3 DPU 的 AIC F2026,以完成他们的测试集群。F2026 通过 NVIDIA Spectrum 交换机连接到服务器,这些服务器也配备了用于网络连接的 BlueField-3 DPU。
ExponTech 下一代分布式存储软件 WADP(一个统一数据平台)在 F2026 推理 AI 服务器的 DPU 上运行。WADP 同时支持:
需要超高 IOPS 和超低延迟的事务性数据(如数据库)
需要海量容量、超高吞吐量和高元数据性能的大规模 AI 数据
测试团队进行了一系列随机和顺序 IO 测试,测试块大小包括(4K、16K、64K、256K、1M),以及线程数(1、4、16)和队列深度(1、8、32)的各种组合。这些测试在两个服务器端 DPU 和四个服务器端 DPU 的场景下重复进行。团队收集了每个测试场景的 IOPS、吞吐量和延迟数据。

性能突破:通过 BlueField-3 DPU 实现扩展
我们不会在这篇博客中详细介绍所有结果,而是聚焦亮点。我们测试中最令人兴奋的发现之一是性能如何随着 DPU 数量的增加而扩展。
通过利用 BlueField-3,我们实现了硬件加速存储和网络,从而释放 CPU 资源并显著减少瓶颈。这种优化不仅提升了系统性能,还允许更高效的数据处理和改进的整体系统可靠性。
BlueField DPU 的使用通过从 CPU 卸载任务来加速网络和存储访问,确保更快的数据传输速率和更低的延迟。
关键性能指标

结果分析
4K 随机读取性能:展示了系统处理高强度、小块读取操作的能力。
4K 随机写入性能:非常适合 AI 模型训练和频繁的检查点保存。
256K 顺序读取性能:能够为 AI 和机器学习应用提供对大型数据集的高速访问。
256K 顺序写入性能:支持持续高吞吐量的数据管道。
使用两个客户端 DPU 和两个服务器端 DPU 时,存储系统表现出令人印象深刻的性能水平。从两个扩展到四个服务器端 DPU 解锁了更高的吞吐量,证明了 BlueField-3 动态扩展存储性能的有效性。
"使用 Bluefield DPU 和 ScaleFlux 支持压缩的 SSD 与 Spectrum 交换机组合的存储系统为客户提供了高性能的网络存储解决方案和显著的成本节约。这种组合标志着我们首次看到写入速度快于读取速度"
——陈龙,NVIDIA 产品营销总监
为什么这对 AI 工作负载至关重要
AI 应用需要强大的存储性能,无论是用于训练复杂模型、运行推理,还是处理实时分析。这个解决方案带来:
✅ 超低延迟:对 AI 推理和实时数据处理至关重要。
✅ 无与伦比的存储密度:目前每 2U 可达 1.6PB 有效容量 ,明年将扩展到每 2U 6.6PB 。
✅ 高效率:BlueField-3 DPU 处理所有 I/O 和网络任务,消除了存储阵列中对 CPU 的需求。
✅ 增强耐久性:ScaleFlux 的写入减少技术延长了 SSD 寿命,非常适合频繁写入的 AI 工作负载。
✅ 适应各种工作负载:ScaleFlux CSD 提供平衡的读写性能,灵活应对 AI 工作负载可能带来的任何 I/O 混合模式。
下一步是什么?未来测试计划
这次测试突显了 F2026 平台在其基本配置(2 个 DPU)下的可扩展性。
进一步的 JBOF 测试
我们计划使用 4 个 DPU 在 JBOF 中扩展测试。要将系统性能压力测试到最大,将需要扩大向 JBOF 发送 I/O 请求的服务器端 DPU 数量。团队还在继续调整软件和文件系统,以挖掘更多性能提升,因为在 JBOF 中网络连接和 CSD 都尚未完全饱和。
此外,我们计划与其他配置和解决方案进行比较测试,以及进行其他工作负载模拟,以更接近地模拟真实世界的 I/O 模式。
推理服务器测试
F2026 除了 Bluefield-3 DPU 外,还可以配备 GPU,以扩展其功能,包括计算功能,如推理。这种配置的测试计划作为未来阶段进行。
最终思考
结果不言自明:AIC 和 ScaleFlux,结合 NVIDIA 的技术,创造了为 AI 打造的下一代存储解决方案。
通过将 BlueField-3 DPU 与高效率 ScaleFlux SSD 配对,我们为 AI 和 HPC 客户提供了保持领先所需的性能、可扩展性和效率。
敬请期待更多更新,我们将继续突破 AI 存储性能的极限!
版权声明: 本文为 InfoQ 作者【ScaleFlux】的原创文章。
原文链接:【http://xie.infoq.cn/article/cb8ab3b2a220dd47ededfb9e0】。
本文遵守【CC-BY 4.0】协议,转载请保留原文出处及本版权声明。
评论