虚拟云环境中的高性能块设备:并行文件系统比较

在虚拟化的云环境中,支持 AI 工作负载的密集数据需求需要一个强大且可扩展的存储解决方案。像 Lustre 和 pNFS 这样的并行文件系统为这些环境提供了分布式数据处理能力,使数据能够无缝扩展到多个节点,同时性能下降最小化。通过将 xiRAID Opus 与这些并行文件系统集成,Xinnor 提供了增强的存储性能,确保随机和顺序工作负载都能实现低延迟、高吞吐量的访问。本文探讨了经过 xiRAID Opus 优化的 Lustre 和 pNFS 如何为面向 AI 的云环境创建灵活且高性能的存储架构。
为了应对虚拟化云环境中 AI 工作负载带来的可扩展性挑战,集成像 Lustre 和 pNFS 这样的并行文件系统变得至关重要。这些系统实现了分布式数据处理,确保工作负载可以在众多计算和存储节点之间扩展,而不会显著影响性能。通过利用由 xiRAID Opus 提供的底层块设备性能,并行文件系统进一步优化了随机和顺序工作负载,确保对共享存储资源的低延迟、高吞吐量访问。
Xinnor Lustre 云环境解决方案
Lustre 是一个主要用于 HPC 环境的知名并行文件系统,但由于其可扩展性和高吞吐量,它也可以用于 AI 工作负载。Lustre 在共享存储上提供高可用性,使其成为可靠性与性能至关重要的云环境的理想选择。
在 Xinnor,我们在 Lustre 方面拥有丰富的经验,成功地将其部署在多个生产环境中。我们的专业知识延伸到虚拟化环境,在这些环境中,我们启用了 Lustre 的部署,以提供高性能存储解决方案。
在这些设置中,我们对 Lustre 的 OSS 和 MDS 组件进行了调优以达到最佳性能。该架构围绕分离式存储资源构建,我们使用 xiRAID Opus 将其转化为高性能卷。然后,这些卷被传递到虚拟机(VM),形成了适合 AI 工作负载的高度可扩展且高效的存储解决方案的基础。

为了验证我们的解决方案,我们实施了一个虚拟化的 Lustre 环境,并进行了性能测试,以展示其在云环境中针对 AI 工作负载的可扩展性和效率。


测试环境详情:
CPU :每节点 64 核处理器(AMD 7702P)
内存 :每节点 256 GB RAM
网络 :每节点 1 x MT28908 Family [ConnectX-6]
驱动器 :24x KIOXIA CM6-R 3.84TB(第四代)
每节点聚合驱动器性能:9M IOPS(4k 随机读取)3M IOPS(4k 随机写入)70 GBps(128k 顺序写入/读取)
实施概述:
主机配置:
我们在两个主机上部署了三个虚拟机(VM)——两个 OSS 和一个 Lustre MDS。每个虚拟机都配置了专用的 RAID 设置:
OSS 虚拟机使用 RAID 6(16+2)。
MDS 虚拟机使用 RAID 1+1。
资源分配:
每个存储控制器在虚拟机中分配一个 CPU 核心。总共只使用了三个 CPU 核心来管理块存储系统,最大化效率而不影响性能。
虚拟机配置:
每个 OSS 和 MDS 虚拟机分配了三个虚拟核心用于处理。Lustre 客户端虚拟机部署在一个外部主机上,每个客户端虚拟机配备了 32 个核心,确保有足够的计算能力来处理密集的工作负载。
Lustre 解决方案性能


在测试顺序工作负载 (1M 块大小,32 个任务)时,我们使用 xiRAID Opus 达到了以下性能指标:读取操作 44 GB/s,写入操作 43 GB/s。
除了顺序工作负载外,我们还测试了随机工作负载,其中 xiRAID Opus 在更高的 I/O 深度下表现出显著更好的扩展性。此测试使用 MDRAID(RAID 0)和 Opus(RAID 6),展示了将 xiRAID Opus 纳入解决方案后读写性能的显著提升。如上图所示,结合 xiRAID Opus 的 Lustre 在 I/O 深度增加时表现出显著的性能增长。这种扩展可以归因于多线程 vhost-user-blk 架构的效率,它更有效地分配 I/O 任务,从而大幅提高吞吐量。
然而,最大化流媒体吞吐量的主要限制之一在于网络接口容量,这通常是一个瓶颈。尽管存在这一限制,xiRAID Opus 通过最大化网络利用率确保了高性能,有效减轻了网络限制的影响。
此外,虽然 Lustre 传统上被认为不适合小块 I/O 操作,但最近的进步显著增强了其能力。随着异步 I/O 支持的改进和高性能接口的集成,低延迟设备现在可以直接传递到 MDS。这一创新结合 xiRAID Opus,提供了强大的小块 I/O 性能,解决了 AI 和云工作负载在大规模高效数据处理方面的关键痛点。
使用 VirtioFS 减少 Lustre 管理的复杂性
在虚拟化环境中管理文件系统时,其中一个关键挑战是在保持性能的同时减少管理复杂性。为了解决这个问题,我们实施了 VirtioFS ,这是一种在主机和虚拟机之间直接共享文件系统的解决方案。VirtioFS 通过从主机共享已挂载的文件系统消除了在虚拟机中安装客户端软件的需要。这种简化使其成为云服务提供商的理想解决方案,减少了管理负担而不牺牲性能。

Xinnor 调优的 VirtioFS:性能结果
为了在虚拟化环境中充分优化文件系统性能,我们对 VirtioFS 进行了调优。这种调优使 VirtioFS 即使在高度虚拟化的环境中也能提供与原生 Lustre 客户端相当的性能。性能改进在高吞吐量工作负载中尤其显著。

顺序操作结果:


这些结果表明,通过适当的优化,VirtioFS 可以在顺序工作负载中匹配原生 Lustre 客户端的性能,同时仍然提供虚拟化文件系统环境的简便性。然而,在随机操作中,VirtioFS 无法展示出与原生 Lustre 客户端相同的可扩展性水平。
Xinnor Lustre 解决方案成果
Xinnor Lustre 解决方案展示了强大的性能能力,即使在虚拟化设置中也是如此。通过将 xiRAID Opus 与虚拟化的 Lustre OSS 和 MDS 组件配对,我们的解决方案能够在最小开销的情况下处理顺序和随机 I/O 操作。主要成果包括:
性能 :
a. 只有两个虚拟化的 OSS,Lustre 便能提供令人印象深刻的顺序和随机 I/O 性能。
b. 关键在于由 xiRAID Opus 提供的高性能块设备,直接传递给 OSS 和 MDS 虚拟机。
技能要求 :
a. 尽管 Lustre 配置需要高级专业知识来设置系统和客户端虚拟机,但 VirtioFS 为主要是顺序模式的工作负载提供了简化的替代方案,减少了复杂性而不牺牲吞吐量。
云环境解决方案 :
a. Xinnor 可以为基于云的环境提供这种高性能的 Lustre 解决方案,适用于 AI 工作负载以及 HPC。
虽然 Lustre 在 HPC 环境中有着悠久的历史,但它也非常适合以 AI 为中心的工作负载。然而,Lustre 在云环境中管理起来可能会很复杂,特别是像 LNET 和客户端设置这样的配置增加了复杂性。此外,Lustre 支持的操作系统数量有限,使得专家配置变得至关重要。
我们的愿景:pNFS 块布局
pNFS(并行 NFS)块布局是 NFSv4.1 中 pNFS 扩展的一部分,旨在启用对存储设备的并行访问,提高可扩展性和性能。
块布局特别关注使客户端能够绕过 NFS 服务器直接访问存储块。这种布局非常适合使用块存储设备(如 SAN)的环境,提供对大型数据集的高性能并行访问。
这种方法允许虚拟机直接与 xiRAID Opus 块卷交互,而 pNFS MDS 服务器管理可扩展性。这种灵活的设计最大限度地减少了云环境中共享存储设置的复杂性,确保了可扩展性和高性能。

pNFS 块布局的关键特性:
直接数据访问 :客户端可以绕过 NFS 服务器,使用块级协议(如 iSCSI、光纤通道)直接读写存储卷,减少瓶颈。
分离的数据和元数据路径 :NFS 服务器管理元数据,但数据本身直接在客户端和存储之间流动,简化了性能。
并行访问 :pNFS 允许多个客户端同时读写文件的不同部分,提高了大文件的吞吐量。
可扩展性 :通过将数据传输卸载到存储设备本身,pNFS 支持大规模操作,使其非常适合处理 AI 工作负载或海量数据集的云环境。
云环境中的 pNFS 架构
pNFS 的美妙之处在于其简单性,提供高性能的共享存储,同时需要最少的系统资源。它不需要第三方客户端软件或将高性能网络直接传递给虚拟机,使其非常通用。
共享存储支持 :pNFS 可以高效管理高性能存储,CPU 开销低。
无需第三方软件 :数据卷可以在计算节点之间共享,无需额外软件,简化了整体架构。
使该架构特别吸引人的是,它利用了我们在之前的 Lustre 测试中使用的相同硬件,展示了 pNFS 的强大适应性和潜力。
pNFS 性能结果

顺序操作(1M,32 个任务):
顺序读取 :不使用 xiRAID Opus:34.8 GB/s 使用 xiRAID Opus:47 GB/s
顺序写入 :不使用 xiRAID Opus:32.7 GB/s 使用 xiRAID Opus:46 GB/s
通过集成 xiRAID Opus,我们进一步优化了 pNFS 块布局的性能。当我们比较有无 xiRAID Opus 的 pNFS 时,结果清楚地展示了其在高性能环境中的价值。此测试使用了 MDRAID(RAID 0)和 Opus(RAID 6),展示了将 xiRAID Opus 纳入解决方案后读写性能的显著提升。
pNFS vs Lustre:Xinnor 解决方案加速

在比较 pNFS 块布局与 Lustre 时,我们的解决方案在这两种设置中都提供了显著的加速。Lustre 和 pNFS 在与 xiRAID Opus 配对时,都能够提供强大且几乎相等的性能,在高吞吐量环境中表现优异:
顺序性能比较(1M,32 个任务):
顺序读取 :Lustre:44 GB/spNFS:47 GB/s
顺序写入 :Lustre:43 GB/spNFS:46 GB/s
这些结果表明,经过 xiRAID Opus 优化的 Lustre 和 pNFS 都是强大的解决方案,能够在高性能云环境中提供卓越的性能。
云环境中的 pNFS:结论
我们认为 pNFS 代表了云环境中可扩展、高性能存储的未来。通过正确的配置,pNFS 块布局可以实现每秒数十甚至数百 GB 的吞吐量,同时资源消耗最小。
主要优点 :
可扩展性 :支持大规模环境,提供巨大的吞吐量潜力,系统开销低。
高性能 :为顺序和随机的小块操作提供卓越的性能,由于直接与存储设备交互,延迟极低。
无需第三方客户端软件 :通过消除客户端机器上的额外软件需求,简化了设置和管理。
挑战 :虽然 pNFS 非常有前景,但当前的开源 MDS 尚未准备好投入生产,使其适合概念验证(POC),但还不适合完整的生产环境。
结论
Xinnor 为云环境中的 AI 工作负载提供了两个强大的解决方案:xiRAID Opus 和 Xinnor Lustre 解决方案。这些高性能工具专为应对 AI 应用程序的苛刻性质而设计。我们对 Lustre 和 pNFS 的比较,经过 xiRAID Opus 的加速,表明这两种并行文件系统在虚拟化云设置中为 AI 工作负载提供了卓越的可扩展性和性能。Lustre 提供高吞吐量和可靠性,使其适合复杂的云环境。另一方面,pNFS 提供了一个更简单、更通用的替代方案,在不牺牲性能的情况下减少了设置复杂性。虽然每种解决方案都有其独特的优势,但 xiRAID Opus 始终增强了两者,支持跨多个基于云的节点快速、高效的数据访问。这些并行文件系统与 xiRAID Opus 共同构成了 AI 工作负载的强大基础。
您可以在此处阅读原始博客文章[链接]
版权声明: 本文为 InfoQ 作者【Sergey Platonov】的原创文章。
原文链接:【http://xie.infoq.cn/article/aa7641bd738fa5e860c633cc6】。
本文遵守【CC-BY 4.0】协议,转载请保留原文出处及本版权声明。
评论