国内首发|焱融科技 YRCloudFile 支持 NVIDIA GPUDirect Storage(GDS)
2020 年 GPT-3 模型的参数量首次突破千亿大关,达到了 1750 亿,堪称“大力出奇迹”。今日凌晨,万众瞩目的大型多模态模型 GPT-4 正式发布!GPT-4 是多模态的,同时支持文本和图像输入功能。该版本“更强大”,模型精度随着模型尺寸及训练数据的增加而显著提升。
训练巨量模型需要巨大的算力,但随着数据集和模型规模不断增加,应用程序载入数据所花费的时间变得越长,进而影响了应用程序的性能,缓慢的 I/O 严重拖累 GPU 的强大算力。如何大幅提升 GPU 载入大型数据集的速度将是计算和存储系统共同面临的最大挑战。为更加完美地满足大规模计算集群对于存储系统的数据访问需求,进一步发挥强大的 GPU 计算能力,将性能发挥到极致,焱融技术团队历时 6 个月的时间完成对 NVIDIA GPUDirect Storage(GDS)的适配开发,实现以直接内存的存取方式,将数据传输至 GPU 内存上,显著降低 I/O 延迟,提升数据带宽。
GDS 简述
现代 AI 和数据科学工作是由大量数据驱动的,随着人工智能以及高性能运算的数据集规模不断增加,GPU 计算和数据中心存储系统之间的快速通信变得至关重要。数据从 NVMe 磁盘传输到 GPU 内存的标准路径,传统的方式是由 CPU 控制的,使用系统內存中的回弹缓存(Bounce Buffer)做数据的中转。这种操作过程会产生额外的数据拷贝工作,造成很大的系统开销。当数据集的规模不断增加,应用程序载入数据花费的时间会变得越来越长,进而影响了应用运行的性能。
NVIDIA GPUDirect Storage(GDS) 技术通过 DMA 引擎将硬盘数据直接写入 GPU 显存,这种以直接内存的存取方式,避免了内存 bounce buffers 所带来的额外数据拷贝,从而实现 CPU 和主存的 IO 旁路,使 IO 吞吐能力不再受限于系统总线的带宽压力。近来,由于高速 RDMA 网络的普及,GPUDirect storage 可以高效地直接访问远端存储设备,诸如一些 NVMe 的 target 方案和一些企业级分布式存储产品,它能有效减轻 CPU I/O 瓶颈,提升数据传输的 I/O 带宽的同时,降低 I/O 延迟。
支持 GPUDirect 技术的性能收益
英伟达开发的 GPUDirect Storage 技术,大幅提升 GPU 载入大型数据集的速度。GDS 通过更快、更直接的数据路径提高了存储和 GPU 之间数据移动的效率。数据直接从主机上的网卡(NIC)传输到 GPU,而不需要经过系统内存和 CPU。这种方式消除了系统架构中 IO 路径瓶颈,减少了不必要的数据复制,降低了延迟,同时,释放出来的计算资源还可用于深度学习中诸如图形处理等其他业务。NVIDIA 表示通过支持 GPUDirect 技术能够带来多方面的性能收益:
GDS 在存储和 GPU 之间提升 2~8 倍的数据传输带宽。
避免了 CPU 在内存中的 bounce buffers 拷贝,在某些场景下端到端传输的延迟能够实现 3.8x 的降低。
当 GPU 并发度增加时,GDS 仍然保持稳定的低延迟输出。
GPU 不仅作为实现最高带宽的计算引擎,同时也作为实现最高 IOPS 的计算引擎。在某些场景的实测数据表明,如果单纯使用 CPU,吞吐率仅能达到 50GB/s;而在使用 GPU 之后,吞吐率可达到 215 GB/s。因此,能支持 GDS 的存储系统更能充分匹配前端的异构计算能力。
GPUDirect Storage 架构图
焱融分布式文件存储系统 YRCloudFile 支持 GDS 的大体流程:
YRCloudFile 客户端向 nvidia-fs 注册后,cuFile 打开一个 YRCloudFile 集群文件,会将 nvidia-fs 和 YRCloudFile 的特定接口进行绑定,当 io 下发到 client 中,client 检测该 IO 是否是 GDS 的请求,如果是,则回调 nvidia-fs 的 map 接口,获得 sglist 请求的 dma 地址,借助底层驱动能力,实现数据的 RMDA 传输。
写到最后
NVIDIA®Magnum IO GPUDirect® 技术,能够显著降低 GPU 服务器内的 CPU 占用率,增加存储带宽并减少延迟。焱融科技是国内支持 GPUDirect® 功能的首家分布式文件存储厂商,能够更好地管理数据路径。焱融文件存储系统与 GDS 的组合使得数据在应用程序和存储之间通过更短、更有效的路径传输,实现 1+1>2 的功能效果。从而使支持 GDS 的应用程序能够充分释放 GPU 计算能力,为人工智能和机器学习(AI/ML)以及数据分析等业务加速。
2022 年,焱融追光全闪文件一体机单存储节点达到 40GB/s+ 带宽和 200 万+ IOPS 性能,并应用于人工智能、智能汽车、智能制造、教育等行业生产环境中,为企业用户成功构建高性能存储平台。在服务全球 500 强制造业的客户中,完成国内首个双 200Gb 网络聚合分布式文件存储集群部署,实现 AI 计算平台破千万 IOPS 性能实践。
版权声明: 本文为 InfoQ 作者【焱融科技】的原创文章。
原文链接:【http://xie.infoq.cn/article/68f1fcbb0e70db3290d8907af】。文章转载请联系作者。
评论