YRCloudFile V6.10.0 功能新增对 NVIDIA GPUDirect 与回收站的支持
近日,焱融科技发布分布式文件存储产品 YRCloudFile V6.10.0 版本。在该版本中,YRCloudFile 首次支持了 NVIDIA GPUDirect Storage(GDS)、新增回收站、数据加载热层清理等产品功能,持续优化并大幅提升作为企业级存储产品的性能和可用性,进一步提升用户使用体验。
YRCloudFile 是焱融科技基于软件定义存储自主研发的独立的混合云文件存储系统,基于灵活的 SDS 架构, 可提供 POSIX、NFS、SMB/CIFS 等丰富的文件服务,不仅可以广泛应用于企业级文件共享,大容量数据存储、大数据等通用场景,还能更成熟的应用于智能汽车、多模态 AI 、HPC 高性能计算、生物信息、GIS 等高性能计算应用场景。
在 6.10.0 版本中,YRCloudFile 进行了以下重要更新:
国内首发支持 NVIDIA GPUDirect Storage(GDS):焱融技术团队历时 6 个月的时间完成对 NVIDIA GPUDirect Storage(GDS)的适配开发,实现以直接内存的存取方式,将数据传输至 GPU 内存上,显著降低 I/O 延迟,提升数据带宽。
支持回收站功能:通过 YRCloudFile 回收站功能可恢复文件数据和相关元数据信息,避免由于误删除操作造成的文件数据丢失问题,进一步提升存储系统的可靠性及数据的安全性。
支持数据加载热层数据清理功能:数据加载支持了热层清理功能,用户通过对文件的冷热策略定义的方式来释放文件系统空间,而存储在文件系统 YRCloudFile 的元数据仍将保留,下次读取数据时,文件存储会从对象存储中自动拉取。同时,数据加载配额管理 (Quota) 解决了加载大量对象存储数据到文件系统内所造成的空间占用问题,增加对 Dataload 目录的配额设置支持。
元数据性能优化:针对 AI 训练中海量小文件读写场景,实现了客户端的轻量级只读 Open, 降低了元数据的访问操作。可同时保证在文件系统语义的前提下,将部分逻辑 offload 到客户端,大幅降低元数据服务的压力,使集群的元数据性能得到很大的提升。
功能丰富有温度 用户操作便捷更安心
无需担心误删操作,回收站功能一键找回
YRCloudFile 提供完整的回收站功能,当误删除文件系统中的文件后,可通过回收站恢复这些文件的数据与元数据信息。回收站功能默认处于开启状态,当相应的文件被系统命令或者程序行为删除后,将以就近原则的方式自动进入相应的回收站,该操作只是移动元数据,所以不会带来存储空间则增大的问题。当用户需要恢复回收站的数据时,可按照文件删除时间、路径进行定位、查找,快速完成数据恢复操作。
数据加载热层清理让存储空间使用更高效
该版本的数据加载功能支持热层清理功能,根据对文件的冷热策略定义(例如:超过一定时间并未被访问的文件),可采用定时调度或者立即清理的方式来释放被占用的文件系统空间,而对应的文件用户依然可以访问。当下次读取数据时,文件存储自动从对象存储内进行数据加载,这使得文件存储 YRCloudFile 的空间可以高效的轮转使用,既能保证高性能的数据访问,又能降低整体存储成本。当加载大量对象存储数据到文件系统造成的的空间占用问题,用户可通过数据加载配额管理(Quota) 增加对 Dataload 目录的配额设置支持。当 Quota 空配额耗尽时,则无法写入新文件;当读取对象存储新文件时,系统采用 by-pass 方式直接从对象存储获得数据返回给业务层。
性能提升 高性能计算与 AI 融合场景不容错过
国内首家支持 GPUDirect® 分布式文件存储
NVIDIA GPUDirect Storage(GDS) 技术通过 DMA 引擎将硬盘数据直接写入 GPU 显存,这种以直接内存的存取方式,避免了内存 bounce buffers 所带来的额外数据拷贝,提高了存储和 GPU 之间数据移动的效率,大幅提升 GPU 载入大型数据集的速度。焱融科技 YRCloudFile 通过对 NVIDIA GPUDirect Storage(GDS)的支持,能够更好地管理数据路径,使数据在应用程序和存储之间通过更短、更有效的路径传输,使支持 GDS 的应用程序能够充分释放 GPU 计算能力,为人工智能和机器学习(AI/ML)以及数据分析等业务加速。
AI 训练海量小文件场景,元数据性能的极致优化
在小文件操作中,元数据操作占据了很大的比重,甚至可以达到 70%-80% ,而真正的业务读写,仅占了其中很小一部分,这时元数据性能成为性能瓶颈。这是因为对于每个小文件,系统都需要频繁读取并处理其对应的元数据信息,包括 open、close、stat 以及 revalidate 等等,这些操作会占用大量的网络和磁盘资源。针对这些问题进行了如下的优化:
首先,为了支撑对元数据访问路径的低延迟和高 ops 能力,焱融分布式文件存储 YRCloudFile 采用的 io 框架可提供百万级的 iops 能力。
其次,依赖客户端缓存机制,焱融分布式文件存储 YRCloudFile 提供了基于内存缓存的元数据管理技术,在保证语义的前提下,增加缓存命中,减少跨网络和磁盘访问的开销。
再次,YRCloudFile 实现的轻量级 open,lazy close,batch commit,metadata readhead 机制,能同时保证在文件系统语义的前提下,将部分逻辑 offload 到客户端,这能够很好的降低元数据服务的压力,同时集群的元数据性能又可以得到很大的提升,包括在延迟和 ops 等方面。
焱融分布式文件存储 YRCloudFile 通过一系列技术操作优化小文件的元数据性能,包括基于内存缓存的元数据管理、轻量级 open、lazy close 以及 batch commit 等技术的应用,使得 YRCloudFile 在处理海量小文件时表现出优异的性能,功能方面更加持续丰富和完善企业级特性,适配更复杂的业务场景,从而更好地满足用户的需求。
版权声明: 本文为 InfoQ 作者【焱融科技】的原创文章。
原文链接:【http://xie.infoq.cn/article/d8fcfe571fb2d32dd88675afd】。文章转载请联系作者。
评论