写点什么

构建大模型争分夺秒?快用天翼云并行文件服务 HPFS“加速包”!

作者:编程猫
  • 2024-03-08
    湖北
  • 本文字数:846 字

    阅读完需:约 3 分钟

国内外 AI 大模型层出不穷,训练数据复杂程度更是呈指数级增加。如今,在万亿级参数时代,单个资源池已无法满足大模型训练场景中动辄 PB 级的数据存储量,对于企业来说,启用多个资源池构成的分布式存储势在必行。



为了应对 AI 大模型训练对数据存储的需求,天翼云推出并行文件服务 HPFS(CT-HPFS,High Performance File Storage),旨在为 AI 时代提供高性能存储底座,助力企业构建基于云资源的、更高效的大型模型训练平台,实现大模型的连续训练。天翼云 HPFS 可通过分布式存储实现数据的并发读取,同时提供最高百万 IOPS 和百 GBPS 的吞吐能力,显著提升了数据的读取速度,从而大大提升 GPU 卡的利用率,为提升 HPC 和 AI 等场景的训练效率赋能。

天翼云 HPFS 为 AI 场景的数据训练提供高并发、低延时、高吞吐的存储解决方案:

高并发,天翼云 HPFS 在保证文件一致性的前提下,将数据分布存储在多个节点上,通过分布式锁机制,实现多客户端同时对同一文件的不同部分进行读写,显著提升并发性能,单客户端的单流 IO 性能可提升 200%以上,并发访问同一文件的性能提升 300%以上。



低延迟,天翼云 HPFS 采用 RDMA(Remote Direct Memory Access,远程直接内存访问)技术,同时支持通过 InfiniBand、RoCE 和 TCP/IP 进行数据交互,大幅降低了网络传输的延迟,提高数据传输的效率,实现高速互联。

高吞吐,天翼云 HPFS 基于 NVMe 存储架构做出深度优化,能够充分释放 SSD 性能,显著提高了吞吐量等性能表现;基于并发传输通道的并行访问,增强了服务器处理高并发请求的能力。更重要的是,随着节点规模的增加,系统性能可实现线性增长。

基于多重优势能力,天翼云 HPFS 可为自动驾驶、智能客服、工业制造、基因测序、语音导航、AI 训练等场景,提供高性能并行文件存储底座。



凭借卓越的技术实力,天翼云 HPFS 在 “华彩杯”算力应用创新大赛中,荣获一等奖,代表着业界对天翼云 HPFS 创新能力的充分肯定。



作为云服务国家队,天翼云将继续坚持科技创新,以满足高性能计算场景存储需求为己任,不断提升产品的性能和可靠性,为客户打造高性能存储底座,持续为大模型产业发展提质增速。

用户头像

编程猫

关注

还未添加个人签名 2023-01-05 加入

还未添加个人简介

评论

发布
暂无评论
构建大模型争分夺秒?快用天翼云并行文件服务HPFS“加速包”!_编程猫_InfoQ写作社区