写点什么

焱融全闪 F9000X 打造英智创新先进智算平台 训推效能倍增

作者:焱融科技
  • 2024-12-12
    北京
  • 本文字数:2793 字

    阅读完需:约 9 分钟

两年前的 2022 年 11 月 30 日,ChatGPT 正式上线。


在这两年里,以大模型为代表的新一代人工智能浪潮在全球范围内展现出蓬勃活力,AI 正在快速成长为一项新兴的通用型技术。随着大模型参数量的快速增长,并向图像、视频、语音等多模态方向迅速演进,未来更将迈向全模态发展,智能算力作为 AI 的技术底座迎来需求井喷。数据显示,AI 时代算力的增长速度已远超摩尔定律所描述的每 18 个月翻番的速率。


AI 算力的巨大需求缺口推动了智算中心的建设热潮。据业界统计,截至 2024 年上半年,全国已经建设和正在建设的智算中心超过 250 个,2024 年上半年智算中心招投标相关事件 791 起,同比增长高达 407.1%。即使如此,智算中心也并未达到绝对意义上的“多”,真正适配大模型训练的算力在当前及未来一段时间仍然存在很大缺口。


英智创新(深圳)科技有限公司(简称“英智创新”)紧抓这一市场机遇,启动《AI 创新赋能中心项目》,打造新型 AI 智算中心,为大模型训练和推理提供先进算力服务,缓解人工智能时代的“算力焦虑”。同时,英智创新还提供私有大模型代训练服务,广泛且高效地推动大模型技术在专业领域的应用。通过业界领先的清洗、训练和微调技术,英智创新深度挖掘企业数据价值,帮助企业快速构建专属 AI 能力,赋能企业数智化转型,提升竞争优势。

建设智算中心,把 GPU 卡塞进机房,就可以了吗?


然而,建设智算中心,看似简单实则却充满挑战。


智算中心并不仅仅等于堆叠 GPU 卡。其建设方仍需要考虑关于企业成功的“阿尔巴德定理”——一个企业是否成功,取决于对客户需求的了解程度。


对于主要业务是为客户提供大模型训练和推理算力服务的智算中心而言,首先需要充分理解大模型训练和推理业务的实际需求;其次,考虑资源的投入产出比——一个关键指标即是重金购买的 GPU 卡的利用率。为充分发挥高性能 GPU 卡的效能,智算中心必须配备与之匹配的高性能存储系统。


英智创新一开始便专注于构建真正用于大模型训练和推理所需的算力集群。为了满足用户对大模型训练和推理的性能要求,英智创新在对其终端用户需求的深刻理解之上,明确了其智能算力平台的需求:


  • 保障计算集群的高效运转:英智创新“AI 创新赋能中心”项目一期使用英伟达 GPU 卡构建计算集群,存储系统需要为其提供高效数据支持,最大限度地提升 GPU 利用率,保障 GPU 计算资源的高效利用。


  • 高速的数据访问和传输:需要确保数据能够在存储系统与 GPU 集群之间高速流通,支撑大规模并行计算和分布式训练的需求,并解决数据传输过程中的延迟问题。明确单卡读速率需达 1 GB/s,聚合读速率达 1024 GB/s。


  • 海量小文件性能:大模型训练通常涉及海量小文件处理,这往往会导致性能衰减问题。存储系统必须有效解决这一问题,保证小文件访问速度及整体性能。


  • 存储容量与扩展性:面对 AI 模型和数据规模的不断增长,明确存储系统需提供 2 PB 容量。同时,具备横向扩展及线性增长能力,以支持未来高密度工作负载下的动态扩展需求。


世界级领先性能 焱融全闪 F9000X 保障英智创新智算平台满负荷运转


面对上述挑战,英智创新在深入的市场调研和严格的产品方案比对后,决定携手焱融科技作为其高性能存储解决方案的合作伙伴。焱融科技凭借自主研发的核心存储技术、早期即专注于 AI 存储的精准定位,以及完善的售后服务体系,在众多厂商中脱颖而出。英智创新使用专为高性能工作负载打造的焱融追光全闪存储一体机 F9000X 作为核心存储设备,构建高性能智算平台,为用户提供高效算力服务。


英智创新智算平台建设方案架构图


焱融全闪存储方案在该项目中实现了以下四大创新亮点:


① 大模型级的存储性能

焱融全闪 F9000X 采用企业级 PCle 5.0 NVMe 全闪存、英特尔® 至强® 第 5 代可扩展处理器及 NVIDIA ConnectX-7 智能网卡(HCA)等顶级硬件配置,并支持 NVIDIA NDR 400 InfiniBand 高速网络,性能业界领先,能够充分满足智算平台在大模型训练和推理业务中的高并发、低时延、高达数千万 IOPS 峰值的响应诉求,并为英智创新算力服务业务的连续性、稳定性及高效率提供保障。


② TB 级带宽 支撑数据高效流动

焱融全闪存储方案通过卓越的架构设计和优化,实现了 TB 级别的集群带宽,为客户提供了支撑 AI 全流程的高效数据流动能力。在实际应用中,该方案满足了英智创新对于单卡读带宽 1 GB/s,聚合读带宽 1024 GB/s 的严格要求,确保千卡 NVIDIA GPU 集群能够以高效的方式进行数据访问和计算。同时,依托焱融方案的高性能和多协议生态支持,该方案不仅在大规模并发读写中表现出色,还具备高性能动态混合负载的承载能力,能够在 AI 多阶段任务中保持数据传输的流畅性,使得 AI 训练更快,训练周期更短,推理速度更快。


③ 海量小文件性能不衰减

针对 AI 场景中的海量小文件场景,焱融高性能分布式文件存储系统 YRCloudFile 采用提供百万级 IOPS 的 IO 框架,支撑对元数据访问路径的低延迟和高 OPS 能力。同时,通过分布式元数据集群架构、基于内存缓存的元数据管理技术、轻量级 open、lazy close、batch commit 及 metadata readhead 等机制,将海量小文件性能提升了 6 倍以上,解决海量小文件下的效率瓶颈问题。


④ PB 级容量及可扩展性

焱融全闪存储方案采用兼具灵活性和可扩展性的分布式架构,能够达到 PB 级 / EB 级横向扩展,并实现容量与性能的线性增长。该方案不仅充分满足本次英智创新智算项目 2PB 的全闪存储需求,还为未来可能的扩展需求提供了充足的弹性空间。


此外,焱融全闪 F9000X 凭借软硬一体化设计的快速部署特性,让 IT 团队在短时间内提前完成安装并投入使用。这正是焱融科技对“产品性能”及“业务效率”的双重极致追求,有力支撑客户在 AI/HPC 场景下的高标准业务需求,赢得合作伙伴和客户的信任和选择。


英智创新的一位技术工程师说到:根据各项数据,焱融存储的表现超出了我们的预期。它不但能够满足大模型训练和推理高性能、高可用的要求,而且具有很强的稳定性,能够保持用户业务持续运行。


汹涌而来的 AI 浪潮已是不可阻挡的历史趋势,随之而来的对智能算力的井喷需求也是已成为一个既定事实。如何让每一个智算中心、每一家企业部署的 GPU 计算集群尽可能地发挥出其全部能力,不仅关系到相关企业的资产的投资回报率,更关系到其在这个 AI 时代的业务竞争力。


焱融科技将技术与 AI 场景应用深度融合,以先进、高性能的存储,支持英智创新 GPU 计算能力的充分释放。而英智创新通过如此高性能的计算集群高效处理海量数据并执行复杂算法运算,为企业提供卓越的算力支持,同时通过大模型代训练业务,让每一家企业都能便捷、快速、低成本地拥有专属于自己的大模型。


上月,英智创新经过多项程序认定,成功入库深圳市科技创新训力券服务机构,这展现了政府对其算力服务能力和行业地位的高度认可。展望未来,焱融科技与英智创新将继续深化合作,利用焱融存储的技术、产品和服务优势,助力其在大模型训练和推理领域持续赋能,共同助力企业在 AI 时代的浪潮中乘风破浪。

用户头像

焱融科技

关注

软件定义的混合云统一文件存储 2020-05-29 加入

焱融科技是一家以软件定义存储技术为核心竞争力的高新技术企业,基于软件定义的混合云统一文件存储为企业客户提供高效存储、数据管理和应用服务,打造面向云+AI 时代的高性能存储。

评论

发布
暂无评论
焱融全闪 F9000X 打造英智创新先进智算平台 训推效能倍增_大模型_焱融科技_InfoQ写作社区