焱融科技助力智谱 AI,打造大模型训练加速之道
自 ChatGPT 爆火以来,中国的 AI 产业已经进入名副其实的“百模大战”。《中国人工智能大模型地图研究报告》显示,截至 2023 年 5 月底,国内 10 亿级参数规模以上基础大模型至少已经发布 79 个,大模型所需数据丰富,而海量数据需要强悍的储存性能。
智谱 AI 致力于打造新一代认知智能通用模型,践行 Model as a Service(MaaS)的市场理念,建立了拥有完全自主知识产权的大模型。
近日,团队正式上线首款生成式 AI 助手——「智谱清言」,通过万亿字符的文本与代码预训练,结合有监督微调技术,以通用对话的产品形态成为更懂用户的智能助手。
焱融科技与智谱 AI 深度合作,在 AI 大模型数据全生命周期管理等技术方向上联合创新。焱融全闪存储方案具备海量数据支持、超高性能及可靠性等特性,满足智谱 AI 的业务性能需求,助推模型精度提升,为 AIGC 产业提供了可借鉴的成功经验。
PART.
01
焱融科技联合智谱 AI
构建高速大模型训练平台
大模型计算量庞大,计算复杂度高,参与计算的数据规模巨大,大模型越成熟所需数据越丰富,而海量数据需要更强悍的存储性能。因此在大模型的推动下,数据存储已成为 AI 大模型的关键基础设施,贯穿大模型全流程。
01
超大规模数据的存储和预处理
包括采集导入、清洗、转换、共享和长期归档,是后面各环节的基础。
➥对存储的要求:高吞吐、大容量、可扩展性、持久化存储。
02
模型设计
讲究效率为王,包括实验管理、交互式开发和效果评估等。
➥对存储的要求:POSIX 兼容性、可靠性和可共享。
03
模型训练、参数调优及评估
这里的主要场景,一是训练数据的读取,二是为了容错做的 checkpoint 的保存和加载。数据集的部分就是要尽量读得快,减少计算对 I/O 的等待,而 checkpoint 主要要求高吞吐、减少训练中断后等待恢复的时间。
➥对存储的要求:高 IOPS、高吞吐、高带宽减少训练中断时间。
04
模型部署
需要把训练完的模型快速分发部署到线上,产生业务效果。而这个过程会高频、反复发生,既要求高并发、高吞吐,又要求整个流程尽量简单高效。
➥对存储的要求:高并发、高吞吐、流程简单高效。
同时,大模型的各环节业务流程的衔接,还对数据广泛、高效流动有着极高要求,对于海量数据的存储流动是刚需。
PART.
02
焱融全闪 AI 大模型存储方案
加速大模型应用推广
通过与智谱 AI 的深度合作,夯实焱融科技大模型存储方案,适配百亿级数据规模,向计算集群提供高性能低时延的存储服务能力。
YRCloudFile 全闪文件存储一体机 F8000XD 用于海量数据存储,YRCloudFile F8000XD 集群中单节点可提供 300 万 IOPS 和 90GBps 带宽,支持 RDMA 协议,整体焱融存储集群提供千万级 IOPS,极低的时延,实现存储高性能支撑,使 IaaS 层全面提升性能。
在 AI 全业务流程内,数据需要经历的预处理、训练、仿真等过程,焱融科技全闪文件存储 F8000XD 根据不同业务阶段的特点,调用不同的存储服务能力,满足各个阶段业务对数据服务能力的要求。
且业务全过程中,数据始终处于 YRCloudFile 的全生命周期管理中,相比传统存储的分离架构,数据流转成本大大降低,业务连续性得到保障。
多模态 AI 数据来源维度众多,在性能优化层面较难,YRCloudFile 采用分布式并行架构,采用元数据路径分离技术,让百亿级混合文件(大文件和小文件并存场景)数据读写和元数据查询性能稳定,并且可线性扩展,满足智谱 AI 业务性能需求,快速提升迭代能力。
伴随人工智能快速发展,大模型相关生态和创新土壤也正在完善。焱融科技 YRCloudFile 构建智谱数据底座,与 NVIDIA 一起组成大模型算力存储方案,提升智谱业务迭代速度和模型精度。
YRCloudFile 在大模型应用场景具有独到的产品能力,焱融的数据全生命周期管理理念将更加有助于海量规模化的大模型应用。
焱融科技作为国内领先的高性能存储方案技术提供商,专注于 AI、智能汽车、AI 大模型领域,通过产品自身的技术优势帮助客户完善数据基座的构建,并且依据通用 AI 特性,推出适用于 AI 场景的存储功能,将行业应用场景深化,成为垂直领域的存储专家,帮助客户更好地追求业务创新。
评论