AI 大模型驶向产业之海,需要高质数据“河道”引航
“我们的 AI 大模型,在万卡集群上训练,三小时就出一次错。别笑,这已经是世界先进水平了。”某次行业峰会上,一位清华大学的院士科学家,讲出了 AI 大模型训练的“大实话”。
风靡全球的 AI 大模型,是今年毋庸置疑的风口,数量不断增长,达到了惊人的水平。“百舸争流”之下,大家却经常会忽略一个关键问题:AI 大模型带来的数据激流,也比想象中更加汹涌。
“三小时出错一次”,听起来不可思议的故障率,却是大模型从业者要面对的常态,甚至是“优等生”。目前业界的普遍做法,是写容错检查点 checkpoint。既然三小时就报错,那就 2.5 小时停一次,写好检查点,把数据存起来,再开始训练。一旦出现故障,可以从写好的检查点恢复,避免“从头开始”、全部白干。而检查点需要存储的数据多,会耗费大量的时间。该院士团队基于 llama 2 架构研发的大模型,数据存一次硬件,就需要十个小时,存储效率直接影响了开发进度。
如果说大规模的异构数据,是肆意奔涌的激流,存储系统就是承载着数据流量的河道,其宽阔坚固程度直接决定了数据是否会淤塞甚至停滞,从而卡住 AI 大模型的生命线。可以说,整个大模型行业的生产力和效率,都被存储规定了“上限”。
这也是为什么,存储作为 AI 数据基础设施,受到越来越多关注。
11 月 29 日,“数智创新 AI 未来”2023 中国数据与存储峰会在北京举办。曙光存储发布了面向 AI 大模型的存储解决方案。
借此机会,我们一起了解一下,AI 大模型浪潮来袭,给存储带来的承载挑战,以及曙光存储是如何为智能产业引航,助推 AI 大模型百舸扬帆。
AI 大模型驶入产业深水区,传统存储的数据之殇
最近我去了一趟云南,发现不仅北上广等科技重地的大模型建设如火如荼,在昆明、大理等二三线城市,甚至边疆地区,都在积极地探索大模型行业应用。
各行各业走向智能化,几乎都点燃了对大模型的炽热兴趣。这时候,一个关键问题也显露了出来:AI 大模型的产业化风潮,需要升级存储基础设施。
模型开发者的每一次训练,数据都在向存储系统发起多种挑战:
数据洪潮的冲击。随着大模型的产业落地,许多行业都开始训练专属模型,大量行业数据、专有数据、新的标注数据被输送给大模型,澎湃的数据数量对存储系统提出了挑战。云南某数据科技公司提到,行业大模型要用高质量的数据集、文档、客户私有数据进行训练,每个项目都是单独成立标注组,数据规模持续增大,存储诉求和成本也随之增加。
2.数据淤塞的桎梏。超大规模数据预处理的速度慢、耗时长,采集、归类、搬迁等过程费时费力,一旦存储性能跟不上,海量文件吞吐慢、多读少写,检查点 Checkpoint 等待耗时久,会延缓开发进度,增加开发成本。
3.数据复杂的暗涌。此外,AI 大模型要用到大量异构数据,文件格式复杂、数据集类型多样,数据数量激增,传统存储难以应对数据复杂性的挑战,容易产生消化不良的问题,造成数据访问效率低,从而造成模型运行效率下降,训练算力消耗增多,无法充分“压榨”昂贵的 GPU 算力资源。比如云南当地的太阳观测站,通过让 AI 科学计算模型学习海量图片,呈现太阳真实的样子,每天产生 2TB 的图片数据,当前存储的吞吐效率低,会导致训练集加载慢、数据处理周期长,拖慢研究进程。
4. 数据安全的隐忧。目前,AI 大模型已经深度渗透各行业之中,在训练开发及应用落地过程中需要海量的数据支撑,其中包含行业或个人敏感信息的数据,如果没有合理的数据脱敏和数据托管机制,则可能造成数据泄露,给行业和个人造成损失。同时,模型安全风险也需重视,比如,插件可能被植入有害内容,成为不法分子欺诈和“投毒”的工具,危及社会和产业安全。
AI 大模型驶向产业深水区,欣喜的是,这一技术创新正在高度融入千行万业,满足智能化需求,生命力旺盛。担忧的是,数据工程贯穿大模型的全生命周期,从收集、清理、训练、推理部署、反馈调优等各个阶段,都需要用到大量数据。存储成为瓶颈,意味着 AI 大模型的各个阶段都需要消耗在大量的数据淤塞、故障、低效之中,这会让大模型的开发周期与综合成本极高,是产业所无法承受的。
疏浚存储“河道”,避免数据淤塞,为大模型的产业扬帆提供支持和滋养,曙光存储带来的新解决方案,让我们发现了有价值的参考案例。
高质数据“航道”,曙光存储给大模型行业一个答案
经过与 AI 大模型开发者的交流,我得出了一个清晰的结论:构建一个适配 AI 大模型的全新存储体系,已经不再是需要讨论的问题,关键是谁能率先完成方案升级、给出实用解法。
洞察行业的存力需求,曙光存储打造了以 ParaStor 大模型专用存储为底座的 AI 大模型存储解决方案,写下了自己的答案。
曙光存储 AI 大模型存储集群,拥有异构融合、极致性能与原生安全三大领先能力。
首先,可提供千亿级文件存储服务,接近无限扩展规模。针对数据访问协议多样性问题,同时支持文件、对象等多种存储协议,避免数据跨存储系统复制。
其次,针对 AI 大模型开发过程中对数据处理效率的高需求,曙光存储 AI 大模型存储集群可提供多级缓存加速、XDS 数据加速及智能高速选路等多种数据 IO 性能优化能力。
最后,为保障全流程数据安全,曙光存储节点还提供芯片级安全能力,并支持国密指令集,通过多级可靠性,保障存储集群在训练开发全周期内稳定运行,符合政策和未来安全趋势。
有人可能会问了,市面上的存储方案这么多,有的也宣传为模型开发提供专业支持。曙光存储的方案有哪些差异化价值?
如果对各家的技术名词和产品细节云里雾里,大家不妨用几个词,记住曙光存储 AI 大模型存储集群的差异化价值:
1.先进。异构融合,极致性能,芯片级原生安全,展现了曙光存储的技术先进性,也针对性地解决了大模型开发的数据量大、数据形态复杂多样、吞吐效率低、存算时间长等实实在在的痛点。
2.可靠。高性能 AI 数据基础设施基于曙光存储的自研创新,更加可靠安全,符合信创政策和未来安全趋势,可以帮助国内大模型服务商规避海外供应链风险,从供应链安全、数据安全、模型安全等多个角度,为大模型产业的发展护航。
3.全面。曙光存储打造了涵盖从网络、计算到平台的全维度 AI 解决方案,支持训练开发全周期内稳定运行,可以降低综合成本,让大模型开发者和行业客户无忧前行。
总结一下,在曙光存储构建的高质“航道”上,大规模数据高效吞吐,AI 大模型加速开发,因此,行业和企业可以快人一步,将大模型与垂直场景和业务深度融合,率先获得通往智能时代的船票。
第五范式的新起点,看百舸争流、万业扬帆
图灵奖获得者吉姆·格雷(Jim Gray),曾提出第四范式,核心是数据驱动。而随着大语言模型“智能涌现”,“智能驱动”的第五范式,更侧重于数据和智能的有机结合,成为支撑科学革命、产业革命的新底层逻辑。
所有过往,皆是序章。AI 如此,存储亦如此。
此次大会上,凭借 20 年行业深耕,与在 AI 存储技术突破、液冷存储研发等领域的领先实践,曙光存储公司总裁惠润海获评“存储先锋”。在其领导下,多年来曙光分布式文件存储在市场中持续领跑,市场份额名列前茅。面向 AI 大模型的数据存储解决方案,让曙光存储又一次站到了时代前沿。
曙光存储的 AI 大模型存储集群,正是积极践行范式转换,对应数据新范式,用数据基础设施的飞跃,助推大模型产业化的涨潮。
接下来,在存储行业的新范式、新起点,在曙光存储的高质数据“河道”上,我们会看到,行业大模型百舸争流,AI 应用千帆竞渡,加速驶向智能中国。
版权声明: 本文为 InfoQ 作者【脑极体】的原创文章。
原文链接:【http://xie.infoq.cn/article/88cdb4b9477e4b7f40335da1e】。
本文遵守【CC-BY 4.0】协议,转载请保留原文出处及本版权声明。
评论