AI 大模型驶向产业之海，需要高质数据“河道”引航

2023-12-01
天津
本文字数：2914 字
阅读完需：约 10 分钟

“我们的 AI 大模型，在万卡集群上训练，三小时就出一次错。别笑，这已经是世界先进水平了。”某次行业峰会上，一位清华大学的院士科学家，讲出了 AI 大模型训练的“大实话”。

风靡全球的 AI 大模型，是今年毋庸置疑的风口，数量不断增长，达到了惊人的水平。“百舸争流”之下，大家却经常会忽略一个关键问题：AI 大模型带来的数据激流，也比想象中更加汹涌。

“三小时出错一次”，听起来不可思议的故障率，却是大模型从业者要面对的常态，甚至是“优等生”。目前业界的普遍做法，是写容错检查点 checkpoint。既然三小时就报错，那就 2.5 小时停一次，写好检查点，把数据存起来，再开始训练。一旦出现故障，可以从写好的检查点恢复，避免“从头开始”、全部白干。而检查点需要存储的数据多，会耗费大量的时间。该院士团队基于 llama 2 架构研发的大模型，数据存一次硬件，就需要十个小时，存储效率直接影响了开发进度。

如果说大规模的异构数据，是肆意奔涌的激流，存储系统就是承载着数据流量的河道，其宽阔坚固程度直接决定了数据是否会淤塞甚至停滞，从而卡住 AI 大模型的生命线。可以说，整个大模型行业的生产力和效率，都被存储规定了“上限”。

这也是为什么，存储作为 AI 数据基础设施，受到越来越多关注。

11 月 29 日，“数智创新 AI 未来”2023 中国数据与存储峰会在北京举办。曙光存储发布了面向 AI 大模型的存储解决方案。

借此机会，我们一起了解一下，AI 大模型浪潮来袭，给存储带来的承载挑战，以及曙光存储是如何为智能产业引航，助推 AI 大模型百舸扬帆。

AI 大模型驶入产业深水区，传统存储的数据之殇

最近我去了一趟云南，发现不仅北上广等科技重地的大模型建设如火如荼，在昆明、大理等二三线城市，甚至边疆地区，都在积极地探索大模型行业应用。

各行各业走向智能化，几乎都点燃了对大模型的炽热兴趣。这时候，一个关键问题也显露了出来：AI 大模型的产业化风潮，需要升级存储基础设施。

模型开发者的每一次训练，数据都在向存储系统发起多种挑战：

数据洪潮的冲击。随着大模型的产业落地，许多行业都开始训练专属模型，大量行业数据、专有数据、新的标注数据被输送给大模型，澎湃的数据数量对存储系统提出了挑战。云南某数据科技公司提到，行业大模型要用高质量的数据集、文档、客户私有数据进行训练，每个项目都是单独成立标注组，数据规模持续增大，存储诉求和成本也随之增加。

2.数据淤塞的桎梏。超大规模数据预处理的速度慢、耗时长，采集、归类、搬迁等过程费时费力，一旦存储性能跟不上，海量文件吞吐慢、多读少写，检查点 Checkpoint 等待耗时久，会延缓开发进度，增加开发成本。

3.数据复杂的暗涌。此外，AI 大模型要用到大量异构数据，文件格式复杂、数据集类型多样，数据数量激增，传统存储难以应对数据复杂性的挑战，容易产生消化不良的问题，造成数据访问效率低，从而造成模型运行效率下降，训练算力消耗增多，无法充分“压榨”昂贵的 GPU 算力资源。比如云南当地的太阳观测站，通过让 AI 科学计算模型学习海量图片，呈现太阳真实的样子，每天产生 2TB 的图片数据，当前存储的吞吐效率低，会导致训练集加载慢、数据处理周期长，拖慢研究进程。

4. 数据安全的隐忧。目前，AI 大模型已经深度渗透各行业之中，在训练开发及应用落地过程中需要海量的数据支撑，其中包含行业或个人敏感信息的数据，如果没有合理的数据脱敏和数据托管机制，则可能造成数据泄露，给行业和个人造成损失。同时，模型安全风险也需重视，比如，插件可能被植入有害内容，成为不法分子欺诈和“投毒”的工具，危及社会和产业安全。

AI 大模型驶向产业深水区，欣喜的是，这一技术创新正在高度融入千行万业，满足智能化需求，生命力旺盛。担忧的是，数据工程贯穿大模型的全生命周期，从收集、清理、训练、推理部署、反馈调优等各个阶段，都需要用到大量数据。存储成为瓶颈，意味着 AI 大模型的各个阶段都需要消耗在大量的数据淤塞、故障、低效之中，这会让大模型的开发周期与综合成本极高，是产业所无法承受的。

疏浚存储“河道”，避免数据淤塞，为大模型的产业扬帆提供支持和滋养，曙光存储带来的新解决方案，让我们发现了有价值的参考案例。

高质数据“航道”，曙光存储给大模型行业一个答案

经过与 AI 大模型开发者的交流，我得出了一个清晰的结论：构建一个适配 AI 大模型的全新存储体系，已经不再是需要讨论的问题，关键是谁能率先完成方案升级、给出实用解法。

洞察行业的存力需求，曙光存储打造了以 ParaStor 大模型专用存储为底座的 AI 大模型存储解决方案，写下了自己的答案。

曙光存储 AI 大模型存储集群，拥有异构融合、极致性能与原生安全三大领先能力。

首先，可提供千亿级文件存储服务，接近无限扩展规模。针对数据访问协议多样性问题，同时支持文件、对象等多种存储协议，避免数据跨存储系统复制。

其次，针对 AI 大模型开发过程中对数据处理效率的高需求，曙光存储 AI 大模型存储集群可提供多级缓存加速、XDS 数据加速及智能高速选路等多种数据 IO 性能优化能力。

最后，为保障全流程数据安全，曙光存储节点还提供芯片级安全能力，并支持国密指令集，通过多级可靠性，保障存储集群在训练开发全周期内稳定运行，符合政策和未来安全趋势。

有人可能会问了，市面上的存储方案这么多，有的也宣传为模型开发提供专业支持。曙光存储的方案有哪些差异化价值？

如果对各家的技术名词和产品细节云里雾里，大家不妨用几个词，记住曙光存储 AI 大模型存储集群的差异化价值：

1.先进。异构融合，极致性能，芯片级原生安全，展现了曙光存储的技术先进性，也针对性地解决了大模型开发的数据量大、数据形态复杂多样、吞吐效率低、存算时间长等实实在在的痛点。

2.可靠。高性能 AI 数据基础设施基于曙光存储的自研创新，更加可靠安全，符合信创政策和未来安全趋势，可以帮助国内大模型服务商规避海外供应链风险，从供应链安全、数据安全、模型安全等多个角度，为大模型产业的发展护航。

3.全面。曙光存储打造了涵盖从网络、计算到平台的全维度 AI 解决方案，支持训练开发全周期内稳定运行，可以降低综合成本，让大模型开发者和行业客户无忧前行。

总结一下，在曙光存储构建的高质“航道”上，大规模数据高效吞吐，AI 大模型加速开发，因此，行业和企业可以快人一步，将大模型与垂直场景和业务深度融合，率先获得通往智能时代的船票。

第五范式的新起点，看百舸争流、万业扬帆

图灵奖获得者吉姆·格雷（Jim Gray），曾提出第四范式，核心是数据驱动。而随着大语言模型“智能涌现”，“智能驱动”的第五范式，更侧重于数据和智能的有机结合，成为支撑科学革命、产业革命的新底层逻辑。

所有过往，皆是序章。AI 如此，存储亦如此。

此次大会上，凭借 20 年行业深耕，与在 AI 存储技术突破、液冷存储研发等领域的领先实践，曙光存储公司总裁惠润海获评“存储先锋”。在其领导下，多年来曙光分布式文件存储在市场中持续领跑，市场份额名列前茅。面向 AI 大模型的数据存储解决方案，让曙光存储又一次站到了时代前沿。

曙光存储的 AI 大模型存储集群，正是积极践行范式转换，对应数据新范式，用数据基础设施的飞跃，助推大模型产业化的涨潮。

接下来，在存储行业的新范式、新起点，在曙光存储的高质数据“河道”上，我们会看到，行业大模型百舸争流，AI 应用千帆竞渡，加速驶向智能中国。

发布于: 刚刚阅读数: 3

原文链接:【http://xie.infoq.cn/article/88cdb4b9477e4b7f40335da1e】。

脑极体

关注

还未添加个人签名 2020-06-12 加入

还未添加个人简介

发布

暂无评论

创作场景

AI 大模型驶向产业之海，需要高质数据“河道”引航

脑极体

评论