给大模型穹顶,树一根存力支柱
建一座殿堂之前,首先要立起足够支撑其屋顶重量的支柱。
段玉裁在《说文解字注》里说,“柱之言主,屋之主也”。也就是说,支柱是一座屋子最主要,最基础的东西。支柱不牢,再美好的雕梁画栋也会归为泡影。
在今天,我们正在以拳拳之心建设一座名为 AI 大模型的穹顶。预训练大模型通用性好、泛化性强的优势,让各个行业都看到了走向智能化的曙光,点燃了社会经济的炽热追寻。根据相关数据,几天之前在上海举办的世界人工智能大会上,就有超过 30 款中国 AI 大模型集中亮相。通观整个中国,更是来到了“百模大战”的盛况。根据科技部新一代人工智能发展研究中心等机构发布的《中国人工智能大模型地图研究报告》显示,中国研发的大模型数量排名全球第二,并且在一些垂直领域实现了全球领先。
仰望大模型的穹顶固然重要。但此时更该去思考,这座穹顶的支柱是否坚实可靠,能撑起多大的重量?在传输、算力两大 AI 基础设施之外,存力对大模型发展的支撑意义,正在引发更多关注。
(华为数据存储产品线总裁 周跃峰)
7 月 14 日,大模型时代华为 AI 存储新品发布会举办。期间,华为详尽展示了大模型带给存储底座的挑战,以及华为在技术、产品、生态上选择的应对之道。
华为数据存储产品线总裁周跃峰在“数据新范式,释放 AI 新动能”主题分享中表示:“大模型时代,数据决定 AI 智能的高度。作为数据的载体,数据存储成为 AI 大模型的关键基础设施。华为数据存储未来将持续创新,面向 AI 大模型时代提供多样化的方案与产品,携手伙伴共同推进 AI 赋能千行百业。”
当世界醉心于建设大模型的穹顶,存储产业需要先树起能够支撑智能世界的支柱。面对大模型时代,华为存储选择了自己的担当。
假想:缺乏存力支撑的大模型时代会怎样?
我们都知道,发展 AI 大模型还有很多层面的问题需要解决。比如可供训练的中文语料、数据集不足;大模型过于依赖人工调优,落地成本过大;对高端算力有依赖,算力资源稀缺等。
但在这些问题之外,我们必须正视这样一个现实:假设大模型缺乏适配的存储产品与存储资源,那么结果可能也不容乐观。在华为看来,在 AI 发展的不同领域与阶段,面临着数据存储方面的 4 大挑战。
首先是数据归集太慢。大模型有着庞大的数据规模,且需要用到大量的非结构化数据进行训练。这就导致 AI 训练需要从跨地域的多个数据源,进行大量的原始数据拷贝,如果这个过程过于复杂,效率过低,就会导致 AI 开发进度被搁置。尤其会严重限制那些本地数据规模庞大的行业落地大模型。
其次是数据预处理周期长。AI 训练首先需要进行大量的数据预处理。尤其大模型数据规模庞大,数据预处理的工作量也随之递增。一个典型的百 TB 级大模型数据集,数据预处理工作经常要超过 10 天,占 AI 数据挖掘全流程的 30%。如果没有针对性的存力帮助,随着模型的不断增大,数据预处理的工作量、工作时长以及消耗算力将持续增大,导致大模型的训练愈发艰难。
然后是数据集加载慢,训练易中断。大模型的训练参数、训练数据集规模特别庞大,这就导致多种状况都会影响到数据集的加载,从而导致模型训练的中断甚至重来。尤其在训练复杂的模型结构时,数据加载不顺畅,易出错会导致巨大的工作开销增加。
比如根据相关数据,OpenAI 在 GPT-4 的训练使用了约 25000 个 A100 GPU 的算力,进行了 90 到 100 天的训练。其模型 flops 利用率仅有 32%到 36%。大量故障导致重新启动检查点,就是其算力利用率低的主要原因。如果不能解决这个问题,大模型不断发展就意味着无尽的算力资源与人力资源将消耗在数据故障当中,让大模型的应用成本难以承受。
此外还有一个挑战,是模型的推理实时性和精准度低。大模型在推理部署时,需要将最新的数据随时联接进来,而目前主流方法训练时间长且成本高。如果不能克服这个挑战,将让大模型的推理部署效果大打折扣,从而影响智能化的最终落地效果。
由此可见,大模型时代各家不仅需要比算法,比算力,比数据,更需要比存力。具体而言,就是比拼存储资源,比拼存储体系应对大模型需求的准确性,比拼在数据侧提升大模型训练推理效果的软硬件适配。如果缺少存力这根支柱,就像缺少 AI 算力、缺少数据、缺少落地场景一样,大模型时代是根本是不成立的。
建立:针对 AI 大模型的存储支柱
好在,针对这样的现实,存储产业已经行动了起来。比如面对大模型时代的 AI 存储,就可以提供 4 大能力:针对数据归集难题,华为可以通过数据编织能力,实现跨系统、跨地域、跨云的全局统一数据视图和调度;针对数据预处理周期长的问题,华为打造了近存计算能力,让数据在存储完成数据准备,更好释放 AI 算力资源;针对训练易中断等问题,华为通过预处理加速、AI 训练/推理加速等技术,实现训练过程 0 等待 。
把这些长期建设的技术能力与针对性解题思路聚合在一起,最终形成能够应对大模型存力挑战,适配大模型的开发与部署需求的产品与解决方案——这就是华为存储为大模型穹顶,建立存储支柱的方式。
这些技术能力,最终凝结成了本次发布的两款产品:面向 AI 全流程,提供领先性能的 OceanStor A310 深度学习数据湖存储,以及能够大幅降低 AI 使用门槛的 FusionCube A3000 训/推超融合一体机。
面向数据量不断扩张,模型日新月异的 AI 大模型,高性能、有针对性的数据存储底座是发展的必要条件,OceanStor A310 深度学习数据湖存储就为此而生。其具备超高可扩展性,混合负载高性能,多协议无损融合互通,能够实现数据归集、预处理、训练、推理的 AI 全流程海量数据管理。
面对 AI 计算与 HPC 合流的产业趋势,OceanStor A310 可以提供面向 AI、HPC、大数据场景的同源数据分析能力,最大支持 4096 节点扩展,单框 5U 支持业界最高的 400GB/s 带宽以及 1200 万 IOPS 的最高性能,支持多协议无损融合互通,实现数据的 0 拷贝,全流程效率提升 60%。OceanStor A310 存储通过近存计算,可以实现训练数据的预处理,预处理效率提升 30%。利用全局文件系统 GFS,接入分散在各地域的原始数据,简化数据归集流程,从而将华为应对 AI 大模型的存储能力集中释放,一次性接触 AI 开发全流程的数据难题与存力挑战。
未来,AI 将融入千行百业,重塑千行百业。这也就导致能够适配更多行业场景、应用场景的超融合一体机将成为产业智能化进程中的刚需。
为此,华为推出了 FusionCube A3000 训/推超融合一体机,面向行业大模型训练/推理场景,针对百亿级模型应用,集成了 OceanStor A300 高性能存储节点、训/推节点、交换设备、AI 平台软件与管理运维软件,为大模型伙伴提供拎包入住式的部署体验,实现一站式交付,做到开箱即用,2 小时内即可完成部署,可以说是打通了大模型落地的最后一公里。
训/推节点与存储节点均可独立水平扩展,以匹配不同规模的模型需求。同时 FusionCube A3000 通过高性能容器实现多个模型训练推理任务共享 GPU,将资源利用率从 40%提升到 70%以上。
在这两款产品的加持下,无论是探索智能化天花板的大模型开发训练,还是实现智能化落地的场景化部署,AI 大模型都将得到有力的存力支持。
存力支柱,就这样树立在 AI 大模型时代的穹顶下。
未来:存储支柱向上生长,AI 穹顶指向天宇
面向纵深性、长期化的 AI 大模型发展,存储产业如何提供持续的支持与帮助?对于这个问题,华为在发布会当中也给出了自己的答案。在华为看来,大模型爆发并不应该仅仅成为存储产业的短期机遇。长期来看,AI 与存储应该彼此促进,互为助力,形成长期积极发展的良性局面。
为此,华为首先将积极投入未来,持续在 AI 数据存储方面进行研究和准备。发布会现场,周跃峰与华为天才少年张霁进行了对话,讨论了华为在数据归集、数据训练、数据推理等方面如何提升存储能力,帮助 AI 开发与落地做到更好。
比如说,面向跨地域归集的数据安全流转难题,华为正在研究被称为“数据方舱”的技术。这项技术使得数据及其访问权限、凭证信息实现全封装,从而确保在流转过程中数据处于安全、可靠的环境当中。
这类对于未来 AI 技术发展趋势的预判与研发投入,将成为华为在 AI 存储领域持续打开产业空间的钥匙,也将成为推动存储产业迎接 AI 时代机遇的新动力。
另一方面,想要适配 AI 大模型带来的产业发展空间,存储产业必须依靠合作,建设生态,从而才能够向用户提供综合性、行业性的解决方案。
在生态化发展的驱动下,用户开发大模型、应用大模型过程中多样性、复杂性的软硬件需求将得到持续满足,从而确保模型开发、落地畅通无阻。
整体而言,华为存储既为火爆的 AI 大模型,提供了即刻能够解决问题、实现资源满足的存储解决方案,也着眼未来发展,在存储技术、生态上进行不断的革新、生长。AI 大模型与存储底座,就像是穹顶与支柱的关系,支柱越来越高,穹顶的高度也自然提升,智能化的极限才能不断被打破。
为了能够建好 AI 大模型的穹顶,华为存储带来了三方面的价值,真正实现了以存储为支柱的产业担当。
首先,面对数据归集、数据训练中断等一系列真实存在 AI 训练部署难题,华为存储以更好的技术带来了解题思路,提供了应对策略,从而在存储与 AI 两个技术领域间架起了桥梁,达成了供需之间的沟通。
其次,华为面向大模型训练与落地,都提供了资源更加充沛、利用更加合理的存储底座。这将有助于优化大模型的综合成本,提升各行业利用大模型,适配大模型的可能性。
再次,华为在存储领域推动的开放合作方案,可以推动存储生态与 AI 生态相互促进。让更多软硬件企业加入到 AI 大模型的机遇中,分享智能时代红利,从而全面促进存储产业的发展与进化。
向下扎到根,向上捅破天的 AI 存储支柱,在这些价值的凝聚下逐渐成型。
用好这根支柱,可以支撑 AI 大模型发展,提升大模型从训练到推理的全流程效率。
发展这根支柱,可以助力千行百业的智能化落地,打造出智能时代新的基础设施。
站在这根支柱上,我们能够看到第四次工业革命的晨光破晓。
版权声明: 本文为 InfoQ 作者【脑极体】的原创文章。
原文链接:【http://xie.infoq.cn/article/440950bbc7218f67d62490ac3】。
本文遵守【CC-BY 4.0】协议,转载请保留原文出处及本版权声明。
评论