写点什么

三力四总线,为智能世界画一张蓝图

作者:脑极体
  • 2023-09-29
    天津
  • 本文字数:3248 字

    阅读完需:约 11 分钟

高盛研究公司(GSR)的数据报告指出,新兴的生成式人工智能工具,将推动全球的国民生产总值(GDP)增长 7%,带来约近 7 万亿美元的 GDP 增长,并在未来使生产力提高 1.5%。这样的价值空间,将推动大模型等相关 AI 产品市场规模达到 1500 亿美元,比目前全球软件产业规模还有高出 22%。

价值巨大,能力广泛,且能通过“智能涌现”现象带来更多额外想象力的 AI 大模型,很有可能成为新一轮工业革命的触发点。在今天,每个行业、每家企业都在畅想智能世界的到来,以及自身在其中扮演的角色。

但智能世界就像一座大厦,人们畅想的大厦现代化的设计,优美的环境,最终的入驻体验等。但在真正建造这座大厦之前,首先需要给大厦画好蓝图,建好骨架,夯实地基,否则再美好的智能化畅想都只是空中楼阁。

符合大模型发展需求的基础设施架构应该如何建设?智能时代的蓝图应该如何描绘?

这些问题,在前不久的华为全联接大会 2023 能够找到答案。

9 月 21 日,华为全联接大会 2023 期间,华为董事、ICT 产品与解决方案总裁杨超斌发表了“拥抱 AI 时代,构筑智能世界数字基础大设施”的主题演讲。其中提出大模型进入百模千态的 AI 新时代,打造和应用好 AI,关键是要构筑智能世界数字基础大设施。

杨超斌表示:“三力四总线方案为行业智能化升级赋能,AI 集群的大算力、大存力、大运力加速 AI 大模型打造,多场景 AI 算力和行业智能总线实现智能无处不在。”


简而言之,三力四总线方案就是大模型发展所需的大设施,就是一张智能世界的蓝图。

只有基于大设施的稳固推进,坚定建设,大模型的价值才能最终被充分激活,也只有在合理的蓝图规划与 ICT 基础设施建设支持下,智能时代才能真正到来。

一张蓝图画 AI:智能世界的基础设施需求

从 2012 年,深度学习作为有效 AI 路径被证实开始,这种大规模数据+暴力计算模式所带来的存、算、网基础设施需求就被广泛重视。到 2018 年预训练大模型机制开始兴起,基础设施对于 AI 发展的重要性更是史无前例。时间来到今天,大模型花开遍地,仅仅在中国就呈现出百模千态的发展盛况。这时我们更应该看到 AI 发展进程中基础设施蓝图的重要性。

推进大模型产业发展就像设计一座建筑,不能随心所欲,这里盖一堵墙,那里开一扇窗,而是必须优先进行统筹设计,合理规划大模型基础设施的全面完善和协同发展。否则大模型技术与产业很容易出现木桶效应,因为某项基础设施的缺失而导致整体进度的放缓与失效。

具体来看,目前大模型发展对基础设施需求主要分为三方面:

第一个关键词是“大”。AI 模型的参数变大,对于计算、存储、网络资源需求也急剧扩大。大模型需要构筑具备大算力、大存力、大运力的“AI 集群大设施”,这一点已经是当务之急。

第二个关键词是“全”。AI 大模型就像其他数字化应用一样,对 ICT 基座的需求是全方位的。存、算、网三大领域缺一不可,不能偏废。

第三个关键词是“实”。AI 技术要通过深度融合千行万业来获得价值。而 AI 最终的推理部署场景,很多发生在工厂、企业园区、小微企业当中。这些场景的联接能力,决定了 AI 大模型落地向实的最后一公里。

从大、全、实三个方向出发,AI 大设施必须能够克服一系列严苛挑战。好在华为已经基于三力四总线,画出了一张架构完善、能力坚实的 AI 大设施蓝图。

立支柱:以三力支撑大模型时代

设计一座建筑,首先要考虑其纵向的受力能力,也就是我们所说的“支柱”。支柱不稳,地动山摇。因此柱子的质量是决定一座建筑能建多高,建多牢的关键。

就像上文所说,大模型的支柱并非只有一根,而是需要存、算、网三大领域协同发力,以三根支柱建设其大模型,大设施的超稳定结构。为此,华为发布了“大算力、大存力、大运力”解决方案。以三立,打造领先的 AI 大模型训练集群,支撑起顶天立地的大模型时代。

在算力方面,华为通过架构和系统创新,构筑面向多场景的大算力平台,突破 AI 大模型训练的算力瓶颈。例如,同在华为全联接大会期间,面向万亿参数的大模型训练需求,华为推出了全新架构的昇腾 AI 计算集群——Atlas 900 SuperCluster。其可支持超万亿参数的大模型训练,并且采用了全新的华为星河 AI 智算交换机 CloudEngine XH16800,借助高密 800GE 端口能力,两层交换网络即可实现 2250 节点的超大规模无收敛集群组网。

同时,Atlas 900 SuperCluster 集群使用了创新的超节点架构,极大提升了大模型的训练能力。综合华为在计算、网络、存储、能源等领域的综合优势,依托从器件级、节点级、集群级和业务级全面提升系统可靠性,华为能够实现将大模型训练稳定性从天级提升到月级,满足大模型最为核心的算力稳定性需求。

在存力方面,华为发布了 AI 知识库存储 OceanStor A800。其可以通过创新架构来构建高性能的数据存储能力,全面提升大模型训练效率和推理响应时间。


在运力方面,华为发布了业界首款高运力 DCN 星河 AI 智算交换机,和业界容量最大的超宽全光智能 DCI 方案,从而能够以大规模,大容量的网络运力,最大化释放 AI 算力。 华为星河 AI 网络解决方案,拥有 10 万卡级组网和超 95%负载率的超高吞吐,并且具备网络故障预测和秒级定界修复的长稳可靠,可以为智算中心等场景带来适配大模型训练需求的网络运力保障。

大算力、大存力、大运力这三根支柱,可以支撑起 AI 模型支持扩大、所需数据量指数级提升的未来发展。真正做到为未来画蓝图,为未来的大模型建设今天的大设施。同时,华为还改变了传统的服务器堆叠模式,以系统架构创新打造 AI 集群,实现算力、运力、存力的一体化设计,突破大算力瓶颈。

三力为柱,让大模型参天入云,智能化发展上不设限。

架横梁:以四总线联接智能化落地

大模型技术既要顶天,也要立地。这就是指大模型技术需要落地应用,在最终的行业场景中释放自身价值。

在大模型落地的过程中,却会发现很多应用场景并不能很好实现大模型的推理部署,这就需要联接千行万业的智能总线。

如果说算力、存力、运力是大模型的支柱,那么我们可以将智能总线理解为大模型这座房屋所需要的横梁。横梁将立柱的支撑力结合在一起,组成整个屋宇所需要的立体结构。

面向大模型的落地挑战,华为推出了“智能联接总线”方案,并且已经将其应用到了广域、园区、工业、微企四类典型行业场景。

在广域网络领域,电力、交通、城市等广域场景中有大量行业 AI 应用。比如电网差动保护、铁路视频分析、全息交通路口等,他们都需要大带宽、低时延、安全隔离的网络。华为推出轻量化、免设计的智能“SE-OTN”产品,从而实现广域智能总线的端到端超宽无损联接快速部署,保障海量场景实现智能化落地。

在园区场景,各式各样的 AI 能力正在共同定义未来园区。接下来,我们将看到大量 AI 应用完善园区管理、辅助园区办公、实现新一代人机交互等。这些未来景象的前提,是具备高带宽、全覆盖和智能化的园区网络。为此,华为带来了智能万兆园区解决方案,为行业的园区客户提供高品质的园区网络体验。

在工业场景,工业智能化被誉为是 AI 应用中的明珠。AI 质检、AI 巡检、智能 AGV、智能工业分析等应用,将极大提升工业生产力,推动工业体系升级。而 AI 能力的应用,也给工业场景带来了大带宽、确定性低时延、超高可靠的网络需求。华为通过智能 TSN 交换机与工业光网、Wi-Fi 7 等新技术协同,打造了泛在超宽工业智能总线,从而实现数据上得来,智能下得去。

在小微企业场景,未来中小企业通过 AI 技术提升效率,强化生产力将成为潮流。但小微企业没有独立的网络维护团队,更需要一站式服务与极简运维体验。为此,华为推出一站式微企智能套装,帮助小微企业提升网络接入体验,并实现云端 AI 应用落地,推动企业的智能化办公和生产。

配合三力四总线的建设,华为还推出了一系列 AI 相关计算产品。包括 Atlas 系列集群、训练和推理服务器、训练推理一体机、AI 加速模块等,从而满足云、边、端各个场景的 AI 模型训练与部署需求。

在 AI 大设施的建设目标下,华为坚持“硬件开放,软件开源,使能伙伴,发展人才”的计算战略,已与 30 多家硬件伙伴、1300 多家软件伙伴,联合推出了 2600 多个 AI 场景方案,并已打造 50 多个大模型,在多个行业场景实现落地。


智能世界,蓝图为先。三力四总线的筑造和落地,相当于为大模型时代画出了清晰的基础设施建设蓝图,为智能世界造就了坚实的发展底座。

发布于: 刚刚阅读数: 3
用户头像

脑极体

关注

还未添加个人签名 2020-06-12 加入

还未添加个人简介

评论

发布
暂无评论
三力四总线,为智能世界画一张蓝图_华为_脑极体_InfoQ写作社区