写点什么

无光不 AI:AI 算力,向光而逐

作者:脑极体
  • 2025-08-04
    天津
  • 本文字数:1717 字

    阅读完需:约 6 分钟



在全球人工智能大会 WAIC2025 上,AI 智算中心超节点无疑是最火爆的话题。各家都在发布自己的超节点方案,其中华为昇腾 384 超节点作为官方认证镇馆之宝,成为各大媒体、国内外观众的必打卡点之一。


在大模型时代,AI 算力必须肩负起大规模并行计算的任务。依托单卡完成的 AI 计算必须走向集群化计算。产业界正在发生从万卡集群向十万卡集群演进的趋势。而大规模 AI 集群,必须使用光互联方案。随着 AI 计算集群规模越来越大,性能越来越高,散热和供电等问题会非常棘手。以光纤完成的光互联可以减少线缆的利用,降低散热、供电等方面的需求。可以说,光互联是大规模 AI 集群组网的必选方案。

昇腾 384 超节点就是选择了光互联之路,才能驯服如此庞大的 AI 巨兽。昇腾 384 超节点采用了 384 颗昇腾 NPU,用到了总长度达到 316 公里的 3168 根光纤,通过 6912 个星云光模块实现 NPU 全 MESH 互联。如此规模的光互联组网中,光链路的端面脏污问题就成为计算系统能够支持长稳训练的最大痛点。


(数据来源:2025 芯光论坛,华为云)

一方面,端面脏污可能带来计算集群的网络闪断频发故障率奇高。根据 2023 年华为云现网 2 万+个链路闪断率统计分析,系统初始闪断率达到 37.27%,而光链路端面脏污是闪断的主要根因。

端面脏污带来的闪断问题,可能给计算集群带来的损失也非常大。根据科大讯飞万卡集群分析,集群设备空转 7 天的损失可以达到 1548.61 万元。

而想要识别光链路的端面脏污,传统方法现网运维存在着工程量和代价巨大的问题。传统检测手段检出率只有 48.3%,假如面对超节点超过 11 万条光链路的工作量,传统运维检测方式根本无法入手。

昇腾 384 超节点想要实现以系统破单点的算力突围,就必须克服掉光链接的运维与检测难题。为此,超节点配置了 6912 个星云光模块,实现了以智能运维检测,突破 AI 算力极限的一次“逆袭”。


数智化系统的三要素是存、算、网。三者相辅相成,互为犄角。在大规模 AI 算力的集群式组网中,网络联接能力发挥着关键的作用,甚至可以成为破局的关键。在打造昇腾 384 超节点的过程中,华为在光通信领域的技术力得到了充分释放,实现了以长板克短板的战略化思维。而具体实现这一目标的技术王牌,就是华为星云光模块。


昇腾 384 超节点能够达成,依靠的是超大规模的光链路组网。每个昇腾 384 Pod 配置了 6912 个星云 400G 光模块,其中 5376 个用于 scale up,1536 个用于 scale out 网络。

星云 400G 光模块的作用在于可以有效解决智算中心网络的一系列瓶颈与难题,实现超大规模 AI 计算集群的系统性突破。

其中,面向端面脏污等问题,星云光模块极具创造性地实现了“星云智检 StarSensor”


星云 400G 光模块具备光口、电口健康度诊断、自动脏污检测等功能。通过增强型光模块级压测,星云光模块可以更容易识别出光链路脏污引起的突发误码,从而有效降低闪断风险。根据相关数据,星云 400G 光模块的脏污检测算法,可以实现光链路端口检测准确率达到 90+%,实现分钟级检测,从而解决现网闪断的难题。

对端面脏污的高精准智能化识别,可以全面提升光链路的运维效率,让超大规模 AI 算力真正落地,提升系统的可用性,实现了对超大规模 AI 计算集群的 360°无死角防护。

开启星云光模块的星云智检功能后,华为云现网数据表明链路故障报错率降低了 13.9 倍。

星云光模块的这道“光”,照亮了中国 AI 算力的前路。它支撑超节点成功构筑了全球规模最大、技术力最为领先的 AI 计算集群,一举超过了此前备受瞩目的英伟达 NVL72。更重要的是,它印证了以系统破单点这条 AI 算力路径的可行。


在作为底座的 AI 算力层面,发现随着华为昇腾 384 的出现与成熟,中美在 AI 算力领域呈现出各有所长,基本持平的发展态势。凭借华为在光通信领域多年的积累,面向智算中心的 AI 原生光互联解决方案星云光互联成为一张王牌,帮助超节点构筑起面向未来的 AI 算力底座。

以此为契机,中国的光通信产业正发生着快速的升级与迭代。伴随着光进铜退的大势所趋,光互联成为 AI 算力发展的关键助力。星云光模块不仅能够帮助昇腾 384 超节点驯服 AI 算力的巨兽,更能够帮助中国智算产业实现整体性的突破与升级。

未来的 AI 竞赛,将会是结构性、体系化的竞赛。星云光互联这样的技术王牌,将会在可见的未来里发挥出更大的牵引效应,成为智算中心建设与 AI 计算集群组网过程中的标配。

逐“光”而行,正成为中国 AI 突破限制的可行之路。


发布于: 刚刚阅读数: 2
用户头像

脑极体

关注

还未添加个人签名 2020-06-12 加入

还未添加个人简介

评论

发布
暂无评论
无光不AI:AI算力,向光而逐_AI_脑极体_InfoQ写作社区