面向 AI 之海,行业智能化需要一座“运力灯塔”
在 AI 大模型的加速成熟下,AI 时代正在汹涌而来。我们都知道,数字化基础设施有存、算、网三大支柱。只有在 AI 算力、AI 存力与 AI 网络运力的紧密配合下,AI 大模型才能够得到充分的释放,焕发自身的价值。
面对动辄“万卡集训”“万里部署”“万亿参数”的 AI 大模型,网络运力是整个智能化体系中不容忽视的一环。而 AI 时代的网络将如何发展,对整个业界就像探索一片广袤未知海洋,广阔却又无界,需要一个明亮的灯塔指引整个产业发展方向。
不久之前,国家数据局印发了《数字中国建设 2024 年工作要点清单》,其中重点提出,要加快推动数字基础设施建设扩容提速,尤其是 AI 技术相关的基础设施,以及先进网络基础设施两大领域。而巧合的是,满足 AI 大模型训练部署需求的数据通信网络基础设施,恰好是两大领域的交集,堪称“网络强国”与“人工智能+”两大国家级行动的时代交汇点。
从企业层面看,网络基础设施是 AI 大模型发展的必要条件。
目前阶段,AI 大模型训练开始从万卡集群向五万卡、十万卡集群升级,比如某欧美知名科技公司,最近已经开始在配备 10 万张高端 GPU 的 AI 集群上进行模型训练。而大模型所需的数据训练,对网络丢包非常敏感,仅有 0.1%的微小丢包率也可能导致训练效率降低 50%。而一旦训练集群出现网络故障,往往需要花费大量时间进行网络故障检测和修复,极大损失了 AI 项目进度。对于企业来说,强大的网络能力就是 AI 竞争力。
从东数西算的整体国家战略层面看,运力升级是必不可少的基础设施。
在东数西算所打造的算力网络体系中,AI 算力需要跨越万里,像水、电一样源源不绝。算力的万里调度,模型的万里部署,都离不开广域网能力的升级。
可以说,无论从企业还是国家战略的整体视角来看,符合 AI 时代需求的网络能力提升,都是当之无愧的“运力灯塔”。
那么,应该如何建立面向 AI 之海的“运力灯塔”?
想要在大风大浪的海边,建立一座坚固的灯塔,必须实现两点:地基要牢,栋梁要稳。
带着这样的观点来思考 AI 网络,会发现其必须具备两个先决条件。首先是 AI 技术如何与网络能力充分融合,让网络能力实现飞跃升级。这是一个技术层面横向打通的问题,我们可以称之为“运力灯塔”的地基。其次是如何让 AI 网络这种全新的模式真正走向应用,满足现实产业环境中,数据通联接多样化、复杂化的智能需求。这是一个产业层面纵向建立的问题,我们可以称之为“运力灯塔”的栋梁。
什么样的网络可以兼顾“地基”与“栋梁”?我们不妨将目光投射到已然成为近期热点的“星河 AI 网络”。
(华为数据通信产品线副总裁赵志鹏在星河 AI 网络媒体沟通会上发表主题演讲)
华为星河 AI 网络之所以受到关注与重视,不仅仅因为他是网络领域的绝对领导者华为面向智能时代推出的最新网络方案,而且是因为它真正解决了 AI 时代先进运力的“地基”与“栋梁”问题。
所谓地基,是指星河 AI 网络充分实现了“以智赋网”。其集成了大量 AI 技术,走向了 L4 高阶自动驾驶,可以通过网络大模型来智能识别语言,实现意图驱动网络的运维管理。
具体而言,华为星河 AI 自动驾驶网络可以从一网一图一脑三个方面来实现意图网络。
首先,一网指的是智能网元。网元作为整个网络的神经末梢,对业务、流量、应用等全量数据进行毫秒级微观感知,构筑全量数据信息。同时,还可以实现小模型边缘推理,实时下发决策,提升决策效率,让网络的实时化控制成为可能。
一图作为数字孪生底座,实时获取网络信息,形成网络控制、自动化、智能化的基础。通过实现网络多维实时可视及优化仿真,为运维人员提供低成本试错方案、加快创新迭代,同时叠加体验闭环优化能力,为提高网络智能运维水平提供基础。
一脑,则是指星河 AI 网络大模型应用 Net master,构建了智能学习,自动决策,智能优化的大脑。真正实现通过自然语言精确理解意图、识别用户意图,并完成网络需求转化,按需调用 AI agent,将要求下发给数字孪生,协同数字孪生层和智能网元层,共同实现端到端网络的智能化。
举个例子,在网络运维管理层面,用户将告别耗费大量人工成本、时间成本的网络故障检测。星河 AI 网络能够实现分钟级给出排障步骤,并进行故障自动闭环,分钟级解除故障,真正实现分钟级感知网络异常,90%根因定位,5 分钟实现故障自闭环,从而实现网络的高度自智。
再从业务创新层面来看,星河 AI 网络打造了网络数字地图+Net Master 加持的智慧助理。它能够具备智慧客服功能,通过自然语言交互来实现咨询类问题的自助化解答,从而实现 88%咨询问题由智能客服处理,效率提升达到几十倍。
另一方面,为了搭建运力的栋梁,星河 AI 网络对整个产品体系进行了升级,并且围绕数据中心网络、广域网、园区网络、网络安全四大领域,设计了一系列的产品解决方案。
在 AI 大模型的“原产地”数据中心当中,星河 AI 网络面向 AI 大模型训练过程中的一系列痛点,带来了更加高效、可靠的网络能力,以及智能化的运维服务。比如说,星河 AI 网络利用 NSLB 网络级负载均衡的算法创新,实现了网络的均衡调度能力,相比业界在 AllReduce 上提升了 10%的性能,让每一点珍贵的 AI 算力都发挥出最大价值。
目前,科大讯飞已经利用星河 AI 网络,实现了 AI 训练集群由千卡向万卡过渡,并且训练时间缩短 17%。华夏银行则利用星河 AI 网络,实现了业务上线效率提升 100 倍,实现快速为客户提供更加多样性的服务。
在 AI 千里奔腾的广域网络中,星河 AI 网络可以实现数据更多、更快、更均衡的调度,全面提升网络运力。这是因为解决方案中增加了智能算力卡,从而实现了流量行为自学习,AI 智能基线监控,出现业务流量异常时,可以秒级故障感知与上报,大幅降低业务风险。同时,星河 AI 网络还基于全局的网络调度算法,确保实现基于最低时延的路径选择,满足 AI 时代数据流调度需求。在中信银行,星河 AI 网络将网络的整体运力提升了 30%。
行业智能化的最后一公里,必然发生在企业园区当中。能够实现园区网络的智能化升级,对于 AI 与行业的结合至关重要。在园区网络方面,星河 AI 网络优化了天线技术和算法,在保证同等覆盖的前提下,实现了信号强度和覆盖较比业界提高 20%。
在澳门科技大学,应用星河 AI 网络后,学生、教师以及管理层用户的满意度普遍得到提升。在京东,星河 AI 网络满足了对无线网络体验与信号抗干扰性的要求,帮助京东实现了全无线高效办公的效果。
AI 意味着探索未知,而未知当中不仅隐藏在新的价值,还隐藏着新的安全风险。面向 AI 时代的网络安全新挑战,星河 AI 网络能够有效应对大量新型的网络安全威胁。比如面对未知威胁的检测,星河 AI 网络的智慧安全大脑内置了自研引擎,可以利用 AI 的泛化推理进行防护,有效识别未知类型的安全威胁。
在云南交投,应用了相关方案后,实现了 99%的威胁检测率,并且还降低了防护解决方案的综合成本。
把 AI 与网络的深度互相结合,筑成运力灯塔的地基,把对数据通信网络各大场景与需求的洞察,变成运力灯塔的栋梁。二者结合之下,星河 AI 网络这座灯塔开始照射出智能化的光芒,照亮 AI 之海的彼岸。
目前,星河 AI 网络已服务全球 TOP 100 银行中的 50+个,QS100 大学中的 30+个,以及 100 多个国家政务骨干网、全球 TOP20 大型油田,在全球财富 500 强中客户达到 267 个。它所发出的光芒,已经照亮千行万业的智能航线。
行业智能化,正在依赖这座“运力灯塔”加速,驶向 AI 之海的彼岸。
版权声明: 本文为 InfoQ 作者【脑极体】的原创文章。
原文链接:【http://xie.infoq.cn/article/0a30cd9b85a5cb72ae2d20a7a】。
本文遵守【CC-BY 4.0】协议,转载请保留原文出处及本版权声明。
评论