为智算“强心”,为园区“壮体”:新质互联网驶入标准化快车道
“数字中国”的宏大蓝图,是靠一个个行业的数字化和智能化编织起来的。很多企业在业务场景中推进技术升级时,总会发现事情没那么简单,算力卖得贵、网络升级难、数据传不动、应用进不来……数智化之梦就此搁浅。
数智化升级,高度依赖于一张先进网络的联接力。为了满足产业需求,近年来,数据通信领域以“新质互联网(Net5.5G)”作为下一代互联网的代际和路径。但有方向还不够,为了更好地指引新质互联网的实践落地,加速产业凝心聚力,还需要一个关键环节——标准。
我们知道,标准化工作在网络建设中至关重要,可以让不同厂商以同一套指标和语言来研发产品、聚焦创新,确保了网络性能的一致性。比如无线通信 4G/5G 标准的冻结,就极大地加速了网络建设进程。那么数据中心、园区等场景什么时候才能建立起一套自己的标准,推动网络升级呢?
最近,我们就看到了新质互联网在智算数据中心、园区等领域的标准化曙光。
前不久,由全球固定网络创新联盟(Network Innovation and Development Alliance,以下简称 NIDA)主办,中国通信学会算力网络专业委员会、全球 IPv6 论坛协办,共熵产业与标准创新服务中心承办的第二届网络创新发展会议上,NIDA 携手多家产业伙伴共同发布了《高品质万兆园区网络技术发展研究报告》和《智算数据中心网络建设技术要求》两个关键建网标准,为建设下一代互联网提供指导,推动行业标准的出台。
今天我们就来聊聊,两个建网标准是如何让数通领域凝心聚力,为产业智能化强心壮体。
数据中心、园区的新质互联网建设,为什么重要?试想一下,大模型、云计算、AIoT、物联网、XR 等新技术,从高大上的科研实验室和厂商发布会,到真正被各行各业用起来,要经过哪些网络的关隘?
首先,AI、云服务、自动驾驶等都需要庞大的算力资源,而盘踞在全国大大小小的数据中心,是算力的心脏,成千上万张算卡想要泵出更多的算力资源,集群内部的卡间互联就需要网络升级,有时一个大模型得好几个千卡集群一起并行训练,那么集群跟集群之间的网络也得重构。
接下来,泵送出来的算力经过广域网传输到业务场景,而距离企业最近的园区网络也要同步升级。而数据中心、园区的网络升级,由不同行业主体来主导,升级进度不平均、行业认识不统一,简直太正常了,这就让企业在引入数智化技术时阻碍重重。
支撑产业智能化,让企业在智能时代变得更快更强,需要更强大的算力心脏和园区网络。
但升级网络,却面临标准不统一、概念争议大、方案繁多等局面。标准缺失,给数据通信领域和产业智能化升级都带来了副作用:
1. 共识缺失。不同 ICT 厂商会采用各自的解决方案,分开探索,各自试错,机会成本和时间成本都很高,造成产业进展缓慢。
2. 体验不佳。不同方案中的定义不同、概念不同、架构不同,导致产品体系互不兼容,影响落地效果,甚至降低了客户对智算、AI 新技术的热情。
3. 资源浪费。厂商各自为战,产业链上下游缺乏协作,会导致大量研发资源浪费,力不往一处使,不利于国内 AI 的长远发展。
综合这些因素,只有建网标准得以确立,才能最大程度地凝聚数据通信产业共识,为产业智能化铺设一条快车道。
NIDA 组织将产学研多种力量整合起来,终于在前不久,带来了数据中心网络和园区网络的两大标准。
智算数据中心是智能世界的算力中枢,正走向超万卡集群。有报道显示,xAI 已经完成了十万张 GPU 卡集群的搭建,未来还计划将规模翻倍,Meta 也宣布计划购买 35 万张 N 卡用于集群建设。
但十万卡乃至三十万卡、五十万卡的集群,不是简单的算卡堆叠,而要让数万张卡像一台“超级计算机”一样高效运转,卡间互联、集群间互联,都需要一张高性能网络,作为基础性支撑。
这张网络应该如何组建?此次发布的《智算数据中心网络建设技术要求》建网标准中,对多种组网架构进行了阐释。
一是三层 CLOS 架构,也是目前主流的智算网络架构,对比两层 CLOS 架构由于增加了 Core 层交换机,需要更多的光模块,时延与建设成本并非最优,能耗也相对较高。
二是 Groupwise Dragonfly+架构,报告中提到的 Groupwise Dragonfly+直连架构,可支撑十万卡以上集群组网,兼顾了组网规模与功耗成本控制。
三层 CLOS 架构都比较熟悉了,那什么是 Groupwise Dragonfly+架构呢?具体来说,就是在两层 CLOS 架构的基础上,将 POD 间的 Spine 层互联,实现了架构的扁平化。
一来,对比两层 CLOS 架构,可大幅提高组网规模,支撑未来超十万卡集群的 AI 智算数据中心网络建设。
二来,对比三层 CLOS 架构,可以在同等集群规模下,大幅减少设备数量和光模块数量,降低成本和功耗开销。以 128K 卡的集群为例,同样使用 128 个 400GE 端口的交换机组网,使用 Groupwise Dragonfly+架构比三层 CLOS 架构需要的设备减少了 1024 台,网络整体能耗降低 20%+。
第三,对比传统 Dragonfly +架构,Groupwise Dragonfly+架构可避免跨组流量在其他组内设备上下绕行,简化路由复杂度并提高了系统效率。
未来,《报告》中提到的多种组网架构都有望在智算数据中心落地。十万卡以上的数据中心网络建设不仅可以采用三层 CLOS 架构,Groupwise Dragonfly+也将是一种新的选择。
随着《报告》的发布,超十万卡集群的建网标准也将加速形成共识,推动行业标准的正式出台,加速国内超大规模智算数据中心的建设,真正实现以网强算。
以建网标准化加速智算产业化,让“算力心脏”泵出高算力,为产业智能化注入澎湃动力。
如果说数据中心网络连接的是“算力心脏”,那么园区网络则联接着人、终端和应用,是园区的“神经中枢”,确保园区业务的良好运转,也是我们日常接触最频繁、依赖度最高的网络层级。
《高品质万兆园区网络技术发展研究报告》中指出,“园区覆盖了绝大部分工作生产场景,80%以上的 GDP 和 90%以上的创新在园区内产生”。所以,产业数智化必须依赖于园区数智化,而园区数智化,网络升级有着独一无二的战略地位。随着 AI、云服务、远程移动办公、高清 XR 等新业务的兴起,园区网络要不断容纳数量更多、数据传输量更大、数据结构更复杂的数智应用,正从千兆向万兆演进。
万兆园区网络应该怎么建?此次宽带发展联盟、NIDA、WAA 共同发布《高品质万兆园区网络技术发展研究报告》,带来详细的技术要求。
具体来说,高品质万兆园区建网方案应具备万兆超宽、确定可靠、体验保障、智能运维、安全防护、绿色低碳六大能力。这些指标听起来有点繁多,其实只需记住一个特点,新质互联网代际的园区网络,与传统园区网络的最大区别就是,从“以联接为中心”转变为“以体验为中心”。
下一代园区网络不仅关注建得成、连得上,还要连得好,让用户感受到切切实实的体验升级。而从用户体验的视角来看,万兆园区网络的以下特点十分关键:
一是更大的带宽。园区用户想要随时随地获取资讯,业务上云用数赋智需要大量数据的实时传输,移动办公更加流畅的高清视频会议,丝滑可靠的自动驾驶 AGV 小车、AIoT 设备等,都需要一张性能强大的无线网络。
二是更强的体验保障。报告提到,为了提升业务和用户体验,需要支持应用可视、应用保障、应用质量检测、定位,以及 VIP 体验保障优先能力。此次会议中,来自北京协和医院信息中心副主任朱雯也带来了行业的声音,她说:“医疗行业提供 7×24 小时不间断服务,医院的各个业务基于信息系统和网络运行,特别重要的一点是保证极高的可靠性”。可以说,一张医疗园区的新质互联网,可以给患者、医护人员需要的关键网络服务提供确定性保障。
三是更强的安全防护能力。远程办公、业务云化、海量无线终端接入,这些变化都让园区网络的物理边界逐渐消失,而设备的安全防护能力参差不齐。对此,在新质互联网主导的下一代网络代际中,园区网络将采用了包括 MACsec 安全认证、基于零信任理念的安全防护体系、出口安全防护技术,以及网络切片在内的多种先进技术,提升整体安全防护能力。
四是绿色节能。响应全球碳中和目标,着眼于园区的可持续发展,园区网络也通过全新的设备级节能技术,如低功耗设备、智能调速风扇、自动关断激光器等,网络级节能技术,如网络架构优化、资源按需分配、负载均衡等,以及 AI 加持的系统级节能技术,如智能能源管理平台、AI 聚类智能节能等,变得更加绿色。
这些具体可感的价值,正通过一张园区的新质互联网,被各行各业及用户真实体验到,而 ICT 产业界已经做好了技术与解决方案的各项落地准备。
无线方面,Wi-Fi 7 是新质园区网络的显著特征。业界厂商都已经发布了 Wi-Fi 7 系列产品,带宽相比 Wi-Fi 6 提升了 2-3 倍,在室内、室外、IOT 等各种用网场景,带来了最新一代的无线体验。在应用侧,Wi-Fi 7 手机等无线终端普及速度逐渐加快。《报告》中提到的万兆园区无线 Wi-Fi 技术方案应具备零盲区覆盖、智能天线调优、智能漫游切换等能力,正与当下的趋势高度契合。
有线方面,《报告》中提到,万兆园区有线组网方案包含经典以太网和以太全光网,其中以太全光网适用于新建园区网络场景。在教育医疗等房间密集型场景,各厂商也在积极推出高品质的以太全光网络解决方案。
以智慧课堂为例,采用以太全光技术的产品,可以实现 10GE 全光进入课堂,4K/VR 等多媒体教学也能流畅不卡顿。在消防安全方面,还有无源方案可以选择,让校园更加安全。结合网络管理软件,可以做到全网可视可调优,AI 智能分析问题,减轻学校的网络运维压力。
从上述产业实践中不难看出,没有高品质万兆网络作为支撑,大量园区的数智化设想都将归为泡影。
《报告》的价值正在于此,通过共识的凝聚加速标准的形成,从而让高品质万兆园区网络建设驶入快车道。
抓住数字经济的增长机遇,加速建设“数字中国”,推动各行各业的数智化升级,已经成为我们这个时代的迫切需求。
但新质互联网不是一天建成的,需要层层递进,铺设一条标准化的快车道。
两份《报告》的发布,让我们看到了数据中心和园区的新质互联网建设,已经迈出了关键的三步:
第一步,凝聚共识。通过发布权威报告,明确网络演进的方向和目标,不仅提出了理论指导,还指明了切实可行的技术体系,为产业发展提供清晰的指引,为新质互联网的建设奠定了坚实的基础。
第二步,产业化落地。只有将先进的技术方案转化为实际的产业实践,才能避免其成为空中楼阁,产业落地是建设新质互联网的关键环节。科技企业在此方面做出了积极的贡献,通过自主研发和创新,为新质互联网的建设提供了有力的技术和产品支持。
第三步,标准建立。通过统一的技术标准和规范,可以确保不同厂商和设备之间的互联互通,提高网络的兼容性和可靠性,为新质互联网的长远发展保驾护航。目前来看,标准化已经驶入快车道。
为智算“强心”,为园区“壮体”,当智算数据中心、万兆园区在一张新质互联网上完成飞跃,产业数智化也将变得更高、更快、更强。
版权声明: 本文为 InfoQ 作者【脑极体】的原创文章。
原文链接:【http://xie.infoq.cn/article/057e7e70fbac6f4d793e64390】。
本文遵守【CC-BY 4.0】协议,转载请保留原文出处及本版权声明。
评论