众智 FlagOS 的统一通信库实现国家与国际标准“双立项”

2025 年 10 月 6 日–17 日,国际电信联盟(ITU-T)SG21 日内瓦全会期间,基于众智 FlagOS(面向多种 AI 芯片的统一开源系统软件栈)的统一通信库 FlagCX 技术,由智源研究院联合中国信息通信研究院牵头的 ITU 国际标准项目——《F.FUCL Requirements and Framework of Cross-Platform Unified Communication Libraries for Distributed Multimedia AI Systems》正式立项。
同期,2025 年 10 月 5 日,由智源研究院联合中国电子技术标准化研究院牵头制定的推荐性国家标准《人工智能 统一通信库接口规范》(立项计划号 20255428-T-469)顺利获批。
这标志着我国在多芯片通信与 AI 系统基础软件领域实现了国际标准与国家标准的同步突破,形成了“国内国际标准双驱动”的新格局。
该标准旨在屏蔽不同 AI 芯片间的架构差异与通信复杂性,构建统一、开放且可扩展的通信规范体系,促进跨芯片分布式任务的灵活迁移与高效协同,支持同构环境下的自适应跨场景优化及异构环境下的高效通信互联,从而打破算力孤岛,充分释放集群计算潜能,更好地为大规模分布式训练、推理以及端云一体化协同提供关键基础支撑。
1 双标准立项:协同推进的产业共识
面向多种 AI 芯片的统一通信库标准的成功立项,凝聚了科研、产业与标准化组织的合力,标志着我国在 AI 基础软件领域实现了从国内创新到国际协同的重要进展。
国家标准方面,《人工智能 统一通信库接口规范》由智源研究院与中国电子技术标准化研究院牵头,涵盖科研院所(北大、计算所等)、芯片企业(华为昇腾、寒武纪、昆仑芯等)、互联网企业(百度)、服务器企业(浪潮等)、运营商(移动、电信等)、网络系统提供商(基流科技)等几十家科研机构与企业单位共同参与。从启动到联合提案再到正式立项,历时一年多,期间多轮研讨,吸纳了广泛的行业意见,充分体现了产学研协同共建的行业共识。
国际标准方面,《F.FUCL Requirements and Framework of Cross-Platform Unified Communication Libraries for Distributed Multimedia AI Systems》由智源研究院联合中国信息通信研究院共同牵头,支持单位包括计算所、华为、百度、移动、电信、联通、国家电网、蚂蚁、浪潮等。在 ITU-T SG21 全会立项答辩,并获得来自美国、德国、英国、俄罗斯、日韩等多国专家的共识,最终顺利通过立项,体现了我国在 AI 基础软件标准化领域的国际协同能力与技术影响力。
2 统一通信库标准:AI 系统底座的关键枢纽
面向多种 AI 芯片的统一通信库标准通过为不同芯片上的通信库提供统一的规范接口与抽象,以屏蔽底层硬件差异与复杂性,支撑同构芯片上的跨场景自适应通信优化与异构芯片之间的高效跨芯通信,是 AI 计算生态多样化与高性能化发展的关键基础组件。如下图所示,其当前创新架构自上而下分为用户接口层、通信运行时层、可迁移抽象层三部分,并将在未来持续优化完善。
用户接口层:面向开发者与 AI 框架,提供统一高效的编程接口,包括插件接口、通信功能调用接口和编程语言接口。插件接口和通信功能调用接口用于向上对接不同 AI 框架(PyTorch、PaddlePaddle 等)和构建于其上的训推框架(Megatron-LM、vLLM 等)。通信编程语言接口负责为通信算子开发者提供轻量级接口,便于直接在 C++/Python 等编程语言中实现定制化通信算子以及通算融合算子开发,加速应用开发迭代。
通信运行时层:承担通信任务执行的核心逻辑,主要包括高层通信函数、中层通信操作、底层通信原语以及服务组件。高层函数实现编排与自适应优化,中层操作提供传统通信操作实现与融合算子的注册调用,底层原语提供高效的设备相关原语和第三方原语,保障极致的延迟与带宽表现。三层支持灵活调用,服务组件涵盖 Proxy(网络异步收发机制)、Topology(拓扑管理与优化)等模块。
可迁移抽象层:屏蔽底层硬件与互联协议的差异性,为上层运行时提供一致的编程模型。其中,CCL Adaptor 和 Device Adaptor 负责对不同类型的硬件进行统一抽象,包括 GPGPU、ASIC、SuperPod 等,分别封装了各类设备运行时(如 CUDA、HIP 等)及厂商原生通信库(如 NCCL、RCCL 等)。Net Adaptor 和 P2P Adaptor 负责屏蔽底层互联协议的实现细节,对节点内互联协议(PCIe、NVLink 等)和节点间网络互联协议(IB、RoCE 等)进行统一封装。
通过创新分层架构设计,既能向上提供标准化的通信接口,便于各类 AI 应用的统一接入,又能向下通过可迁移抽象层开放适配机制,使芯片厂商能够轻松集成自研通信库或底层运行时,增强了系统的跨平台兼容性与可扩展性。
3 产业实践优先:FlagCX 提供标准实现参考
开源统一通信库 FlagCX(https://github.com/FlagOpen/FlagCX) 作为上述两项标准的关键参考实现,已在多家主流芯片平台上完成适配与验证,并广泛应用于训练、推理等多种场景。通过“产业实践优先”的验证路径,有效保障了标准的可行性、时效性与前瞻性。
截至目前,FlagCX 已:
支持 9 种主流 AI 芯片,包括英伟达、寒武纪、昆仑芯、摩尔线程、海光、华为昇腾等。
兼容 IB、RoCE 和 TCP/IP 三类网络协议和 IBRC、IBUC、Socket、UCX 四种网络协议软件栈。
支持 PyTorch 与百度飞桨 Paddle 3.0 两大主流 AI 框架,其中 Paddle 实现原生集成。
FlagCX 不仅在同构场景下与原生通信库性能持平,还通过自主创新的 Device-buffer RDMA 技术和 Cluster-to-Cluster(C2C)异构统一集合通信算法,实现了跨芯片通信性能提升,成为全球范围内少数具备异构混合训练全栈开源能力的通信库之一。在近期升级中,FlagCX 围绕跨芯通信效率实现两项关键突破:
1. C2C 异构集合通信算法实现流水线并行化,带宽最高提升 2.0×。
通过引入流水线并行来实现 Pre、Inter、Post 三个阶段任务的重叠,核心优化可以概括为两点:1)传输数据多 Chunk 切分,从而实现细粒度流水;2)多 Stream 并行,从而实现 Pre/Post 和 Inter 阶段的重叠。
我们通过实测 ChipA 2 机 16 卡对比了 AllGather 和 AllReduce 通信操作的已有的 C2C 算法和流水线并行优化后的 C2C 算法的性能数据(128K - 2G)。如下图所示:1)C2C AllGather 算法使用流水线并行后相比之前算法带宽平均提升 1.7x,最大提升 2.0x;2)C2C AllReduce 算法使用流水线并行后相比之前算法带宽在大通信量上(>=128M)平均提升 1.3x,最大提升 1.3x。
2. 零拷贝 Device-buffer RDMA 技术在小通信量场景下性能提升 约 3×,在大通信量场景与原生实现性能持平,达到业界领先水平。
如下图左所示,原生 Device-buffer RDMA 技术会在初始化阶段预先分配和注册一段可以允许从网卡直接拉取数据的 Device-buffer(默认值 64MB)。在实际通信过程中,FlagCX 运行时会调用 D2D 拷贝实现应用程序的 User-buffer 和预注册 Devic-buffer 的数据传输。这会造成额外的数据拷贝开销,并严重影响小通信量场景 P2P 通信性能。为此,FlagCX 将 Device-buffer RDMA 技术进行了 zero-copy 支持,如下图右所示,在初始化阶段通过直接注册 User-buffer,避免实际通信过程中的 D2D 拷贝调用,从而允许网卡直接在 User-buffer 上进行数据读取和写入操作。
我们通过实测 ChipA 2 机 2 卡对比了零拷贝 Device-buffer RDMA 和原生实现的性能,如下图所示:1)在小通信量场景下(<=128KB),零拷贝 Device-buffer RDMA 相比原生实现可以达到大约 3.0x 的加速比;2)在[128KB, 128MB]的通信量区间内,零拷贝 Device-buffer RDMA 相比原生实现的加速效果随着通信量增大而不断降低,逐渐和原生实现性能持平;3)在大通信量场景下(>=128MB),零拷贝 Device-buffer RDMA 和原生实现性能持平。
同时,与业界其他通信库(如 NCCL、VCCL、DLSlime 等)对比表明 FlagCX 的零拷贝 Device-buffer RDMA 性能已达到业界领先水平(下图中 DLSlime 的 128MB 和 1GB 性能数据在我们的测试环境中未能成功运行,因此未包含其对比结果)。
众智 FlagOS 是面向多种 AI 芯片的统一、开源系统软件,而统一通信库 FlagCX 是其四大核心开源技术库之一。目前众智 FlagOS 1.5 版本在 9 月 26 日首届 FlagOS 开放计算开发者大会上由 18 个共创团队共同发布, FlagOS 1.5 版本已经发展成为“4+3”的模式,即四大核心开源技术库+三大开源工具平台,通过开源技术库和开源工具平台的相互支撑,提供了更广泛的硬件支持、和更完善的组件协同。
除了统一通信库 FlagCX 之外,FlagOS 还包括高效并行训推框架 FlagScale、高性能算子库 FlagGems,以及统一编译器 FlagTree。其中,FlagScale 支持多种芯片、多种后端,支持同构集群、异构集群的训练和推理上自动调优;FlagGems 已建成全球最大、支持芯片种类最多的大模型通用算子库,支持了 16 家芯片厂商的 25 款 AI 芯片,覆盖 GPGPU、DSA、RISC-V AI、ARM 等多种芯片架构;FlagTree 编译器累计支持 12+国内外主流芯片厂商的 20 余种芯片型号。
4 标准引领未来:统一生态从中国方案到全球共享
FlagCX 国际与国家标准的同步立项,是众智 FlagOS 从技术创新迈向标准引领的关键一步,也代表着一种开放协同的产业发展路径正在形成共识。我们深知,标准的生命力在于广泛的实践与应用。通过构建统一的跨芯片通信规范,我们期望的不仅是打破“算力孤岛”,更是与全球开发者和合作伙伴一道,共同促进 AI 基础设施的开放与融合,让每一份算力都能被高效、无缝地连接和释放。
目前,两项标准的编制组正依据国际与国内标准化流程,有序推进标准文件的起草工作。期待更多心怀远见的产业、科研机构与我们同行,参与到标准的研制与 FlagOS 生态的共建中来。让我们共同定义和构建一个更加开放、协同、可持续的全球 AI 未来。







评论