写点什么

智源发布异构统一通信库 FlagCX,填补多元算力开源软件栈重要拼图

作者:智源研究院
  • 2024-12-28
    江西
  • 本文字数:1659 字

    阅读完需:约 5 分钟

多元算力时代,通信库作为算力大规模聚合的基础软件,迎来了两个新的重要挑战。

  • 通信库各异,导致针对通信算法的实现与优化不具备通用性和自适应性。训练模型结构、规模及超参会变化,且训练任务也可能迁移到不同芯片或不同规模集群。然而,当前各种 AI 芯片的通信库各不相同,导致通信优化只能针对特定芯片集群和模型结构,难以满足各智算中心的规模化部署,也很难快速适应训练任务的变化。

  • 无法实现跨不同芯片高效互联。数据中心的集群建设在不同阶段面临更好的芯片选型,随着 AI 芯片更迭和升级,难以保证一个数据中心只有一款 AI 芯片。当出现不同的 AI 芯片在同一个集群,我们希望有能力把它们聚合完成更大的训练任务。然而,不同芯片通信库缺乏统一接口和协议,导致跨芯高速互联开发和优化难度大,很难实现不同算力高效聚合。

为了应对这些挑战,智源研究院联合生态合作伙伴,构建并开源异构统一通信库 FlagCX,旨在实现不同芯片之间高效通信和不同场景下的大规模自适应通信优化,填补多元算力开源软件栈的重要版图。

开源地址:https://github.com/FlagOpen/FlagCX

“零开销”与“零成本”的架构设计

如以上架构图所示,FlagCX 可为上层应用提供一个统一的通信算子接口层,以屏蔽底层不同实现细节,并基于此开发对接不同深度学习框架的插件,帮助用户在不同深度学习框架中零成本使用 FlagCX。在接口层之下,提供了两条实现路径:

  • 适配路径(架构图左列):通过标准化适配接口,复用芯片厂商原生通信库,从而在同构芯片上获得厂商原生通信库最佳性能。

  • 统一路径(架构图右列):提供异构通信能力,实现不同芯片之间高效通信,并将基于统一组件实现自适应通信调优能力。

FlagCX 的设计和实现过程,始终秉持三个基本原则:

  • 标准化:尽可能将相关接口标准化,充分降低芯片厂商适配成本。

  • 兼容性:兼容 PyTorch 等框架、芯片厂商原生通信库以及标准网络协议等。

  • 自适应:基于通用组件研制自动调优功能,实现不同场景下的通信自适应优化能力。

FlagCX 选择了两个代表性的通信原语 AllReduce 和 AlltoAll,分别在三款芯片上进行了跨机通信性能测试,其中 Chip A 是 GPGPU 芯片,Chip B 是 DSA 芯片。这里 AllReduce 和 AlltoAll 走的是上述架构中的适配路径,从上图实测结果来看,可以得出 FlagCX 对厂商原生通信库的适配基本实现了零开销。

同时,进一步测试了 FlagCX 原生通用 Send/Recv 的跨不同芯片的异构通信性能,这里走的上述架构中的统一路径,从上图实测结果来看,能达到峰值带宽的 90%以上,充分说明 FlagCX 跨芯异构通信潜力。

产业领先的通信库标准建设

为提升跨芯片通信的兼容性与互操作性,实现通信优化跨芯片、跨任务、跨规模的自适应优化能力,加速通信库未来对新硬件与新通信协议的支持,智源研究院在电子标准院指导下,联合生态伙伴积极研制通信库相关国家标准,现已在全国信标委人工智能分委会(TC28/SC42)芯片与系统研究组启动标准预研,并共同提出了异构统一通信库的初版标准框架。

如上图所示,我们将会在通信算子接口、芯片适配、网络拓扑、通信性能建模、通信算法及通信运行时等方面进行标准化,并以 FlagCX 作为标准的试验田和参考实现。更进一步,该标准也将涵盖通信自动编译优化等前沿技术,助力行业整体水平的提升,最终逐步实现该领域国际领先的技术与应用水平。

初步形成体系化的生态圈

为更好地推动异构统一通信库 FlagCX 发展、相关标准的研制及落地应用,智源研究院也在积极构建相关软件生态,形成产学研协同创新的良性循环,加速异构统一通信库技术推广与应用落地。目前首批生态伙伴包括:

  • 智源研究院、电子标准院、北京大学、中国科学院计算技术研究所等 4 家高校及研究机构。

  • 浪潮信息、新华三及超聚变等 4 家服务器厂商。

  • 天数、沐曦、燧原等 8 家芯片厂商。

  • 百度飞桨、百度智能云、基流科技等 6 家云厂商及运营商及系统厂商。

当前开源异构统一通信库 FlagCX 和相关标准研制还处在早期阶段,智源研究院诚挚欢迎更多伙伴参与共建。接下来,FlagCX 将进一步提升性能,适配更多芯片,并深度与多芯片并行训练及推理大模型框架 FlagScale 进行集成,实现从通信到计算的全面协同优化,共同推动 AI 计算力的边界突破!



用户头像

还未添加个人签名 2024-05-11 加入

北京智源人工智能研究院聚焦人工智能原始创新和核心技术,推动人工智能理论、方法、工具、系统和应用取得变革性、颠覆性突破,支撑北京建设成为全球人工智能学术思想、基础理论、顶尖人才、企业创新和发展政策的源头

评论

发布
暂无评论
智源发布异构统一通信库FlagCX,填补多元算力开源软件栈重要拼图_智源研究院_InfoQ写作社区