写点什么

攻克大模型训练网络瓶颈,天翼云论文获 ACM ICS 顶会收录!

  • 2025-09-04
    北京
  • 本文字数:1288 字

    阅读完需:约 4 分钟

近日,由天翼云公有云事业部联合基础架构事业部所撰写的论文《CTCCL: Cost-Efficient Joint Device-Network Load Balancing for LLM Training in RoCE-based Intelligent Computing Network》被第 39 届 ACM International Conference on Supercomputing 2025 (简称 ICS)收录。这一成果不仅标志着天翼云在智算网络领域的技术突破获国际学术权威认可,更为天翼云智算集群、大模型训练平台等核心产品注入硬核技术支撑,推动 AI 算力效率与成本控制实现双重升级。



作为高性能计算领域的顶级盛会,ICS 由美国计算机学会(ACM)主办,是中国计算机学会(CCF)推荐的国际重要会议,吸引了全球相关领域众多顶尖学者与产业专家参与。其论文接收率仅约 23.32%,所有投稿均需经过严格的同行双盲评审,收录成果代表着当前领域的前沿创新方向。此次天翼云自研集合通信库相关研究的成功入选,是对天翼云技术创新能力的国际认可,彰显了中国云服务商在智算核心技术领域的全球竞争力。

CTCCL+DNLB 端网协同方案,破解 RoCE 网络大模型训练痛点

随着大模型训练进入千亿参数时代,RoCE 网络作为智算集群的关键基础设施,正面临“高负载下链路拥堵、大规模部署成本高企”的行业共性难题:现有负载均衡方案依赖自研网卡、交换机等定制硬件,推高中小集群部署门槛;适配性不足,在复杂组网或多任务场景下易出现故障断联,严重影响训练效率。

针对这些痛点,天翼云在论文中创新提出“Joint Device-Network Load Balancing (DNLB)端网协同负载均衡方案”,并通过自研集合通信库 CTCCL 实现端到端落地,构建起“高性能、低成本、强兼容”的智算通信支撑体系。



基于 CTCCL 集合通信库的端网协同负载均衡方案

01 端网协同,双维度破解流量拥堵

端侧精准控流:CTCCL 创新推出 UDP 源端口分段算法,基于不同节点 RDMA 网卡 IP 地址,为每个队列对(QP)分配唯一连续的 UDP 源端口,从源头降低哈希冲突,实现流量的“有序分流”。同时,CTCCL 内置故障感知机制,可自动将故障链路流量重分配至正常 QP,无需人工干预,保障训练不中断。

网侧简单配置:仅需在 Leaf 交换机配置简单的 ACL+PBR 规则,即可将不同端口段流量均匀映射至不同上行链路,以“无额外硬件投入”的低成本方式实现负载均衡,实现流量的“精准路由”。

02 强兼容性适配多元场景

该方案无需依赖特定硬件,支持单轨/多轨 GPU 集群,对并发任务数量无限制,可灵活适配从中小集群到大规模智算中心的多样场景,大幅降低技术落地门槛。

03 实测验证:效率与稳定性双重突破

在真实智算集群测试中,基于 CTCCL 的 DNLB 方案性能优势显著。相比传统 NCCL 和 ECMP 方案,AllReduce 峰值带宽从 16.1GB/s 提升至 22.6GB/s,集合通信效率提升 40%,大模型训练效率提升 7%,端口负载方差从 92.22 降至 0.06,彻底解决了链路拥堵问题。即便遭遇网络故障,流量也可快速重分配,负载均衡度仍保持在 95%以上,确保训练全程无卡顿。

凭借硬核技术突破,天翼云在提升 AI 算力效率的同时显著降低 TCO,实现从“解决痛点”到“加速创新”的跨越。未来,天翼云将持续加强关键核心技术自主攻关,优化智能计算的效率与成本,构建更稳定、高效、普惠的智算基础设施,赋能千行百业数字化转型,为数字经济高质量发展注入澎湃动能。

用户头像

还未添加个人签名 2022-02-22 加入

天翼云是中国电信倾力打造的云服务品牌,致力于成为领先的云计算服务提供商。提供云主机、CDN、云电脑、大数据及AI等全线产品和场景化解决方案。

评论

发布
暂无评论
攻克大模型训练网络瓶颈,天翼云论文获ACM ICS顶会收录!_大模型训练_天翼云开发者社区_InfoQ写作社区