写点什么

亮相 2024 DPU&AI Networking 创新大会,天翼云斩获两项大奖!

  • 2024-08-15
    北京
  • 本文字数:994 字

    阅读完需:约 3 分钟

近日,以“智驱网络 芯动未来”为主题的 2024 DPU&AI Networking 创新大会在北京举办。大会表彰了在 DPU 与 AI 网络技术创新及实践应用中取得卓越成就的单位与项目,天翼云科技有限公司荣膺创新引擎奖、《紫金 DPU 算力卸载与网络加速应用》荣获实践先锋奖,技术创新实力以及应用实践成果再获行业认可。AI 算网技术论坛上,天翼云科技有限公司资深研发专家樊小平发表演讲,分享了天翼云在高性能智算网络方面的技术创新。


“创新引擎奖”颁奖仪式

“实践先锋奖”颁奖仪式


人工智能时代对智算的需求急剧增长,也对网络提出了前所未有的要求。樊小平表示,建设高性能智算网络面临着诸多挑战。在终端层面,RDMA 网卡需接入存储和智算参数面等多个网络平面并面临业务融合加速的问题,RDMA 网卡若要发挥极致性能需攻克高性能通信库难题。在网络层面,AI 大模型的训练数据、参数规模庞大且训练涉及万卡并行,这不仅对网络的性能、可靠性、安全性、带宽等提出了更高的要求,还需要组建大规模的 RDMA 网络来支撑。


天翼云科技有限公司资深研发专家樊小平


为了应对以上挑战,天翼云积极探索智算网络领域新技术,构建的高性能智算网络,可扩展至万卡集群,参数面 RDMA 网络采用 3 层组网,以实现端网协同、软硬件结合以及业务感知;在 RDMA 网卡优化方面,天翼云基于紫金 DPU 底座研发的紫金 RDMA 网卡,实现了一卡四用,同时支持可编程拥塞控制框架;在拥塞控制方面,天翼云推出 CTCC 拥塞控制算法,可以免去交换机复杂的水线配置,能够在不同的端侧选择不同的倾向性策略,例如倾向于高吞吐或倾向于低时延等;在存储网络方面,天翼云三栈融合的协议栈 SF-STACK,支持动态选择传输层协议,拥有高性能、高可靠优势并屏蔽硬件差异,扩展了可部署的网络类型。此外,天翼云推出高性能集合通信库 CTCCL,聚焦多路径负载均衡、故障检测与恢复,可以优化网络路径,保障网络可用性。


目前,天翼云高性能智算网络,通过紫金 DPU 支持 VPC/对象存储(VxLAN)接入、提供并行文件存储(RoCE)接入、实现高性能存储引擎 LAVA 对接,可减少网络平面、降低网络复杂度。凭借单卡支持多种网络形态接入、单网络承载多种传输流量的优势,天翼云高性能智算网络在助力智算高性能存储方面已取得显著成效,能够帮助企业有效降低成本、提升效率。


随着各行业上云用数不断深入推进,网络与算力的相互协同将进一步促进数字经济蓬勃发展。天翼云将坚持科技创新,探索全新智算网络解决方案,为千行百业的数智发展注入强劲动能。

用户头像

还未添加个人签名 2022-02-22 加入

天翼云是中国电信倾力打造的云服务品牌,致力于成为领先的云计算服务提供商。提供云主机、CDN、云电脑、大数据及AI等全线产品和场景化解决方案。

评论

发布
暂无评论
亮相2024 DPU&AI Networking创新大会,天翼云斩获两项大奖!_人工智能_天翼云开发者社区_InfoQ写作社区