写点什么

历经三年磨砺,快手交换机的自研创新之路

作者:快手技术
  • 2024-09-04
    北京
  • 本文字数:3732 字

    阅读完需:约 12 分钟

历经三年磨砺,快手交换机的自研创新之路

导读:快手自研交换机是 2021 年初开始立项,坚持软件自主可控 / 硬件生态开放的整体战略,历经三年磨砺,发布扛鼎之作『快手自研 51.2T 交换机』,首家引入多元化交换芯片并在数据中心网络中规模化部署!更是首家采用国产化交换芯片并规模部署落地!



开放多元化,助力行业生态健康发展


交换机作为数据中心网络架构的基石,肩负着数据传输、设备互联等关键职责,其重要性不言而喻。2021 年初,彼时行业已是一片红海,高手云集,多家厂商深耕多年。快手毅然决然地踏上了自研交换机的征途,以『软件自主可控 / 硬件生态开放』的技术战略,开启了一场技术“变革”。


秉持着“硬件生态开放”的理念,快手自研交换机从网络交换芯片到整机设备,全面推动硬件层面的多元化与开放,成为行业“破冰者”,快手率先实施交换机芯片的多元化战略,打破垄断,为行业生态注入新活力。同时,依托“软件自主可控”的关键策略,快手积极拥抱开源社区,以 SONiC 为基础构建了一个开放架构的网络操作系统平台 KNOS(Kuaishou Network Operating System),见下图:



在开放架构能力的加持下,快手逐步构建了深度合作的研发生态,携手芯片厂商及硬件整机厂商,加速硬件适配与产品落地,为持续创新奠定坚实基础。回望三年多的发展历程,快手实现了从零到一的飞跃,构建起了一个全面开放的多元化系统平台。在此过程中不断优化与拓展,逐步完善了对各类网络场景的全方位支撑能力。从最初的 2T/12.8T 起步,稳步发展至 8T/25.6T,直至最新发布的 51.2T 交换机,实现了自研交换机对网络全场景的覆盖。快手以行动诠释多元化战略,不仅是首家引入多元化交换芯片并在数据中心网络中规模化部署!更是首家采用国产化交换芯片并规模部署落地!以实际行动助推国产网络交换芯片技术的飞速发展。



51.2T 交换机规模落地,牵引新一代网络架构技术演进


自 2022 年初,快手基础设施团队便投身于 51.2T 交换芯片的网络架构和交换机产品设计,凭借对业务场景需求的精准洞察及网络架构未来发展的深思熟虑,快手设计出了一款集硬核科技与实用性于一身的自研交换机——它以 4RU 的紧凑高度,搭载了 128 个 400G QSFP112 端口,旨在为快手下一代网络架构提供全面而强大的产品解决方案


快手自研交换机采用 51.2T 多元化芯片,中心交换、接口单元、主控单元等均采用模块化设计,模块间采用高速 SLIMSAS 总线互联,可靠性高。支持高密度 128 个 QSFP112 的 400G 端口,带宽高达 51.2T,支持 400 ZR/ZR+ ,支持 200G 和 100G 扇出。创新式两层 PCB 板设计,节省了一块高速 PCB 板材和装配,双层固定扣板结构,连接可靠,保障 112G 速率信号的稳定传输。主控单元,CPU 模组设计采用 OCM 标准,支持 BMC 进行外设管理。盒体前面板可拆卸,支持多元化交换芯片和接口板,支持不同端口形态的机型。



在软件方面,快手依托 KNOS 这一自主可控的研发平台,在常规数据中心网络的功能特性基础上,针对快手特有的网络场景的部署特点,创新性地引入了 RDMA/PFC/ECN/BufferQueue、UCMP、BFD/Link-Delay、ISIS、ZR 等一系列新技术特性。这些新技术的融入,使得快手自研交换机全面覆盖 DCN 数据中心网络、HPN 高性能智算网络、DCI 城域网、KBN 骨干网、CDN 等主要网络场景,极大地提升了网络运营效率与稳定性保障能力。通过高效的自动化管控技术与精细化的监控手段,快手正引领着数据中心网络向更加智能化、高效化的未来迈进。


具体技术亮点包括:

  • RDMA:利用 KNOS 中的 RDMA 相关特性,与统一网络管控平台 KNP 紧密协作,构建了一套集功能支撑、精细化白盒监控、带内遥测可视化、自动化管控调度、流量调优等于一体的端到端高性能网络解决方案,有效削减 CPU 负载和内存带宽消耗,全方位提升系统性能。

  • UCMP(Unequal Cost Multiple Path):创新采用了 UCMP 协议及动态负载分担功能,根据实时可用带宽比例智能调整流量分配,有效缓解链路故障下的拥塞丢包问题,增强了网络的稳定性和灵活性,使自研交换机能在更多复杂网络场景中成功部署与应用

  • 无损热升级:自研 KNOS 系统通过无损热补丁设计技术,实现了对交换机软件的快速、无损升级,覆盖了全场景运维需求,确保在业务无感知的情况下完成软件修正与功能增强。

  • 网络丢包检测(MOD):快手自研了 MOD(Mirror On Drop)功能,该功能能实时捕捉并分析芯片层面各类常见丢包事件,精准记录丢包原因及被丢弃报文的关键特征,随后将这些宝贵信息传输至采集器。极大缩减故障排查时间,为数据中心网络的稳定运行提供了坚不可摧的保障。

  • 网络可视化/带内遥测(INT):集成先进的带内遥测(INT)技术,快手交换机在数据包流转间巧妙嵌入核心运行数据,实现状态与数据的同步传递。沿途设备接力标注,最终汇聚至监控分析中心,通过深度数据挖掘与拓扑融合,为运维人员呈现报文全路径视图与端到端时延细节,助力网络性能优化决策更加精准。


基于自研 51.2T 交换机,快手构建了 全新一代数据中心网络架构,单个网络集群即可轻松驾驭 30 万台 100G 服务器的接入需求,其容量之巨,较上一代产品实现了质的飞跃,同时前瞻性地兼容了未来 200G/400G 服务器的接入,在成本与性能和方面具备显著优势,确保了技术投资的长期价值。


快手自研 51.2T 交换机不仅是常规数据中心网络场景下的理想选择,更在 AI 算力集群中扮演了核心枢纽的角色。通过深度整合 RoCEv2 端到端解决方案,快手成功构建了万卡级大模型集群网络,更率先在国内行业里实现了 400G RoCEv2 高性能网络的部署应用!这一举措不仅与业界传统 IB 网络方案在性能上并驾齐驱,更实现了成本的大幅削减,降幅超过 80%。



超大规模数据中心网络



万卡级大模型网络集群


全自研 & 全链路协同解决方案,极致的性能与成本


随着自研 51.2T 交换机的规模化成功部署,快手已构建起覆盖全网络场景的交换机产品矩阵,从早期的 2T/12.8T、8T 到如今的旗舰级 51.2T,全面实现了从 25G 到 400G 服务器接入的交换机自研闭环。


交换机全自研化的进程,如同引擎般驱动了与交换机紧密相关的关联产品(如光模块等)的定制化与多元化发展。快手以此为核心,精心打造全链路解决方案,通过无缝集成的软硬件生态,实现网络性能的极致优化与 TCO(总体拥有成本)的显著降低。值得一提的是,快手在业界率先推出并批量部署了 400G QSFP112 硅光方案模块,该模块不仅代表了当前高速数据传输技术的顶尖水平,更融入了快手对网络性能的深刻理解与独特优化,为快手数据中心及跨数据中心互联提供了更快速度与更好的灵活性。



自研 51.2T 交换机在快手跨数据中心网络互联中的创新应用,通过支持 400G ZR 彩光模块,该交换机能够直接与对端光层传输设备相连,实现 IPoDWDM(IP over Dense Wavelength Division Multiplexing)技术方案。这一创新不仅省去了传统传输系统中的电层设备和客户侧灰光模块,简化了网络结构,更在提升数据传输效率的同时,实现了网络建设成本的显著降低。



软件系统闭环,高效的自动化管控及精细化监控能力


随着交换机实现全部自研,快手不仅构建了开放架构的网络操作系统平台 KNOS,还自主研发了 KNP 统一网络管控平台,二者相辅相成共同实现了端到端软件系统闭环的自主可控能力。在网络管控自动化的实现方式上,快手摒弃了传统的命令行(CLI)配置模式,转而拥抱标准化 Rpc/Api 接口与结构化数据建模。这一转变,如同从手工编织转向精密机械生产,将原本基于文本的分散式人工配置,华丽蜕变为 API/数据建模驱动的程序化编程,极大地提升了网络管控的自动化效率与精准度。


同时,在网络监控可视化领域,快手也实现了对传统 SNMP 等数据采集方式的超越,转而采用按需定制化、高精度数据采集方案,并依托高效的 RPC 通讯机制与平台无缝对接,让监控可视化不再是简单的数据堆砌,而是成为端到端精细化、白盒化洞察网络运行状态的利器,为快手网络的稳定运行与持续优化提供了坚实的支撑。



得益于自动化管控与精细化监控能力,快手能够轻松驾驭各种定制化、专有的端到端运维管控能力,如零接触配置、无损升级、自动化变更、丢包检测、带内遥测、故障自愈等,这些功能如今已如臂使指,为快手网络的智能化运维插上了翅膀。


更值得一提的是,针对快手独特的网络场景需求,KNOS 与 KNP 携手共进,快速迭代开发出一系列定制化功能,在网络建设交付、自动化运维管控、版本维护管理以及问题隐患快速修复等方面实现了多项技术创新。这些成果不仅极大地提升了快手网络运营效率,更为其业务的快速发展提供了强有力的网络保障。

未来展望

快手自研交换机历经三年的稳健发展,不仅在新技术新产品的研发与落地方面取得了令人瞩目的成就,同时在行业生态合作领域也构建了坚实的基石。展望未来,快手将在这两大维度上持续深耕,加速前行。


在新技术新产品引入方面,依托自主研发与快速迭代能力,通过不断引入更高性能的芯片,持续推动自研交换机向更大带宽、更高容量的极限挑战。同时,快手将积极探索 INT/SDN、端网融合、在网计算等前沿技术,力求在自主研发的道路上不断突破,满足新一代 AI/大模型算力网络及大规模数据中心网络对极致带宽与超低延时的迫切需求,为数字经济时代的快速发展提供强大的网络支撑。


在坚持软硬件解耦、硬件开放的战略指引下,快手将进一步加强与全球芯片及 ODM 供应商的合作伙伴关系,建立更加广泛而深入的研发合作机制。通过资源共享、优势互补,共同推动网络技术的创新与进步。在未来的征途中,快手将与合作伙伴们并肩作战,共创网络技术的崭新篇章。


本文作者:陈平平

用户头像

快手技术

关注

还未添加个人签名 2024-05-15 加入

快手官方技术号,即时播报快手技术实践的最新动态 关注微信公众号「快手技术」

评论

发布
暂无评论
历经三年磨砺,快手交换机的自研创新之路_快手技术_InfoQ写作社区