聚焦 DPU 技术研发与创新 天翼云打造全新一代云计算体系结构
9 月 2 日,第二届 SmartNIC&DPU 技术创新峰会在北京召开。本次大会由江苏省未来网络创新研究院和 SDNLAB 联合行业技术先锋力量、产业典型应用企业共同发起,围绕 SmartNIC/DPU 技术创新、产业应用等问题展开研讨与交流。大会现场还发布了 2022 SmartNIC & DPU Awards 年度评选结果,天翼云DPU 云核为基础打造的全新云计算体系结构荣获匠芯技术奖。
在 SmartNIC&DPU 技术分会场,天翼云科技有限公司资深研发专家刘禄仁分享了天翼云 DPU 技术的研发与实践经验。他表示,天翼云作为国内领先的云服务商,基于当前 DPU 技术演进路线,结合需求的零散化、动态变化以及对 DPU 产品线上运维问题的考量,以 FPGA+CPU 的架构作为切入点,成功研发出天翼云DPU1.0 产品,并以自研 DPU 云核为基础打造了为云而生的全新云计算体系结构。
当前,摩尔定律的放缓与全球数据量爆发之间的矛盾正在迅速激化。IDC 数据显示,全球数据量在过去 10 年年均复合增长率接近 50%,并进一步预测每四个月对于算力的需求就会翻一倍。与此相对的是,传统的数据中心架构难以满足大规模的算力需求,CPU 性能每年仅提升 3%,形成了明显的“剪刀差”现象。在 CPU 无法满足庞大算力需求的背景下,DPU 应运而生。
DPU 作为计算负载的引擎,直接效果是给 CPU“减负”,能够提高数据中心的运算效率,减少能耗浪费,进而降低成本,在数字时代具有巨大的商业价值与发展潜力。天翼云DPU1.0 实现了虚拟化的零损耗,具备高性能、低延迟、低抖动的特性,网络转发性能高达 4000 万 PPS,存储云盘 IOPS 可以达到 60W。此外,天翼云 DPU1.0 通过将传统运行在主机侧的应用转到 DPU 云核上,减少大量的适配工作,在主机不同算力核和不同架构上可做到即插即用。
此外,从产品的研发到落地,天翼云DPU 团队在网络、存储及 RDMA 方面也积累了丰富的实践经验。
在网络卸载方面,针对流表数量大、转发性能要求高、对 SoC 和 FPGA 的内存容量需求大、稳定性要求高等挑战,天翼云对 rte_flow 等主要数据结构进行压缩,并对流表空中计算,优化裁剪 offload 卸载路径的多层级缓存,从而支持 4M 流表,实现了内存优化;对所有流表进行合并计算,避免在硬件层执行包重注,使转发效率达到 4000 万 PPS;基于硬件精确流表特点设计专用老化统计线程,减轻 OVS Revalidator 压力;初步拆分 OVS 的统计和老化事务逻辑,优化硬件流表的老化统计上报实现逻辑,提升软件 OVS Revalidator 执行效率;支持热升级、热迁移及热恢复,做到 B/V/C 全场景的并池,大幅提升稳定性。
在存储卸载方面,针对经常出现的 SoC 异常重启、SPDK 异常重启、热迁移丢 IO 等现象,天翼云从中抽象出共同特性,利用软件协同的思想,将 SoC 侧软件的正常行为和异常行为进行统一,组件启动时统一发送 msg 信息给硬件,硬件收到该 msg 会解析其内容,进而从硬件保存的 queue 指针信息进行分析,在用户无感状态下实现全部异常的统一化处理。
在高性能网络方面,拥塞算法是 RDMA 的核心和关键,为提高 RDMA 网络的性能,天翼云聚焦下一代高效 CC 算法设计,以更好地避免拥塞、保证公平性,实现更快速收敛、更低时延、更简单部署。针对不同应用场景,天翼云设计了 2 套算法 eSurfing-CC: 针对智能网卡+商用交换机的组合,提出基于 RTT+CNP 的 2 段式端到端 CC 算法,具有主动拥塞控制、无需依赖交换机的配置、支持快速启动快速收敛等优势;针对智能网卡+可编程交换机的组网场景,天翼云在交换机上部署 CC 算法,使交换机同样具备主动拥塞通知能力和主动发包能力,可以有效降低端到端响应时延,同时简化建模和配置复杂度,提高系统的可扩展性。
目前,基于天翼云DPU 核心技术打造的多款产品已落地应用,以天翼云弹性裸金属服务器为例,该服务器兼具云服务器弹性和物理机性能,通过将网络、存储等功能卸载至 DPU 卡,可极大降低物理机侧 CPU 和内存等资源消耗,最终算力远超普通云主机,现已服务于金融、汽车等多行业企业。
随着 5G 时代数据量和传输速度的飞速增长,国内厂商争相进入 DPU 赛道。根据 Canalys Cloud Channels Analysis 预测,到 2023 年,中国 DPU 市场规模将达 190 亿人民币。可以预见,在数据中心流量不断加大的情况下,DPU 帮助数据中心提升算力、降低成本与能耗的同时,将有更大的施展空间和广阔的发展前景。
版权声明: 本文为 InfoQ 作者【天翼云开发者社区】的原创文章。
原文链接:【http://xie.infoq.cn/article/e019e70f34ceecf000440b2ce】。
本文遵守【CC-BY 4.0】协议,转载请保留原文出处及本版权声明。
评论