写点什么

我在京东做研发第五期:京东云自研服务器,如何将开发成本降低 60% 的同时还更低碳环保?

  • 2023-03-14
    四川
  • 本文字数:6400 字

    阅读完需:约 21 分钟

我在京东做研发第五期:京东云自研服务器,如何将开发成本降低 60% 的同时还更低碳环保?

分享人: 蔡岳霖  京东科技京东云事业部 AIDC 产品研发部工程师


中国台湾台北科技大学能源与冷冻空调所硕士毕业,主修电子冷却、两相液冷技术。长期从事服务器架构设计,曾参与 Google, Microsoft 等项目研发,熟悉通用及订制化服务器架构。主要技术研究方向为冷板式、浸没式以及喷淋式液冷散热,发表论文 11 篇,专利 19 项。


大家好,我是京东科技京东云事业部 AIDC 产品研发部工程师蔡岳霖。很高兴能跟大家来分享京东新一代云资源池基础设施整机柜服务器 J360 G3。


随着互联网的飞速发展,科技发展越来越发达,云计算以前所未有的速度在各行各业快速普及,这些应用其实都在我们的身边,如 5G、大数据、人工智能、分析计算、物联网、视频影音、智慧城市、数智化以及智能制造等,并且随着这些应用需求增长,也可看到全球对于服务器需求是不断的增长,京东身为新型实体企业,更加努力推动这些技术的发展。



京东内部有零售、科技、物流、健康、工业、保险、产发、自有品牌以及国际化业务,京东采用自研服务器来支撑这些业务。


京东有着完整的云服务的产业链,从源头的云业务到数据中心基建、核心的服务器、完整专业的运维服务,这都是一般的云服务厂商以及硬件集成商都是无法比拟的。


京东云是更懂产业的云。针对云业务做应用优化,针对强大的核心部件进行订制,如订制 CPU,提供更好的算力;除此之外,京东是供应链起家,可以提供更强大的供应链体系,并且客户为先一直都是京东的核心价值观,具备专业的技术服务以及 VIP 的服务。



京东云自研服务器是从系统架构,从不同维度去分析各项的挑战,分析维度可分为算力、能耗、部属、运维。


随着应用的需求不断提高,芯片算力的提升也至关重要!但能看到的是因为芯片的算力提升,同时也带来芯片的功耗从以往的 205W 不断的提高到 350W,甚至未来能达到 500W、750W,这个趋势状况是目前业界的状态,包含业界大家所知的 Intel, AMD, Ampere 或者是 nVidia。当功耗不断提升,首先面临的挑战就是散热设计,风冷设计在散热器、风扇已开始遇到瓶颈,也就逐渐开始切入液冷设计,而业界常见的液冷设计,便是冷板式、浸没式或是喷淋式液冷,从技术成熟度以及 TCO 最佳的技术,主要还是冷板式液冷,也是京东的首选。


京东也看到随着全球资源的紧缺,节能的压力越来越大,在有限的电力内,达到最佳的效果,要满足节能的方案有许多种,液冷是属于其中一个方式,可有效降低数据中心的制冷用电,提升 IT 的使用率,提高性能,在电源效率上的改善,也是一个不错的方案。


除此之外,京东针对不同的部属环境需求,可灵活配置不同的部署方案,如整机柜交付、配合集装箱交付,这些都是可以应对快速部属的需求。在交付后的运维上,采用前维护的设计,可以避免让运维人员在高温、吵杂环境下进行工作,可提升运维环境的质量,提供舒适的运维环境。



京东云服务器主要围绕三大主轴,提升性能效率、降低整体成本、并且做到节能环保,让地球环境可以永续经营。


京东云服务器采用创新的系统架构,并采用第四代英特尔至强可扩展处理器,京东实验室内部测试结果,性能可提升 1.7 倍,并支持整机柜交付,使交付效率提升 5-10 倍,并可降低包材的使用,提升运输效率,降低碳排放。京东所采用的 CPU 是与 Intel 订制规格,具备 SST 切换性能的技术。


在架构设计上,采用模块化设计、灵活支持前置 I/O 或后置 I/O,并支持免工具维护。


在供电及散热上,采用全新的服务器架构,如 54V 供电,可使全链路电源效率改善 3.67%;采用 EVAC 散热器及液冷技术,可使散热效能提升 50%


京东云服务器也都是经历过千锤百炼的,例如每年的 618, 11.11 的大促,像虎年抢红包高并发的需求,京东云服务器都是轻松应对,顺利完成任务。



聊完特点,我们来看看京东云服务器在架构设计上,有哪些关键设计︰


•        首先是模块化设计,模块化设计可以带来的优点是在不同的服务器平台上,兼容此设计,重复复用,降低整体的开发成本,并且经过不同平台的使用,模块化后的可靠性也不断的提高,可大量提升开发效率;但模块化设计是需要有长远的眼光,才能定义的,要不在未来的平台上,无法兼容复用时,那不仅是无法满足降本、提高开发效率需求,并会造成开发成本大幅提升


•        服务器可支持整机柜出货,整机柜出货可响应高效部属的需求,并且还可降低包材使用、减少碳排放的成效


•        京东云服务器可提供灵活的配置,这可满足不同环境的需求,如支持前后 IO 维护、多元的供电方案,如 CRPS 标准电源、集中供电设计等,风冷/液冷高效散热方案,这些都可灵活使用于传统租赁机房,或是适用于节能、具备冷热通道维护的自建数据中心


•        与通用 2U 机器不同的是,京东云服务器采用后置风扇,通用服务器一般将风扇设计在硬盘与主板之间,但因为主板的设计需求不断增大,风扇与硬盘的间隔不断的缩小,且因为风扇的性能要求更高,转速也不断的提升,这就出现风扇与硬盘之间会出现共振现象,导致在特定风扇转速时,硬盘会有停滞的现象;京东云服务器采用后置风扇后,与硬盘的间距拉远,从根部解决共振的问题。除此之外,还可从服务器后方直接进行风扇的热维护,解决通用服务器需要停机、开盖才能针对风扇进行维护,大幅提升运维的效率。



在机箱的配置上,有 16 x 2.5”, 9 x 3.5”, 12 x 3.5”的硬盘配置,支持前 IO, 后 IO 的配置,电源上可选择 CRPS, 12V, 54V 集中供电的方案,如采用高效能散热方案,可选配液冷服务 器。服务器主要是由三大件 CPU、内存、硬盘以及 IO、供电、散热方案组成,京东云服务器在这些要素上,都可以混合搭配,整个服务器的架构使用户的配置选型上可以更灵活,这样可以应对更多灵活的场景需求。这里再提一下,京东云服务器针对 2.5”盘上有做 Anybay 的背板,Anybay 就是可以支持 SATA/SAS 以及 NVMe 的硬盘,这是从市场应用上分析出来,其实 2.5”盘更需要有这样弹性的使用。



京东云 J360 G3 服务器,可支持 2 颗第四代英特尔可扩展处理器,代号(Sapphire Rapids),此处理器是京东的订制 CPU,京东云是全球少数可与英特尔订制 CPU 的合作方,处理的TDP 最高可达 350W,并支持 SST 切换功能,可根据业务需求不同,切换处理器的核心、主频特性,用于应对灵活的业务特性。


内存部份可支持 32 个 DDR5 内存槽,速率最高可达 4800MHz,并支持 Intel Optane™ Persistent Memory。在 Sapphire Rapids 平台可支持 PCIe Gen5,速率可达 32GT/s,服务器最大可支持 7 个 PCIe 卡。电源部份可支持 1+1 冗余需求。



京东云服务器采用模块化设计,可以使物料复用率达到 70%,开发周期缩短 60%,开发成本下降 60%。模块化涵盖范围有存储模块化,可支持 9 个 3.5”硬盘、12 个 3.5”硬盘、16 个 2.5”硬盘;IO 模块化可支持前 IO/后 IO 以及内置 IO 的设计。供电的模块化更是丰富,可搭配业界常用的 CRPS 电源,针对高效能应用,可采用集中供电模式,包括 12V/54V 的供电方案。散热模块化也可选配风冷散热模块搭配风扇,或是高效能应用,采用冷板式液冷+风扇的节能方案。



刚提到京东云服务器具备多元的供电方案,其中最为特别的是 54V 集中供电方案,京东云服务器是全球少数已具备完整方案的产品,目前常见使用的主要是海外的 OCP 组织。


为什么这个方案不常见呢?这方案其实是适用于一定规模的数据中心,才会需要用到高功耗机柜。高功耗机柜又是怎么来的呢?源头还是从芯片功耗不断的提高,对于机柜功耗的需求也随之提升,但当单机柜功耗提升到一定程度后,全链路的供电损耗也就越来越大,电力损耗,一部分代表的就是运营成本提高,另一部份便是碳排放增加,这都是京东不愿看见的方向。因此,京东针对机柜功耗的需求,采用不同的方案。从这个图可以看到,咖啡色这条线是 12V 供电的全链路效率,可以是 CRPS 标准电源,这也就是通用服务器最常见的方案。这也可以是 12V 的集中供+Power shelf 的方案,蓝色这条线是 54V 供电+Power shelf 全链路效率,当随着单机柜功耗不断的增加时,全链路效率的落差就越明显。


京东云服务器开发 54V 的集中供电搭配 Power Shelf 的方案,在单机柜 20kW 的条件下,可使全链路效率改善 3.67%,这成果可使单机柜功耗 1 年可节电 8500 度电,碳排放可降低 8.7 吨。



接着我们来看看散热的方案,通用的 2U 服务器一般为了使服务器成本降低,所以采用标准的散热器,而忽略掉采用高性能散热器可达到节能、降噪的功效。京东云则是从客户角度出发,希望能够在生命周期内既可做到大量节能的目的,改善噪音,达到最佳 TCO,采用高效能 EVAC 散热器,他可使整机功耗节能 8%,使风扇转速下降 34.3%,进而改善噪声。


对于数据中心更高效的散热方案,则是采用液冷模块,京东云液冷服务器的冷板,采用模块化设计,可支持多平台的 CPU,最高可支持 750W 的芯片功耗,并可智能切换风冷与液冷的风扇调控策略,确保节能优化,并采用 UQD 快拆接头,满足模块化设计。最重要的是京东云液冷服务器通过严谨的可靠性测试,其中涵盖高低温、湿度、振动、冲击、极限压力等可靠性测试,提升液冷设计的可靠度。



聊到液冷,目前业界常见的主要还是三个液冷技术,冷板式液冷、浸没式液冷、喷淋式冷却三种,那一种液冷方案好呢?京东的优先选择是冷板式液冷。


这张图可以看到各种液冷技术的成熟度,整个技术演进过程中,冷板式液冷的成熟度是最高的,而对于数据中心的架构影响,也是冷板式液冷最小,而从服务器的架构、密度来看,由于浸没式冷却机柜是需要横躺的,需要有上方空间进行服务器维护,所以对于服务器所能部属的数量也比较有限,冷板式液冷可不用大幅改变服务器架构,密度上与现有部属方式一致,因此,冷板式液冷更是优于浸没式液冷。



采用京东云液冷服务器后,在部属已有相当成果,右图这是京东位于廊坊的数据中心,液冷机房的 PUE 改善至 1.1,具备热回收技术,可使整体的碳排放少达 2000 吨,而因为采用液冷,可使单机柜的利用率提高,可提升部属密度达 28.6%。



其实业界有许多厂家也想做液冷设计,但可能因为技术成熟度或着是不知道如何下手,而却步不前。而业界愿意分享或着是帮助的厂商却是少之又少,京东云做为冷板式液冷的领先者,也希望对业界进行赋能,帮助推动液冷生态发展,所以分享多项的参考设计、实践成果、白皮书以及液冷标准的相关制定。尤其是与 Intel 的冷板式液冷参考设计,内容深入浅出,在业界是没有与 Intel 共同制定的液冷参考设计。



(京东云与 Intel 联名白皮书可下载获取: )


其实业界有许多厂家也想做液冷设计,但可能因为技术成熟度或着是不知道如何下手,而却步不前。而业界愿意分享或是帮助的厂商却是少之又少,京东云做为冷板式液冷的领先者,也希望对业界进行赋能,帮助推动液冷生态发展,所以分享多项的参考设计、实践成果、白皮书以及液冷标准的相关制定。


尤其是与 Intel 的冷板式液冷参考设计,内容深入浅出。这参考设计内数据中心展开至 CDU 内的热交换器、水泵、管路接头、工质选型、漏液方案,这几个部件为什么关键呢?热交换器的性能取决于数据中心水回路中的一次侧与二次侧的热交换,如果温差过大就会造成热交换器的尺寸较大;水泵则是攸关于整个水回路,需要关注是否能够保证提供足够的动力将液体推到每个冷板内,除此之外,还需要有控制功能,优化的水流量,才能将水泵的功率优化。


再到 IT 侧的机柜,有分水器、快拆接头,分水器是需要将 CDU 提供的液体,均匀分配到各个节点内,但每个节点有足够均匀的流量就是这个关键点,以机柜为例,一般可能最上方跟最下方的流量会有落差,所以需要保证均流性;管路部份,如果管内流速过快,有可能出现爆管的现象,或因为管内长期被液体冲刷,管壁过薄,造成管路破裂;接头部份则是要帮助运维同仁,方便进行单节点维护,快拆接头具备球阀断开的功能,还方便运作。


到服务器内部的冷板、管路接头、漏液方案、材料兼容性。冷板对于 CPU 是关键的换热部件,内部需要做微流道,每个流道能做到 0.2mm 这么小的间隙,所以加工制程上是很有挑战的,而过密的通道,会导致阻抗变大,使水泵转速提高,功耗提升。漏液方案,需要将漏液绳布在液冷回路上,当有滴漏时,需要进行告警提示,并针对服务器进行断电处理,避免造成更大的灾害。


这些部件还有很重要的关键,就是严谨的可靠性测试做支撑。这可靠性测试包含温湿度、盐雾测试、振动、冲击等相关测试。



京东云服务器可支持整机柜交付,其机柜宽度为 600mm, 高度为 2100mm, 深度为 1200mm,可支持标准 19”服务器,可支持前 IO/后 IO 的服务器,装设服务器、交换机;其中选配部份可选择 PDU 或着是 Busbar 搭配 Power shelf,如有液冷需求,可选装分水器。整机柜交付可以在工厂端进行预制、测试验证,可大幅降低在机房组装的时间,所以大幅提升交付的效率。



整机柜交付的好处是可部属效率高,当运送至数据中心时,可以看到,整机柜含服务器可以快速的卸货、检验、推进柜位,接着将电源、网络、液冷设备连接至机柜上,即可进行业务部属,直接使用,与以往的机柜/服务器分开交付、上架是截然不同,这交付效率可提升 5-10 倍。


再者,传统交付方式,是单机柜交付至数据中心,服务器再交付至数据中心,这各自的包材、运输所需要使用的汽油,都是增加的,所以采用整机柜交付后,并可以减少包材使用量达 60%,交通碳排放减少,每 1000 台服务器可达 7.2 吨。



京东云服务器具备架构创新、高效能设计以及模块化设计,也就带来更高性能计算、存储密度、高能效、高交付效率、灵活兼容不同环境的优点。


没有最好的产品,只有最适合自己的产品,而京东云服务器开发的初心,从客户角度出发,以性能、成本、节能环保为核心,创造可持续发展的服务器产品。


后续,京东云还将把这些创新成果,通过开源社区回馈给行业,为 IT 行业的创新发展做更多贡献。



Question 京东云服务器有哪些优势?


京东云服务器从客户角度出发,关注性能、成本、节能环保。利用订制化 CPU 大幅提升性能,用模块化设计灵活搭配电源、散热方案、以及使用节能方案来达到 TCO 最佳,并采用领先技术来助力节能减碳,如高效电源技术、冷板式液冷技术。


另外,京东云服务器是经过大规模应用,如每年的双十一、618 大促活动,或着是虎年抢红包高并发的需求,京东云服务器都是顺利应对,并且具备完整的运维体系,可提供 VIP 级服务,7x24 小时白金服务。


Question :为什么考虑用冷板式液冷?


要采用新技术,肯定是从技术成熟度、部属密度、TCO 去考虑。


从技术维度进行评估,冷板式液冷的技术成熟度相比于浸没式或是喷淋式都是最高的。


从部属密度评估,相同的空间内,冷板式液冷是比浸没式高的。


从数据中心评估,冷板式液冷的改动是最小的。


所以整体评估起来,冷板式液冷是 TCO 最佳的,且技术成熟度最高,并且还可以达到节能、降碳的目标,一个可以降成本、又有助于地球环保的技术,何乐而不为呢?


Question :京东云的液冷可以采购使用吗?


京东云的液冷已经做到模块化设计、完全解耦,冷板可以灵活应对不同 CPU 平台,并且采用 UQD 标准快拆接头,如果业界对于这些冷板组件想要使用,是可以与京东云进行接洽,根据需求可以使用不同的液冷部件。


商务︰徐景东, xujingdong5@jd.com, 18682452425


Question :京东云订制化服务器可以采购使用吗?


京东云订制化服务器起初是支持内部使用,经过大规模的应用、千锤百炼后,目前已经对外做商业化,如有需要可以与负责商务的同事进行接洽,或是可以在京东云官网上进行咨询。可基于客户的各关键部件的规格需求,像是 CPU 需要的主频、核心需求、内存及硬盘的容量需求等,提供方案、进行采购。


京东云官网︰https://www.jdcloud.com/cn/products/haas-server


商务︰徐景东, xujingdong5@jd.com, 18682452425


Question :京东云服务器可以搭配浸没式使用吗?


浸没式冷却的液体如果直接接触服务器主板,是会对高速信号造成很大的性能影响,对于主板是需要做特殊设计才能兼容液体。京东云服务器从各维度去考虑,如同之前提到的技术成熟度、TCO、密度这些条件,主要是使用冷板式液冷,所以对于主板没有做特殊设计,避免成本上升。从另一方面来看,目前对于商业化的客户,也没有迫切使用浸没式液冷的需求,不应该为了支持浸没式液冷,而将主板、整个服务器的成本拉高,让客户来承担这块费用。

发布于: 刚刚阅读数: 4
用户头像

拥抱技术,与开发者携手创造未来! 2018-11-20 加入

我们将持续为人工智能、大数据、云计算、物联网等相关领域的开发者,提供技术干货、行业技术内容、技术落地实践等文章内容。京东云开发者社区官方网站【https://developer.jdcloud.com/】,欢迎大家来玩

评论

发布
暂无评论
我在京东做研发第五期:京东云自研服务器,如何将开发成本降低 60% 的同时还更低碳环保?_cpu_京东科技开发者_InfoQ写作社区