云未来、新可能 - 绿色、无处不在、可信的计算
2021 年 12 月 9 日至 10 日,KubeCon + CloudNativeCon + OpenSourceSummit China 2021 在线上举办。阿里云资深技术专家、容器服务研发负责人易立在大会主论坛进行了主题为 “云未来,新可能” 的演讲,分享了阿里云基于大规模云原生实践下的技术趋势判断和技术创新进展。
以下为分享全文实录。
易立,阿里云资深技术专家、容器服务研发负责人
大家好,我是阿里云易立,目前负责容器服务产品线,也是 CNCF governing board 的成员。这是第二次在 KubeCon 与大家在线上交流。今天,我会分享阿里云在云原生领域的实践和思考,以及我们对未来的一些判断。
云原生 - 数字经济技术创新基石
2020 年以来,新冠疫情改变了全球经济的运行与人们的生活。数字化的生产与生活方式成为后疫情时代的新常态。今天,云计算已经成为社会的数字经济基础设施,而云原生技术正在深刻地改变企业上云和用云的方式。
阿里云对云原生的定义是应云而生的软件、硬件和架构,帮助企业最大化获得云价值。具体来说,云原生技术给企业带来 3 个核心的业务价值:
敏捷高效 - 更好支持 DevOps 提升应用研发和交付效率,提升弹性和资源利用率。帮助企业可以更好应对环境变化,降低计算成本。
加强韧性 - 利用容器技术可以简化业务上云,更好支撑微服务应用架构;进一步加强 IT 企业基础设施和应用架构韧性,保障企业业务连续性。
融合创新 - 5G,AIoT,AR/VR 等新技术快速发展,云原生技术让计算无处不在,可以更好地支持的新的融合计算形态。
如果说云原生代表了云计算的今天,那么云计算的未来会是什么样?
云未来,新可能
数据中心作为数字经济的动力引擎,其能耗增长已成为云计算发展中不可忽略的问题。据报道,2020 年数据中心耗电量超过国内总用电量的 2.3%。而且占比将逐年增加。阿里云在身体力行地推动绿色计算,比如利用浸没式液冷服务器来降低数据中心 PUE。除此之外,我们看到数据中心的计算效率也有很大提升空间,据统计,全球数据中心的平均资源利用率不到 20%,这是巨大资源和能源浪费。
而云计算的本质,就是把离散的算力,聚合成更大的资源池,通过优化的资源调度,充分削峰填谷,提供极致的能效比。
新一代统一资源调度助力绿色计算
在阿里集团实现了全面上云之后,我们启动了一个新的计划——利用云原生技术,对阿里集团分布在全球数十个地域的数千万核的服务器资源,进行统一资源调度,全面提升利用率。通过阿里集团、阿里云众多团队的努力,今年双 11,统一调度项目交出了一份闪亮的答卷!
基于 Kubernetes 和阿里自研的统一调度器 Cybernetes,通过一套调度协议、一套系统架构,对底层的计算资源进行智能化调度,向上支撑多种工作负载的混合部署,在保障应用 SLO 的前提下,提升资源利用率。让电商的微服务、中间件等应用,搜推广、MaxCompute 的大数据和 AI 业务,全部运行在统一的容器平台基础之上。为阿里集团每年可以减少数万台服务器算力的采购,带来数以亿计的资源成本优化。
其中单集群规模超过上万节点、百万核。任务调度效率达到每秒 2 万个,满足搜索、大数据、AI 等高吞吐、低延迟业务调度编排需求,性能卓越。统一调度帮助阿里双 11 大促成本降低 50%,生产环境常态化 CPU 利用率 65%。
云原生 “Green AI” 应对 AI 大模型训练的挑战
多模态预训练 AI 大模型被广泛认为是迈向通用人工智能的关键路径。
大家熟知的 GPT-3,拥有千亿级参数,在某些自然语言理解领域可以实现比肩人类的处理能力。阿里巴巴达摩院最新发布的超大规模预训练模型 M6 已经进入了 10 万亿参数时代。M6 拥有多模态的中文任务处理能力,尤其擅长设计、写作、问答,在电商、服装、科学研究等领域有广泛应用前景。
Kubernetes 对深度学习任务的支持已经逐渐成熟。然而,超大规模模型训练依然面临着严峻的挑战。万亿级参数模型训练,动辄需要数千张 GPU、数十 T 显存的计算资源,花费数十天才能完成训练。
为了应对这些挑战,Cybernetes 在原生 Kubernetes 基础之扩展了面向大规模 AI 任务调度能力。通过高效的异构算力调度,数据感知和访问加速,有效提升了 GPU 计算效率;通过错峰调度,充分利用集群空闲资源。支撑了云原生的 PAI-Whale 框架高效的并行模型训练。
M6 最终实现了仅用 512 张 GPU,在 10 天内可训练出十万亿规模的超大模型。极大提升模型训练的效率和资源利用率。与国际同等规模模型相比,能耗降低超过八成,真正实现了绿色 AI。
云边端协同实现无处不在的计算
随着 5G、物联网、AR/VR 等新技术的不断成熟,数字世界与物理世界在进一步融合。
OpenYurt 是业界首个开源的“零侵入的”云原生边缘计算项目,去年 11 月成为 CNCF Sandbox 项目。
边缘计算面临着算力分散、资源异构以及弱网连接等技术挑战。Openyurt 基于 Kubernetes 构建了云边协同计算框架。在过去两年已在视频直播、云游戏、物流交通、智能制造、城市大脑等众多行业落地。
今年,我们希望以云原生的方式来实现设备孪生,高效地解决物联网场景下海量分布式设备的管理和运维挑战。经历了 OpenYurt 与 EdgeX Foundry 社区, VMWare、Intel 等工程师的合作,实现对端设备和应用管理的统一建模和统一管理。下面我将为大家介绍一个利用 OpenYurt 实现无处不在计算的案例。
机场运营效率对满足日益增长的客流物流需求至关重要,与此同时机场安全性方面的挑战也愈发突出。在智慧机场项目中,通过 OpenYurt 构建的云边端一体化架构,完成摄像头、传感器、边缘 AI 一体机等构筑的机场感知层,和基于云平台搭建全局统一管理和大数据平台,从而实现机场全局数据共享和分析,进而实现机场全景视频拼接、安全的全域监控、物理可视全视野等能力。
隐私增强计算护航数据安全
随着移动互联网、物联网的快速发展,无处不在的计算时刻产生着海量信息。如何让基础设施更加可信,保障隐私数据不被窃取、篡改、滥用成为重要的挑战。随着国家《数据安全法》的施行,隐私增强计算业务得到了业界越来越多的重视。
据 Gartner 预测,到 2025 年,60% 的大型机构将采用 “隐私增强计算技术” 来处理不可信环境或多方数据分析用例中的数据。
隐私增强型计算中一个重要的技术分支,是通过基于硬件的可信执行环境 TEE 实现数据保护。TEE 的安全性是基于边界的安全模型,它的安全边界非常小并且存在于硬件芯片本身,使 TEE 内执行的应用,不再担心来自其他应用、其他租户或者平台方的威胁。
将容器与可信执行环境相结合的机密容器技术,进一步提升了对敏感信息的保护。一方面容器与完整的 OS 相比,攻击面更小,另一方面基于容器的安全软件供应链可以保障应用来源的可信、可追溯。
Inclavare Containers 是阿里开源的,业界第一个面向机密计算的容器运行时项目。今年 9 月成为 CNCF 沙箱项目。机密容器可以将机密计算底层系统的全部复杂性都隐藏起来,遵循既有的云原生标准化接口和规范,兼容现有的生态。这将加速这项技术的普及。在社区中协作中,我们看到来自 Kata Container 社区的工程师也在探索相关方向。
正如图中所示,由 Inclavare Containers 项目支持的 SGX 机密容器和由 Kata Confidential Container 项目支持的基于 MicroVM 的机密容器,在技术形态上具有高度的相似性。为此,两个项目的开发者在积极进行合作,通过互相复用彼此的技术组件,最大化了技术价值,并为不同的 TEE 实现实现统一的开发者体验。这也正体现了开源社区的力量。
从技术角度来看,相比于 runC 和 Kata 容器运行时,包含了敏感数据的容器镜像需要事先进行加密和数字签名;镜像的下载过程在 TEE 内进行,来确保镜像解密过程的安全性;相关密钥会通过机密计算特有的远程证明机制所建立的安全可信信道传递到 TEE 中,以确保其内容不会被泄露和篡改;最后,整个机密容器在运行时都运行在硬件防护的 TEE 中,其计算过程中的数据在内存中是加密的,并受完整性保护。
通过云原生技术普及数字化信任,还是一个新兴的技术领域,非常期待大家一起共建!
加速云原生人才梯队培养
我们相信任何一项新技术的发展和普及,都要依靠专业的人才去驱动。作为云原生领域的实践者和先行者,阿里云非常重视通过自身的经验沉淀,为开发者赋能。今年 8 月,阿里云与 Linux 开源软件学园、CNCF 共同发布 “云原生人才培养计划 2.0” ,在生态的合力下,通过开放技能图谱、专业课程、认证福利等方式,共同培养云原生专业人才。我们也欢迎更多的开发者小伙伴们一起踏上云原生的学习之路。
再次感谢大家的观看,我们相信绿色、无处不在、可信的云计算将进一步推动产业发展,帮助我们实现更加美好的明天。谢谢!
👇👇点击此处,即可直达阿里云云原生专场!
评论