阿里云易立:以增效促降本,容器服务全面进入智能化时代
容器技术已经跨越鸿沟,广泛应用于金融、通讯、制造、交通等千行百业。Kubernetes 支撑的工作负载也从早期单一的互联网应用发展到数据库、AI、大数据等等,并覆盖了公共云、专有云、边缘云等多样化、动态的云环境。
11 月 5 日,2022 杭州 · 云栖大会上,阿里巴巴研究员、阿里云智能云原生应用平台容器技术负责人易立在云原生峰会上发表主题演讲,发布阿里云容器服务全面智能化升级,帮助企业精益用云,以增效促降本,实现 IT 架构在云上的高质量发展。
容器服务助力企业数字化创新
经过 7 年的发展,阿里云容器服务产品线已经成为企业的云原生操作系统。基于阿里云容器平台,阿里集团实现了 100%业务云原生上云。
2021 年,阿里云发布了 ACK Anywhere,进一步拓展产品的宽度,覆盖从公共云、边缘云、到本地数据中心的各个场景。让所有需要云能力的地方,都能基于统一的容器基础设施之上。
得益于阿里集团和阿里云的大规模容器应用实践,阿里云容器产品能力得到了业界的广泛认可 。 2022 年 1 季度,在权威咨询机构 Forrester 发布的全球公共云容器平台分析师报告中,ACK 稳居全球领导者象限,这也是中国科技公司首次进入该象限;2022 年 2 季度,在 Omida 发布的全球容器管理解决方案报告中,由于在公共云、专有云、混合云等环境完善的产品体系,ACK 成为全球领导者,产品能力与规模国内领先;2022 年 8 月,在 CSDN 2022 中国开发者调查报告中,有 52%的国内开发者选择阿里云容器云平台。
过去几年,降本增效成为了众多企业 IT 管理者关注的重要问题。企业已经到了精益用云的时代,提升资源效率、研发效率,IT 管理效率成为关键。
四大全新升级,阿里云容器服务迈入智能化时代
智能化是容器平台发展的必然趋势。今天,阿里云基于过去 10 年的大规模容器实战经验,通过数据化手段和智能化算法,推动容器服务 ACK 面向基础设施层、容器编排层、应用架构层和运营治理领域 4 大维度全面升级,迈入智能化新阶段。
升级 1:新算力
在基础设施层,利用面向云原生优化的新算力,提升计算效率。
2021 年,阿里云发布了新一代云原生 CPU,倚天 710,基于 ARMv9 架构,已经在电商、阿里云内部规模化应用,实现了卓越性价比。
相比 X86 芯片,典型 Web 应用性价比高 50%,视频编解码应用性价比高 80%。倚天芯片面向云原生优化,vCPU 采用独立物理核,没有超线程架构中的性能争抢。可以提供更加确定性的性能。
ACK 通过对芯片微架构的拓扑感知调度优化,相比开源 K8s 实现,帮助 Web 应用吞吐提升 20%。
为了更好支持 AI、HPC 等 I/O 密集型应用。ACK 正式提供了对 eRDMA 高性能容器网络支持。 通过软硬一体优化的网络实现,可以提供更高的带宽与更低的延迟。应用在 AI 训练加速 20%,微服务吞吐提升 10%;
ACK 支持多容器高效复用 eRDMA 设备,满足了容器应用部署密度的需求。
为了更好支持有状态应用容器化,阿里云发布新一代容器网络文件系统 CNFS 2.0,它采用全链路加速技术,可以实现:
容器应用对后端存储系统的访问并行化,提升网络带宽的利用率。对远程 NAS 存储的吞吐可以提升 100%,满足高性能 AI 训练和基因计算的需求。
利用元数据缓存和独有的 lease 机制,使得远程文件存储的元数据访问性能,提升了 18 倍,非常适合 Web 应用和 CI/CD 等需要对海量小文件进行访问的场景。
支持文件的透明生命周期管理,可以自动将低频访问的冷数据放置在低成本的 NAS 低频介质或 OSS 中,降低存储成本 50%以上。
它支持对 NAS/CPFS/OSS 全链路可观测,帮助开发者更好诊断和优化 I/O 性能问题。
企业与个人对数据隐私保护日益关切,机密计算技术应运而生。其中一个重要的技术是通过芯片的可信执行环境(TEE)实现数据保护。在 TEE 内执行的应用,不用担心来自其他应用、其他租户或者平台方的威胁。
为了进一步推动机密计算的普及,阿里、蚂蚁团队在 Kata Container 社区与红帽、Intel 等公司进行合作,将容器计算与可信执行环境相结合,推出机密容器 Confidential Container 项目,同时为 Intel® SGX、Intel® TDX 等不同的 TEE 实现,提供了一致的容器界面。
基于新一代的机密容器架构,开发者可以确保应用是通过可信软件供应链进行构建和分发的;容器应用运行在可信执行环境中,具备更小的攻击面,而且所有内存中数据是加密的并受完整性保护;应用对数据的访问是基于加密的可信数据存储服务。
机密容器可以在需要隐私数据处理的场景中,如金融风控、医疗健康等,提供高效的隐私增强型算力。
升级 2:新平台
在容器编排层,通过智能化、云边端一体的新平台,提升资源利用率和运维效率。
K8s 目前已经成为云时代的操作系统。希望充分利用多种应用负载之间的削峰填谷,提升 K8s 集群资源利用率。这也是大家常说的“混部”能力。
阿里巴巴早在 2016 年就启动了云原生混部技术研发,历经多轮技术架构升级和双 11 锤炼,目前已实现全业务规模超千万核的云原生混部,日常 CPU 利用率在 50% 左右。
阿里云今年开源了云原生混部项目 Koordinator,它包含三大核心能力:
差异化 SLO 保障:在 Kubernetes 之上提供面向 QoS 的资源调度机制,比如延迟敏感型的在线类任务,和可抢占的计算任务。通过对不同 QoS 应用的合理调度,可以在保障应用的稳定性的同时,提升资源利用率。
QoS 感知调度:包括 CPU、GPU 拓扑感知、资源画像、热点打散等精细调度能力,帮助应用优化运行时性能效率,提升稳定性。
任务调度:提供了大数据与 AI 相关的任务调度,比如批量调度、优先级抢占以及弹性 Quota 等,可以更高效地支持计算任务
Koordinator 项目完全兼容标准的 K8s,无需做任何侵入式修改。ACK 也内建了 Koordinator 产品化支持:
通过混部调度,在典型场景可以提升资源利用率 100%;
通过差异化 SLO 保障,在提升资源利用率的同时,让低优先级的任务对延迟敏感型任务的影响 < 5%。
Kubernetes 的复杂性是阻碍很多客户采用的一个重要因素。为此,ACK 发布 AIOps 套件,通过智能化手段实现故障预防与快速定位。
基于阿里团队 10 年大规模容器运维经验沉淀,通过专家系统和 AI 算法相结合的方式,提供了全栈巡检、升级检查,智能诊断等三大功能。
智能诊断目前包含 200+诊断项,覆盖 90%的常见问题场景。以容器网络问题诊断为例,排查链路长,复杂度高,非常耗时耗力。
在得物的业务场景中,利用智能诊断,可以快速定位由于网络栈异常导致的偶发性抖动问题;再如 e 签宝,利用智能诊断,可以在分钟级完成对 Ingress、容器网络、应用和 OS 的全链路问题排查。
ACK One 是面向多地域多集群的分布式容器平台,可以统一管理中心云、本地云、边缘云和客户 IDC 的 K8s 集群。今年阿里云在 ACK One 基础上,发布如下功能:
提供托管的 ArgoCD 服务,开发者可以通过 GitOps 方式来实现应用的跨地域自动化交付;
通过弹性感知的调度器实现,为混合云场景提供灵活的弹性算力;
支持对多集群安全策略的统一管理,保障企业系统统一安全基线
来看一个具体案例,在智联招聘的业务高峰期,借助 ACK One 弹性调度策略可以在数分钟内弹出数万核 ECS 和 ECI 等计算资源补充到 IDC 的在线服务集群,有效应对流量洪峰。
ACK@Edge 是面向云边端一体协同的容器应用平台,基于阿里云开源的 OpenYurt 项目,今年对 ACK@Edge 进行全新升级:
在云边协同场景, 阿里云推出了增强型网络边缘节点池,实现安全、稳定的云边网络互联方案。国内知名游戏企业,莉莉丝,利用增强型边缘网络节点池,让海外多地域服务器与云上 VPC 安全互通。相比专线网络资源成本降低 30%。
在云端协同场景, 阿里云推出了轻量化接入功能,可以通过 K8s 管理资源受限的设备上的容器应用。元戎启行是一个自动驾驶 Startup 公司,通过 ACK@Edge 管理车载设备应用,接入资源开销占用降低 50 %,发布运维效率提升 60% 以上。
升级 3:新架构
在应用架构层,利用服务网格等新架构,提升应用的敏捷性、弹性与韧性。
服务网格已经成为云原生应用的网络基础设施。阿里云服务网格服务 ASM 在 4 个维度进行了全新的升级:
支持多种服务治理框架,可以实现 Spring Cloud, Apache Dobbo 等微服务应用与服务网格应用的互联互通和平滑迁移;
为应用服务提供统一的身份定义, 简化零信任策略的构建与实施;
提供开箱即用的 Envoy 插件市场, 可以拓宽服务网格的应用场景, 包括身份认证、AI Serving 等场景;
可以基于服务 SLA 指标,实现更加精准的弹性扩缩容
震坤行工业超市是一家数字化的工业用品服务平台,为众多企业复工复产保驾护航。借助于 ASM 服务网格, 提升了平台的性能。基于 ASM 的软硬一体优化技术,提升 TLS 握手性能 75%,以及 QPS 30+%。关于相关技术细节,可以参阅 Intel 和阿里云一起编写的技术白皮书(点击阅读原文即可下载)。
专注餐饮行业数字化的合阔智云, 其业务中台的核心生产系统 100%全部切换到服务网格 ASM,提升应用发布效率 70%,降低异常排错成本 80%。
升级 4:新实践
在运营治理领域,将通过一系列最佳实践的产品沉淀,提升企业 IT 在成本管理、安全治理等方面的管理效率。
为了帮助企业上好云、用好云、管好云,阿里云本次发布了云原生 landing zone,为企业云原生上云提供最佳实践。 它包含架构规划、安全管理、财务管理、自动化运维等等 8 大模块。
通过云原生 landing zone 最佳实践,已经帮助众多国内外企业客户构建了上云架构,满足企业对安全、稳定性和成本等多方面的业务诉求。
围绕 LandingZone 中财务管理部分,阿里云结合业财一体化实践和 FinOps 理念,推出 ACK FinOps 套件。 通过数字化手段和智能化方法,帮助企业实现成本可视化、可优化、可控制。
中华保险作为国内互联网金融行业的领导者,通过 ACK FinOps 套件,将企业 IT 成本治理周期从季度缩短到天级别,资源闲置率从 30% 降低到 10% 以内。
识货团队通过应用混部和弹性等技术优化,将集群的资源利用率提升 10%;整体降低计算成本 20%以上。
围绕 LandingZone 中安全防护部分,ACK 与 ACR 提供完备的 DevSecOps 的产品能力,为企业提供安全可信的软件供应链。
今年,阿里云推出了集群容器安全概览,可以帮助安全管理员对集群安全水位有更好地感知,可以对集群配置、应用镜像、容器运行时的安全风险,及时发现与处置。
全球领先的 SaaS 厂商 Salesforce,在阿里云上提供先进的 CRM 服务应用。基于云原生 DevSecOps 能力,半年内实现 数 千次风险镜像拦截阻断, 1 万次工作负载部署策略阻断。基于全自动化软件供应链安全流程,应用安全交付效率提升 3 倍。
未来,希望更多的企业能和阿里云一起,利用云原生技术精益用云、增效降本,在云端进行业务创新。
点击此处 ,免费下载《基于英特尔®架构的阿里云服务网格 ASM 技术加速应用服务加密通》白皮书。
版权声明: 本文为 InfoQ 作者【阿里巴巴云原生】的原创文章。
原文链接:【http://xie.infoq.cn/article/7ba2f19372ef4c6bef09e5c0f】。文章转载请联系作者。
评论