CloudOps 自动化运维套件助力企业更好上云、用云、管云
2023 年 6 月 1 日,阿里云峰会·粤港澳大湾区——企业上云与飞天云上创新论坛中,阿里云弹性计算高级产品专家马小婷带来了云上自动化运维最佳实践的相关分享,以及使用阿里云 ECS 产品的方法和技巧,帮助众多用户更轻松、更安全、更低成本的使用 ECS。
以下是她的演讲分享整理:
我今天分享的内容分为 3 大块,第一部分会简单介绍企业用云和使用 ECS 面临的挑战,第二部分会详细展开介绍 CloudOps 是什么,以及它能帮助云上企业解决哪些方面的问题,第三部分则是介绍一下 CloudOps 对应的落地产品,也是阿里云今年新推出的产品, ECS 使用成熟度评估与洞察。
首先,我们来看一下企业用云面临的挑战。根据 Flexera 2023 年分析报告可以看到,虽然大型企业和小型企业面临的 top 3 问题略有不同,但是成本管理、安全以及知识缺乏是所有企业面临的三大最主要难题。
上云就上阿里云,大多数企业上阿里云首要任务就是购买云服务器 ECS 构建业务应用,目前 ECS 的客户面临哪些问题呢?
我们观察到,企业上云的主要出发点之一,就是希望借助云资源按需取用灵活性,来满足不断变化的业务场景,降低 Capex。但一旦资源规模变大了,如何对 ECS 持续进行成本优化,降低整体拥有成本,是客户关注的首要问题。
企业的整体 IT 成本除了资源拥有成本 Capex 外,还有 Opex,即运维成本。云服务提供商是否提供完善丰富的自动化能力,帮助企业降低 ECS 的维护和管理成本,是客户关注的第二个问题。
云服务器是否可靠是客户关注的第三大问题,包括地域和可用区分布、云服务器底层系统架构的可靠性,以及 ECS 稳定性的透明度能力,因为这会直接影响业务的稳定性。
云服务器的弹性能力,包括弹性速度和弹性效率,它决定了企业是否能快速响应业务的高峰。
最后一个则是安全和合规方面的能力,企业如何借助 ECS 提供的基础能力提升业务的安全合规等级,保障业务的安全至关重要。
我们发现,ECS 客户面临的这 5 大问题与登成前面分享的 landing zone 和卓越架构设计中,对业务应用提出五大方面的指导方针是不谋而合的。只是由于企业在不同发展阶段做了不同选择,但殊途同归,最终都会落到安全合规、稳定性、成本优化、卓越运维和高效性能几个方面。所以,在这个大前提下,为了让用户更好的用好 ECS,我们提出了 CloudOps 的概念。
CloudOpsECS 的自动化运维套件,= Cloud x DevOps,强调的是借助云本身的能力和特性,提升云上开发运维的自动化程度,从工具和认知层面帮助企业快速落地 DevOps 实践,提升业务交付效率。
CloudOps 定义了客户在 ECS 使用过程中,最为关注的 CARES 五大维度,包括成本与资源优化、自动化能力、可靠性能力、弹性能力和安全合规能力。
上图展示了 ECS CloudOps 的产品矩阵,可以看出,CloudOps 主要是 ECS 为中心,围绕着用户关注的 CARES 五个维度,分别提供了对应的自动化工具和自服务能力,帮助用户快速完成相关维度能力的提升。
举个例子,在安全合规层面,虽然阿里云提供了安全可靠的基础设施和服务,如果客户有更高的安全合规需求,包括实例访问安全、数据安全、操作安全等,阿里云提供了访问控制、操作审计、加密实例,磁盘加密等多样化的安全保障能力,满足各种客户需求。
下面我将从每个维度展开,为大家做一些相关知识的补齐和最佳实践的落地方式。
首先我们看一下如何做 ECS 的成本优化和管理。
在降本提效的行业大趋势下,Finops 是当前的热点之一,我们也看到不少企业尝试去做 FinOps,但因各种工具层面和知识层面的限制,进展缓慢,收效甚微。虽然 FinOps 不完全等于成本优化,但大多数企业做 FinOps 的出发点是为了降本。而占云上成本大头的 ECS 该如何进行成本优化呢?这里我们给了一个明确的操作指南。
第一步就是需要选择合适的付费方式。ECS 目前提供了丰富的付费方式,包括包年包月,按量、RI 和节省计划等。不同付费方式适合不同的业务场景,比如对于长期使用的资源,使用包年包月价格更优惠,但是如果要兼顾资源的灵活性时,按量结合节省计划,最低可以实现 4-7 折的优惠。对于临时使用的资源,使用按量付费更划算。如果业务完全是无状态的,使用 spot 价格则可以做到按量价格的 1-2 折。所以,根据业务形态选择合适的付费方式是成本优化的第一步。
第二步就是选择合适的实例规格。阿里云每年都会根据最新软硬件推出新的实例规格,新的实例规格相比旧的实例规格具有更好的性价比。阿里云在今年 4 月份的峰会上,宣布最新的实例规格目录价下降高达 50%,也推出了倚天的新实例规格,整体性价比再次提升 30%。所以,选择与业务负载匹配度最合适的实例规格,并跟随业务负载波动定期调整实例规格,才能真正省钱。
第三步就是提升资源利用率,避免浪费。对于闲置资源,或者使用率偏低的资源,我们需要监控并定期调整实例或带宽规格,对于暂时不用的实例,我们可以通过节省停机模式,仅需要支付磁盘的费用即可保留实例,需要的时候再随时开机拉起。
最后一步就是做成本进行持续的分析与监控,只有将成本拆分清楚了,才能识别异常或不符合规范的成本支出。
成本优化并不是一次性的任务,而是一个持续运营的过程,我们需要持续进行上述四个步骤。我们看到客户在这个环节中最常遇到的问题其实就是第 4 步,下面我将展开介绍一下如何利用标签,实现资源的分组、分账和分权。
'
我们在不同的产品控制台看到的都是资源视角,就是看到该类型的全部资源。而标签是一个键值对,我们可以用标签来对资源的属性进行多方位识别,比如资源所属地域,所属部门和他的用途是测试还是生产环境。 一旦对资源打完标签,我们就可以在费用中心,从各个维度查看资源的成本,比如信息部整体成本如何,以及信息部在生产环境中的费用如何。这样,可以让已经打标清楚的成本一目了然。
但是,后面可能会有新的用户或资源创建出来,这些用户或资源的标记可能没有遵循之前定义的标签规范。这种情况下,我们每次都需要人工进行校验。如果使用标签策略,规定好什么用户只能创建什么类型的资源,以及这些资源必须打上什么标签。不符合规范则无法创建资源。这样就能保证所有新用户和新资源从一开始就遵循了成本管理的约束,大大简化后续的成本分析和优化。
第二部分是自动化能力。自动化这个领域属于老生常谈,知易行难。围绕 ECS 全生命周期管理的自动化能力,阿里云也提供了丰富的自动化工具,第一个就是上云的迁移自动化工具,服务器迁移中心。它的使用方式非常简单,用户只需要指定好迁移源和迁移目标,SMC 会自动创建迁移任务,将线下 IDC、私有云或其他云厂商上的系统和数据,一键迁移至阿里云,大大缩短业务迁移上云的周期。同时,smc 还支持操作系统的迁移、在阿里云内跨可用区进行迁移,满足各种迁移场景。
第二款自动化的工具就是资源编排 ROS。相信大家都有过购买资源的体验,如果我们构建一个 web 服务需要用到 LB、ECS 和 RDS,我们需要分别去不同的控制台完成资源创建,然后再进行配置。通过 ROS,我们只需要用 jason 或 yaml 格式的文件,定义好所需资源和资源之间的网络配置等,ROS 可以一键将所需资源和配置全部交付,这样能将整个集群的步骤周期从以前的数天,下降到 10-15 分钟,大大提升部署效率。同时,我们也可以借助相同的方式,完成集群在多地域的部署。
第三款自动化工具就是运维编排 OOS,它是一个免托管的自动化任务工具,其核心功能就是将一系列任务流自动串起来。上图所示的是一个滚动发布的流程。与资源编排类似的是,运维编排也是通过 yaml 和 jason 文件定义一个自动化任务模板,运维编排就会根据定义好的批次,将选中的 ECS 均分后,依次对每个批次的 ECS 进行卸载 LB、更新系统盘镜像、然后再挂载回去提供服务,如果执行失败,还可以重试。等第一批执行完毕,并且没有任何问题了,会继续执行第二和第三批。这样就能在不中断业务的基础上,实现对一组 ECS 上的应用版本进行升级发布。大大缩短业务的发布周期。
下面一个是弹性能力。众所周知,弹性能力是云最核心也是最基本的能力之一。对于流量明显波动的业务而言,传统方式下,如果保有全部资源,则会出现大量资源浪费;如果出现计划外流量,不仅需要人工接入,而且可能会因为响应过慢导致出现服务不可用,影响用户体验。
阿里云提供的弹性伸缩服务可以很好地解决这个问题。用户只需要定义好伸缩组内的实例数范围,通过伸缩配置指定好新扩容实例长什么样,以及什么时候进行扩缩容,弹性伸缩就能跟随业务负载波动自动进行扩缩容,不仅提供业务的高可用能力,而且还能减低整体使用成本。
下面这张图展示了目前弹性伸缩支持的弹性模式,除了普通的需要手动配置的简单伸缩规则外,弹性伸缩还支持步进 规则,目标追踪规则,这个类似于我们的空调制热制冷系统,他能根据室温自动调整。
目前,ess 还支持预测性伸缩规则,类似于 AI 空调,他能根据过去 7 天的业务负载波动,自动预测未来 2 天的资源变化情况,并根据情况自动弹性,完全无需人工参与。
谈到 ECS 的稳定性,我觉得有 3 点可以重点说明的。首先当然是阿里云分布广泛且稳如磐石的基础设施,目前阿里云已经在全球 28 个地域,86 个可用区提供云服务。基于服务上万企业客户和管理超百万服务器的经验,阿里云沉淀了一套完整的故障预测、预防、定位和止损的技术能力,最终实现业界领先的 ECS SLA,单个 ECS 实例的可用性达到 99.975%,多可用区的 sla 达到 99.995%,在业界遥遥领先。最后,阿里云还提供了丰富的 ECS 可观测能力,包括实现物理机打散的部署集,洞察底层基础设施异常的 ECS 系统事件,用于一键定位 ECS 内外部各种问题的诊断工具。这些可观测能力不仅能实现精细化运维,而且还能帮助用户缩短故障定位时长。
最后一块也是最重要的就是安全性问题。云上安全性的构建是需要云厂商和客户共同守护的责任共担模式。云厂商提供云服务,所以,云厂商需要对底层基础设施、软硬件虚拟化服务、以及云服务本身的安全性负责。云服务器内的应用和数据属于客户,云厂商无权也不能读取,这意味着用户需要自己对云服务器本身的访问安全,操作系统的安全、以及云服务器内数据和应用的安全负责。
为了帮助客户体系化地构建云上的安全性,阿里云提供了多种工具和能力,包括操作系统层面的镜像安全加密,系统补丁自动修复,访问层面的访问控制,网络隔离,以及快照进行数据备份,加密存储和加密计算实现数据安全。总体而言,云上业务的安全性,需要需要阿里云与客户共同守护。
前面我整体介绍了在 CloudOps 五大维度中,阿里云提供的各种工具和能力,帮助用户自助完成相关领域的能力提升。大家会关注,有没有一揽子的方案,让客户一目了然看到自己 ECS 上的业务在这五大维度的存在的各种风险,以及对应的应对方案呢?
这就是阿里云弹性计算部门在今年推出的 CloudOps 落地指南产品 – ECS 使用成熟度评估与洞察,简称 ECS Insight。
它会根据客户过去 30 天的资源使用情况,从 CARES 五大维度对我们 ECS 上业务中存在的风险进行识别,最终提供洞察分析报告。该报告不仅提供您账号下当前 ECS 使用成熟度的评估全貌,而且还能查看每个维度的详细得分和失分项,针对失分项,我们基于云上运维最佳实践提供了指导建议,您可以快速进行修复。
目前我们的 ECS 控制台就能看到这个能力的申请入口,也欢迎大家申请体验。
我今天的分享就到此结束,如果您希望了解 CloudOps 的更多信息,也欢迎大家扫码/点击下载 CloudOps 白皮书。谢谢大家~
版权声明: 本文为 InfoQ 作者【阿里云弹性计算】的原创文章。
原文链接:【http://xie.infoq.cn/article/3338f1f0fd42e2ac4a1f64f57】。文章转载请联系作者。
评论