阿里云弹性计算资深技术专家徐海弘:云上自动化运维成熟度模型
2023 年 3 月 22 日,【全新升级 阿里云 ECS CloudOps 2.0 来啦】发布会正式播出,本次发布会上阿里云宣布 CloudOps(云上自动化运维)套件全新升级,并发布了 CloudOps 云上自动化运维白皮书 2.0 版本。阿里云弹性计算资深技术专家徐海弘在本次直播中带来了题为《云上自动化运维成熟度模型》的分享,本文根据其演讲内容整理而成。
伴随 CloudOps(云上自动化运维)套件的全新升级,阿里云推出了配套的智能化产品方案——ECS 成熟度评估与洞察(ECS insight),它结合客户的资源管理需求以及云上相关的产品实践,从基础能力、成本管理、自动化、可靠性、弹性和安全性六个维度帮助用户分析定位潜在的运维风险,并推荐对应的解决方案与最佳实践,全方位帮助企业用户降本增效,提升业务连续性。
一直以来,弹性计算团队期望通过持续的体验优化以及相关工具的建设,提升客户在云上的运维效率。在过去的一年里,我们通过拜访客户并结合云上的一些交付实践,整理了包括自动化运维在内的白皮书以及建设了相关的工具。
弹性计算团队在 2021 年 12 月开始引入 CloudOps 云上自动化运维。当时大家已经意识到,当线下转为线上,资源使用方式和客户关注点也都会发生变化。
DevOps in Cloud 并不完全等于把线下 CloudOps 实践原封不动搬到云上。所以在 2021 年 Puppet 的报告里提到,通过各种调查反馈来看,65% 处于发展中期的企业声称他们已经开始使用云上资源。
但从调查结果来看,只有 20% 的企业充分利用到云自身的一些特性或优势开展业务。在 1.0 中,我们主要基于云上的资源交付运维等各方面的差异性,从降低成本、提升交付速度、提高自动化程度、提升灵活性、增强系统可靠性以及提高业务安全性几个视角提出一些最佳实践和对应工具。
在过去一段时间里,ops 生态和趋势也在发生变化。很多早期已经存在的内容,因为各种原因被大家再度关注。
这里涉及到 ops 不同维度的增强版,它们侧重点各不相同。有些在垂直业务域的应用,有些强调运维实践执行的方案。
其中,FinOps 是 Finance+DevOps 的组合,侧重于提升云上资源的使用率和性能,要求业务、财务与工程师团队紧密协同,通过数据的方式提升成本的可视化能力,进而优化成本。
根据 Flexera 2022 年的评估,云上每年大概 32% 的成本支出是因为资源闲置或使用率低被浪费。在过去 12 个月,FinOps 参与团队的规模增长了 75%。
最近几年,由于人工智能和机器学习的突破发展,AIOps 被大家重新提起,关注如何把相关技术应用到各种运维场景从而实现降本增效。从相关的评估报告可以看到,全球 AIOps 市场规模在 2025 年预计会到达 112.5 亿美元。
除此之外,DevSecOps 是 Security+DevOps 的组合,它是一种将安全作为贯穿整个 IT 生命周期的共同责任实践方法。
最后,在机器学习领域,MLOps 是将 DevOps 的方法论和工具在 ML 领域的应用。根据 MarketsandMarkets 的报告,全球 MLOps 市场规模在 2025 年预计会到达 4.9 亿美元。
DevSecOps 的概念最早于 2012 年被 IT 安全领域的专家以及从业者提出,在后续的时间内,包括 Gartner 以及 RSAC 会议都在逐步强化相关概念和实践,尤其是安全左移等概念的提出,强调安全应该贯彻在 DevOps 整个生命周期。当前,将风险管理、合规治理等多重因素融入 DevSecOps 框架成为业界趋势之一。
不管是什么类型的 Ops,最终都要围绕资源展开。资源包含基础设施、应用团队、数据业务流程等等,其中典型的参与方有云集成商。在云上,云平台是集成商这个角色里面最重要的成员。当然其他不同的角色,有最传统的开发、运维人员、运营人员等。还有一些业务领域的专家,有财务的,还有安全的。
从云平台的视角,我们首要做的是提升基础产品使用体验以及能力丰富度,这是 CloudOps 之本。它可以从根源上避免问题,比如以 ECS 产品为例,过去一年内我们从工单的视角去展开,逐步分析客户的问题,并从产品自身去解决它。从 3 月份结果看工单的数量同比有相当的下降,取得非常不错的结果,侧面也验证了产品自身的体验是 CloudOps 最基础的部分。
除此之外,云平台屏蔽了资源的一些特性,所以云上的一些 Ops 实践发生了对应的变化。因此,需要综合客户的资源运维诉求以及云上资源使用的方式,通过多样化的产品能力构建云上 Ops 的最佳实践,这是另外一部分需要持续建设的地方。
最后从业务的角色去看,我们一直认为包括开发/运维等角色在内的业务团队是 CloudOps 的重要参与方,但他们也是 CloudOps 最佳实践的最大贡献者。很多用户具备非常丰富的资源管理实践。
在过去一段时间里面,我们的产品团队以及研发团队拜访了不少客户,了解他们的场景以及现有的工作方式,用于指导我们后续的工作。
综合上面的信息,资源管理实践分为三部分,发现问题、解决问题以及预防问题。其中,在发现问题里,我们需要思考,如何设立最佳实践的规范和基于数据的诊断能力?其中,最关键是设立一个最佳实践规范。其次围绕规范的数据化诊断能力可以帮助大家发现问题。
因为有了规范和诊断能力后,才可以解决问题和预防问题。从而引导出,接下来要介绍的白皮书以及洞察工具。
我们通过观察业界的趋势变化,持续与客户沟通、拜访了解客户使用的应用场景,以及自身产品的能力建设。我们把这些信息进行整理之后,推出了 CloudOps 白皮书。
这里有两点需要强调的是:
第一,关于成熟度模型。我们把用户使用云分成几个等级。初级时,企业刚开始使用资源,开始关注云上使用的自动化、弹性、安全、合规等特性。在实践中,开始有意识的接触和使用产品。企业更多以默认配置的方式,简单开启相关功能。随着后期逐步的深入,它会慢慢到中级、高级、标准化,智能化等不同阶段。
第二点在分类方面,通过对 CloudOps 各个领域进行拆分,我们引入了自动化能力。自动化能力指我们如何运用工具和系统,减少甚至完全取代人工操作,从而更好地提升相关的运维效率。除此之外,典型分类有弹性能力、可靠性能力、安全合规能力、成本和资源量化管理能力等等。
上图展示了阿里云弹性计算 CloudOps 的产品全貌,大家看到在最下层是 IaaS 的基础能力。在这个层面,如我们前面提到的,是整个 CloudOps 之本,弹性计算也一直在致力于这些基础能力的提升和体验的改进。
在基础产品的上层,就是 CloudOps 的产品矩阵。如我们上面在 CloudOps 白皮书里面提到的,我们分成了五个维度,即成本管理、自动化服务、可靠性服务、弹性服务、安全合规服务。
在大家最熟悉的弹性服务里,以最典型的弹性伸缩工具为例,客户可以根据业务负载,自动对资源进行扩容或缩容的工作。在弹性资源保障里,我们针对不同场景提供了资源使用方式,客户可以阅读实例,通过预留容量包、容量预定的方式管理资源。
ECS 使用成熟度评估与洞察模型,是在控制台上的一个开放工具。它是我们在白皮书里面提到的“各种最佳实践以及相关规范标准”的实现。
如上图所示,在第一部分,大家看到工具可以针对当前登陆用户的资源使用情况,诊断出不同维度当前成熟度的情况,比如自动化能力、基础能力、洞察弹性能力、安全能力等方面的使用情况。
在第二部分,可以看到不同维度评分的情况,包括得分项以及失分项。比如在稳定性维度,目前一共有十个评估项,用户当前可能有七个得分项,三个失分项。
在这三个失分项里,我们也会做一些细化,给出一些对应的实践方案,便于依据做提升和优化。如果系统发现用户最近七天没有使用快照对数据进行备份,用户可以针对这个问题进行一些优化。当然,CloudOps 是一个持续的过程,不论是白皮书还是洞察工具,它是对过去我们和客户合作整理出来的一些最佳实践的总结,在后续我们也会融入更多新的内容,感谢大家。
点击文末“阅读原文”回看精彩直播,关注云布道师公众号回复“CloudOps”关键词,即刻阅读/下载《CloudOps 云上自动化运维白皮书 2.0》。
版权声明: 本文为 InfoQ 作者【云布道师】的原创文章。
原文链接:【http://xie.infoq.cn/article/ea3e97a4cd5ac4e39fd634fca】。文章转载请联系作者。
评论