写点什么

宙斯运维平台简述,看数十万云服务器如何高效运维?

用户头像
李忠良
关注
发布于: 2021 年 01 月 28 日

企业上云已经是大趋势,那么上云之后的运维工作如何处理?论阿里技术实战。


在 12 月 21 日落幕的 QCon 全球软件开发大会(上海站)上,阿里云高级技术专家赵昱针对云上运维话题,分享了阿里经济体全面上云后,如何实现云上数十万台的 ECS 实例自动化运维的实践与经验。


上云之后,企业传统 IT 中服务器的日常运维等工作都交由云服务商来完成。简化了很工作多,但是也有不少的挑战。


诸如规模问题:上云之后管理几万台机器复杂度几何级数上升;安全问题:上云之后的业务的运维人员非常多,运维权限过大、增加失误风险,权限过小、增加管理成本。合理适配是个大的挑战;效率问题:随着资源规模的增长,如何高效地管理运维、提升研发人员的效率,也是云上运维必须思考的问题;成本问题:业务方在成本优化方面的需求比较明显,包括资源使用人员和财务人员,希望能够提供不同维度的资源使用账单,以便为成本优化举措提供依据。


宙斯运维平台包含资源管理、系统运维、应用运维、监控管理和成本分析五大模块。向上通过控制台和 OpenAPI 为业务方提供服务,向下依赖阿里云平台的云监控、资源编排、运维编排、标签系统、弹性伸缩、运维通道和财务系统等服务,来管理日志服务、云服务器、网络、对象存储等众多云上资源。

账号管理


宙斯运维平台支持独立大账号和托管账号的两种账号模式并存。独立大账号是宙斯系统运维平台在阿里云平台的服务账号,账号下管理非常多的业务方的资源,业务方将运维功能全部托管到宙斯,因为可以减少很多前置的工作,所以独立大账号是我们推荐业务方的方法。对于托管账号,它是在宙斯运维平台之前的存量运维账号,为了帮助业务方更好地管理这些存量账号,宙斯运维平台提供了账号托管服务,这些存量账号授予宙斯服务账号的管理员权限,因为托管账号的主子账号与集团的登录系统打通,运维人员可以直接登录来管理。

权限管理


权限管理的主要思路是进行应用分组,应用分组以角色进行权限区分,给予人相应的应用上的角色。我们给予应用 Owner、开发、运维和安全等角色,对不同的角色予以不同的权限 。这里所有的云资源都是通过标签挂载到相应的应用上,通过这样的一个权限管理,管理员不仅可以在人的维度上可以看到有权限的应用,也可以应用维度上看到有权限的人。

资源分组


基于阿里云的标签系统,宙斯运维系统支持资源按很多个维度分类,比如按部门、环境、Region 等,宙斯运维系统给创建的资源打上相应的标签来方便业务方运进行资源的查找、管理和运维,通过标签管理的模式可以很好地对无序化的资源进行运维和监控、甚至是资源分账。

资源交付


对于资源交付来说,最大的挑战是云上资源是多区域、多类型部署的。宙斯运维系统将常用场景抽象成本资源编排模板,通过模板一键按照一键按场景交付资源,通过模板这样的方式大幅提升了我们资源交付的效率,同时也降低了新资源的接入门槛。

运维管理


从运维工作类型来看,运维也是分层的。系统层面的补丁管理、安全扫描、安全防护等能力是一个平台的能力,是不需要业务方来关心,宙斯运维系统将这些能力抽象出来后提供统一的机制来管理。

监控告警


从信息源的角度分类,告警和监控可以分为资源监控、应用监控以及业务监控。宙斯运维系统实现了多种告警处理方式,通过与监控系统的集成将告警按分组联系人分发,比如短信、钉钉等信息;对于自动化的场景,对接了弹性伸缩和运维编排来触发自动操作,实现自动化运维工作,完成自动化闭环。

诊断和修复


随着使用的资源和业务越来越多,内部业务方关于 ECS 实例、网络等问题的咨询量逐渐增多,为了提升问题的解决效率。于是,我们利用历史数据形成了案例库、知识库,再加上专家经验,我们沉淀了诊断和修复的能力,通过一键诊断帮业务方快速定位具体问题。

成本管理


成本管理的思路里,我们主要是在事前的卡点和事中的分账能力来实现。首先,在资源申请时做审批卡点,如果申请的资源规格特别高就会给出一些提示,询问资源申请是否合理;然后,在资源使用过程中,利用标签和应用分组的分账能力,把资源使用费用分摊到相应的部门和项目组,周期性地向业务方提供账单,财务根据部门的账单做分析,可以判断哪些项目是入不敷出的,同时也推动业务方自己去优化资源的使用。比如,是否切换到弹性伸缩上来优化成本,调整资源配置规格进行优化等等,从成本的角度推动业务方来做优化。


本文完


本文为《阿里技术实战:数十万云服务器如何高效运维?》概述,想要了解整个全文的伙伴,直接戳这里哦。(https://mp.weixin.qq.com/s/CZVBCNU10A1_q12kKbzjJg)


用户头像

李忠良

关注

还未添加个人签名 2020.10.29 加入

还未添加个人简介

评论

发布
暂无评论
宙斯运维平台简述,看数十万云服务器如何高效运维?