写点什么

【运维思考】如何做好云上运维服务?

用户头像
嘉为蓝鲸
关注
发布于: 2020 年 11 月 09 日
【运维思考】如何做好云上运维服务?

上云后需要运维吗?当然需要。上云确实可以简化一部分运维工作,比如对于服务器的日常运维,但由于云计算的特性(即开即用、灵活扩展等)以及云产品的快速迭代,相比与传统运维的稳态,云运维更体现出敏态特性。如何做好云上运维服务呢?除了做好云运维基础服务保障系统不出问题外,更应该做好增值核心运维服务。同时,云计算技术日新月异,运维人员的能力也需要与时俱进。云时代正在重塑 IT 运维。


云运维与传统运维的区别


云计算发展如火如荼,从互联网行业向制造、金融、交通、医疗等传统行业不断渗透和融合,促进传统行业转型升级,企业正在享受着云计算释放的巨大红利。但是,上了云就万事大吉了吗?当然不是,要想享受到云计算红利,需要用好云,云运维服务工作必不可少。


云运维与传统运维有什么区别呢?云与传统数据中心的建设目标是一致的,都是为企业提供 IT 服务;运维的职责都是为了保障 IT 服务的质量,围绕服务等级协议 SLA 展开各种运维活动。但由于云计算的特性,云运维相比传统运维还是有很大区别:


运维对象区别


传统运维,接触的起点大都是硬件,如服务器、网络设备、存储设备和风火水电,在云计算时代,运维人员已经无法见到物理的任何设备,云运维的对象更加偏软一些。


运维要求区别


由于云计算的特性,在云平台上实现应用的快速部署、快速更新、实时监控等方面对云运维提出了更高要求;同时对灵活扩展、云原生等云特性优势的运维服务也提出了更高要求。


运维形态区别


云厂商的产品在不断快速迭代,相比与传统运维的稳态,云运维更处于一种敏态过程中,运维人员需要伴随着云产品的升级迭代而不断更新自己的知识库。


云上运维服务的重点


做好云上运维服务,需要先清楚服务的内容和重点,以及服务的方式方法,云上运维服务体系如下图:



01 云运维基础服务


云运维基础服务主要体现在三个方面:监控告警、安全运维、日常问题处理。


监控是整个运维乃至整个产品生命周期中最重要的一环,事前及时预警发现故障,事后提供详实的数据用于追查定位问题。 监控既涉及到基础架构如主机 CPU、内存、磁盘 IOPS、网络流量等监控,也涉及到应用 APM 监控,同时运维人员是否确认收到告警信息、对告警问题是否在处理、处理的过程和结果进行跟踪管理同样重要。


安全运维包括安全加固、漏洞扫描、补丁修复、安全架构优化。安全加固是对安全基线检查以及安全基线配置加固,漏洞扫描针对应用进行安全扫描,补丁修复对操作系统、中间件、数据库进行补丁更新或漏洞修复,安全架构优化针对现有架构和安全产品进行安全能力提升。


日常问题处理,包括云上各类资源产品的安装配置、升降配、备份服务、技术问题的及时处理等。


02 云运维核心服务


云运维基础服务保障的是系统运行不出问题,对于企业来讲,这还远远不够。企业需要的是更规范、更标准、更低成本、更低风险、更好扩展性的保障系统运行,对于运维人员来讲,需要投入更多精力在运维服务的核心方面。


云运维的核心服务也体现在三个方面:云最佳实践标准、云成本优化、云深度巡检与优化。


云最佳实践意味着云上的部署都是按最优标准来配置的。包括架构的最佳实践、云资源选择和配置的最佳实践、云上管理的最佳实践。对于任何一个上云的企业来说,都希望按照最佳实践标准来使用云。


比如,下面这个混合云架构,就是按照最佳实践标准来设计的。



企业本地 IDC 与公有云之间通过专线或 VPN 打通,在公有云跨可用区部署应用,通过负载均衡分发用户请求,形成高可用架构,数据库尽可能使用云数据库,在网络、主机、应用、数据库等不同层次部署云安全产品全方位保障应用和数据安全,文件、数据库通过云原生备份服务进行定时备份,使用堡垒机、访问控制服务、云监控等产品辅助运维管理。


同样,在云资源方面,云资源传统五大件(计算、存储、网络、数据库、安全)和其他资源的选择和配置也需要建立标准。比如是规划一个 VPC 还是多个 VPC,交换机子网网段如何规划设计、虚机的命名规范、虚机的选配标准、安全组端口开放原则等等,只有按照最佳实践标准来选配,未来运维才更高效,扩展性也才更好。


云上管理的最佳实践包括备份、容灾、账号、权限等等方面。


云运维的另一个核心服务,就是帮助企业节省成本。据专业咨询机构 RightScale 的一份调研报告显示,当下的企业级用户在云计算支出一项的浪费高达 30%。


如何做好云成本优化运维服务?涉及到云成本优化体系的建立,建立一套从事前规划到事中分析,再到事后评估改善的不断循环的成本优化体系。



体系重在落实,比如事中分析如何降低云资源浪费,可以从下图中的 5 个维度进行审视分析:



云深度巡检与优化,通过定期(比如每季度一次)对架构、资源、配置和费用等全面健康巡检,发现可能存在的不合理配置及薄弱环节,进行调整优化,提升资源使用效率、减少系统出现故障的概率。


云深度巡检务必对所有的云资源进行巡检,巡检对象包括整体架构、安全、成本、网络、计算、存储、数据库、监控、账号、备份。


对发现的问题进行高、中、低分级,级别为高的问题已经对系统运行、可用性、功能产生影响,建议立即采取行动。级别为中、低的问题建议采取行动或保持关注。


03 使用工具平台辅助云运维


运维的工作量和复杂度达到一定程度后,就需要自动化工具平台来协助,比如自动化巡检、自动化发布、告警事件的自动处理等,提升效率的同时减少人工处理的出错率。


另外,很多中大型企业在进行云战略规划时会选择多云战略,如何对多云进行统一的管理,比如在统一的界面中对各种云平台资源进行全生命周期管理、如何对资源的申请审批流程管理、如何进行用量分析、成本分析等,此时就需要多云管理平台。


云运维服务的进一步思考


云运维工作是一项繁琐、高要求的工作,除了常规的日常运维服务之外,有时还需要做好专项运维支持服务。比如企业高并发的电商业务放到云上后,在类似 618、双 11 等促销期,往往还需要做好高并发护航的专项支持工作,比如全链路压测、数据库调优、容灾演练等等,确保在活动期间系统稳定运行。


云计算技术日新月异,容器、无服务器、微服务、IOT、人工智能等新兴技术在带来更强优势与便利的同时,对云运维人员也提出了更高的要求,运维人员的能力需要与时俱进。云时代正在重塑 IT 运维。


发布于: 2020 年 11 月 09 日阅读数: 94
用户头像

嘉为蓝鲸

关注

研运至简,无限可为 2020.08.13 加入

蓝鲸智云一级技术合作伙伴,中国领先的研发运营一体化解决方案提供商

评论

发布
暂无评论
【运维思考】如何做好云上运维服务?