省运营商构建松耦合 IT 运营监控支撑体系
直达原文:【省级运营商】“运维”走向“运营”,业务支撑先进模式助推高质量发展
运维挑战日益凸显转型迫在眉睫
随着业务的高速发展,微服务、容器等新技术已在悄然之中快速应用创新。某省级运营商内部新老系统并行,架构和交易调用过程复杂,现存的监控手段分散,无法实现端到端交易全透明。
而智慧中台虽不断持续建设,但过程中 IT 新旧架构并存,IT 范围从 B 域向大数据域、M 域、O 域扩张,加上 IT 对象多元化等变化,让运维面临的挑战日益凸显:
运维边界明显扩大,运维人员没有增加,如何保障业务持续稳定运行?
系统复杂度持续增加,如何快速定位故障?
BOM 域上中台,如何保障 B\O\M 域的运维需求?
DevOps 模式下,如何快速构建运维能力,赋能开发、运营等团队,创造价值?
面对巨大挑战,该运营商迫切需要全新的 IT 运营管理支撑体系,通过自动化+智能化+敏捷化运维支撑,以及开放共享的平台化能力,推动传统运维向“主动服务、主动运营、主动赋能”云化运维模式转型,确保 IT 运维、业务支撑等工作的高效协同开展。
经过不断比对与论证,该运营商最终携手嘉为蓝鲸,引入蓝鲸平台作为技术底座,沉淀集中监控、集中运维、集中操作、集中流程、集中调度运维基础能力,打造能力领先的“敏捷化、集中化、智能化”的 IT 运营监控平台,助力运维团队实现敏捷化、运维研发化(OpsDev)、运营数字化、运维智慧化。
同时,基于平台赋能,各专业、各域运维团队可以以更低成本、更高效率打造运维能力,携手共建运维应用场景和运维生态,推动人运维系统到人控制工具运维系统转型。
总体建设目标
“能力+应用” 构建松耦合 IT 运营监控支撑体系
该运营商按照“能力+应用”的思路,打破烟囱式建设模式,构建一个可快速迭代的松耦合的 IT 运营监控支撑体系,实现运维数据共享、能力开发、敏捷迭代、智能运维、快速支撑。
同时基于平台能力,可快速构建专业应用及场景,满足各专业、各团队运维运营需求。
“提智聚能”锋芒展露,团队 SRE 转型初见成果
运维边界扩大、人员却没有增加的情况下,如何赋能运维人员,提升运维价值?基于平台进行 SRE 转型,是该运营商交出的答卷。
PaaS 化的技术体系,完善的前后端开发框架、调度引擎、公共组件等模块,让该运营商能够基于平台进行岗位创新,打造 SRE 团队,沉淀和扩展运维能力,共建运维价值生态。
例如该运营商自主研发的应急管理平台,对各业务的应急能力进行了封装,OnCall 人员可以通过平台看到当前服务的状态,并且快速对服务进行上下线、应急通道切换等操作,整个过程可视、可管、可控,解决了 OnCall 人员切换应急效率低、易出错等问题。
目前应急管理平台已经稳定运营一年以上,故障的平均恢复时长从小时级别减少至分钟级别,应急预案覆盖率从 0%提升至 42%,故障处理率从 0%提升至 40%,同时实现了故障数量和处理时长的双压降!
在集团“提智聚能”活动中,应急管理平台等多款 SaaS 获评运维能力标杆,并进行全国巡展、赋能智慧中台;AIOps 自动驾驶应急保障 L4 探索项目也成功入选集团创新试点,这标志着该运营商业务支撑创新能力进入全国前列!
打通关键环节,实现运维的数字化转型
除了团队生态化能力提升,数据消费、敏捷联动、感知分析、自动执行等能力的落地,也是实现智能化运维支撑的重要前提。
通过本次 IT 运营监控支撑体系的构建,该运营商打通运维关键环节,落地了可供消费的统一 CMDB 资产管理、整合运维信息与资源的 ITSM 敏捷引擎、数据全面的业务可观测管理、能力齐全编排灵活的自动化执行体系,实现了运维的数字化转型,为 AIOps 探索转型打下夯实基础。
可供消费的统一 CMDB 资产管理
处于运维工作核心的 CMDB 是自动化、智能化运维的基石。该运营商构建了消费型统一 CMDB 资产管理,实现 100%业务配置接入、自动数据采集和数据消费。
接入业务:
已接入业务数 80+个,主机数 6000+台,创建通用模型 100+个,配置项实例近 80000,已完成 100%。
数据采集:
发现插件数 20+个,发现任务数近 20 个,采集插件数近 20 个,采集任务数 10+个,3 月份执行任务数 100+个。
数据消费:
对外开放 API 100+个,提供给 10+运维工具进行数据消费。
整合运维信息与资源的 ITSM 敏捷引擎
通过统一的自服务门户、流程引擎、知识库、自动化调度,全面整合信息流、管理流和执行流,成功构建敏捷的 ITSM 流程管理。
流程建设:
已建敏捷流程近 20 个,包括 SLA、日常运维、演练管理、巡检管理等;
工单运转:
总工单数为 1000+,其中 SLA 流程近 300 个,日常运维操作流程 200+个,演练管理流程 200+个,巡检管理流程 100+个;
能力对接:
对外开放 API 10+个,对接运维工具 10+(包含自动化能力、智能化能力)。
数据全面的业务可观测性管理
通过全景集中监控,该运营商可观测性能力覆盖 CRM 前端系统、CRM 后端系统、BOSS 系统等,全面整合数据,实现业务可观测性管理。
监控成效:
Metric:已接入监控的资源总数有近 40000 个,共 20+个资源类型,采集插件 40+个,监控策略配置模板 10+条;
Trace:部署 Web 端监控、App 端监控、服务端监控等 10+个数字化运营场景。
告警成效:
告警总数 157760,处理告警数 157732,近一月的历史告警数 33901;落地告警收敛策略、告警转工单策略及告警自愈策略。
能力齐全,编排灵活的自动化执行体系
基于强大的流程编排引擎、自动化引擎、丰富的 API 接口,该运营商构建了统一服务管理平台,实现巡检自动化、应用启停、应急切换等自动化执行体系。
基础自动化:
巡检脚本数近 90 个,巡检模板数 70+,近 10 类巡检对象,任务总数 70+个;
已构建 10+个应用系统的应用启停任务;
灾切自动化,对接 50+个应用,共有灾备切换任务 20+条。
应急预案体系:
应急预案覆盖近 10 类场景,包括 BOSS、云平台、CRM、BOMC、BASS、动环、安全、其中自动化预案 10+。
结语
运维团队有能力,运维环节有数据,该运营商已经初步实现“运维”向“运营”转型。未来,该运营商可以在此基础上进行工作度量,实现 PDCA 循环演进;还可以基于数据和算法实现 AI in ALL,将 AI 嵌入运维场景,实现运维效能的进一步优化,更加有效支撑业务高质量发展!
评论