写点什么

省运营商构建松耦合 IT 运营监控支撑体系

作者:嘉为蓝鲸
  • 2024-05-31
    广东
  • 本文字数:2436 字

    阅读完需:约 8 分钟

直达原文:【省级运营商】“运维”走向“运营”,业务支撑先进模式助推高质量发展 

运维挑战日益凸显转型迫在眉睫

 

随着业务的高速发展,微服务、容器等新技术已在悄然之中快速应用创新。某省级运营商内部新老系统并行,架构和交易调用过程复杂,现存的监控手段分散,无法实现端到端交易全透明。

而智慧中台虽不断持续建设,但过程中 IT 新旧架构并存,IT 范围从 B 域向大数据域、M 域、O 域扩张,加上 IT 对象多元化等变化,让运维面临的挑战日益凸显:

  • 运维边界明显扩大,运维人员没有增加,如何保障业务持续稳定运行?

  • 系统复杂度持续增加,如何快速定位故障?

  • BOM 域上中台,如何保障 B\O\M 域的运维需求?

  • DevOps 模式下,如何快速构建运维能力,赋能开发、运营等团队,创造价值?

面对巨大挑战,该运营商迫切需要全新的 IT 运营管理支撑体系,通过自动化+智能化+敏捷化运维支撑,以及开放共享的平台化能力,推动传统运维向“主动服务、主动运营、主动赋能”云化运维模式转型,确保 IT 运维、业务支撑等工作的高效协同开展。

 

经过不断比对与论证,该运营商最终携手嘉为蓝鲸,引入蓝鲸平台作为技术底座,沉淀集中监控、集中运维、集中操作、集中流程、集中调度运维基础能力,打造能力领先的“敏捷化、集中化、智能化”的 IT 运营监控平台,助力运维团队实现敏捷化、运维研发化(OpsDev)、运营数字化、运维智慧化。

 

同时,基于平台赋能,各专业、各域运维团队可以以更低成本、更高效率打造运维能力,携手共建运维应用场景和运维生态,推动人运维系统到人控制工具运维系统转型。

总体建设目标

 

“能力+应用” 构建松耦合 IT 运营监控支撑体系

该运营商按照“能力+应用”的思路,打破烟囱式建设模式,构建一个可快速迭代的松耦合的 IT 运营监控支撑体系,实现运维数据共享、能力开发、敏捷迭代、智能运维、快速支撑。

同时基于平台能力,可快速构建专业应用及场景,满足各专业、各团队运维运营需求。

 

“提智聚能”锋芒展露,团队 SRE 转型初见成果

运维边界扩大、人员却没有增加的情况下,如何赋能运维人员,提升运维价值?基于平台进行 SRE 转型,是该运营商交出的答卷。

 

PaaS 化的技术体系,完善的前后端开发框架、调度引擎、公共组件等模块,让该运营商能够基于平台进行岗位创新,打造 SRE 团队,沉淀和扩展运维能力,共建运维价值生态。

 

例如该运营商自主研发的应急管理平台,对各业务的应急能力进行了封装,OnCall 人员可以通过平台看到当前服务的状态,并且快速对服务进行上下线、应急通道切换等操作,整个过程可视、可管、可控,解决了 OnCall 人员切换应急效率低、易出错等问题。

 

目前应急管理平台已经稳定运营一年以上,故障的平均恢复时长从小时级别减少至分钟级别,应急预案覆盖率从 0%提升至 42%,故障处理率从 0%提升至 40%,同时实现了故障数量和处理时长的双压降!

在集团“提智聚能”活动中,应急管理平台等多款 SaaS 获评运维能力标杆,并进行全国巡展、赋能智慧中台;AIOps 自动驾驶应急保障 L4 探索项目也成功入选集团创新试点,这标志着该运营商业务支撑创新能力进入全国前列!

 

打通关键环节,实现运维的数字化转型

除了团队生态化能力提升,数据消费、敏捷联动、感知分析、自动执行等能力的落地,也是实现智能化运维支撑的重要前提。

 

通过本次 IT 运营监控支撑体系的构建,该运营商打通运维关键环节,落地了可供消费的统一 CMDB 资产管理、整合运维信息与资源的 ITSM 敏捷引擎、数据全面的业务可观测管理、能力齐全编排灵活的自动化执行体系,实现了运维的数字化转型,为 AIOps 探索转型打下夯实基础。

可供消费的统一 CMDB 资产管理

处于运维工作核心的 CMDB 是自动化、智能化运维的基石。该运营商构建了消费型统一 CMDB 资产管理,实现 100%业务配置接入、自动数据采集和数据消费。

  • 接入业务:

  • 已接入业务数 80+个,主机数 6000+台,创建通用模型 100+个,配置项实例近 80000,已完成 100%。

  • 数据采集:

  • 发现插件数 20+个,发现任务数近 20 个,采集插件数近 20 个,采集任务数 10+个,3 月份执行任务数 100+个。

  • 数据消费:

  • 对外开放 API 100+个,提供给 10+运维工具进行数据消费。


整合运维信息与资源的 ITSM 敏捷引擎

通过统一的自服务门户、流程引擎、知识库、自动化调度,全面整合信息流、管理流和执行流,成功构建敏捷的 ITSM 流程管理。

  • 流程建设:

  • 已建敏捷流程近 20 个,包括 SLA、日常运维、演练管理、巡检管理等;

  • 工单运转:

  • 总工单数为 1000+,其中 SLA 流程近 300 个,日常运维操作流程 200+个,演练管理流程 200+个,巡检管理流程 100+个

  • 能力对接:

  • 对外开放 API 10+个,对接运维工具 10+(包含自动化能力、智能化能力)。


数据全面的业务可观测性管理

通过全景集中监控,该运营商可观测性能力覆盖 CRM 前端系统、CRM 后端系统、BOSS 系统等,全面整合数据,实现业务可观测性管理。

  • 监控成效:

  • Metric:已接入监控的资源总数有近 40000 个,共 20+个资源类型,采集插件 40+个,监控策略配置模板 10+条

  • Trace:部署 Web 端监控、App 端监控、服务端监控等 10+个数字化运营场景。

  • 告警成效:

  • 告警总数 157760,处理告警数 157732,近一月的历史告警数 33901;落地告警收敛策略、告警转工单策略及告警自愈策略。

 

能力齐全,编排灵活的自动化执行体系

基于强大的流程编排引擎、自动化引擎、丰富的 API 接口,该运营商构建了统一服务管理平台,实现巡检自动化、应用启停、应急切换等自动化执行体系。

  • 基础自动化:

  • 巡检脚本数近 90 个,巡检模板数 70+,近 10 类巡检对象,任务总数 70+个

  • 已构建 10+个应用系统的应用启停任务;

  • 灾切自动化,对接 50+个应用,共有灾备切换任务 20+条

  • 应急预案体系:

  • 应急预案覆盖近 10 类场景,包括 BOSS、云平台、CRM、BOMC、BASS、动环、安全、其中自动化预案 10+。


结语

运维团队有能力,运维环节有数据,该运营商已经初步实现“运维”向“运营”转型。未来,该运营商可以在此基础上进行工作度量,实现 PDCA 循环演进;还可以基于数据和算法实现 AI in ALL,将 AI 嵌入运维场景,实现运维效能的进一步优化,更加有效支撑业务高质量发展!

 

直达原文:【省级运营商】“运维”走向“运营”,业务支撑先进模式助推高质量发展 

用户头像

嘉为蓝鲸

关注

研运至简,无限可为 2020-08-13 加入

蓝鲸智云一级技术合作伙伴,中国领先的研发运营一体化解决方案提供商

评论

发布
暂无评论
省运营商构建松耦合IT运营监控支撑体系_研发管理_嘉为蓝鲸_InfoQ写作社区