嘉为蓝鲸告警中心:助力大型保险集团实现告警规范管理
直达原文:嘉为蓝鲸告警中心:助力大型保险集团实现告警规范管理
为应对数字化转型的挑战,提升整体的 IT 运营和运维能力,金融行业数据中心管理体系也在一直发展、完善。我们认为大体分为两大阶段,即狭义数据中心监控管理,到广义数据中心监控管理阶段。其中广义的数据中心监控管理,更多是含从业务价值视角的全领域的建设。通过建立完善的监控告警管理规范,结合监控告警工具,可以提高系统的稳定性和可靠性,减少故障的发生和影响,提升业务价值。
某大型保险公司基于嘉为蓝鲸告警中心,构建了完善的告警管理规范,打造告警全生命周期管理体系,实现业务可用性提升。
业务场景
该公司在多年的监控建设过程中,已陆续实现了网络设备监控、系统基础监控、中间件数据库监控、云平台监控、应用监控、动环监控,所有的监控告警管理规范和工具都由数据中心管理员进行管理,各领域管理岗和外包人员负责接收和处理监控过程中产生的告警。由于监控系统分散、涉及角色多,数据中心管理员较难进行规范管理。
缺乏专业工具支撑,告警的产生、流转、处理过程中需要耗费时间较长,响应和处理效率低下,对业务连续性使用会产生一定影响。同时因为各领域管理岗较为分散,对于告警的处理效率、人力成本等很难进行评估和量化。
分析痛点
该公司有规范的管理流程,但缺少工具支撑管理,导致在实际业务场景中存在以下痛点:
1、工具无法匹配管理规范
基于企业对告警的管理规范,5 级及以上的告警都能自动生成事件工单且由对应的人员处理,且会根据告警治理过程对规范进行优化。需要通过配置才能灵活适配规范。
2、告警信息不规范
由于监控系统多样性以及建设的时间较早,导致告警信息不规范,很多告警甚至缺少关键信息。
3、告警无法收敛导致工单过多
现有系统中,产生的告警 60%以上都是重复告警。这些无效和重复的告警会导致创建的事件工单量大、告警通知量大,且需要在人工处理阶段花大量时间对重复的工单进行判断关联。事件单数量过多也不符合管理规范。
4、无法适配交易时间
金融业的业务系统跟交易时间关联较大,因变更和交易关闭时间,也会产生一些无效的告警,需要根据交易时间判断告警有效性。
5、变更导致告警风暴
变更过程或者变更过后,会产生大量告警,需要自动对变更产生的告警进行屏蔽。
解决方案
结合告警管理规范,落地最佳实践
根据该公司的组织架构和管理规范,结合业务场景,通过配置和对接第三方系统,对整个告警生命周期管理实现了闭环。
结合 CMDB 实现告警丰富及告警动态分派
通过关联 CMDB 数据,实现告警信息的丰富和完善,并根据 CMDB 实例中的负责人信息,实现了告警动态流转,保证告警通知的及时性和准确性。
根据交易日历和变更进行告警收敛
根据交易日历和 ITSM 变更工单,修改告警收敛策略的时效性或者创建新的收敛策略,通过自动化手段尽可能地减少无效告警。
成果展示
结合 CMDB 实现告警动态分派
根据 ITSM 变更工单创建告警屏蔽
交易日历控制抑制策略是否生效
建设成效
实现了多监控系统的告警进行统一生命周期管理,实现告警 100%管理;
实现告警动态分派和准确触达,告警从产生到通知不到 1 分钟;
结合金融行业的特征实现告警收敛,减少了无效告警产生的资源浪费,告警收敛率达到 70%;
多种自动化场景结合,减少日常人工维护和管理的成本;
为告警治理提供数据支持,通过数据复盘实现各环节的优化。
场景适用性
嘉为蓝鲸告警中心适用于告警生命周期管理的场景,结合企业告警管理规范,总结出企业最佳落地实践。适用于金融行业及其他更广泛行业进行告警高效处理、标准化实现业务系统持续可用的场景。适用有以下业务场景需求的企业:
监控系统较多,没有集中管理告警的系统;
告警数量较多且很多无效告警,告警处理效率低;
告警产生跟交易开闭市时间有关联,需要根据交易时间对告警进行分别处理;
原来监控告警没有完善的规范,管理较为混乱,想要规范化;
告警处理过程中故障排查较难,希望有信息进行辅助排查;
想要通过故障自愈实现一些固化场景,或者实现场景创新。
评论