某大型机场:告警全覆盖建设之路,引领业务持续性显著提升
直达原文:【某大型机场】告警全覆盖建设之路,引领业务持续性显著提升
建设背景
某大型机场安全可靠、优质高效的运行状态离不开大量网络基础设施的建设和先进信息技术的支撑。截至目前,该机场已经投运使用了 9 大平台,100 多个业务系统,部署在上千台服务器上。同时应用了大数据、物联网、云计算、Docker、移动应用等多种新技术。
随着航空运输量的逐年增加,某大型机场信息资源规模日渐庞大,日常信息资源监控管理出现了缺乏管理措施、告警有效性持续降低、监控告警覆盖度不足、缺乏持续运营等问题。传统的监控工具已无法满足管理规范和业务需求。
基于以上背景,该机场打造 IT 运营管理平台,完成自动化运维工具、配置管理中心、IT 服务管理中心、监控告警中心等运维工具的建设,实现运维工具的打通,进一步提升业务连续性和监控故障处理效率,满足未来运维工作的发展需求。
建设目标
为解决告警管理问题,该机场通过引入嘉为蓝鲸告警中心,实现告警生命周期管理能力提升,并期望达到以下目标:
深化拓广监控、告警覆盖范围;
提升告警有效性和告警处理效率;
优化管理措施,实现告警闭环管理;
通过告警治理,反向触发监控策略优化治理;
实现业务连续性运行,减少因业务日益增长带来的业务故障。
建设方案
告警统一接入,实现运维场景联动
IT 运营管理平台以 PaaS 为底座,接入各种监控系统的告警数据,实现告警数据统一标准和管理。基于平台的 CMDB、运营大屏、ITSM 和标准运维功能,实现统一的告警生命周期管理。这一过程中,各环节与各运维工具紧密交互联动,不仅显著提升了运维效率,同时也为系统的优化和改进提供了宝贵的数据和深入的分析结果。
多告警源并行,提升告警覆盖率
监控的覆盖面和完善程度影响告警的有效性和可靠性。在接入原有的 Zabbix、带外监控、VCenter 等监控工具的基础上,结合蓝鲸监控平台的能力,增加服务拨测、日志关键字、业务个性化监控、组件监控、NTP 监控,全面提升告警覆盖率。
多层级、多对象、多指标、多维度的监控,结合告警收敛和告警关联,通过更多维度的告警数据和更完善的告警信息,辅助排查和定位故障产生的原因,实现了信息系统 24 小时运行保障。
大屏展示业务健康,告警快速响应
为保证业务正常运行和运维告警的及时解决,该机场对于告警的要求是告警空屏。
ECC 值班含十多个服务商,有完整的值班体系,对于告警响应制度和责任人也有完善的管理规范。为了能快速的响应,在 ECC 值班室有一块大屏,用于展示各业务的健康度,业务人员基于健康度情况快速响应且处理告警。
告警产生以后,根据 CMDB 丰富将告警的归属业务信息补充完整,再基于业务维度做告警的统计,大屏展示所有的业务状态。业务无告警的状态时为绿色,当有告警产生时,系统会根据告警等级在对应的业务显示健康度状态,且会伴有提醒音,对应业务的值班人员进行响应处理。ECC 的值班运维人员目的就是解决所有的告警,实现全屏健康的状态。
告警自愈,实现告警快速恢复
对于处理措施确定且重复产生的告警,如果等待人工响应且处理,会导致告警处理时间延长。通过告警自愈的方式,自动触发相应的处理措施,以恢复正常运行状态或减少潜在的风险。
在前期的运维值班工作中,该机场已积累了部分常规且固定的告警处置方式。如部分非核心业务因进程错误导致的告警,根据告警带出的信息匹配处理策略,并自动执行告警治愈,实现进程重启,快速自动修复告警,恢复系统的正常运行状态。
告警治理,提升告警有效性及效率
监控范围的扩大带来告警数量的增多,如何通过收敛实现有效告警尤为重要。该机场通过打标签的方式标记告警处置,定期对告警进行复盘,将告警处理方式、告警误告、告警策略不合理等情况进行总结。并根据复盘信息优化监控策略、告警收敛策略、告警处理策略等进行优化和调试,逐渐提升告警有效性。目前告警命中率达到 75%。
并通过告警的报表分析,对厂商、业务等告警处理效率进行分析,通过配合考核指标,提升告警的处理效率。
建设成效
告警及时发现
告警通知的及时性提升 150%,在告警产生 1 分钟内准确触达。减少了业务影响时间,提升了业务稳定性和用户满意度。
有效辅助分析故障原因
通过告警的覆盖率增加和告警的有效收敛,结合告警拓扑视图和关联告警等辅助信息,在告警产生后实现关联分析排查,更快速找到告警的根因和关键,加速告警处理效率,减少告警影响范围和时间。
保证业务持续性
结合监控平台,在原有的监控系统基础上,完善服务拨测、日志关键字、业务个性化监控、组件监控、NTP 监控,实现更多维度及更细颗粒度的监控,告警覆盖率达到 90%。在未发生业务故障前就已经发现了局部告警,并根据告警关联分析判断相关业务及其他关联告警,及时解决,减少因多种故障积累导致的业务故障。最大程度上保障了业务的持续性。
产品适用性
嘉为蓝鲸告警中心适用于告警生命周期管理,结合企业组织架构和业务需求,总结出适合企业提升告警覆盖和业务连续性的方案。适用存在以下业务场景需求的企业:
监控系统较多,没有集中管理告警的系统,需要覆盖告警方便管理;
值班人员较多或外包厂商较多,通知不及时或不到位的;
系统较多且运维人员较多,告警产生后需要关联分析尽快定位问题和人员;
有告警治理需求,系统通过告警治理优化监控指标及运维体系;
对业务连续性和用户满意度有较高要求。
评论