监控治理有效性评价体系

2022 年 2 月 08 日
本文字数：2876 字
阅读完需：约 9 分钟

当一个中大型互联网公司，每天由监控系统发出大量报警，而故障却始终无法及时发现的时候，如何能够快速找到问题的根源，如何改进，以及如何度量改进的效果，这一系列的问题就会摆在大家面前，本文基于作者在多家公司的监控治理经验，从评价体系角度出发，整理了近 20 个相关的指标，从而能够对监控系统以及各个业务线进行有效度量。

评价体系分为三类

第一类是效果指标，用于概要性说明监控治理的结果，通过召回率和发现时长来进行说明
第二类是核心指标，用于综合性评价监控治理的效果，也用来发现监控治理过程中的短板

效果指标

监控召回率

含义：由监控系统的报警发现的故障占比

举例：100 个故障中有 70 个故障是基于监控报警发现的，那么召回率为 70%

参考：业界较好的监控召回率在 80-90%（分母：影响到业务核心指标的故障）

监控发现时长

含义：从故障发生到响应报警的时长

举例：一个故障在 00:00 发生，00:03 监控系统发出报警给相关人员，00:04 的时候报警发送给相关人员，00:05 相关人员响应该报警，那么发现时长为 5min

阶段：报警发送时长（00:00--00:04)+报警响应时长（00:04--00:05)

备注：故障的发现时长 ≠ 监控发现时长，还有一部分故障不是监控发现的

参考：业界较好的监控发现时长可以在 5min 内（含人员响应时间）

核心指标

策略接手率

含义：一个报警策略发出报警后，是否有被人查看，无所谓几个人查看了

举例：一条策略产生报警后假如发给 10 个人，只要有一个人看了，就视为策略接手，策略接手率 100%

分类：紧急报警的策略接手率和 IM 报警的策略接手率

参考：策略接手率应该达到 100%

人员接手率

含义：一定数量的报警发送给某个接收人后，该接收人查看了多少报警

举例：给一个人发送了 100 条报警，该接收人查看了其中 20 条报警，那么人员接手率为 20%

分类：紧急报警的人员接手率和 IM 报警的人员接手率

区别：策略接手率关注的是策略有人处理即可，谁响应并不重要；人员接手率关注的是发送给此人的报警有多少被响应；当策略接手率为 100%而人员接手率较低时，说明报警的发送范围偏大了，有很多无关人员在接收报警，需要收敛报警的发送范围

参考：人员接手率应该达到 90%以上

接手延时

含义：报警接收人收到报警后，多久查看/接手的报警

举例：系统给接收人发送了一条报警到手机上，但该接收人 10min 后才看的报警，那么接手延时就是 10min

分类：紧急报警接手延时和 IM 接手延时

备注：一般来说，紧急报警都会打电话，因此紧急报警的接收延时都在 3min 内，IM 的报警是消息形式，因此接手延时在不同团队和个人差距较大

参考：紧急报警的接手延时≤3min；IM 的接手延时≤10min

过载人员比例

含义：有多少人的单日报警量超过了 144 条

计算：单条策略有异常、重复提醒和恢复三条报警，每个策略平均恢复时间为 15min，工作时间全部用于处理报警，那么单日的报警量上限为 12 小时 ÷ 15min * 3 条 = 144 条

备注：二八原则，10%的人甚至更少的人，接收了 90%以上的报警

报警收敛比

含义：异常事件的数量和报警消息数量的比例

目的：监控系统需要具备一定的报警聚合能力，从各种纬度对报警进行聚合，进而通过少量报警将问题全貌进行描述。缺乏聚合能力，会导致报警干扰太过严重，最终无人关注报警

备注：一般来讲，收敛比至少要达到 80%

报警策略配置合规性比例

含义：有多少报警策略的配置是符合规范以及最佳实践的

目的：通过确保报警策略配置合规性，来减小因策略配置本身导致的报警

报警接收人员比例

含义：报警接收人员数量/总人员数量的比例

目的：降低报警处理的人力成本，降低报警对团队的干扰程度

举例：团队有 100 人，所有人都接收报警，那么报警处理的人力就是 100 人，干扰程度就是 100 人 * 人均报警数 * 报警恢复时长

报警策略恢复时长

含义：报警策略从异常到恢复的时长统计

目的：假设重要的报警设置是合理的，那么报警就应该在较短的时间内恢复（例如 15min），如果重要报警的恢复时长远比 15min 高，那么就说明当前的报警策略设置存在不合理的地方

报警策略有效性比例

含义：有多少报警策略被长期被屏蔽、长期处于暂停状体或者一个季度以上的时间都没有报警过

目的：报警策略长期被暂停和屏蔽，是需要去解决其背后的问题，如果一直处于这种状态，是会有风险的

报警组值班开启率

含义：报警组是否开启值班的比例统计

目的：将报警值班进行收敛，从而大幅降低报警值班的人力成本

举例：一个报警组有 10 个人，任何报警都会同时发送给这 10 个人；如果开启值班，那么报警只会发给其中的一两个人，从而大幅降低了团队的报警值班成本

报警升级开启比例

含义：报警组是否开启报警升级功能的比例

目的：通过开启报警升级，确保报警始终有人跟进，避免值班人因为各种原因无响应的风险

备注：报警升级功能，应该默认开启，通过组织架构升级、自定义升级、服务节点升级等方式实现

报警升级比例

含义：有多少报警是发送给升级人员而非值班人员的

举例：如果一个月发送了一千条报警，其中有 30%以上的报警是发给报警升级人员的，那么可以认为，是报警值班机制出现了问题，该处理报警的人未处理报警，导致报警不断的发送给升级人员

治理指标

TOP-N 策略

含义：单个策略一周内报警量＞500 条或者占总量 5%以上视为 TOP-N 策略

目的：通过明确给出 TOP-N 的标准，进而明确 TOP-N 治理边界

报警总量

含义：报警接收人收到的报警消息数量

分类：初始报警量 + 重复提醒报警量 + 升级报警量 + 恢复报警量

渠道：电话报警量+短信报警量+IM 报警量+邮件报警量

备注：如果一条报警消息中聚合了多条报警，算一条报警。对于监控系统自身来讲，可以通过报警消息的收敛比例来判断报警聚合的效果；同一个报警策略，发送了电话、短信、IM 和邮件，那么算四条报警而不能算一条报警，目的是合理控制干扰程度

监控策略报警数

含义：有多少个策略在统计周期内发生了报警

目的：用于识别问题的范围，是局部还是大面积的

举例：在统计周期内，有 10 个策略发生报警和 300 个策略发生报警，前者可能问题的集中度很高，后者就较为分散，所需的应对手段自然也不同

首次报警占比

含义：单个策略会有首次报警、重复提醒、报警升级、报警恢复等状态

目的：提升首次报警占比，降低重复提升和报警升级的占比，是一个相对健康的状态，如果值班人员不处理报警，不断靠重复提醒和升级才能响应这种状态肯定是不对的

重复报警策略

含义：单个策略一周内重复报警大于 3 天的策略

目的：对于不属于 TOP-N 的策略，从另外一个维度进行约束

举例：某个策略一周报警 21 条，每天报警 3 次，连续 7 天均报警了，从 TOP-N 的角度看，他永远不属于治理范畴，但对团队的干扰，其实是非常严重的

报警策略平均接收人数

含义：一个报警策略发送给几个人

目的：评估整体的报警放大系数，避免一个报警发给十几人甚至几十人

备注：少部分核心策略可能会发给多人；部分团队的策略会发给主备值班人；部分团队要求研发、测试和运维都接收报警；因此，平均人数很难到

报警值班耗时占比

含义：报警接收人员用于处理报警的时长占总时长的比例

举例：一周的时间内，报警接收人员处理了 100 个报警，100 个报警的发生到恢复时长的累计值为 24 个小时，那么值班耗时占比就是 1/7，约 15%的时间用于处理报警

发布于: 刚刚阅读数: 4

原文链接:【http://xie.infoq.cn/article/07d9698e83811f7d645a16748】。未经作者许可，禁止转载。

焦振清

关注

让运维因我们而不同！ 2018.12.04 加入

架构师

发布

暂无评论

创作场景