贴合运维业务场景的告警聚合实现——以 Zabbix 为例
本文介绍了一种基于 Zabbix 实现贴合业务场景的告警聚合的方法。
本方法的思路是通用的,并不局限于某一具体的软件。
注意,具体的参数可以根据实际情况进行设置和选用,文中所述仅是一种示例。
1. 引言
1.1 背景
IT 运维怕什么?告警。而告警洪灾更是噩梦,正愉快写着文档时猛然来了无数个夺命连环 Call,现在只是稍微想象一下就开始头疼了。
一般来说,告警洪灾的常见原因有:
算法(包括简单的预测算法以及机器学习)的局限性;
告警规则配置不合理;将过多的指标放入了告警规则中,而其实人并不需要对它们进行处理;告警阈值过于苛刻;
外部通知(邮件、企业微信等)过于零散;
初步分析:
算法的局限性
现实情况复杂多变,比如节日的抢购或甚至临时上线的活动,而有时网络波动也会导致数据异常进而误触发告警。
当然,长期的机器学习以及算法的进步应该能缓解这一问题,但较短时间内难以看到成效,而且可能会起到反作用。目前它还更多的是在探索试用阶段,本文暂不对此进行讨论。
告警规则配置不合理
不论是将过多的指标放入了告警规则中,还是告警阈值过于苛刻,都是因为开始的时候会担心错过了告警,追求大而全的监控和告警配置。
当然可以通过结合自身监控需求来撸一遍所有告警规则,选择设置关心的指标和阈值即可。
只是,被监控资源会不停慢慢添加,监控需求也会不停迭代,隔三差五就撸一遍所有告警规则实在是劳心费力。
外部通知(邮件、企业微信等)过于零散
因为告警消息是直接一条条推送出来的,所以外部通知必然零散,导致运维人员会收到数量过多的通知,且不便于寻找相关告警信息。
1.2 思路
基于上述分析,提出以下实现贴合业务场景的告警聚合的方法。
利用三方平台接入来自于 Zabbix 的告警消息,按照人为设置的消息聚合规则进行聚合收敛,生成精简的事件集,并基于事件集来配置外部通知规则,从而极大减少发出告警的数量。
重点在于消息聚合规则里,要按实际运维需要对告警消息进行分组,比如将一定时间范围内严重及以上级别的所有服务器告警归为一类,并分配给服务器运维团队或某一位具体的运维人员。
这样就能在不去修改原始的告警规则(毕竟可能有成千上万的告警规则)的前提下,保证告警消息的聚合是贴近实际业务,同时也减少了告警的频繁轰炸。而运维人员在后续进行具体排查时,是可以在系统内部同时看到精简的事件集信息以及事件集下的所有告警事件明细的。
2. 流程
2.1 Zabbix 环境
首先需要准备好 Zabbix 环境,推荐使用 Zabbix 官方的长期支持版本比如 Zabbix 6.0 LTS。相关安装要求和流程请见官方下载安装Zabbix,更详细的说明请见官方文档的安装章节。
2.2 Argus 环境
为了对 Zabbix 产生的告警进行聚合以及外部通知,需要借助于Argus运维平台,一个基于 Zabbix 的 IT 运维监控平台。
这里主要是使用 Argus 的事件中心来设置贴合业务的事件聚合规则、消息分派规则,同时可查看与管理事件集与事件。
如图为 Argus 事件中心的概览页,想了解更多或试用可点击前面的链接。
2.3 添加部门
在 Argus 的 控制台 -> 用户管理 -> 部门管理 内,添加部门,如下图所示。
2.4 添加用户
在 Argus 的 控制台 -> 用户管理 -> 用户管理 内,添加用户,如下图所示。
2.5 添加监控资源
在 Argus 的 资源管理 -> 资源配置 -> 资源综合管理 内,添加资源,逻辑与在Zabbix内添加主机类似,如下图所示。
注意,该资源使用的依然是 Zabbix 内的监控模版,所以资源上的告警规则也就是 Zabbix 模板内自带的告警规则。
2.6 配置消息发送参数
在 Argus 的 事件中心 -> 消息发送参数 内,设置外部消息的发送参数,如下图所示。
2.7 配置 Zabbix 内的告警规则
在前面 Argus 内添加监控资源的步骤后,资源会自动应用对应模板,同时继承获得模板上的告警规则。
如果需要对告警规则进行增改,可以直接在 Zabbix 内进行配置操作,入口位于 Zabbix 网页端的 配置 -> 主机 列表 ->对应主机行内的 触发器。具体操作可参考官方文档的触发器章节。
2.8 添加事件聚合规则
事件聚合规则可以通过组合条件将一定时间范围内不同的告警消息纳入同一个事件集。
在 Argus 的 事件中心 -> 事件聚合规则 内,添加事件聚合规则,如下图所示。
注意这里仅仅是举了一个简单的例子,实际可以按照真实的运维需求进行更加复杂多样的条件设置。
2.9 添加消息分派规则
消息分派规则可以将符合特定多个事件聚合规则的事件集分派给选定的多个部门或人员。
在 Argus 的 事件中心 -> 消息分派规则 内,添加消息分派规则,如下图所示。
2.10 告警消息的接收与处理
在 Zabbix 告警触发后,Argus 内会自动生成新的事件集,并通过上述消息分派方式进行外部通知。
除了通过邮件、企业微信等通知给具体人员,Argus 还会通过 Webhook 的方式将消息推送给三方系统,若有需要,后续可由三方系统继续进行自动化的流程处理。
下图为邮件通知的截图,其中会包含事件集、事件集内首条事件及相关信息。
在 事件中心 -> 聚合事件 中可以看到所有的事件集,同时可展开某一事件集,查看其下的事件列表、趋势图表,便于运维人员分析处理问题,如下图所示。
评论