写点什么

机智的告警策略,完善监控系统的重要一环

作者:观测云
  • 2023-11-23
    上海
  • 本文字数:1717 字

    阅读完需:约 6 分钟

机智的告警策略,完善监控系统的重要一环

前言

在当今信息时代,系统的稳定性和可靠性对于任何企业来说都至关重要。随着信息技术的不断发展,各种复杂的系统架构层出不穷,而这也带来了更多潜在的故障和问题。因此,建立有效的监控和告警系统成为了保障系统正常运行的关键一环。

我们已讨论过如何建立一个全面、高效的智能监控系统来帮助企业检测异常情况。(参见《智能监控,高效观测 IT 系统瓶颈》)。当然,若想实时监控系统的性能和运行情况,快速发现问题并解决,及时的告警通知是必不可少的。观测云支持对监控器的检测结果进行告警策略管理,通过发送告警通知,让用户及时了解监测的异常数据情况、高效排查并恢复故障,从而使系统稳定运行。本文将为您介绍告警策略的配置信息以及如何通过配置自定义告警通知。



开始配置告警策略

观测云支持在监控器检测规则配置界面或直接进入告警策略管理进行告警策略的配置。当监控满足触发条件后,会立即发送告警消息给指定的通知对象。告警策略中包含需要通知的事件等级、通知对象、告警聚合及告警沉默(设置重复告警通知)。



通知配置

通知配置中支持自定义配置事件等级和通知对象,您可以针对单个异常等级配置所需的的单个或多个通知对象,以便将不同等级的告警通知发送给多团队和成员 。



事件等级

事件等级包括紧急、重要、警告、无数据、信息。不同的异常事件等级搭配不同的颜色,帮助您清晰地分辨异常情况的紧急程度 ,快速确定排障优先级以免耽误最佳解决问题时间。


事件等级详情可参考:https://docs.guance.com/monitoring/monitor/event-level-description/



通知对象

观测云支持通过邮件、群通知、Webhook 自定义、短信等方式通知告警,其中覆盖了多种通知对象类型如下:


需要在通知对象管理配置的对象,可参见:https://docs.guance.com/monitoring/notify-object/


值得一提的是,当历史发送过的异常告警事件恢复后,观测云将会发送恢复通知到对应的通知对象,让相关团队和成员及时了解异常告警事件的最新状态。

告警聚合

基于上文提到选定的事件等级,您可以自定义配置告警聚合进行告警通知,从而更加高效的管理告警通知。



告警聚合默认配置不聚合,在该模式下,告警事件会按照每 20 秒时间间隔合并为一封通知发送至对应通知对象;而规则聚合模式下,您可以选择全部、监控器 / 智能巡检 / SLO、检测维度、标签四种聚合规则并联动聚合周期来发送告警通知。

聚合规则说明如下:


聚合周期则支持在规则聚合的模式下,您可以自定义设置一个时间范围(1-30 分钟内),那么在这个时间段内新增的事件会被聚合成一条告警通知发送。如果超出这个聚合周期,新增的事件将会被聚合到新的告警通知中。



告警聚合功能帮助您将繁杂的告警通知有条理地发送到成员和团队,不仅能够节约相关成员再次分类管理的时间,还可以联动全局的异常情况进行故障的深度分析和有效解决,保持系统的稳定性。

告警沉默

若同一个异常事件不是非常紧急,但是告警通知频率高,您可以通过设置重复告警通知的时间间隔这一方式来减少告警通知频率。需要注意的是,设置告警沉默后事件会继续产生,但是告警通知不会再发送,你可以在事件管理中查看产生的事件。



场景示例

以上就是告警通知配置的全部过程,我们将以某主机监控器(主机 {{ host }} 内存使用率过高)为例,配置相关的告警通知。

在建立上述主机监控器过程中,我们可以在配置页面通过告警策略配置将该监控器的紧急和告警级别异常事件分别通知给空间成员以及相关钉钉群。由于告警通知数量较大,我们选择以“监控器 / 智能巡检 / SLO”为聚合规则,“15 分钟”为聚合周期对告警通知进行聚合,告警沉默设置为 15 分钟内,相同告警不发送通知。我们就能够在主机内存情况数据突破设定阈值时让运维人员及时获得告警通知快速定位故障。



当然,您配置好的所有告警策略都可以在列表里统一管理,包括告警策略名称、告警是否聚合以及其他相关操作,也支持您直接跳转关联的监控器进一步查看异常情况。



结语

通过本文的介绍,希望您能够更加深入地了解如何通过告警策略配置自定义告警通知的重要性以及实际操作方法。建立一个全面、高效的告警通知系统对于保障系统的稳定运行至关重要。观测云提供的定制化的告警通知策略将帮助您及时发现和解决潜在的问题,确保系统的稳定性和可靠性。后续更多分享,值得期待!

用户头像

观测云

关注

还未添加个人签名 2021-02-08 加入

云时代的系统可观测平台

评论

发布
暂无评论
机智的告警策略,完善监控系统的重要一环_监控告警_观测云_InfoQ写作社区