写点什么

告警管理不止降噪:如何从零散事件中挖出关键信息

作者:嘉为蓝鲸
  • 2025-06-16
    广东
  • 本文字数:1209 字

    阅读完需:约 4 分钟

告警管理不止降噪:如何从零散事件中挖出关键信息

直达原文:告警管理不止降噪:如何从零散事件中挖出关键信息


复杂事件处理(CEP,Complex Event Processing)是一项针对动态事件流进行实时分析、复杂模式识别及关联性推理的技术,广泛适用于处理海量实时数据、挖掘事件间深层关联的场景。例如:银行交易反欺诈挖掘、高频交易策略优化等场景,在这些场景中,系统通过在海量事件中基于复杂规则(如特征、上下文、时序关系、因果关联等)识别并聚合成高层次事件。

以具体案例为例:用户 A 在上海凌晨通过手机支付 1 万元(原子事件 1),同时其银行卡在深圳 ATM 机尝试取现 5 万元(原子事件 2),系统基于“地理位置+时间突变+超额交易”的规则,将其识别为“盗刷风险”这一高层次复合事件,而这种技术同样非常适用于 IT 运维中的告警管理场景。

我们先回顾一下告警管理,由于国外术语翻译的差异,告警管理中的几个核心概念常被混淆:


1)Event

指系统中发生的任何可观察到的变化 ,是最基础的概念,比如服务器 CPU 使用率发生了变化,一般是有监控系统产生的,数量最多但是富含的信息也是最丰富的。


2)Alert

数据逻辑上是 Event 的聚合,是运维人员最常处理的对象,它意味着某个 IT 对象出现了问题,需要进行关注,这里我们其实需要告警系统不应单纯将超过阈值的 Event 直接升级为 Alert 并通知,而是需将相关联的 Event 合理聚合为 Alert,以助力后续问题排查。


3)Incident

已经影响或者可能影响服务的运行了,我们需要将这个事故有关的信息(Alert、Event)聚合在一起,拉上相关的人员共同处理问题,这是一个高级场景事件的识别与管理维度的结合。


在 CEP 的逻辑中,是通过规则的方式来描述与聚合,将原子事件挖掘与指向到系统中更加高级别的活动,而这个规则有几个核心:事件类型、事件模式规则、动作。其中事件之间普遍的关系分三种:

  • 时间关系:事件 A 发生在事件 B 之前;

  • 因果关系:如果事件 A 对应的活动发生在事件 B 之前,那么意味着 A 导致了 B;

  • 聚合关系:如果事件 A 对应的活动包含了一系列的事件 B1、B2、B3……那么 A 就是所有事件 B 的一个聚合,相应的 A 是比 B 更高级的事件。


(1)下面举一个例子

“若 Web 服务器发生‘连接超时’告警(原子事件),且负载均衡器同步出现‘请求转发失败’日志(原子事件),则触发‘服务链路故障’复合事件”。

  • 事件类型:主机连接超时 Event、负载均衡转发失败 Event;

  • 事件模式匹配:({主机连接超时 Event}.Time< {负载均衡转发失败 Event}.Time);

  • 动作:Create {服务链路故障 Alert}。

从中可以看到,我们可以从“低层次”且“多”的基础事件中,结构化的推断出“高层次”且“少”的复合事件,而层次越高越接近支撑决策的信息。


我们可以惊喜的看到,嘉为蓝鲸告警中心的逻辑可以按照 CEP 的模式进行解释,告警抑制、告警压缩、告警处理等概念都是可以在 CEP 的规则模式下进行抽象与对应。通过 CEP 的理论基础,帮助我们通过结构化解析 IT 系统中的 “数据噪声”,将孤立事件转化为可行动的洞察,为告警管理的建设提供支撑,助力企业构建 “监控-分析-响应” 的闭环自动化体系。

用户头像

嘉为蓝鲸

关注

研运至简,无限可为 2020-08-13 加入

蓝鲸智云一级技术合作伙伴,中国领先的研发运营一体化解决方案提供商

评论

发布
暂无评论
告警管理不止降噪:如何从零散事件中挖出关键信息_告警管理_嘉为蓝鲸_InfoQ写作社区