如何做到监控告警的管理?
现在市面上的监控平台有很多,但是针对告警的管理方面的能做的就少之又少,这时候我们就需要一款第三方的平台来提供告警的服务,睿象云智能告警平台 Cloud Alert(以下简称 CA)就是一款告警管理平台,是针对监控平台的告警所提供的一系列服务,那他都可以做到哪些呢?就让我们后续看下吧
告警的统一管理
很多公司的监控平台的不止一个,这就导致每个监控平台所产生的告警都是独立的,无论是查看还是处理,都是比较大的工作量,这也就导致了告警的处理效率的下滑,进而影响业务的流畅度;CA 提供了多种监控平台的对接方式,用户可以将各个监控平台鹅告警发送到 CA 中,并且在收到各个监控的告警之后,会进行统一的标准化数据处理,方便用户对告警的管理。
灵活的分派
在产生的告警中,不同的业务线所产生的告警所通知的人也不同,这里面可能包含不同主机的告警、告警内容的不同或者某个指标不同等,并且如果告警没能及时处理,也需要通知到领导或者其他人;CA 所提供的分派策略功能可以实现通过多样化的筛选条件,来通知相应的负责人,并且也能实现告警无人处理时通知到下一负责人或者领导
多样化的通知方式
监控平台的告警大多数只有邮件告警通知或者其他的单一通知方式,单一的告警通知方式往往不能解决实际的复杂告警情况,例如夜间或者严重的告警,邮件通知不能实现有效的通知需求;或是需要多人处理的告警,单一的通知方式也不能实现协作处理。CA 目前支持电话、短信、微信、邮件、app 的多种通知方式,不仅可以实现重要的告警或者夜间的告警电话通知,让告警通知最大化,也可以实现通过 app 移动端处理告警,满足当下移动端的需求;并且 CA 支持钉钉、企业微信、飞书等多样化的协作通知方式,满足告警多人协作处理的需求
智能降噪
监控平台产生的告警数据往往存在着很多无效告警,这些无效的告警通常会影响甚至误导运维人员查找问题的根因;并且每当告警风暴产生时,大量的无效的告警通知更会让运维人员无所适从,这时候就需要一个能够梳理告警的一个平台;CA 可以通过平台已有的智能算法,实现对告警的压缩降噪,也可以用户自定义压缩规则,实现将无效的告警压缩整合,在减少了一些不必要的告警同时,也能让用户更快速的找到有效告警,进而更快速的找到根因。
风暴预警
运维监控工具/平台产生异常时,会在短时间内产生异常数量的告警,如果未能及时发现,可能会影响到整体的业务流程,所以 CA 引入了风暴预警的功能,用户可以在风暴预警的功能中,设置指定时间段内,产生告警的数量阀值,当告警数量超过阀值时,就会通知到相关负责人。
根因定位
在网络中断、系统上线升级、设备多监控项多等情况下,就可能会引发大批量的告警,这就会导致告警发生后,运维人员排查根因困难,拉长了整体的告警处理进度,从而影响整体的业务。告警的根因往往是运维人员最想排查出的问题,只有解决了根因才能第一时间恢复告警,减少后续的告警通知,优化系统和业务;CA 平台推出的根因定位功能,可以根据用户告警,通过平台的算法训练出独有的关系拓扑图,通过这样的拓扑图,系统会给用户推荐根因告警的原因是什么,进而帮助用户快速的发现告警的根因;同时也支持用户自行标记告警的根因层级,进而训练出独有的关系拓扑图。
以上就是睿象云智能告警平台针对告警的管理方式,睿象云目前也在持续的优化和改进,后续有新的功能也会第一时间和大家分享哒~
版权声明: 本文为 InfoQ 作者【睿象云】的原创文章。
原文链接:【http://xie.infoq.cn/article/2b05d8acc38c7ccbe8f22cbc1】。文章转载请联系作者。
评论