专有云如何精准、及时地实现故障定位?丨智能运维
作为运维中需要攻克的第一个山头,故障管理的重要性不言而喻。
百度智能云已经向大家详细介绍了专有云运维的难点以及高效运维的解决方案。从本篇开始,百度智能云将抽丝剥茧,逐一为大家介绍每一个产品模块的核心能力和设计理念。
从场景来看,故障管理可划分为故障发现、服务止损、服务恢复和故障总结四大阶段,本文将重点为大家介绍百度智能云专有云运维的监控系统如何实现故障发现,并高效解决故障。
丰富的指标体系
监控系统的基本意义之一,是帮助运维人员更快地发现系统问题。那么能够更快反应系统出现问题的标志是什么?答案是指标,更准确地说,是丰富的指标体系。
百度智能云专有云的监控系统提供了多层监控指标的采集能力:
硬件层:包括物理机、网络设备的电源电压,温湿度,风扇转速等共计 100+监控项/指标。
系统层:包括 CPU、内存、磁盘、网卡、交换分区等共计 200+监控指标。
服务层:包括 IaaS(计算、存储、网络等)、PaaS(数据库、中间件等)云服务底层管控服务监控,涵盖进程、端口、单维度日志、多维度日志、自定义脚本、自定义 http 等多种方式。
这里重点介绍下多维度日志的采集。一般情况下,工作人员采集日志更多是关心响应时间、错误码等核心内容。假设采集到的某个请求响应时间很长,产生了报警,下一步该如何分析请求时间过长的原因呢?
多维度日志就是为此而生。在采集日志的时候,百度智能云专有云监控系统支持以响应时间为核心,扩展到采集维度,如某个客户端、某个功能号、某个 IP 等等。这样在分析环节就可以快速确定响应时间有问题的维度。
网络层:包括 HTTP\HTTPS\TCP\UDP\PING 等协议的可用性、响应时间、状态码、错误码、建链时长等,也包括 DNS 劫持率。
强大的计算能力
有了种类齐全的监控指标之后,怎么才能让监控指标发挥出最大的价值呢?答案是二次计算。
在实际采集过程中,有些指标可能是无法直接采集到的,或者采集到的指标只能反应局部情况。这种情况下,就需要对指标进行二次计算。
百度智能云专有云监控系统提供了派生计算和汇聚计算两种计算手段:
派生计算:支持将采集到的指标进行四则运算、逻辑运算等多种计算方式,通过对多个指标的组合计算,生成一个新的指标,并赋予新的含义。
汇聚计算:每一个应用部署到一台具体的机器上时,称之为这个应用的一个实例。通常情况下,一个应用会有多个实例。汇聚计算可以将多个实例的指标进行上卷计算。
灵活的判断手段
指标的采集和计算,都是在为判断做准备。因为一个监控系统好不好,很大一部分取决于是否能够准确进行灵活的异常判断。
在这一方面,百度智能云专有云监控系统主要提供 9 大能力:
能力 1,可以进行完全自定义的复杂报警规则设置。支持单指标、多指标、多维度指标之间的四则运算、逻辑运算和函数运算。
能力 2,相同的报警规则下,可以设置不同的阈值和事件等级。
能力 3,数据为 0 的异常是不是代表没有数据?当然不是,百度智能云专有云监控系统支持独立的无数据判断。
能力 4,“我们是多实例容灾的,一两个异常我不关注。”这种情况能不能处理?当然可以,百度智能云专有云监控系统支持百分比报警。
能力 5,“告警消息太多了,都看不过来怎么办?”没关系,告警合并帮您进行收敛。
能力 6,“总担心告警被漏掉怎么办?”不用担心,百度专有云监控系统有升级机制来保证。
能力 7,“我今天要做线上变更,有些告警我知道会触发,能提前避免吗?”当然可以,策略是可以灵活屏蔽的,不过操作完记得看下策略是否解除屏蔽了呦。
能力 8,“这些告警都是简单而且常规的,我们有标准的处置方法,可以自动化处理吗?”可以,只要配置回调就可以了,百度智能云专有云监控系统会自动调用您的预案平台操作。如果没有预案平台,可以期待一下后续系列中的产品介绍。
能力 9,“我们有这么多系统,那么多需要配置的参数,是否有快一点的方法?”当然有,百度智能云专有云监控系统丰富的配置模板来帮您。而且,这个模板不止能配报警,上面说的采集和计算也可以用。
以上是百度智能云专有云监控系统的核心能力。监控系统解决的是故障发现这一问题,那接下来的故障止损和故障根因定位环节,百度智能云专有云是如何解决的呢?请持续关注本系列后续文章~
评论