监控的黄金指标有哪些
Google 针对大型分布式监控总结了 4 个黄金指标,这 4 个黄金指标可以在服务这个层面帮助运维人员衡量终端的用户体验、服务中断、业务影响等问题。
这 4 个指标分别是延迟、流量使、错误、饱和度。
延迟是服务请求所需要的时间,在网关入口的地方就可以记录到这个指标,通过这个指标可以对成功请求和失败请求的延迟时间进行对比。例如在其他关键后端服务异常触发 HTTP 500 的情况下,用户会很快得到请求失败的响应内容,如果不加区分计算这些请求的延迟,可能导致计算结果与实际结果产生巨大的差异。除此以外,在微服务中通常提倡快速失败,服务不要憋着,这些延迟要尽快反馈给开发人员,因为这些缓慢的错误会明显影响系统的性能,需要对这些错误延迟进行跟踪处理。
流量是当前系统的数据流入流出的数据统计,用来衡量服务的承载能力需求,不同系统的流量有不同的含义,比如在 HTTP API 中,流量指每秒的 HTTP 请求数。
错误是当前系统发生错误请求的数量,一般单纯看数量不太直观,经常会对错误进行计算处理,换算成错误率。错误率极低的时候是可以接受的,一旦升高,就需要进行排查。
饱和度是用来衡量当前服务的承载能力,一般是使用率和空闲率。如果系统主要受内存影响,那就主要关注系统的内存状态,如果系统主要受限与磁盘 I/O,那就主要观测磁盘 I/O 的状态。因为通常情况下,当这些资源达到饱和后,服务的性能会明显下降。同时还可以利用饱和度对系统做出预测,比如,当前内存使用率已经达到 80% ,很快就要满了。
这 4 个指标是很关键,用好这 4 个指标,系统的稳定性就有了保障。
版权声明: 本文为 InfoQ 作者【耳东@Erdong】的原创文章。
原文链接:【http://xie.infoq.cn/article/169dff7817c10eb1d8d866bd5】。未经作者许可,禁止转载。
评论