写点什么

监控的黄金指标有哪些

作者:耳东@Erdong
  • 2021 年 12 月 23 日
  • 本文字数:641 字

    阅读完需:约 2 分钟

Google 针对大型分布式监控总结了 4 个黄金指标,这 4 个黄金指标可以在服务这个层面帮助运维人员衡量终端的用户体验、服务中断、业务影响等问题。


这 4 个指标分别是延迟、流量使、错误、饱和度。


延迟是服务请求所需要的时间,在网关入口的地方就可以记录到这个指标,通过这个指标可以对成功请求和失败请求的延迟时间进行对比。例如在其他关键后端服务异常触发 HTTP 500 的情况下,用户会很快得到请求失败的响应内容,如果不加区分计算这些请求的延迟,可能导致计算结果与实际结果产生巨大的差异。除此以外,在微服务中通常提倡快速失败,服务不要憋着,这些延迟要尽快反馈给开发人员,因为这些缓慢的错误会明显影响系统的性能,需要对这些错误延迟进行跟踪处理。


流量是当前系统的数据流入流出的数据统计,用来衡量服务的承载能力需求,不同系统的流量有不同的含义,比如在 HTTP API 中,流量指每秒的 HTTP 请求数。


错误是当前系统发生错误请求的数量,一般单纯看数量不太直观,经常会对错误进行计算处理,换算成错误率。错误率极低的时候是可以接受的,一旦升高,就需要进行排查。


饱和度是用来衡量当前服务的承载能力,一般是使用率和空闲率。如果系统主要受内存影响,那就主要关注系统的内存状态,如果系统主要受限与磁盘 I/O,那就主要观测磁盘 I/O 的状态。因为通常情况下,当这些资源达到饱和后,服务的性能会明显下降。同时还可以利用饱和度对系统做出预测,比如,当前内存使用率已经达到 80% ,很快就要满了。


这 4 个指标是很关键,用好这 4 个指标,系统的稳定性就有了保障。

发布于: 2 小时前
用户头像

耳东@Erdong

关注

还未添加个人签名 2020.05.24 加入

主要研究分享运维技术,专注于监控、CICD、操作系统、云原生领域,公众号【耳东学堂】,知识星球同名,坚持原创,希望能和大家在运维路上结伴而行 邮箱:erdong@mail.erdong.site

评论

发布
暂无评论
监控的黄金指标有哪些