写点什么

值得收藏|三种经典的指标监控模型

  • 2022 年 9 月 10 日
    北京
  • 本文字数:1236 字

    阅读完需:约 4 分钟

值得收藏|三种经典的指标监控模型

标准化做得好,监控就会变得更简单。这样既能快速实施部署,也能减少培训难度,遇到特定场景时识别和处置也变得更轻松,同时无形中还能够简化监控逻辑,降低监控自动化实施难度。


关于监控指标以及监控指标阈值的设置对于把握应用系统的现状和趋势、进行服务可用性的有效跟踪以及持续改善,甚至故障的排查和消除都至关重要。可是,监控指标那么多,哪些才是最应该被关注的呢?针对这个问题,业内有一些成熟的模型可供参考。

1、Google 的黄金指标

Google 在 SRE Handbook 中提到过“4 个黄金信号”的概念,将需要重点关注的监控数据分为 4 类。

  • 延迟(Latency):表示请求所需花费的时间,注意成功请求的延迟和失败请求的延迟的区别。延迟较高通常不是好现象,这表示请求的响应时间较长,多数情况下这也意味着系统性能不佳,用户体验不好。

  • 流量(Traffic):表示系统承载的用户或交易的量级。流量对于不同类型的系统而言可能代表不同的含义,比如对基于 Web 的 HTTP 应用,此类指标可能表现为 TPS 或者 QPS。流量指标通常可用来展现当前系统的负载状态和不同时段的负载情况。

  • 错误数(Error):表示当前系统发生错误的评价维度。错误一般可以分成显式错误和隐式错误。举例来说,HTTP 500 错误就属于显式错误,而 HTTP 尽管返回 200,但实际业务处理逻辑是错的,那么这种就是隐式错误。此类指标可以用来衡量系统的运行质量。

  • 饱和度(Saturation):表示当前资源使用的饱和情况。通常情况下,资源达到饱和状态,服务的性能就会下降。比如磁盘的写性能是 100M/s,如果此时 I/O 饱和度已经很高,那么并发场景下必然有些 I/O 操作会处于阻碍状态。这类指标可以用来衡量系统资源使用率。


这 4 类指标可以帮助衡量用户体验、服务中断、系统可用性和系统可靠性等方面的状态。

2、RED 方法

对于 Web 类应用的监控指标,可以参考 RED 方法。RED 方法是由 Weave Cloud 在 Google 的 4 类黄金指标基础之上提出的,它重点关注应用请求相关的 3 个关键指标,希望由此涵盖 Web 服务(也是占比最高的服务类型)的相关问题。这 3 个关键指标如下所示。

  • Rate:每秒服务处理的请求数。

  • Errors:每秒失败的请求数。

  • Duration:每个请求所花费的时间。


RED 方法是以请求为中心,聚焦用户在使用 Web 服务时所应关注的重点,通过这三项指标,我们就能监测到通常情况下影响客户使用体验的关键信息。

3、USE 方法

RED 方法中并不包含与资源使用率相关的项,如果需要同时关注此部分内容时则可以考虑使用 USE 方法。 USE 方法的全称是“Utilization, Saturation and Errors Method”,具体指标包括下列三项。

  • 资源使用率(Utilization):系统资源的使用率信息,比如 CPU、内存、网络、磁盘 I/O 等。如果某项资源使用率持续较高,那么通常说明其存在一定的性能瓶颈。

  • 资源饱和度(Saturation):与 Google 的 4 个黄金信号中的饱和度意义相同。

  • 错误(Errors):与错误相关的指标统计信息。


RED 方法主要适用于关注与请求相关的指标数据,USE 方法可以从资源使用率、资源饱和度等指标维度进行监控和分析,对于系统性能监控和性能瓶颈识别可以起到很好的作用。


发布于: 2022 年 09 月 10 日阅读数: 72
用户头像

InfoQ签约作者 2018.11.30 加入

热爱生活,收藏美好,专注技术,持续成长

评论

发布
暂无评论
值得收藏|三种经典的指标监控模型_9月月更_穿过生命散发芬芳_InfoQ写作社区