写点什么

你的系统健康吗?

作者:Coffee Cat
  • 2024-03-19
    上海
  • 本文字数:1262 字

    阅读完需:约 4 分钟

你的系统健康吗?

现如今,无论是点咖啡、购物、打游戏,还是政务办事,我们每天使用互联网应用的次数已经数不清了。而做为服务的提供商,不管你是运维、运营,还是开发、测试,对于维护系统健康度都有重要的职责。开发人员需要确保创建出高质量、可靠和可扩展的软件,同时也需要考虑到软件在生命周期中的维护和升级,必须持续追踪软件的性能,以及如何改进性能。而运维团队的任务是确保系统持续稳定运行,处理任何可能影响到系统健康度的问题,如硬件故障、网络问题等。


那么,你是否有着一个明确有效的手段或者方法,来保障这些系统和应用的健康度?


最近笔者试用了一款可观测的软件,能够非常方便的通过可量化和可视化的手段,来展现和跟踪系统健康度水平,即通过 SLO 来实现。


如果你对 SLO 不太熟悉,请容许我稍微做个说明:

  • 服务级别协议 (SLA) 是概述最终用户可以从服务提供商处获得的服务级别的合同协议。 如果未兑现这些承诺,可能会给提供商带来重大后果,这些后果通常是财务性质的(例如,服务积分、订阅延期)。

  • 服务级别目标 (SLO) ,是通过 SLI 衡量的目标服务级别。 它们通常以一段时间内的百分比表示。

  • 服务水平指标 (SLI) 是用于衡量向最终用户提供的服务水平(例如可用性、延迟、吞吐量)的指标。

  • 错误预算(Error Budget)是服务不符合 SLO 之前可接受的不可靠性级别。简而言之,它们是 100% 可靠性与 SLO 目标之间的差异。换句话说,你可以将错误预算视为容错空间,可以用于构建新功能、重新设计系统架构或任何其他产品开发工作。


而构建一个 SLO,我们可以从两方面进行考虑:

  • 时间片 SLO:即 SLI 计算基于时间,系统表现出良好行为的时间量除以总时间。

  • 请求的统计 SLO:即正常的请求数,占总请求数的百分比。


我就通过前端和后端,分别建立了 SLO 的统计:


前端监控对于业务健康监控的重要性不言而喻,也就是常说的 RUM,Real User Monitoring 用户访问监测。首先,前端是用户与应用程序交互的首要入口,用户体验的好坏直接影响到业务的成功与否。通过前端监控,我们可以实时了解到用户在使用应用程序过程中可能遇到的各种问题,如页面加载速度慢、交互出错等,从而及时发现并解决这些问题,提升用户体验。因此我可以从这个角度来建立一个对于前端整体状态的统计,基于时间的统计。


另一方面,后端服务接口的健康度对于整个应用程序的健康度也很关键,即 APM,Application Performance Monitoring 应用链路监测。后端服务接口是前端与服务器之间交流的桥梁,提供了数据存储、数据处理以及其他各种服务。如果后端服务接口出现问题,将直接影响到前端展示的内容和用户体验。所以对于服务请求的状态,也需要能够统计和展现出来,这里我使用了请求统计的 SLO。


然而,问题的关键,并不只是统计。在发现异常的时候,我需要快速的定位问题、以及找到异常的原因。比如说,通过前端用户的一个报错,能够直接关联分析后端相关服务的情况,甚至是当时的负载、网络等维度。这个平台在这方面确实还挺方便,可以直接进行跳转和关联分析。


如果你也想试试这个软件,很方便,就叫观测云,访问 guance.com 直接进行注册,就可以免费使用了!

用户头像

Coffee Cat

关注

早起的虫子有露水喝。 2018-01-11 加入

还未添加个人简介

评论

发布
暂无评论
你的系统健康吗?_APM_Coffee Cat_InfoQ写作社区