可观测成熟度模型介绍(二)
第三章:可观测性成熟度模型介绍
Level 2:基础可观测性(Basic Observability)
目标:确定系统为什么不工作
IBM 对可观测性的定义:通常是指基于对复杂系统外部输出的了解,能够了解其内部状态或状况的程度。系统越可观测,定位问题根本原因的过程就越快速越准确,而无需进行额外的测试或编码。
为保证复杂动态的系统可靠运行,我们不仅需要知道系统组件是否正常运行,还需要了解它为什么不运行。当出现问题时,我们希望遵循“5W1H”的原则了解问题详情:
在监控方案中,通常会预置仪表板或阈值规则,旨在提醒我们未来可能会遇到的性能问题。但是,这些仪表板或阈值规则依赖于一个关键性的假设,即我们能够在问题发生之前预测将会遇到的问题类型。然而,这种方法并不能提供足够的信息,无法回答 5W1H 的问题。在云原生环境中,这种类型的监控并不适用,因为云原生环境是动态的、复杂的、多变的。这意味着我们无法事先预知可能会出现什么样的问题。在可观测性方案中,我们可以根据更完整、更深入的可观测性数据,灵活地探索正在发生的事情,并快速找出可能无法预料的问题的根本原因。
可观测性能够为这些问题提供答案。
可观测性三大支柱
在 Level 2 阶段,可观测性通过关注三种关键类型的遥测数据来提供系统洞察力:“链路”、“指标”、“日志”,可观测性可以从这三类数据了解系统内部发生的情况。
Traces 链路数据是常规的监控工具不能采集的数据要素,在可观测性体系中占据着重要作用。
可观测性三大支柱的具体定义如下:
Level 2 相较于 Level 1 的数据具有更大的广度和深度。然而,将这三类数据采集汇聚,汇总到一个平台是可观测性的核心。可观测性的这三大支柱来自于微服务、应用程序、数据库等 IT 组件,旨在提供对系统行为的整体视角。每个支柱都提供不同类型的信息,如上表所示。
可观测性统一平台
区别于传统监控的一大特点,可观测性强调数据的统一性,旨在通过构建一个统一的平台来实现三大支柱数据的集中汇聚与数据处理,从而打破单点工具的限制。统一平台的目标是将各种可观测性工具整合在一个集中的界面,从而使组织能够更高效地管理和维护其应用程序和系统。通过可观测性统一平台,团队可以更快地识别问题、优化性能,并提供更稳定、可靠的服务。这种集成方法有助于提高团队的协作效率,减少信息孤立,并为整个组织带来更好的业务结果。
汇总
下表概述了 Level 2 阶段的关键功能:
在 Level 2 阶段,我们仍然需要通过手工关联这些数据来推断事件的可疑原因,这种方法通常需要复杂的跨系统手动查询。在 Level 2 中,尚未开发出一套自动化方法来统一和关联来自各种工具汇聚的孤立数据,因此,要准确定位问题的根本原因仍然需要大量的人力和时间。
因此,我们需要理解可观测性数据之间的关系,为 IT 环境中的数据孤岛提供上下文。当出现问题时,我们可以将上下文数据与自动化相结合,以帮助快速确定问题的根因,而无需手动遍历不相关的数据孤岛。这将引导我们进入 Level 3 ,即“因果可观测性”。在这个阶段,我们能够更加深入地理解事件之间的因果关系,实现根因分析的自动化,从而更高效地解决问题。
未完待续,我们下期再会 ...
版权声明: 本文为 InfoQ 作者【乘云 DataBuff】的原创文章。
原文链接:【http://xie.infoq.cn/article/7f133e5d38a56582c034003f3】。文章转载请联系作者。
评论