写点什么

可观测性成熟度模型介绍(一)

作者:乘云 DataBuff
  • 2023-09-25
    浙江
  • 本文字数:3080 字

    阅读完需:约 10 分钟

可观测性成熟度模型介绍(一)


自从 2023 年 9 月 6 日发布可观测性成熟度模型白皮书以来,我们受到了来自各个领域的广泛关注和反馈。为了更好地响应社会各界的声音,我们计划在接下来的几周内持续不断更新这一白皮书内容系列。

1 引言

莫听监控繁杂声,何妨观测且徐行;

智能诊断快胜马,一键运维定乾坤。

—— 引用龙蜥社区品文(毛文安)的诗

21 世纪,以数字技术为代表的第四次工业革命正在加速改变世界,数字化浪潮对各行各业成席卷之势,网络化、信息化和智能化的深度融合引领着生产模式和组织方式的变革。数字化已经不是—个企业、—个行业的使命,而是全行业、全社会的共同发展趋势。如何用数据为企业赋能,如何利用数字技术实现企业业务的转型、创新和增长,已经成为当下全球企业所面临的重要课题。

数字化正在重新定义企业的未来导向,这与企业的业务模式、业务体系及客户体验息息相关,也为持续提升企业竞争力提供了核心动力。而云计算已经逐渐成为企业数字化转型的最佳选择,尤其是在 2019 年疫情爆发的背景之下,企业上云这—进程被按下了加速键。

云计算时代下,企业的应用交付链路越来越复杂,云原生、微服务、大型分布式等新技术给企业带来竞争力的同时,也带来了全新的挑战,“云深不可见” 难题突显。这些高度动态化、分布式的云原生技术与以往截然不同,这导致复杂性变得一发不可收拾。这些复杂性已经超出了现代 IT 团队的管理能力极限,并且还在不断扩大。若想解决这些复杂的挑战、并随时了解瞬息万变的环境中所发生的一切,需要全新的技术出现,“可观测性(Observability)” 应运而生。

可观测性是当今 IT 领域最热门的话题之一,Gartner 将其列为 “2023 年度企业十大重要战略技术趋势”之一,并指出可观测性可以帮助企业实现数据价值最大化、加速企业数字化转型。2021 年,中国信通院开始了可观测性系列标准的制定工作,并成功推动了中国通信行业标准的立项。尤其是近年来云原生的广泛普及,“可观测性” 逐渐取代 “监控” 成为了企业 IT 建设与运营的不可或缺的核心能力。可观测性作为一种技术或方法,具有广阔的发展空间,除了在 IT 运维领域,还可以在许多其他领域发挥作用并取得突破,为社会发展带来积极影响。

2 为什么需要可观测性成熟度模型

随着软件系统的复杂性不断增加,以及对数字化体验的高质量需求日益增强,可观测性工具的增多成为了必然趋势。根据 Enterprise Strategy Group (ESG) 的一项调查,超过 63%的企业组织拥有超过 10 种以上的工具,但即使拥有这么多工具、故障排查依然面临着困难。

图 1:Enterprise Strategy Group. echTarget, (ESG)- Observability from Code to Cloud ,2022 年 2 月

各不相同的点式工具或方案组合在一起,反而会放大孤岛效应,这些负面影响会蔓延到每一个环节,使得团队被迫忙于处理各种局部问题或孤岛噪音。由于缺乏联系纽带,团队只能将截然不同的数据模型强行整合在一起,这不仅费时费力,还容易出错。

在测试环境或生产环境采用孤岛式的可观测,会影响到 DevOps 或 SRE 团队“测试前移”工作的速度和质量。对基础设施和平台运营者而言,在多重云或混合云平台上使用多种工具会导致可观测能力存在盲区。一旦团队接收到未覆盖区域的警报和征兆,其他团队就可能会面临“翻墙而过”的问题和指责。因此可观测性能力的成长,并不能简单的依赖工具堆砌。

建立成熟度模型,帮助企业明确发展目标

随着动态云、容器、微服务和无服务器架构的趋势发展,以及需要维护企业原有的遗留系统的需求,对可观测性更高级能力的需求日益增强。在这样的背景下,设计一套可观测性成熟度模型变得非常必要。

基于对生产环境实际问题的丰富处理经验、与不同行业客户的深入交流、对最新技术的持续研究,以及与 Gartner 等领先机构的对话,我们共同创建了可观测性成熟度模型。我们希望通过制作这个可观测性成熟度模型,帮助企业确定在可观测性道路上的位置,并为前进方向提供指引。

可观测性成熟度模型能够为企业提供一种系统性的方法来评估、改进和提升其可观测性体系建设。它可以帮助组织更有针对性地发展可观测能力、优化资源分配并持续改进。通过合理应用该模型,企业可以更好地应对现代软件系统复杂性带来的挑战,实现更出色的用户体验,提高系统可靠性,并在竞争激烈的市场中取得优势。

3 可观测性成熟度模型介绍

本次设计的可观测性成熟度模型,是一种用于衡量和评估企业软件系统内部可观测性的框架或方法,同时也是一种用于反馈企业可观测性体系建设成熟度水平的框架或方法。

该模型设计了五个级别,分别是:

Level 1:监控(Monitoring)

Level 2:基础可观测性(Basic Observability)

Level 3:因果可观测性(Causal Observability)

Level 4:主动可观测性(Proactive Observability)

Level 5:业务可观测性(Business Observability)

可观测性成熟度模型的每个级别,都必须建立在前一级别已经建立的基础之上,不能凭空构建,每个级别新增的能力,都应该有助于实现更深度的可观测性能力。

级别的提升不是渐进式的,而是明显的跨越式提升(类似量子跃迁)。尽管我们可以通过改进流程、修修补补,在一个级别之内稍微改善结果,但若想实现级别的实质性提升,需要实质性地增强多项里程碑式能力,企业为了级别的提升甚至有可能要求重构现有的可观测架构。

下面对可观测性成熟度模型各级别的目标与功能做简要概括:


Level 1:监控(Monitoring)

目标:确定系统组件是否按预期正常工作

监控(Monitoring),是指对系统、进程、活动或环境的持续观察、度量和记录,以便获取实时或定期的信息和数据。通常跟踪某个系统组件的特定参数,以确保系统组件的状态保持在可接受的范围内,一旦超出预设范围,监控器会触发告警。传统监控大多是专门的单向工具、聚焦在某一个性能领域,通常包括应用性能监控(APM)、基础设施监控(ITIM)、网络性能监控(NPM)、API 监控等。

在可观测性成熟度模型中,监控是其中一个关键的层级,通常被认为是成熟度模型中的第一个阶段。在这个阶段,企业开始建立基本的监控能力,监控级的目标之一是设置实时警报,以便在系统出现问题或达到预定阈值时能够及时通知运维人员,这有助于迅速采取行动以防止问题扩大。企业组织收集各种关键性能指标,将收集到的指标数据可视化也是一个重要目标。通过仪表板和图表,运维人员可以更容易地理解系统的状态和性能趋势。

在 Level1 阶段,被监控的各组件之间几乎没有任何的相关性,此级别的主要目标是了解系统组件是否正常工作。尽管在监控级不会进行深入的性能分析,但会开始对基本的性能问题进行分析,以确保系统在某些情况下不会受到显著影响。总之,监控级的主要目标是建立起最基本的监控能力,以确保系统的基本稳定性和可用性。

汇总

下表概述了 Level 1 阶段的关键功能:

表 2: Level 1 总结

Level 1 阶段的监控,通常为企业提供各个组件的健康状况,关注事先定义好的指标或数据,根据经验定义告警策略。这种监控方式往往是被动的,只有在特定事件或条件达到时才会触发警报。然而,这种被动性可能会导致忽略系统内部的复杂交互或潜在问题。它只告诉我们某些东西出错了,但没有解释问题的根本原因,也没有告诉我们问题最初发生的时间或背景。当问题出现时,监控可能只提供有关问题的表面信息,无法提供更多的上下文信息和相关数据。

在 Level 1 阶段,由于可分析的数据有限,想要找到根因或影响面非常困难。调查问题的根源一般需要较长的周期,一个问题的出现经常可能导致整个监控体系处于“红盘”状态,各层的监控信息彼此孤立,相互割裂,难以建立起数据之间的关联。因此,需要从 Level 1 升级到 Level 2 来获得更深入的信息,从而提供更全面的洞察力。


未完待续,我们下期再会 ...

发布于: 刚刚阅读数: 4
用户头像

让云运维更简单 2023-06-25 加入

云观测领导者

评论

发布
暂无评论
可观测性成熟度模型介绍(一)_乘云 DataBuff_InfoQ写作社区