写点什么

AIOps 落地五大原则(二):价值路线

  • 2022 年 6 月 20 日
  • 本文字数:1572 字

    阅读完需:约 5 分钟

AIOps落地五大原则(二):价值路线

清华大学裴丹教授结合过去 20 年在 AIOps 领域与几十家企业合作、跨多种技术栈的落地经验积累,以及 150 篇左右学术论文的算法积累,总结出 AIOps 落地的 15 条经验性原则。这些经验分成 5 个大类原则,分别涉及 AIOps 落地的大势所趋、价值路线、架构路线、算法路线、生态路线五个方面。


上一期,我们分享了《AIOps 落地五大原则(一)》,今天我们继续分享《AIOps 落地五大原则(二)》,围绕 AIOps“价值路线”介绍 3 条经验性原则。


原则 2(价值路线)

统筹规划、要事优先、点面结合


智能运维已经如火如荼发展了一段时间,很多企业都在做 AIOps 的筹划,但是先做什么后做什么?Big Picture 是什么?如何做多年规划的同时又逐年有实质落地效果?下面我将基本抛开技术实现的角度,仅从 AIOps 交付的价值角度,谈一下规划的三个原则。


原则 2.a 统筹规划


首先,AIOps 在运维的五个基本要素(即质量、性能、效率、成本、安全)中都有很好的应用前景。统筹规划的优先级方面,效率(Develop)相对独立,安全也相对独立,那么剩下的质量、性能和成本,先关注哪个?根据以往的经验,还是要先关注质量,即系统可用性,然后是性能,在这个基础上再进行优化成本。本文后续都聚焦在运维质量上进行讨论,而在性能和成本上的落地原则大同小异。



这里类比一下医学里著名的扁鹊三兄弟(下图),对于目前常出故障的一个系统来说, 我们最需要像扁鹊那样治大病的医术,其次需要像扁鹊二哥那样治小病的医术,最后需要像扁鹊大哥那样治未病的医术。具体而言:我们首先要降低故障修复时间,这是规划里最重要、最痛的点;其次,我们要做延长无故障时间,识别并消除那些小隐患;最后,我们还要通过故障演练,即便日常中没有小故障发生,但通过注入故障引出问题,然后解决掉问题,不影响真正的用户。



规划中最迫切的“运维质量:降低故障修复时间”有很多细分步骤,实际落地起来挑战重重:多源多模态且信噪比低的运维数据;关联所需要用到的依赖数据非常复杂且不易获得,有时数据质量也不高。很显然我们无法一蹴而就,必须要统筹规划,分步骤、分阶段地实施,不断取得阶段性的成果。



统筹规划的前提是要总结出一个相对完整的体系,运维质量的体系包含四个维度:一家企业所属行业;一家企业有哪些运维对象(如中间件、数据库、存储、应用等);有哪些不同的故障类型及在数据中如何体现;采用的是哪些技术架构(如集中式架构、开放架构)。统筹规划的实施就是在多维度组合中确定哪些先做、哪些后做。



原则 2.b 要事优先


在上述体系中,决定先做的原则是要事优先,即聚焦并串连最终导致业务故障的常见异常。这里引用一个数字,某企业 80%的业务故障是由少数组件的少数类型的故障导致的。这其实遵循了“二八定律“,20%的组件故障类型导致了 80%的业务故障。因此,我们应首先聚焦解决这些常见故障,要有全局视野,先抓重点细节,聚焦并串起导致那些业务故障的常见组件故障,这就是规划 AIOps 时从价值角度出发的“要事优先”原则。



原则 2.c 点面结合


规划落地 AIOps 时,有两种误区:一是只看有可量化价值的具体的技术“点”(如业务指标异常检测);二是只看有可量化的端对端价值的场景(“面”,如 MTTR);而我们总结的原则是“点面结合”。比如,也许因为依赖其它技术点, 业务指标异常检测还没有产生端对端的效果(降低 MTTR),但是其本身有一些评估指标(相比传统方法提前 X 分钟发现故障),这能给予我们很大的希望。就像医院里一个医疗设备,它比原来的设备检测得准、检测得快,它的价值就应该得到认可,它的价值不能因为需要一些其它技术点才能产生完整的端对端价值而被否认。反之,对于端对端价值的不懈追求并且以量化方式不断衡量(如 MTTR),能清晰指引我们规划需要不断突破的技术点。因此,规划时,点和面都重要,点面要结合,都要体现可量化的价值。



以上是裴丹教授关于“AIOps 落地的价值路线”详细解读,下期将继续分享“AIOps 落地的架构路线”。

发布于: 刚刚阅读数: 3
用户头像

智能运维产品研发和供应商 2020.09.01 加入

必示科技致力于以人工智能赋能IT运维领域,打造领先的智能运维(AIOps)引擎。提高企业IT系统可用性和运维效率,助力企业数字化转型。 http://www.bizseer.com

评论

发布
暂无评论
AIOps落地五大原则(二):价值路线_BizSeer必示科技_InfoQ写作社区