写点什么

AIOps 落地五大原则(一):大势所趋

  • 2022 年 6 月 06 日
  • 本文字数:2501 字

    阅读完需:约 8 分钟

清华大学裴丹教授最近就 AIOps 落地经验进行了多次分享。本文主要根据裴丹教授在“2021 国际 AIOps 挑战赛决赛暨 AIOps 创新高峰论坛”、“IDC 中国数字金融论坛”的两次演讲稿整理而成。

结合个人过去 20 年在 AIOps 领域与几十家企业合作、跨多种技术栈的落地经验积累,以及 150 篇左右学术论文的算法积累,我将分享个人总结出来的 AIOps 落地的 15 条经验性原则。这些经验分成 5 个大类原则,分别涉及 AIOps 落地的大趋势、价值路线、架构路线、算法路线、生态路线五个方面。

原则 1(大势所趋)


顺势而为、知己(Ops)知彼(AI)、触类旁通

第一个原则主要讲 AIOps 是大势所趋,无论是从运维角度,还是从人工智能技术的应用角度和科学技术的应用角度来说都是这样。


原则 1.a 顺势而为


运维技术在各行各业的重要性越来越高,像银行、证券、保险、电信、能源、工业制造、政府部门、互联网等。由于各行各业数字化程度越来越高、系统规模越来越大、组件监控粒度越来越细、监控数据量越来越大以及新技术和新组件的不断引入,这些导致运维越来越难做,运维工程师也被海量高速的运维监控数据所淹没。

一方面,运维监控数据是海量的、高速的、多模态的、价值极大的、但又信噪比极低的(即:对运维人员来说直接价值最高的异常数据在数量上远远小于正常数据)。目前看,人工智能算法是处理符合上述特点的数据的最有希望的方法。


另一方面,只有在这些数据被关联起来一起分析时才能发挥出它们最大的价值,而关联需要各类复杂的依赖关系知识(逻辑组件之间的调用关系图、逻辑组件在物理组件上部署关系图、物理组件的网络路径关系图)和专家知识(组件内运维故障间的因果关系图),才能有物理意义地把各类运维信号关联起来进行有效分析。目前看,知识图谱技术是表征和应用这些用图表示的知识的最有希望的方法。


由此可见,用 AI 方法解决运维挑战,势在必行。

当然,不同用户、不同企业的技术风险喜好程度不一样,因此落地 AIOps 的节奏会有所不同,但是我希望前面的简要论述已经说明了 AIOps 是运维领域发展的大势所趋,没有别的选择,我们只能顺势而为,AIOps 是运维这一领域必须要做的事情。


原则 1.b 知己(Ops)知彼(AI)


在 AIOps 落地过程中,相关人员对于 AIOps 的定义、AIOps 的本质、AIOps 的能力边界都有一些讨论甚至争论。在此我也总结一下我对如上几方面的认知。


我先说一下形成我的认知的方法论:知己(Ops)知彼(AI) 。知己是指我们要充分认识到运维(Ops)领域是一个强领域知识的计算机应用领域,一定要想尽办法把运维领域知识有机结合进来;知彼是指我们要充分认识 AI 作为一种计算机技术类别的演进趋势,并尊重其在一定时间窗口内的能力边界。


首先,相信大家到现在已经都了解不同运维场景用的技术和算法是不一样的(如下图所示我在清华实验室发表的论文中采用过的基础算法),很难用黑盒方法来做。

其次,目前为止整个人工智能领域都是智能在非常具体的行业和非常具体的场景中取得的成功。同理这是因为行业不同、场景不同,它所需要的算法和技术就有所不同。


如果把 AI 比作一种高级编程语言的话,AI 应用无非就是在一个软件架构里面提供了一部分组件,其部分程序逻辑总结自数据,是概率性的模糊性的。而任何应用,其逻辑都是领域知识强相关的。就像我们不可能假设学会了 Java 语言就能自动解决一切应用问题一样,我们一定要针对具体行业、具体场景才可能做好一个 AI 应用。


因此,我们说的知己,是指要清醒认识到一切运维工具几乎都是基于强运维领域知识的,AIOps 也不例外,一定要想尽办法把运维领域知识有机结合进来。

知彼是指我们要充分认识 AI 作为一种计算机技术类别的演进趋势,并尊重其在一定时间窗口内的能力边界。首先,我们要了解人工智能现在进展到了哪个阶段。引用清华大学计算机系张钹院士的话,“AI 并非无所不能,当前 AI 做得好的事需要同时满足五个条件。”(见下图)

关于 AI 的发展趋势,我也引用一下张钹院士最新发表的一篇文章里提到的 AI 最新的方向。AI 1.0 是“知识驱动+算法+算力”,这是深蓝计算机打败国际象棋冠军卡斯帕罗夫的那个年代的技术;到后来 AI 2.0“数据驱动+算法+算力”,代表性技术是基于深度学习的计算机视觉;AI 3.0 是“知识+数据+算法+算力”,融合知识和数据,是未来 AI 应用的大势所趋。


如前所述,AIOps 需要分析关联海量多源多模态运维大数据,因此基于强运维领域知识的 AI 3.0 技术也是 AIOps 发展的必然技术路线。

至此,我们可以清晰定义 AIOps 智能运维(AI+Ops)了。我们说,AI 是任何模拟人类行为的计算机技术。AIOps 是什么?就是任何模拟运维人员行为的计算机技术,它可以基于专家知识、经验、自动化、机器学习、深度学习或它们的某种组合。从另一个角度说,不要因为用到了自动化或硬逻辑,就判定其不是 AI 或 AIOps。我们要做的是践行“知识+数据+算法+算力”的 AI 3.0 概念,这也是 AI 应用的大势所趋。

原则 1.c 触类旁通


从科学技术的应用角度来说,AIOps 也是大势所趋。我在从美国海归加入清华之前,曾短暂做过一段智能医疗,因此我个人习惯在思考 AIOps 时,从医学领域寻找灵感和启发,也就是“触类旁通”。这个习惯也深受我博士导师加州大学洛杉矶分校张丽霞教授的影响,她曾多次公开建议从生物学中寻找互联网架构设计的灵感。的确,很多时候“太阳底下没有新鲜事”,在运维领域遇到的很多问题,在其它科学领域都可能遇到过,而“它山之石可以攻玉”。


在此我简单分享下运维与医学的类比,希望在思考方式方面给大家一些启发。我们可以把负责排障的数据中心组织及员工类比为医院及员工,故障类比为疾病,数据中心软硬件系统类比为病人,异常和告警类比为症状,异常检测算法类比为检验、检测设备,运维科室专家类比为医院科室医生,各科室运维专家知识类比为各科室医学专家知识。简单疾病(故障)单独科室就能处理了,复杂病症(故障)需要关联各种数据,并且跨科室专家会诊。


做完以上类比,你会发现,其实现代医学领域一直在践行 AI 3.0 里的“知识驱动+数据驱动”,各种新的检验检测技术层出不穷,医学诊断知识也在不断地提升,两者的结合促进了医学领域的高速发展。(后续其它原则还会更多使用这个类比)。


上述以医学为例,阐述了科学技术应用角度的大势所趋是知识、数据融合,希望能让运维人员更坚定地践行 AIOps。


发布于: 刚刚阅读数: 3
用户头像

智能运维产品研发和供应商 2020.09.01 加入

必示科技致力于以人工智能赋能IT运维领域,打造领先的智能运维(AIOps)引擎。提高企业IT系统可用性和运维效率,助力企业数字化转型。 http://www.bizseer.com

评论

发布
暂无评论
AIOps落地五大原则(一):大势所趋_BizSeer必示科技_InfoQ写作社区