论构建智能运维的先决条件
无论是从已经进入 AIOps 阶段的企业,还是从 Gartner 的定义中,都可以清晰地看出:数据是智能运维的基础。准确地说,具备数据能力是一家企业进入智能运维的必要先决条件。 根据 Gartner 的定义,AIOps 产品或平台主要包括以下 5 类技术要素。
数据源:来自各 IT 基础设施的底层记录数据。
大数据平台:用于处理、分析静态和动态实时数据。
计算与分析:数据预处理、数据标准化等清洗工作。
算法:用于计算和分析,以产生 IT 运维场景所需的结果。
机器学习:包括无监督、有监督和半监督学习。
数据是企业的核心资产,随着数据量、数据维度的爆发式增长,现有的监测分析工具在处理这类数据时压力很大,且现有的 BI 或数据分析工具只能满足简单的数据分析和可视化功能,如 Tableau,其无法自动化地在企业跨越多种数据类型采集、洞察数据,进而给出决策。
目前所有的 AIOps 平台需能够提取静态数据(历史数据)和动态数据(实时、流式传输数据)。这些平台允许事件数据、用户数据、日志数据以及图形和文档数据的提取、索引和存储。
数据能力,具体包括数据采集、数据存储、数据治理、数据服务 4 项核心能力,即以数据中台/大数据平台/数据湖等形式存在的数据底座,至于这几种数据底座的名称之间的细微差别可以忽略。每天数据量在 1TB 以上、底层平台超过 5 个以上的企业,建立一个可用的数据底座至少需要 3 年时间。而且这 3 年中需要一边建设数据底座一边将其与运维业务紧密结合,在试错中建设。构建统一监控平台,实现 IT 资源的统一管控。利用大数据的手段,采集、分析基础设施、网络、日志等 IT 监控数据,通过海量 IT 数据的实时处理分析,消除数据孤岛,实现统一的告警,提升运维管理效率。
由于采集的数据集依然是按照业务逻辑从各平台取出后按表存储的,与后期各类运维场景使用的数据结构相差甚远,因此,需要在数据底座上针对每种运维场景(当然场景的数量是慢慢积累的),建立企业自身运维的数据标准,并通过自动化程序和配置采集程序来采集标准数据。在数据底座上建立一个个标准化的数据模型,每种运维场景需要的数据可以是一个数据模型中的数据,也可以是多个数据模型组合的数据。这种数据模型后期将在无人运维阶段,通过数据孪生技术从大数据平台中自动生成。数据将通过统一接口服务于智能运维。
版权声明: 本文为 InfoQ 作者【穿过生命散发芬芳】的原创文章。
原文链接:【http://xie.infoq.cn/article/48198031d442d580688395549】。
本文遵守【CC-BY 4.0】协议,转载请保留原文出处及本版权声明。
评论