写点什么

可观测性探索系列一:如何赋能运维数据治理

作者:日志易
  • 2025-03-13
    北京
  • 本文字数:2608 字

    阅读完需:约 9 分钟

可观测性探索系列一:如何赋能运维数据治理

01

为什么要做运维可观测性


随着信息技术的快速发展和数字化转型的推进,企业和组织对于系统和应用的稳定性、性能和可靠性的需求不断增加。同时,随着系统规模的扩大和复杂性的提高,传统的运维监控方式已经难以满足日益增长的需求。为了提升系统的可观测性和运维效率,通过建设运维可观测性平台,可以实现对系统、应用和基础设施的全面监控和可视化展示,及时发现潜在的问题并快速解决,提高系统稳定性、可靠性和系统性能。因此,运维可观测性平台的建设成为了这几年必要和迫切的需求。

02

当前用户面临的困境


IT 技术日新月异,为了满足不同阶段对不同技术架构的运维需求,企业在每个阶段也会有不同的运维工具。为了监控基础设备,操作系统、应用程序、Web 服务器等,企业会引入 Nagios、Zabbix 等开源工具;为了满足云原生环境下的监控,企业会引入 Prometheus;为了实现微服务架构下的链路追踪和应用性能监控,企业又会引入各类 APM 工具;进入到运维大数据阶段,企业又会引入日志易、ELK 等数据平台。

所以,在建设统一的运维可观测平台的路上,企业碰到的第一个问题是,如何将各个平台、各种格式的散乱数据进行整合。

03

为什么运维数据要先治后用


当前企业面临的问题是在多年的运维发展过程中积累了各个阶段不同的运维产物,平台及厂商众多,导致数据不集中、数据格式混乱等。


如果直接使用各个平台的原始数据,会带来很多问题:

  1. 来自不同源头的数据都有自己的数据标准和命名规范,导致数据在使用的时候难以进行对比和整合;

  2. 如果直接使用原始数据进行分析和应用开发,需要耗费大量的时间和人力去解决数据质量问题,降低了数据使用的效率和效果;

  3. 数据质量不一、格式不一致、数据缺失、数据冗余等问题都会给数据使用带来不同程度的问题。

因此,考虑到建设成本和未来的可扩展性,企业应先对运维数据进行治理,再进行使用。

04

为什么选择日志易


从功能来说,要做可观测平台的前置数据治理工作,必须要满足以下一些能力要求。首先,需要具备各平台的数据对接能力。日志易的 Agent 具备强大的数据采集功能,能够满足各种数据采集需求。其次,日志易具有强大的数据清洗和处理能力,能够将各个数据源的数据进行整合,从而实现标准化。为了应对调用链,应用日志这类数据的处理分析需求,日志易有强大的信创搜索引擎 Beaver 和搜索处理语言 SPL(Search Processing Language)。为了使整个数据流转周期变短,日志易数据工厂产品具备流处理功能。因此,从功能上来说,日志易能够满足运维数据治理的全部需求。


从大环境来说,国产化已经成为主流趋势,日志易作为国内一流的大数据平台开发商,深耕信创,自主可信,自然成为企业的首选。

05

治理过程中我们做了什么


统一建模:

为了使数据的使用成本更低,使用标准化的数据模型是非常重要的。围绕着运维可观测性的建设目标,我们与数据应用层协作,构建了统一的数据资源模型、数据指标模型、告警模型以及资源关系模型。我们统一了各个模型的标准字段,数据生命周期以及标准化的对接方式。为了适应后续更多的数据使用需求,我们也预留了 Tag 用于后续扩展。


数据标准化:

为了满足标准数据模型,我们需要对不同来源的数据进行处理,包含字段命名标准化、数据字段平齐(多删少补)、冗余数据剔除、统一数据单位、统一小数点位数、聚合数据拆分、数据格式转换(JSON)等。为了让整个数据流转周期尽量短,以上所有标准化步骤均需使用流式处理。


SaaS 层数据清洗:

在微服务场景下,用户一般会引入各类 APM 工具来监控应用性能和链路追踪。因此,在微服务下的运维可观测性我们需要增加若干 SaaS 场景的观测。我们需要从日均 TB 级的调用链数据中,清洗出 SaaS 层资源、SaaS 层性能、SaaS 层关联关系数据。这类需求对于日志的存储引擎和搜索分析引擎的要求都很高。


落地过程中,我们使用 SPL 按照指定的周期对服务、接口等 SaaS 资源进行聚合,形成指定的资源数据。我们按照分钟级周期对指定的资源对象清洗各类运维黄金指标。我们使用数据工厂对调用链数据进行串联和打标,最终形成 SaaS 层 from -> to 关系,应用这类数据,我们又成功打通了 SaaS 和 PaaS 层的数据衔接。


数据质量管理:

数据质量关乎着整个可观测性平台的最终效果。因此,在整个治理过程中对于数据质量的管理非常重要。为此我们也做了很多工作。我们在数据流处理的过程中会创建一个分支将数据入库,方便在短周期内进行质量监控和溯源。我们也在流处理中增加了日志留痕,方便与上层进行数据输出核对。当出现数据延时、数据中断、数据核心字段缺失、格式错误、数据量陡变等问题时,我们能够通过监控第一时间感知,并与相应的数据源进行核对,将我们这个数据中间缓冲区的作用发挥到最大。


数据生命周期管理:

和等保类项目不同的是,我们接入了几乎全量的运维相关数据,在日均几十 TB 的数据量情况下,我们要将用户的硬件成本降到最低,所以我们需要优先对数据的生命周期进行管理,各类数据的大小不一致,使用方对于数据需要查询的历史周期也不一致,为了尽量将存储成本用在有价值、有需要的数据上,我们做的第一步就是将数据按照类型进行索引划分,然后对于各类数据我们可以根据用户需求进行管理。


数据权限管理:

对于用户来说,日志易不仅仅是运维数据治理平台,还是运维大数据分析平台,我们在统一接入用户各类数据之后,就会面对跨部门的数据使用方,因此也需要对不同部门的数据进行权限隔离。除了按照索引维度划分,我们还可以进行 Tag 级别的细粒度划分。

06

最后聊聊为什么有些用户没有做整个过程的整合


我们会发现大多数的运维监控平台,都是四部分组成的,包含数据采集、数据存储、数据分析、数据利用。那用户为什么不去做整个过程整合,开发一套从数据采集开始就标准化的平台呢?


首先,当下所有的运维工具,是运维部门在为面对不同时间段、不同业务框架、不同技术架构下的产物,每个工具都能解决不同阶段的不同问题。传统工具经过长时间的打磨和运营,已经具备了不同程度的运维辅助能力。如果对所有这些工具进行标准化开发,需要的开发及运营成本将会非常高,而使用当下先做运维数据治理,再做上层数据应用的方案,无疑是成本最低、效果最好的方案了。


其次,从技术角度考量,对所有现阶段的工具进行改造来达到标准化,并不是没有可行性,但是效果可能并不理想。我们需要对各类数据的采集原理进行探索,我们需要做更多的平台兼容性,我们还要实现各类传统工具功能。这样的工具即便做出来,也是臃肿的,性能不可控的。因此,在现阶段整个采集、存储、分析过程是相当有难度的。

发布于: 刚刚阅读数: 6
用户头像

日志易

关注

公众号:日志易 2025-03-05 加入

北京优特捷信息技术有限公司(简称日志易/LogEase)是工信部认定的专精特新"小巨人"企业,推出智能日志中心、SIEM安全大数据分析平台、观察易、日志易LAS日志审计一体机、智能运维平台、数据工厂、大屏展示等产品。

评论

发布
暂无评论
可观测性探索系列一:如何赋能运维数据治理_运维_日志易_InfoQ写作社区