写点什么

不能忽视的数据治理

作者:凌晞
  • 2024-05-16
    广东
  • 本文字数:1242 字

    阅读完需:约 4 分钟

不能忽视的数据治理

一、异构系统常见的数据问题


异构系统数据问题种类繁多,但是归纳起来大体可以分为两大类:数据低质和数据代沟。

数据低质主要分为以下几类:

(1)记录或多或少。实际记录总数比预期的总数,或者多,或者少。

(2)关键字段值不合法。譬如手机号字段,要么是空值,要么是存了电话号码,要么存在了其他乱七八糟的内容……

(3)数据集违法业务规则。譬如手机号码我们要求具备唯一性,可实际重复记录很多。

数据代沟是指现实意义上同一个业务主体或上下游关系的业务主体彼此割裂,无法联动。


二、引起数据问题的原因


(1)使用流程不规范

(2)操作员操作不规范

(3)原业务系统的规则与实际的业务规则存在差异。这么该怎么理解呢?因为很多时候我们业务系统需要的数据来源于其他业务系统,其他业务系统的业务规则可能与我们不匹配,譬如手机号码,原业务系统可能只是将手机号码作为一种联系方式,因此,多个人使用同一个手机号码作联系方式属于正常的业务规则,而我们建设的业务系统将手机号码作为用户标识,所以,问题就来了。

(4)异构系统本身缺乏顶层设计导致无法联动。因为异构系统原本出自不同的厂商,彼此互不相识,因此出现这种情况也是在所难免。


三、数据治理措施


(1)梳理操作流程并恪守

(2)规范操作方式

这两项可以解决数据低质的源头问题,因为如果源头不解决,一边治理,一边产生,甚至一边污染,治理大业将难以奏效。

(3)针对指定的数据集,穷举数据问题并针对性地解决,持续迭代

不同的数据集存在的问题差异极大,因为只有针对具体的数据集,穷举目前存在的数据问题,然后针对每一项问题分别制定修复方案,通过多版本迭代,争取一次迭代解决几项问题,保证数据集的质量逐渐提升。

(4)日常数据质量巡检。有了源头的梳理,也有了现存问题的修复,那么还需要日常的质量巡检。因为我们的解决方案很多时候都是针对当前的人/事/物,而人/事/物本身是处于动态变化之中,因此需要日常的质量巡检保证旧的质量问题重燃,以及新的质量问题涌现。


四、数据治理工程 &团队


对于数据治理需要从制度/流程着手,用技术手段进行修复,有时候可能技术无法解决,还需要人工的介入。从团队协作来看,因为规范和流程都需要系统的使用方极力配合,因此数据治理离不开业务团队的鼎力支持。因此数据治理是一个系统性的工程,需要多个版本的持续迭代,也需要日常的数据质量监控。


五、数据治理要点


前面我们讲过数据治理需要针对指定的数据集,穷举数据问题并针对性地解决,持续迭代。因为不同的数据集症状不一样,没有通用的万能处方。

但是并不太表每一个数据集都需要从头做一遍。虽然每一个数据集遇到的问题不一样,但是前面我们也抽象提炼了常见的数据问题的大类和小类。就好比治病,每一个患者都需要针对性的治疗,用药不一样,疗程不一样,但是检查的方式,量体温的方式,注射液的方式其实几乎一致。因此,我们可以将每一种问题的检测/修复做成开放性的组件,结合治理流程 &日常巡检 &可视化操作,将这些“脚手架”式的工具积累形成数据治理平台,然后利用沉淀的治理平台快速解决新的数据问题。

发布于: 刚刚阅读数: 3
用户头像

凌晞

关注

一枝有思想有深度的芦苇 2011-02-27 加入

一名有文化素养的IT从业者

评论

发布
暂无评论
不能忽视的数据治理_数据治理_凌晞_InfoQ写作社区