数据治理的内核:数据标准
数据标准定义
“书同文、车同轨”的要求古已有之,而数字化时代的标准规范中,数据标准化无疑是重要根基之一。
标准,是旨在一定范围内维护最佳秩序,经协商一致制定并公开颁布认定、共同遵循的一种规范性要求。
站在数据视角,参照《JR/T0105-2014 银行数据标准定义规范》,数据标准是指对数据的表达、格式及定义的一致约定,包括数据业务属性、 技术属性和管理属性的统一定义。这里可以看出来,其是在元数据的基础之上,对数据成体系化的改造,是得一定范围内的数据管理更具规范和体系。
站在管理视角,数据标准是一套由管理制度、管控流程 SOP、技术工具共同组成的体系,是通过这套体系的推广,应用统一的数据定义、数据分类、记录格式和转换、编码等实现数据的标准化。
在实践过程中,数据标准可分为基础类数据标准以及指标类数据标准。基础数据标准是针对业务开展过程中直接产生的数据制定的标准化规范;指标数据标准是针对为满足内部分析管理需要以及外部监管需求对基础类数据加工产生的数据制定的标准化规范。
数据标准的价值
数据标准管理建立规范的数据应用标准,消除数据的不一致性,从根本上改善和解决系统的数据质量问题,实现数据有效共享,并为后续质量检查提供依据。
基于元数据的数据标准管理,为业务实体的定义、关系和业务规则到 IT 实现之间提供清晰、标准的语义转换,提高业务和 IT 之间的一致性,保障 IT 系统能够真实反映业务事实。并为数据标准系统与其他业务系统的集成,提供有关数据标准、数据映射关系和数据规则的描述,为业务系统的集成提供支撑。
从应用层面讲,可作为数据质量控制的准则、数据模型设计以及信息系统设计的参考依据。在数据的分享方面,数据标准也清晰的传达数据自身所要传达的价值。
产品设计
元数据是数据标准的基础,企业在制定数据标准的时候最先需要明确的就是数据业务属性、技术属性和管理属性,而这三类属性就是我们所说的业务元数据、技术元数据和管理元数据。
这里以德勤的基础数据标准的信息项属性架构为例来展开介绍。
图:德勤参考标准架构
具体的落地,可以参考银行业数据标准的落地:
以某运营商数据仓库 DWD 模型层常用数据元的标准定义示例:
笔者以往的工作中,做过融合了 GIS 的大数据平台建设,与时空相关的数据基本上离不开经纬度,经纬度的坐标系(如大地 2000),将经纬度转换成图层的时候还涉及到具体使用的投影方式(如墨卡托投影),等等这些是面向专业领域的标准,在数据的处理、共享之前,这些数据标准必须要提前定义好,不然后续应用过程中就会出现很大的沟通成本与应用障碍。
标准的基础内容设计:
以数据标准的信息项为主体,分别从业务,技术,管理三个方面进行大类的定义和划分。针对信息项本身也有针对自身的分类管理,比如可以按照主题或者目录树的方式进行管理,具体的落地可结合具体的业务场景定义。
从架构图中可以看到还包含有代码扩展定义,这里其实是在讲数据字典。
数据字典主要是指对数据的数据项、数据结构、数据流、数据存储、处理逻辑、外部实体等进行定义和描述。比如用户的学历,可以分为本科,硕士等,每一个数据项都定义一个唯一的码值,方便业务到技术层间的落地。
标准的功能管理设计:
面向标准的基础功能设计:标准增删改查。
在产品功能层面,支持标准的搜索,查询,编辑,删除等基础功能。
面向标准的管理功能设计:标准分类管理、标准导入导出、标准版本管理、标准监控。
标准的分类管理:面向数据标准的数据项自身的管理体系。
标准的导入导出:支持标准的按需导出,方便历史存档,方便以存在的标准快速的对接到平台。
标准版本管理:基于单个标准的版本管理,一方面允许标准随业务发展而变更,另一方面方便查询历史标准的版本。
标准监控:这块涉及到基于数据标注对数据的巡检,比如巡检的任务执行情况,告警等情况。
数据标准的管理实践
整个数据治理领域,讲究的是三个方面:制度,组织,工具。数据标准同样也是,工具只是其中的一个环节,配合工具,同时也需要人工按照 SOP 去进行标准的评审,落地,发布,评估等工作。
从数据标准的管理层面讲,数据标准分为数据标准制定、标准维护:
标准制定:数据标准一般是从数据最小颗粒度开始定义和规范,先有词根,词根组成字段,然后有编码规则,制定好标准(规定中英文名称、数据类型、文本长度、是否为空、是否唯一等)。
标准维护主要包含两个方面:事后检查,事前预防。
事后检查:将标准下发至目标数据模型中进行贯标评估,将不符合标准的进行修改;
事前预防:建模时,引用定义好的数据标准。
任何标准,只是一种规范,其落地离不开一套细化的操作流程和方便管理和使用的工具,可能还需要必须得定期检查,才能推进标准的落地。实践过程中,数据标准的落地决定了数据治理在多大程度上的效果。
当构建了元数据管理,数据标准的管理,在面对海量数据的时候,人工的方式显然无法应对巨量的数据问题,这时候基于元数据,参照数据标准,结合实际的业务场景,使用平台化的方式配置数据的巡检规则,对于存在有问题的数据,主动的发现并及时的沟通处理,才能最大限度的提高数据质量,提升数据治理的成效。
具体的数据质量平台的构建,咱们下节继续讨论。
参考:
题图来自 Unsplash,基于 CC0 协议。
版权声明: 本文为 InfoQ 作者【Skipper】的原创文章。
原文链接:【http://xie.infoq.cn/article/d0b29f47ce48ba0bdb3cc2c6d】。文章转载请联系作者。
评论