《华为数据之道》读书笔记:第 8 章 打造“清洁数据”的质量综合管理能力
越来越多的企业应用和服务都基于数据而建,数据质量是数据价值得以发挥的前提。...数据质量是一个复杂问题,往往是多种因素综合作用的结果,解决数据质量问题要从机制、制度、流程、工具、管理等多个方面发力。
1 基于PDCA的数据质量管控框架
1.1 什么是数据质量
ISO9000标准对质量的定义为“产品固有特性满足要求的程度”,其中“要求”指“明示的、隐含的或必须履行的需求或期望”,强调“以顾客为关注焦点”。
在Won Kin的论文“A Taxonomy of Dirty Data”中,数据质量被定义为“适合使用”,即数据适合使用的程度、满足特定用户期望的程度。
数据质量不是追求100%,而是从数据使用者的角度定义,满足业务、用户需求的数据即为“好”数据。
华为数据质量指“数据满足应用的可信程度”,从以下六个维度对数据质量进行描述。
1)完整性:指数据在创建、传递过程中无缺失和遗漏,包括实体完整、属性完整、记录完整和字段值完整四个方面。
2)及时性:指及时记录和传递相关数据,满足业务对信息获取的时间要求。
3)准确性:指真实、准确地记录原始数据,无虚假数据及信息。
4)一致性:指遵循统一的数据标准记录和传递数据和信息,主要体现在数据记录是否规范、数据是否符合逻辑。
5)唯一性:指同一数据只能有唯一的标识符。
6)有效性:指数据的值、格式和展现形式符合数据定义和业务定义的要求。
1.2 数据质量管理范围
流程质量是基于流程结果评估业务执行的好坏,数据质量更关注业务对象、业务规则、业务过程、业务结果等数据是否得到了及时记录。
1.3 数据质量的总体框架
华为的数据质量管理以数据清洁为目标,以业务需求为驱动,通过PDCA(Plan、Do、Check、Action、计划、执行、检查、处理)的循环,提升数据质量,达到数据质量结果满意。
1)自上而下打造数据质量领导力
数据质量政策应该有不同的层次,数据质量的控制要兼顾宏观方面的指导原则以及微观层面的具体操作要求,引导正确的业务行为,提升企业成员的数据质量意识。
2)全面推进数据质量持续改进机制
提升数据质量是为了满足业务应用,业务战略变化会产生新数据,对数据应用提出更高的要求,使得数据质量管理范围、目标发生变化,因此数据质量管理是动态、持续的循环过程。
3)不断加强数据质量能力保障
数据质量管理具有专业性,需要专业团队制定数据质量管理策略、流程、规范等,通过技术工具实现自动融入日常业务。通过不断提升数据质量管理组织的管理水平、改善数据质量工具平台,使企业数据质量获得进一步提高。
2 全面监控企业业务异常数据
2.1 数据质量规则
异常数据是不满足数据标准、不符合业务实质的客观存在的数据。若想从众多数据中识别出异常数据,就需要通过数据质量规则给数据打上标签。
数据质量规则是判断数据是否符合数据质量要求的逻辑约束。在整个数据质量监控的过程中,数据质量规则的好坏直接影响监控的效果,因此如何设计数据质量规则很重要。
依据数据在数据库落地时的质量特性及数据质量规则类型,设计如下四类数据质量分类框架。
1)单列数据质量规则。关注数据属性值的有无以及是否符合自身规范的逻辑判断。
2)跨列数据质量规则。关注数据属性间关联关系的逻辑判断。
3)跨行数据质量规则。关注数据记录之间关联关系的逻辑判断。
4)跨表数据质量规则。关注数据集关联关系的逻辑判断。
华为结合ISO8000数据质量标准、数据质量控制与评估原则(国标SY/T 7005-2014),共设计了15类规则:
单列
不可为空类 属性不允许或在满足某种条件下不允许出现空值
语法约束类 属性值满足数据语法规范取值约束
格式规范类 属性值必须满足展现格式约束
长度约束类 属性值必须满足约定的长度范围
值域约束类 属性值必须满足已定义的枚举值列的约束
事实参照标准类 存在事实数据或者事实参考标准数据,与该事实数据或者事实参考标准对比一致的约束
跨列
应为空值类 属性满足某种条件下不能维护值
入库及时类 某一属性值与本实体其他属性计算值相等的约束
单表等值一致性约束类 某一属性值与本实体其他属性满足逻辑关系约束(大于或小于)
单表逻辑一致性约束类 数据进入系统的及时性约束,通常要包括数据原材料获取时间和入库时间才能进行规则设计
跨行
记录唯一类 记录不重复,存在可识别的业务主键进行唯一性判断,是对数据集内部是否存在相似或重复记录的约束规则
层次结构一致约束 存在层级结构的属性,同层级属性结构一致
跨表
外关联约束类 引用其他业务对象属性时,所维护的属性值必须在其他业务对象中存在的约束
跨表等值一致约束类 某一属性值与其他实体的一个或多个属性值的函数计算结果相等的约束
跨表逻辑一致约束类 某一属性值满足其他实体的一个或多个属性值的函数关系的约束(大于或小于)
2.2 异常数据监控
数据质量控制的目的是致力于满足数据质量要求,消除或减少异常数据。数据质量控制可以在数据的生命周期内的不同时点被应用,来测试数据的质量和其是否适合于其所在的系统。
华为通过数据质量监控平台,以异常数据管理为核心,实施数据质量控制。
1)识别监控对象范围,确定监控内容
数据质量控制从明确业务需求开始,根据业务规划和数据相关方的需求,阶段性确定数据质量控制范围。
从定性、定量两个维度识别关键数据,定性维度参考以下原则。
重要性原则:
关键主数据和基础数据:公司级、领域级主数据,入产品、客户、供应商、组织、人员、站点。
关键的事务数据:主交易流的核心事务数据,如客户合同。
痛点问题:领域业务运营痛点问题、公司级变革、攻关项目、业务核心KPI等设计的对象纳入度量。
成本效益原则:
运作成熟且质量较高的数据,或度量成本很高但预期的改进很少的数据,可不优先考虑。
数据管家也可通过收集业务需求、数据质量问题等其他途径从中筛选当前需监控的数据。
2)数据源剖析
在着手设计数据质量规则前,需对数据进行快速数据剖析,目的是分析数据源的内容、质量和结构,同时发现和分析数据源中的所有数据不规范问题和使数据项目处于危险中的隐藏数据问题。
3)设计和配置监控规则,自动监测异常数据
华为数据质量监控平台已实现质量规则的可配置、数字化、快速部署、自动监控识别异常数据等能力,并可随时间推移,制定周期性监控计划,监视数据质量的进展情况,并通过虚拟化的方式快速、灵活发布监控结果。
3 通过数据质量综合水平牵引质量提升
通过数据质量度量综合评价公司整体数据质量水平,制定数据质量基线,披露数据质量问题与短板,促进问题改进,推动数据Owner承接数据质量改进目标,持续提升数据质量,实现数据清洁。
建立企业数据质量持续改进的机制,即基于质量管理的PDCA循环----数据质量策划、控制、度量和改进。通过组织、流程、IT三个方面的能力保障,使数据质量管理“系统化”“持续化”“常态化”。
评论