数据治理(二):数据治理功能方面
数据治理功能方面
数据规模大并且成熟企业中数据治理通常包含以下几个功能方面: 数据治理包括主数据管理、元数据管理、数据标准管理、数据质量管理、数据集成管理、数据资产管理、数据安全管理、数据交换管理、数据生命周期管理方面。
一、主数据管理
主数据(Master Data)就是关于业务实体的数据。主数据是关键业务实体的最权威、最准确、价值最大的数据,用于建立交易闭环。例如对于银行来说,用户账号、贷款账号信息、理财产品等就是主数据;对于电商网站,用户、商品就是主数据等。主数据管理包括主数据申请、主数据发布、主数据分发等。
二、元数据管理
元数据(Meta-data)是描述数据的数据。例如一个文本数据的大小,位置,创建人,创建日期等,这些数据就是该文本文件的元数据。元数据又分为业务元数据、技术元数据、操作元数据、管理元数据。
业务元数据:与业务规则、流程相关的描述性数据。例如:人员信息数据中的统计时间、统计周期、统计区域范围等。
技术元数据:与存储、访问等技术底层相关描述性数据。例如:人员信息数据存储在的位置、访问的 URL 地址,数据存储库,对应的表名,字段有哪些等。
操作元数据:与数据操作相关的描述性数据。例如:人员信息数据上传人,上传时间,修改时间等。
管理元数据:与数据管理相关的描述性数据。例如:人员信息数据访问权限,安全等级,质量等级,过期时间等。
元数据就是为了准确的描述我们拥有的所有数据。其核心的目的是降低人与数据之间的沟通成本。描述的越准确,我们使用数据的成本就越低。元数据管理主要包括元数据采集、血缘分析、影响分析等。
三、数据标准管理
数据标准(Data Standards)是进行数据标准化的主要依据,构建一套完整的数据标准体系是开展数据标准管理工作的良好基础,有利于打通数据底层的互通性,提升数据的可用性。用通俗的话讲数据标准就是在组织内定义一套关于数据的规范,好让我们都能理解这些数据的含义。例如:对于银行系统中的客户,核心系统人员认为在银行开户存钱的人就是客户,信贷系统人员认为在银行中贷款的人就是客户,理财系统的人认为理财的人就是客户等。
以上如果没有统一标准的话,不仅增加沟通成本,而且项目实施、交付、信息共享、数据集成、协同工作往往会出现各种问题,而数据标准管理就是将这一套数据标准,通过各种管理活动,推动数据进行标准化的一个过程,是数据标准落地必不可少的过程。数据标准管理包括标准定义、标准查询、标准发布。
四、数据质量管理
数据质量就是确保组织拥有的数据完整且准确,只有完整、准确的数据才可以供企业分析、共享使用,随着公司数据的来源、形式越来越多,数据质量的战略价值也急剧上升。例如:检查某业务数据唯一性、完整性、数据流程转换过程一致性、数据真实性等。数据质量管理包括质量规则定义、质量检查、质量报告等。
五、数据集成管理
数据集成是把不同来源、格式、特点性质的数据在逻辑上或物理上有机的集中,从而为企业提供全面的数据共享,企业实现数据共享可以使用更过的人更充分地使用已有数据资源,减少资料收集、数据采集等重复劳动和相应费用, 在大数据中一般采用数据仓库进行数据集成管理。数据集成包括数据处理、数据加工、数据汇集等。
六、数据资产管理
数据资产管理就是汇总、存储所有参与数据治理平台的各个系统的数据资产,确保数据资产的一致性和完整性,让管理者可以一目了然的了解到所有资产,提供决策依据,提升数据资产的价值。例如:数据仓库中存储的各类数据就是资产,如果不做数据资产管理来了数据之后就直接存储,用户查找响应数据就需要慢慢去查询,效率低下,如果对数据做了资产管理分类,就可以轻松获取对应类别全部数据及位置,结合数据生命周期管理还可清楚知道数据进入数仓时间,移出数仓时间等。
数据资产管理的重要性随着企业的发展,企业拥有的数据资产只会越来越庞杂,通过数据资产管理对资产进行有序的管理、提升数据利用价值是必不可少的环节。数据资产处理不当,数据繁杂无序,那么这些数据将不再是资产,而是垃圾,随着系统更新换代,我们将会永远丢失这部分资产。数据资产管理包括数据资产编目、数据资产服务、数据资产审批
七、数据安全管理
企业有些数据非常重要且敏感,这些数据大部分集中在应用系统中,例如银行系统中客户的联络信息、资产信息等,如果不慎泄露,不仅给客户带来损失,也会给银行带来不利的声誉影响,因此数据安全在数据管理和治理过程中是相当重要的。数据安全管理包括数据权限管理、数据脱敏、数据加密等。
八、数据生命周期管理
任何事物都具有一定的生命周期,数据也不例外。从数据的产生、加工、使用乃至消亡都应该有一个科学的管理办法,将极少或者不再使用的数据从系统中剥离出来,并通过核实的存储设备进行保留,不仅能够提高系统的运行效率,更好的服务客户,还能大幅度减少因为数据长期保存带来的储存成本。
数据生命周期一般包含在线阶段、归档阶段(有时还会进一步划分为在线归档阶段和离线归档阶段,即离线数仓和实时数仓构建,将数据存入数仓)、销毁阶段三大阶段,数据生命周期管理内容包括建立合理的数据类别,针对不同类别的数据制定各个阶段的保留时间、存储介质、清理规则和方式、注意事项等。
九、数据交换管理
企业中随着时间和业务增长建立了众多的信息系统,但是随着信息系统的增加,各自孤立工作的信息系统将会造成大量的冗余数据和业务人员的重复劳动。例如数据仓库 DM 层分析人员信息中缺失数据,可以通过数据交换系统反哺到业务系统中,避免重复劳动。企业急需通过建立底层数据集成平台来联系横贯整个企业的异构系统、应用、数据源等,完成在企业内部的 ERP、CRM、SCM、数据库、数据仓库,以及其它重要的内部系统之间无缝的共享和交换数据,避免“数据孤岛”问题。
以上几个方面相辅相成,每个公司根据每个公司的数据规模不同建设的数据治理方面不同,其中以上几个方面中数据治理基础方面有数据集成管理、数据质量管理,元数据管理,数据安全管理。前面课程中学习过的数据仓库项目构建数仓就相当于是一个数据集成管理过程,下面重点介绍数据质量管理,元数据管理,数据安全管理三方面。
实施有效的数据治理可以确保企业数据符合重要的数据法规,数据标准化可以提高数据的透明度,降低使用数据的成本,提高运营效率,数据治理是所有数据应用的根基,数据治理的好坏直接影响数据应用的价值,通过数据治理可以给企业提供更直观、准确、安全的数据分析结果
十、数据治理思维导图
版权声明: 本文为 InfoQ 作者【Lansonli】的原创文章。
原文链接:【http://xie.infoq.cn/article/be9afcbb42f791789b5a1b421】。文章转载请联系作者。
评论