极客星球 | 数据治理三步走,助力企业节省百万 + 资金投入
近日,由 MobTech 袤博科技主办的【CoderPark】第二季数智有为第 2 期——数据治理技术体系建设与实践顺利举行。大数据架构专家陈远光在直播中详细分享了构建数据治理体系的思路与实践成果,助力中小企业实现降本增效。以下为正文内容:
本次分享聚焦中小型数据公司的数据治理体系构建,从四个维度展开,包括数据治理背景与挑战、数据治理体系与方法论、数据治理在 MobTech 袤博科技的实践,以及关于数据治理未来发展的展望。通过这四大主题的分析,中小型数据公司将在如何取舍数据,如何构建适合自己,属于自己的数据治理体系等问题上获得一些启发。
数据治理的背景与挑战
目前数据治理已经成为大数据公司的常规操作手段,但由于公司的数据规模、业务场景、成本计量、技术能力等差异,各公司的数据治理力度有所不同。一般而言,公司数据规模越大,业务场景越复杂,资产成本越高,数据治理的颗粒度也就越细,产生的价值也就越直观。对于拥有海量数据的公司而言,数据治理是必要的。但是,部分企业对数据治理的概念理解还是比较模糊,往往只关注数据治理的部分环节,没有形成系统闭环,造成公司数据治理成本高,效果差。
数据治理的终级目的主要涉及两个方面,即成本问题和数据质量问题。就降低运营成本而言,数据存储规模达到百 PB 的企业,数据治理每降低计算存储 1%,就可以节省上百万的资金投入(包括如服务器硬件、网络、机房、人力成本等)。国内很多大型互联网公司的数据存储已经达到 EB 级别,数据治理的成果非常乐观,可以节省千万级别成本。因此,数据治理对降低大型互联网公司的运营成本有着非凡的意义。
另一方面,提高数据质量对企业也有着现实意义,它能解决企业中系统林立、数据孤岛、数据无法打通共享、减少数据冗余等问题。但要实现这一目的,要着手重点解决数据治理缺少统一应用标准、数据不完整、指标设计口径不一致、指标难以共享等现状困境和问题。同时,应建立健全数据管理机制,避免因缺乏规划造成数据复用率低和数据不安全等问题。
数据治理的应对与挑战
数据治理体系构建方法论
数据治理不可一蹴而就完成,是一项繁杂而长期的工作。企业数据治理需要在支撑当前业务的情况下循序渐进,逐步迭代。具体而言,企业数据治理可以分为前中后三个阶段。数据治理前期,需要先对企业数据资产进行盘点,解决资产负责人对数据不可知的问题,并梳理企业数据资产的现状,如成本不断增大,但不知道哪个业务域耗费成本高、数据流程混乱、数据信息碎片化、资产不全等问题。然后再梳理资产,比如整理业务规则、业务流程、统一数据定义、统一数据规范等。总而言之,数据治理前期阶段,需要让数据资产变得干净。
中期阶段开始,需要结合企业实际规划指标体系,统一数据应用标准和数据开发规范等。本阶段需要重新组织数据,完善数仓体系,同时从多个维度进行数据治理,逐步进行数据治理体系的建设与完善。后期阶段,更多的是将前期的工作固化、机制化、持久化。本阶段包括通过组织架构的建设、规章制度的完善等,保障数据治理常态化,提高团队协作能力,并通过培训等提升团队成员数据治理意识。数据治理动作伴随着整个数据的生命周期,实际数据治理可以从数据的链路入手,实现数据的层层规整化处理,比如从数据采集,数据存储,数据分析,到最后的数据服务,构建全链路全域的数据资产体系,也可以从数据安全,数据规范,数据管理,数据质量四大维度进行每一链路的数据治理与管理。
数据治理前中后阶段重点
大数据企业数据治理体系建设
1.数据组织架构管理模块
很多人认为数据治理就是信息化部门的事情,如大数据数仓部门,和业务部门无关。其实不然,有效进行数据治理需要从整个组织考虑,并建立专业的数据治理组织体系,再进行数据资产的确权。企业数据资产的生产与使用应该有明确的责任部门,明确相应的治理制度和标准。数据治理并不是一个部门的事情,不能在企业的单一部门得到解决,应该培养整个企业组织的数据治理意识,才能达到效果最大化。在 MobTech 袤博科技内部,数据治理委员会由各个事业部、大数据集群运维架构部、数仓部门、PAAS 平台等核心人员共同组成。各部门明确相应数据治理职责,数据治理考核机制,共同支持协作,从而为数据治理的机制化奠定了根基。
2.数据标准管理模块
数据标准化是数据治理过程中的核心环节。过去各业务系统的数据标准都不相同,导致计量口径不一致、数据标准认知偏差、跨部门沟通成本较大、效率低下等问题。数据治理的标准体系是多层次的,包含国家标准、行业标准、企业标准等。这些标准的建设与实施,需要企业在前期投入大量的人力进行规划、迭代、落地、监督应用管理。而数据治理的成效,很大程度上取决于数据标准的合理性和统一实施的程度。MobTech 袤博科技的数据标准管理涵盖了元数据标准、主数据标准、模型标准,数据指标标准,数据安全标准、数据应用标准等。目前公司已加入中国信通院大数据技术标准推进委员会,积极参与数据安全与治理实践等多个重要项目,希望可以为推动数据智能行业的持续发展贡献自己的力量。
3.数据质量管理模块
高质量的数据是企业进行分析决策和业务发展规划的重要基础。只有建立完整的数据质量体系,才能提升企业整体的数据质量。在技术层面上,企业应该完整全面地定义数据质量的评估维度,包括完整性、时效性,一致性等,按照已定义的维度,在系统建设的各个阶段,根据标准进行数据质量检测和规范监测,并对数据进行及时治理,避免事后的数据清洗工作。MobTech 袤博科技内部建设的 QC 管理系统,可以定义数据质量检验规则、执行数据质量检核、生产数据质量报告。同时规划了一整套独立的数据质量处理、管理流程与相关规范制度。通过数据质量处理流程可以实现从发现问题到处理问题的闭环管理,从而促进数据质量的不断提升。
4. 主数据管理
主数据就是企业的核心数据,主数据的管理是数据治理的核心。企业可以通过运用相关的流程、技术和解决方案,对企业核心数据进行有效管理。MobTech 袤博科技内部通过一系列标准规范、平台工具和管理流程实现主数据管理,如严格规范主数据的新增、变更、审核等流程,实现对各类主数据的全生命周期管理;可通过手工新增、导入、接口传输等多种方式汇集主数据,并提供全方位质量检查,保证主数据质量;同时提供可视化的资产管理界面,全链路、多维度监控主数据整体建设、使用、质量情况等,清晰地展现了主数据的运作轨迹,让主数据管理尽在掌控中。
大数据企业数据治理体系
5.元数据管理
元数据管理包括业务元数据、技术元数据、管理元数据等,主要是通过系列的标准规范,如减少业务术语歧义,提高元数据的高可用性和安全性。公司内部对于元数据的管理,主要从元数据的采集、元数据的存储以及元数据的分析三大模块构建。元数据的采集,按照元数据的分类分为自动采集和手动采集。自动采集主要通过定时任务,为元数据的采集提供自动化的、周期性的,或指定某个时间触发的机制。手动采集主要针对特定业务场景的元数据,以手工方式实时采集保存。
元数据采集完成后,依照元数据管理制度及要求,根据规则进行元数据分类,后续再根据每类元数据定义,实现元数据的分类管理存储。如存储在数据库或者数据仓库中,以支撑后续元数据统计、查询、血缘分析、影响性分析、数据资产地图、元数据备份等元数据应用。公司在该模块建设了图形化的元数据基础分析以及高级应用分析 web 系统。
6.数据生命周期管理
大数据的生命周期针对大数据范围,确定大数据采集、存储、整合、呈现与使用、分析与应用、归档与销毁的流程,并根据数据和应用的状况,对该流程进行持续优化。MobTech 袤博科技内部的生命周期管理系统结合血缘分析、调用分析、数据的价值分析等维度,对所有数据进行了生命周期全链路管理,并支持事业部和技术部的小伙伴对所属资产进行资产生命周期配置、变更、删除管理等操作。数据生命周期管理可以大幅降低企业低价值密度数据的成本,包括数据冷热分开存储等,进而提升高价值数据的查询效率等。
7.数据应用与服务管理模块
数据应用与服务管理模块是数据中台的最后一公里。合理的数据服务体系有助于企业提高数据共享程度和数据流转时效,同时保障数据安全。公司内部对于数据交换服务制定了一系列规则,比如对接口的使用规范、文件的内容审批、交换规则,以及统一的数据交换系统,实行分级审批。
8.数据安全管理
数据安全管理包括建立健全企业数据安全管理制度、设定数据安全标准(如存储,传输,应用等维度)、培养企业员工的数据安全意识等。当然安全与效率始终是一个矛盾体,数据安全管控越严格,数据的应用就可能越受限,企业需要在安全、效率之间找到平衡点。数据治理既需要组建架构、规章制度,也需要工具平台、实施流程、考核管理。前者提供了理论基础,后者提供了技术支撑,两者共同促进数据治理体系的建设。
因地制宜实现数据治理
随着数字化时代的到来,企业沉淀的数据越来越丰富,为降低运营成本并提升数据质量,众多企业开始尝试数据治理建设。虽然完善的数据治理体系内容全面、功能丰富,但是这种全面的数据治理体系并不一定适合每一家企业。因此,企业不能生搬硬套大厂经验,而是要择其善者而从之,选择适合自己的方法体系,去建设适合自己的数据治理体系,才能真正帮助企业实现降本增效。
评论