车企数据治理实践案例,实现数据生产、消费的闭环链路
随着业务飞速发展,某汽车制造企业业务系统数量、复杂度和数据量都在呈几何级数的上涨,这就对于企业 IT 能力和 IT 架构模式的要求越来越高。加之企业大力发展数字化营销、新能源车等业务,希望通过持续优化客户体验,创造可持续发展的数字化转型之路。
为更好应对数字化变革所带来的挑战,现有的竖井架构的数据体系难以满足越来越多、越来越快的系统和数据交互、敏捷创新应用、数据共享、新业务拓展的需求。以数据驱动的数字化,将帮助车企全面了解用户的需求变化,也能为企业在营销、生产、服务等各个环节提供支撑,进一步提升企业的经营效率。
在开展某车企数据化转型时,需要解决三个核心问题:如何收集汇总和运营自己的数据?如何建立数据治理运营团队?如何在短期内快速展现成果,在企业内部建立信心?
本次某车企数据中心二期的建设重点是数据治理平台建设。数据治理平台的核心理念在于“数据取之于业务,用之于业务”,即完整构建某车企从数据生产到消费,消费后产生的数据再回流到生产流程的闭环过程。
01 数据“生产-消费-生产”闭环的数据治理方案
1、咨询服务
在某车企组织架构、制度体系和数据资产盘点的基础上,结合国际、国内和行业标准,围绕数据资产全生命周期管理,制定相关的数据规范体系。通过数据治理咨询建设所涉项目的数据治理体系,包括标准、组织、规范、流程、制度等,实现营销业务线、制造业务线、研发业务线数据分级分类标准制定,形成包含主数据、数据标准、数据模型、元数据、数据质量、数据安全、数据生命周期、数据架构等标准、流程与管理制度,并具备推广至全公司业务线的能力。
一是数据治理体系规划。数据治理整体规划方面包括数据管理愿景、组织模式、管理边界和推动策略,数据管理体系设计方面包括数据治理基础、数据管理核心领域、数据应用,任务及规划方面包括数据管理任务识别、实施原则分析、实施计划制定。
二是数据治理组织规划。根据数据管理工作的实际需要,在业务部门、技术管理部门和业务应用部门间要确定各个工作人员的职责。例如不同的业务部门应该明确各自业务开展对数据的具体要求和相关规则,而技术部门则会根据业务部门的需求负责具体的实施工作,包括将业务部门提出的要求转化成技术语言,用于事前的控制(如字段的约束)、事中的逻辑控制(例如控制不能为空)、事后的核查,以及具体的技术操作和编制定期的报告等。
2、平台搭建
提供袋鼠云数据资产管理套件与可视化开发套件,满足数据离线开发、实时开发、数据建模、数据标准、数据质量、数据血缘、数据安全、元数据管理、数据资产、数据标签等能力,集成自有大数据平台、开放平台、调度平台与可视化平台,管理数据资产、提升数据质量,打造数据资产中心、支撑业务创新的数据服务中心和应用中心。
3、项目实施
梳理营销业务线、制造业务线、研发业务线数据资产,划分数据域,构建数据应用,实现数据生命周期全流程打通。具体实施内容包括数据资产地图、数据模型、数据标准、元数据管理、数据血缘、数据分级分类、数据质量规则及报告等。
一是数据资产门户
全局统计企业数据资产情况,让企业管理者对数据的分布、增长、使用、质量情况有直观的了解。包括不限于:
1)数据指标的统计:数据源数量、表数量、存储量、使用量、质量评分。
2)数据趋势的统计:数据分布情况、数据增长趋势、数据使用热度。
3)数据使用排行:数据存储排行;元数据质量:规范趋势、规范排行。
二是数据地图
数据地图的定位是可视化的数据资产中心,用户可以在数据地图模块中查看平台内的所有数据表情况,同时可以进行全方位管理数据资产。
1)数据查找:汇聚平台内的所有数据表信息,方便开发人员快速定位所需数据表,支持用户根据类目、表名、所在项目、授权状态进行过滤,或直接根据表名搜索。
2)数据表元数据展现:用户指定某张表后,可以查看此表的基本信息,包括表名、物理存储量、生命周期、是否分区表、字段名称、字段类型、分区信息等,同时可以进行预览,直观地查看表内数据情况。
3)数据类目管理:当平台内的数据表越来越多时,数据类目的重要性就会日益突出。提供 3 层类目的管理,用户可自定义层级、名称,并将数据表指定至某个节点上,数据开发者在寻找数据时可根据数据类目快速定位。
4)数据审批授权:提供表级数据权限的管理,当用户需要跨项目访问表时(读/写)需先经项目管理员审批授权,审批通过后才可以对表进行跨项目访问。同时,授权审批具备有效期的概念,超出有效期后自动取消授权,提升数据访问的安全程度。
4)生命周期管理:提供表的生命周期管理,用户可在建表时指定生命周期,系统定时检测每张表/分区的数据更新时间,超出时间后自动删除数据,降低临时数据造成的存储压力。
5)数据血缘解析:提供自动解析同步任务和 SQL 代码,自动建立各个数据表的表级、字段级血缘关系,用户可直接在页面上看到每个指标的“前世今生”,便于快速排查指标问题,检查指标统计逻辑,依赖链路是否正常等。
三是数据质量
作为数据治理的内容,数据质量的保障与提升是大数据平台的必备功能。数据质量的管理工作大致可以按照事前、事中、事后的流程化体系来进行,即事前的监控规则定义、事中的数据生成监控、事后的数据质量分析。
1)事前管理:接入需要管理的数据源,并结合对业务需求和数据的理解,对需要监控的数据配置监控规则。
2)事中管理:通过对定义好的监控规则配置调度周期,系统自动执行,校验数据质量。
3)事后管理:对校验不满足规则的数据,及时发出错误提醒。同时系统自动生成监控报告,帮助用户复盘总结数据问题。
四是数据安全
1)数据权限控制:支持表级数据权限的管理,当用户需要跨项目访问表时(读/写)需先经项目管理员审批授权,审批通过后才可以对表进行跨项目访问。同时,授权审批具备有效期的概念,超出有效期后自动取消授权,提升数据访问的安全程度。支持数据资源服务的权限申请、审批,保障数据服务的安全性。
2)生命周期管理:支持表的生命周期管理,用户可在建表时指定生命周期,系统定时检测每张表/分区的数据更新时间,超出时间后自动删除数据,降低临时数据造成的存储压力。
3)数据影响解析:当用户配置了同步任务,并通过 SQL 任务进行多个步骤的清洗、转化处理之后最终会将结果数据输出,在整个处理链路中,数据的血缘关系就隐含在同步任务和 SQL 代码中,数据影响表示每个统计指标是如何从原始数据得到的过程。
4)数据脱敏:支持自定义脱敏规则,可应用于不同的敏感数据防止数据预览时造成数据泄露。包括支持根据国标自定义安全等级,对人、表进行分级分类定级;支持自定义脚本函数、正则表达式,按需关联识别规则、识别函数及脱敏规则,自动动态识 别敏感数据;支持内置多种敏感数据识别定期模板,即身份证、银行卡号、邮箱、手机号、IP、固定电话、 车牌号、姓名、公司、地址的识别,同时提供用户自定义规则。
02 搭建数据治理平台,数据质量大幅提升
某车企通过数据治理平台项目,完成了数据规范、标准、质量、服务体系、治理组织架构等内容建设,基本能满足企业 2—3 年数据发展的使用诉求。结合数据中台+数据治理方案,在该阶段取得了阶段性的成果:
一是构建强大数据开发与治理平台体系,通过数据平台的建设,为某车企实现数据基础处理平台、数据资产管理平台、数据服务平台。从而实现从标准化数据采集、数据质量管理、数据资产管理和数据应用的整套数据标准化处理流程,同时对接 BI 和报表工具,同时对元数据进行标准化的 API 管理能力。
二是快速定位数据问题根本原因,有许多数据问题不一定是真正的数据问题,如果所有使用者一碰到难以理解的问题就找技术人员协助定位,技术人员则会花费过多时间在问题定位上的,最终导致数据问题会越堆积越多的。因此,本次项目为使用者提供自助排查的功能,协助用户找到问题原因,实在解决不了的再找到技术人员协助解决。另外将数据流中间结果的数据可视化呈现,便于在最终结果报表缺失或有误的情况下,能够快速定位出是数据出错环节。
三是数据质量得到保障,数据价值高。数据质量可靠不仅提升了决策人员的决策效率以及成果,也可以降低发生风险的概率。当企业用可靠的数据时,可以更快、更一致地回答问题,做出决策。如果数据是高质量的,也能花更少的时间发现问题,而将更多的时间用于使用数据来获得洞察力、做决策、服务用户。
《数据治理行业实践白皮书》下载地址:https://www.dtstack.com/resources/1001?src=szsm
《数栈 V6.0 产品白皮书》下载地址:https://www.dtstack.com/resources/1004?src=szsm
想了解或咨询更多有关大数据产品、行业解决方案、客户案例的朋友,浏览袋鼠云官网:https://www.dtstack.com/?src=szinfoq
版权声明: 本文为 InfoQ 作者【袋鼠云数栈】的原创文章。
原文链接:【http://xie.infoq.cn/article/201d3691bb3e7225051880bdc】。
本文遵守【CC-BY 4.0】协议,转载请保留原文出处及本版权声明。
评论