写点什么

数据治理必读|基于 Dataphin,快速建设高质量数据支撑业务发展

  • 2022-11-25
    北京
  • 本文字数:1395 字

    阅读完需:约 5 分钟

数据质量是数据建设和管理中非常重要的一环。所有的数据应用,不论是用于支持业务开展的数据库,还是用于支持商业决策,或者用于机器学习和人工智能等高级应用,实现数据价值的前提是数据本身是高质量、可靠的,高质量的数据,可以支撑业务快速发展。


数据质量的好坏,直接影响着业务的开展,下面是一些简单的示例:


 良好的数据质量 

  • 数据支撑业务顺利开展,如更精确的用户偏好,通过推荐提高用户的消费额;更实时的物流信息,优化物流分配和配送效率;更准确的仓储信息,优化仓储补货和管理等

  • 及时准确的数据,可以支持高效的商务决策


 糟糕的数据质量 

  • 业务开展受阻,如无法正确开具发票,导致无法走财务流程;登记了错误的用户联系方式,导致货物无人接收等

  • 数据错误导致业务决策出错

  • 最好的机器学习算法,遇到数据质量不足时,结果也不如人意


数据质量问题的来源众多,业务方面(缺乏统一的管理规范,导致指标定义不同等)、管理方面(缺少完善的组织和体系支撑,各环节不能高效协同等)、技术方案(设计和开发脱节,数据采集建设过程出现各类问题等)都可能导致数据质量变差。



因此在数据建设过程中,数据治理的重要性日益突出。


系统地解决数据质量问题,需要从多方面进行优化。Dataphin 数据质量可以帮助组织沉淀业务规则,并通过技术进行自动化的质量校验,同时支持告警、大盘等管理功能,助力企业解决数据质量问题,获得高质量数据来更好支持业务发展。


开展数据治理,首先要建立「全局视角」


全域数据质量是指对客户全场景/全数据源下的数据常用的数据场景,都可以进行数据质量监控,本次升级支持了大部分常用场景和计算源,并持续扩展中。


Dataphin 当前能够对客户在数据处理中常用到的数据引擎、数据源和数据对象进行数据质量的监控,详细支持的列表如下:


丰富的规则模板,让管理工作「化繁为简」


Dataphin 数据质量,支持对数据表进行完整性、唯一性、及时性、有效性、一致性、稳定性、自定 SQL 等 7 种质量模版,以及其分类下 24 个模版共计 100+不同监控指标的质量规则校验,7 种质量模版分类介绍如下:

*这里仅针对模版的整体能力进行说明,每一个分类下都有更多的模版和应用场景,详见 Dataphin 产品手册


产品能力速览

1、质量大盘

质量大盘可以展示当前全局的校验规则情况和异常情况,有助于管理员快速发现整体问题,安排排查任务。

2、模版管理

模版分为系统内置模版和自定义模版,系统模版开箱即用,可以用来快速创建质量规则。如果组织内有通用的需求(如:用户年龄区间有效性、财务数据准确性等),可以沉淀为通用的模版,用于业务质量规则的快速创建。通过模版管理可以查看质量当前所有的模版信息。

3、质量规则

支持给质量监控对象(如表、数据源)配置质量规则,并设置告警阈值和规则强弱;配置调度后就可以定时或者跟随数据更新来自动触发质量的校验任务,完成后自动生成质量报告,并根据校验情况完成告警、阻断等后续操作。


4、校验记录

校验记录可以查看每次校验规则执行的具体结果和详情,是每天检查数据质量和处理质量问题最常用的入口。Dataphin 质量的校验记录,详细的记载了每次质量规则校验的时间、状态和执行详情,便于进行日常检查和错误排查。


5、数据源管理

数据源除了要进行数据质量检测任务外,还要进行日常的业务支撑。为了防止数据质量任务影响到日常业务,支持对单个数据源支持的最大质量并行度进行控制,当达到质量最大并行度时,新调度的质量规则会进入排队等待状态,以保护业务的正常开展。


用户头像

还未添加个人签名 2019-07-09 加入

还未添加个人简介

评论

发布
暂无评论
数据治理必读|基于Dataphin,快速建设高质量数据支撑业务发展_瓴羊企业智能服务_InfoQ写作社区