写点什么

数据治理笔记

作者:老猎人
  • 2022 年 7 月 20 日
  • 本文字数:621 字

    阅读完需:约 2 分钟

数据治理背景

数据易用性差(取数复杂度 &速度)

数据质量差(正确性)

开发成本高(研发复杂度 &周期 &运维成本)

数据安全性差(审计(有多少查过,sql 命中哪些行,sql 运行时间)&脱敏 &加密)

会面临的问题

产品线多,业务属性和生命周期都不一样,产品存在时间长的不好调整;

维护的存量表很多,依赖关系需要梳理,表、表字段有没有冗余梳理困难,靠人工维护成本高;

增量数据多,日志规范,生命周期管理;

数仓层级深,无用表占用资源严重,哪些在用哪些不用了梳理不清楚,而且有些是表在用有些行、列不用的;

解决研发成本问题

表的血缘关系动态构建。

无用行、无用列通过自动化的方式整理出来。

废弃的数据自动化下线。

减少数仓的层级,冗余表去掉。


数据治理的范畴

贯穿数据全生命周期管理

定义/接入/处理/存储/使用/退场

数据治理的岗位最好有业务线的数据 BP 来做,要对业务非常了解


数据治理在百度的落地


数据质量

端的数据质量

端埋点数据可视化:端有 SDK,可 debug。

端上报:Andriod 和 IOS 的长链接。

打点配置、日志采集有数据中心来控制。

数仓数据质量

枚举值数据分布可以通过个性化策略进行预测,对比预测值进行报警。

报警可做阻塞式和非阻塞式,阻塞式影响下游任务运行。


美团数据治理文章

https://tech.meituan.com/2022/05/12/business-data-governance.html

https://tech.meituan.com/2022/02/24/systematic-modeling-of-data-development-and-governance-integration-practice.html

https://tech.meituan.com/2020/03/12/delivery-data-governance.html

发布于: 刚刚阅读数: 3
用户头像

老猎人

关注

还未添加个人签名 2018.12.18 加入

还未添加个人简介

评论

发布
暂无评论
数据治理笔记_老猎人_InfoQ写作社区