数据治理笔记
数据治理背景
数据易用性差(取数复杂度 &速度)
数据质量差(正确性)
开发成本高(研发复杂度 &周期 &运维成本)
数据安全性差(审计(有多少查过,sql 命中哪些行,sql 运行时间)&脱敏 &加密)
会面临的问题
产品线多,业务属性和生命周期都不一样,产品存在时间长的不好调整;
维护的存量表很多,依赖关系需要梳理,表、表字段有没有冗余梳理困难,靠人工维护成本高;
增量数据多,日志规范,生命周期管理;
数仓层级深,无用表占用资源严重,哪些在用哪些不用了梳理不清楚,而且有些是表在用有些行、列不用的;
解决研发成本问题
表的血缘关系动态构建。
无用行、无用列通过自动化的方式整理出来。
废弃的数据自动化下线。
减少数仓的层级,冗余表去掉。
数据治理的范畴
贯穿数据全生命周期管理
定义/接入/处理/存储/使用/退场
数据治理的岗位最好有业务线的数据 BP 来做,要对业务非常了解
数据治理在百度的落地
数据质量
端的数据质量
端埋点数据可视化:端有 SDK,可 debug。
端上报:Andriod 和 IOS 的长链接。
打点配置、日志采集有数据中心来控制。
数仓数据质量
枚举值数据分布可以通过个性化策略进行预测,对比预测值进行报警。
报警可做阻塞式和非阻塞式,阻塞式影响下游任务运行。
美团数据治理文章
https://tech.meituan.com/2022/05/12/business-data-governance.html
https://tech.meituan.com/2020/03/12/delivery-data-governance.html
版权声明: 本文为 InfoQ 作者【老猎人】的原创文章。
原文链接:【http://xie.infoq.cn/article/a887f139f0eecbf235f0d96f3】。未经作者许可,禁止转载。
评论