写点什么

数据治理与 OneData 体系

用户头像
KAMI
关注
发布于: 2020 年 05 月 17 日



数据治理问题

  1. 难以跟踪管理:数据环节、平台、人员多,不知道有什么数据可用,不知道已经部署什么作业,问题难以及时发现,故障定位和恢复

  2. 数据孤岛:各产品、业务的数据相互隔离,难以通过共性ID打通

  3. 重复建设:重复的开发、计算、存储,带来高昂的数据成本

  4. 数据歧义:指标定义口径不一致,造成计算偏差,应用困难

OneData 体系

OneData 是阿里巴巴多年大数据开发和治理实践中沉淀总结的方法论,包含 OneModel, OneService, OneID 三个概念。

 

OneModel 统一数据构建和管理

将指标定义细化为:原子指标、时间周期、修饰词(统计粒度、业务限定, etc),通过这些定义,设计出各类派生指标; 基于数据分层,设计出维度表、明细事实表、汇总事实表。

OneService 统一数据服务

基于复用而不是复制数据的思想,能力包括:

  • 利用主题逻辑表屏蔽复杂物理表的主题式数据服务

  • 一般查询+ OLAP 分析+在线服务的统一且多样化数据服务

  • 屏蔽多种异构数据源的跨源数据服务

OneID 统一数据萃取

基于统一的实体识别、连接和标签生产,实现数据通融,包括:

  • ID自动化识别与连接

  • 行为元素和行为规则

  • 用户画像和标签生产



发布于: 2020 年 05 月 17 日阅读数: 334
用户头像

KAMI

关注

这个世界复杂又有趣,和你分享我热爱的一切 2020.05.03 加入

数据挖掘研究员,专注分享数据领域的技术和业务,以及逻辑、思维和方法论 | 网易游戏内推长期有效,欢迎私戳 (微信 KAMI-Wei)

评论

发布
暂无评论
数据治理与OneData 体系