数据治理与 OneData 体系
数据治理问题
难以跟踪管理:数据环节、平台、人员多,不知道有什么数据可用,不知道已经部署什么作业,问题难以及时发现,故障定位和恢复
数据孤岛:各产品、业务的数据相互隔离,难以通过共性ID打通
重复建设:重复的开发、计算、存储,带来高昂的数据成本
数据歧义:指标定义口径不一致,造成计算偏差,应用困难
OneData 体系
OneData 是阿里巴巴多年大数据开发和治理实践中沉淀总结的方法论,包含 OneModel, OneService, OneID 三个概念。
OneModel 统一数据构建和管理
将指标定义细化为:原子指标、时间周期、修饰词(统计粒度、业务限定, etc),通过这些定义,设计出各类派生指标; 基于数据分层,设计出维度表、明细事实表、汇总事实表。
OneService 统一数据服务
基于复用而不是复制数据的思想,能力包括:
利用主题逻辑表屏蔽复杂物理表的主题式数据服务
一般查询+ OLAP 分析+在线服务的统一且多样化数据服务
屏蔽多种异构数据源的跨源数据服务
OneID 统一数据萃取
基于统一的实体识别、连接和标签生产,实现数据通融,包括:
ID自动化识别与连接
行为元素和行为规则
用户画像和标签生产
版权声明: 本文为 InfoQ 作者【KAMI】的原创文章。
原文链接:【http://xie.infoq.cn/article/d3503e8bdde7f29c50e811505】。文章转载请联系作者。
评论