写点什么

数据中台发展史

用户头像
escray
关注
发布于: 3 小时前
数据中台发展史

极客时间《数据中台实战课》学习笔记 02

01 | 前因后果:为什么说数据中台是大数据的下一站?


数字化转型必须搭建数据中台么?


这篇专栏文章对于数据仓库、数据湖、大数据平台和数据中台的发展历史讲的非常清楚,我有一点疑惑的地方在于,如果在早期数据仓库和数据湖阶段并没有做好,那么直接做数据中台,会遇到不可跨越的障碍么?


数据仓库是在企业管理和决策中面向主题的、集成的、与时间相关的,不可修改的数据集合。


以前没有注意到数据仓库两种不同的建模方法,以前接触比较多的是恩门的自顶向下的方式,基于业务中各个实体以及实体之间的关系建模;而金博尔 Kimball 的自底向上的模型设计方法,一开始看的时候,感觉比较违反直觉,但是仔细考虑一下,数据的耦合性更好,更适合大量数据的分析,也就能理解为什么说是“从数据分析的需求出发,拆分维度和事实”。


互联网应用的数据规模扩大和数据类型异构,催生了以谷歌的三篇论文和 Hadoop 为代表的的大数据技术。


数据湖(Data Lake)是一个以原始格式存储数据的存储库或系统。


数据湖的概念之前其实接触的不多。


接下来就是以大数据平台为代表的的数据工厂了。


数据集成、数据开发、数据测试、数据发布、任务运维


大数据平台像一条设备流水线,经过大数据平台的加工,原始数据变成了指标,出现在各个报表或者数据产品中。


有一点疑问,数据中台不也是数据工厂么?


为了解决数据割裂的问题,避免数据的重复计算,阿里提出数据中台,通过数据服务化,提高数据的共享能力,赋能数据应用。


数据中台一定要构建在数据湖之上


  1. 数据中台构建于数据湖之上,具备数据湖异构数据统一计算、存储的能力,同时让数据湖中杂乱的数据通过规范化的方式管理起来。

  2. 数据中台需要依赖大数据平台,大数据平台完成了数据研发的全流程覆盖,数据中台增加了数据治理和数据服务化的内容。

  3. 数据中台借鉴了传统数据仓库面向主题域的数据组织模式,基于维度建模的理论,构建统一的数据公共层。


总的来说,数据中台吸收了传统数据仓库、数据湖、大数据平台的优势,同时又解决了数据共享的难题,通过数据应用,实现数据价值的落地。


数据中台的下一站,按照我目前在写的文章,当然就是数据中台+知识图谱,“知识中台”?


操作性数据(Operational Data Store) 简称 ODS,作为数据库到数据仓库的一种过渡形式,与数据仓库在物理结构上不同。 ODS 存储的是当前的数据情况,给使用者提供当前的状态,提供即时性的、操作性的、集成的全体信息的需求


DWD:data warehouse details 细节数据层,是业务层与数据仓库的隔离层。主要对 ODS 数据层做一些数据清洗和规范化的操作。数据清洗:去除空值、脏数据、超过极限范围的


DWB:data warehouse base 数据基础层,存储的是客观数据,一般用作中间层,可以认为是大量指标的数据层。


DWS:data warehouse service 数据服务层,基于 DWB 上的基础数据,整合汇总成分析某一个主题域的服务数据层,一般是宽表。用于提供后续的业务查询,OLAP 分析,数据分发等。


ADS:applicationData Service 应用数据服务,该层主要是提供数据产品和数据分析使用的数据,一般会存储在 ES、mysql 等系统中供线上系统使用。


中台思想的核心在于共享、连接和服务

发布于: 3 小时前阅读数: 4
用户头像

escray

关注

Let's Go 2017.11.19 加入

Let's Go,用 100 天的时间从入门到入职

评论

发布
暂无评论
数据中台发展史