写点什么

什么是数据集市

发布于: 4 小时前

什么是数据集市

数据集市是数据仓库的一种简单形式,一个数据集市面向单一的主题域,例如:销售、财务、市场等。数据集市的数据源可以是操作型系统,也可以是数据仓库。根据数据源的不同,又可以分为独立型数据集市和依赖型(从属型)数据集市。一般我们所说的数据集市,都是基于数据仓库的,也就是依赖型的数据集市。


数据集市和数据仓库的区别是什么呢?

与数据集市不同,数据仓库包含多个主题域,一个企业一般会有一个数据仓库,所以也叫做数据中心。企业级数据仓库需要集成很多操作型系统中的数据,在数据仓库中做清洗加工,之后提供给数据集市,供业务分析决策。由此看出,数据集市的复杂度和需要处理的数据都小于数据仓库,所以更容易建立和维护。


数据集市的建设原理

数据集市主要用于部门级别的分析型应用,数据大都是经过了汇总和聚合操作,粒度级别较高。数据集市一般采用维度模型设计方法,数据结构使用星型模式或雪花模式。设计维度模型先要确定维度表、事实表和数据粒度级别,下一步是使用主外键定义事实表和维度表之间的关系。数据集市中的主键最好使用系统生成的自增的单列数字型代理键。模型建立好之后,设计 ETL 步骤抽取操作型源系统的数据,经过数据清洗和转换,最终装载进数据集市中的维度表和事实表中。


目前企业的数据架构一般采用的都是数据仓库+数据集市(DW+DM)的架构来处理,由 DW 做数据的清洗加工标准化工作,数据集市主要负责多维分析,固定报表等数据服务。

发布于: 4 小时前阅读数: 7
用户头像

还未添加个人签名 2018.11.20 加入

还未添加个人简介

评论

发布
暂无评论
什么是数据集市