写点什么

数据仓库和数据湖比较

发布于: 2 小时前

数据仓库与数据湖

仓库中的数据是:结构化的,已处理的

仓库的处理是:模式在写

仓库中的存储是:大数据量昂贵

仓库中的敏捷性是:敏捷性较低,固定配置

仓库的安全是:成熟

仓库的用户是:商业专业人士

湖泊中的数据是:结构化/半结构化/非结构化/原始的

处理湖是:图解在读

在湖中储存是:低成本设计

在湖中敏捷:高度敏捷,根据需要进行配置和重新配置

湖中的安全是:成熟

数据科学家 et.al.

克里斯坎贝尔看到这两个关键的区别:

数据仓库:

它代表了由主题领域组织的业务的抽象图片。

这是高度转变和结构。

在定义使用数据之前,数据不会被加载到数据仓库中。

它通常遵循既定的方法

 

数据湖:

所有数据都从源系统加载。没有数据被拒绝。

数据以未转换或几乎未转换的状态存储在叶级。

数据被转换,模式被应用来满足分析的需要。

它支持所有用户。

它很容易适应变化,并提供更快的见解。

尽管每个人都有其支持者和批评者,但似乎两者都有余地,“数据湖不是数据仓库”。他们都是为了不同的目的而优化的,目标是用每个人的设计来做。“Tamara Dull 说。换句话说,使用最好的工具来完成这项工作。这不是一个新的教训。我们以前学过这个。

“如果你把数据集市视为瓶装水的存储 - 清洁和打包,并容易消费的结构 - 数据湖是一个更自然状态的大量水体。数据湖的内容从一个源头填补湖泊,湖泊的各种用户可以来检查,潜水或采样。


用户头像

还未添加个人签名 2018.11.20 加入

还未添加个人简介

评论

发布
暂无评论
数据仓库和数据湖比较