数据仓库和数据湖比较
数据仓库与数据湖
仓库中的数据是:结构化的,已处理的
仓库的处理是:模式在写
仓库中的存储是:大数据量昂贵
仓库中的敏捷性是:敏捷性较低,固定配置
仓库的安全是:成熟
仓库的用户是:商业专业人士
湖泊中的数据是:结构化/半结构化/非结构化/原始的
处理湖是:图解在读
在湖中储存是:低成本设计
在湖中敏捷:高度敏捷,根据需要进行配置和重新配置
湖中的安全是:成熟
数据科学家 et.al.
克里斯坎贝尔看到这两个关键的区别:
数据仓库:
它代表了由主题领域组织的业务的抽象图片。
这是高度转变和结构。
在定义使用数据之前,数据不会被加载到数据仓库中。
它通常遵循既定的方法
数据湖:
所有数据都从源系统加载。没有数据被拒绝。
数据以未转换或几乎未转换的状态存储在叶级。
数据被转换,模式被应用来满足分析的需要。
它支持所有用户。
它很容易适应变化,并提供更快的见解。
尽管每个人都有其支持者和批评者,但似乎两者都有余地,“数据湖不是数据仓库”。他们都是为了不同的目的而优化的,目标是用每个人的设计来做。“Tamara Dull 说。换句话说,使用最好的工具来完成这项工作。这不是一个新的教训。我们以前学过这个。
“如果你把数据集市视为瓶装水的存储 - 清洁和打包,并容易消费的结构 - 数据湖是一个更自然状态的大量水体。数据湖的内容从一个源头填补湖泊,湖泊的各种用户可以来检查,潜水或采样。
评论