Hadoop 与数据湖是什么关系?终于有人说明白了!
从 Hadoop 到数据湖,再到湖仓一体,很多概念我们都是模糊的,但是并不妨碍跟风炒作。
不知道什么时候开始,很多企业的 PPT 里开始把大数据平台改称了数据湖,也许数据湖这个名字比较通俗易懂吧,老板们也喜欢用。
国外习惯把 Hadoop 叫做数据湖,而国内一般叫做大数据平台,虽然名字不一样,但其实说得是同一回事。
真的是一回事吗?虽然 Hadoop 从技术角度来讲可以叫作数据湖,但从业务角度讲,只是披着数据湖外衣的更大型的数据仓库而已。
下面这张表里提到的数据湖相对数据仓库的 11 个方面的不同,我们自己想想 Hadoop 与数据湖是不是同一个物种。
大多企业没有像谷歌、互联网大厂一样发挥过 Hadoop 蕴含的数据湖的那些独特价值,比如将非结构化数据,结构化数据,半结构化数据全部扔到 HDFS 上统一管理,然后数据科学家能够所见即所得的进行分析使用。
事实上,大多企业只是把 Hadoop 的 hive 当成了一个能处理海量数据的廉价数据仓库,用以替代跑不动还贵得要死的 MPP,但我们还在用 MPP 时代使用数据仓库的方式使用着数据湖,好比虽然买了一辆具备自动驾驶的汽车但从来没有使用过自动驾驶功能一样。
评论