第十二周总结
本周主要讲大数据相关知识。从大数据的发展和应用说明其重要性和广泛性。
首先是大数据的存储 HDFS。从整体架构讲解各个组件的功能和运行逻辑,以及设计目标和不适合的场景,最重要的可能是 HDFS 高可用的设计。
有了海量的数据,使用 MapReduce 来处理。通过一个 WordCount 例子来讲解了具体的处理过程,最重要的搞清楚 map、reduce 的输入输出。最后通过 MapReduce 架构看整体设计和实现,涉及到JobTracker、TaskTracker两个重要的组件。这里提到一个重要的理念是“计算下推”,在很多 OLAP 中采用这种方式。
由于服务器集群资源管理和 MapReduce 执行过程耦合在一起,所以出现了 Yarn 将资源管理分离,出现资源管理器和节点管理器。
由于 MapReduce 操作的复杂性和高门槛,所以出现了大数据仓库 Hive。可以通过 SQL 直接构建出 MepReduce。
评论