第十二周总结

用户头像
fmouse
关注
发布于: 2020 年 12 月 13 日

本周主要讲大数据相关知识。从大数据的发展和应用说明其重要性和广泛性。



首先是大数据的存储 HDFS。从整体架构讲解各个组件的功能和运行逻辑,以及设计目标和不适合的场景,最重要的可能是 HDFS 高可用的设计。



有了海量的数据,使用 MapReduce 来处理。通过一个 WordCount 例子来讲解了具体的处理过程,最重要的搞清楚 map、reduce 的输入输出。最后通过 MapReduce 架构看整体设计和实现,涉及到JobTracker、TaskTracker两个重要的组件。这里提到一个重要的理念是“计算下推”,在很多 OLAP 中采用这种方式。



由于服务器集群资源管理和 MapReduce 执行过程耦合在一起,所以出现了 Yarn 将资源管理分离,出现资源管理器和节点管理器。



由于 MapReduce 操作的复杂性和高门槛,所以出现了大数据仓库 Hive。可以通过 SQL 直接构建出 MepReduce。



用户头像

fmouse

关注

还未添加个人签名 2018.08.07 加入

还未添加个人简介

评论

发布
暂无评论
第十二周总结