Week12
本周学习要点
大数据简介
大数据框架的基本原理
HDFS
MapReduce
Yarn
Hive
大数据简介
解决海量数据的存储、访问、计算问题,
应用领域
各行各业:医疗、教育、金融、零售、汽车等
大数据框架的基本原理
HDFS
解决海量数据的存储与访问问题。
前面的课程有介绍过,这里再记录个架构图,方便复习。总之也是个分布式的存储系统。
MapReduce
解决大规模数据的计算问题。通过整合多机的计算能力,并行处理,突破传统单机计算的效率瓶颈。
关键在于拆分计算任务,分而治之的思想。
大数据的基础,理解了它的要点,其它大数据框架也比较容易上手。
下图展示了MapReduce与HDFS结合,从中读取数据,map函数模块处理分类,之后通过sort/merge,得到reduce的输入,这时已经是按某个key整合的数据,reduce再通过key计算相应的value统计,得到output。
下图是MapReduce框架的架构要点:
Yarn
下一代的MapReduce框架,解决多个大数据框架的计算任务资源共享问题。
资源管理器负责集群整体资源的调度;
节点管理器负责机器节点的管理该机器节点的资源;
资源分析的单位是容器,每个容器具有一定的计算能力和内存;
容器由节点管理器启动和管理,节点管理器汇报容器状态到资源管理器;
应用程序跑在ApplicationMaster里,ApplicationMaster需要向资源管理器申请容器,得到容器后才能进行分布式计算。
Hive
将sql语句转为MapReduce,进行大数据的计算。
操作符是Hive的最小处理单元
每个操作符表示MR作业或HDFS操作
Compiler将SQL进行语法树分析,得到一组操作符
评论