写点什么

Week12

用户头像
SuperLab
关注
发布于: 2020 年 09 月 24 日

本周学习要点

  • 大数据简介

  • 大数据框架的基本原理

  • HDFS

  • MapReduce

  • Yarn

  • Hive

大数据简介

解决海量数据的存储、访问、计算问题,

应用领域

各行各业:医疗、教育、金融、零售、汽车等



大数据框架的基本原理

HDFS

解决海量数据的存储与访问问题。

前面的课程有介绍过,这里再记录个架构图,方便复习。总之也是个分布式的存储系统。



MapReduce

  • 解决大规模数据的计算问题。通过整合多机的计算能力,并行处理,突破传统单机计算的效率瓶颈。

  • 关键在于拆分计算任务,分而治之的思想。

  • 大数据的基础,理解了它的要点,其它大数据框架也比较容易上手。



下图展示了MapReduce与HDFS结合,从中读取数据,map函数模块处理分类,之后通过sort/merge,得到reduce的输入,这时已经是按某个key整合的数据,reduce再通过key计算相应的value统计,得到output。





下图是MapReduce框架的架构要点:



Yarn

下一代的MapReduce框架,解决多个大数据框架的计算任务资源共享问题。

  • 资源管理器负责集群整体资源的调度;

  • 节点管理器负责机器节点的管理该机器节点的资源;

  • 资源分析的单位是容器,每个容器具有一定的计算能力和内存;

  • 容器由节点管理器启动和管理,节点管理器汇报容器状态到资源管理器;

  • 应用程序跑在ApplicationMaster里,ApplicationMaster需要向资源管理器申请容器,得到容器后才能进行分布式计算。



Hive

将sql语句转为MapReduce,进行大数据的计算。

  • 操作符是Hive的最小处理单元

  • 每个操作符表示MR作业或HDFS操作

  • Compiler将SQL进行语法树分析,得到一组操作符





用户头像

SuperLab

关注

还未添加个人签名 2020.04.01 加入

还未添加个人简介

评论

发布
暂无评论
Week12