架构师训练营 -week12- 总结
本周重点学习了以下几个方面的内容:
大数据基础知识介绍
大数据生态圈及主要组件介绍(HDFS、MapReduce、Yarn、Hive)
MapReduce入门学习
大数据技术发展史
今天我们常说的大数据技术,其实起源于Google 在2004 年前后发表的三篇论文,也就是我们经常听到的大数据“三驾马车”,分别是分布式文件系统GFS、大数据分布式计算框架MapReduce 和NoSQL 数据库系统
总体结构图如下:
主要组件
HDFS
HDFS 如何写文件
HDFS 如何读文件
大数据应用领域
医学影像智能识别
病历大数据智能诊疗
AI 外语老师
智能解题
舆情监控与分析
大数据风控
新零售
无人驾驶
MapReduce
解决大规模数据的计算问题。通过整合多机的计算能力,并行处理,突破传统单机计算的效率瓶颈。
关键在于拆分计算任务,分而治之的思想。
移动计算比移动数据更划算
分而治之(Divide and Conquer)
MapReduce与HDFS结合,从中读取数据,map函数模块处理分类,之后通过sort/merge,得到reduce的输入,这时已经是按某个key整合的数据,reduce再通过key计算相应的value统计,得到output。
MapReduce框架的架构要点:
Yarn
下一代的MapReduce框架,解决多个大数据框架的计算任务资源共享问题。
资源管理器负责集群整体资源的调度;
节点管理器负责机器节点的管理该机器节点的资源;
资源分析的单位是容器,每个容器具有一定的计算能力和内存;
容器由节点管理器启动和管理,节点管理器汇报容器状态到资源管理器;
应用程序跑在ApplicationMaster里,ApplicationMaster需要向资源管理器申请容器,得到容器后才能进行分布式计算。
Hive
将sql语句转为MapReduce,进行大数据的计算。
操作符是Hive的最小处理单元
每个操作符表示MR作业或HDFS操作
Compiler将SQL进行语法树分析,得到一组操作符
Hive和Hadoop关系:
评论