架构师训练营 -week12- 总结

用户头像
大刘
关注
发布于: 2020 年 12 月 13 日
架构师训练营 -week12-总结
本周重点学习了以下几个方面的内容:
  1. 大数据基础知识介绍

  2. 大数据生态圈及主要组件介绍(HDFS、MapReduce、Yarn、Hive)

  3. MapReduce入门学习


大数据技术发展史

今天我们常说的大数据技术,其实起源于Google 在2004 年前后发表的三篇论文,也就是我们经常听到的大数据“三驾马车”,分别是分布式文件系统GFS、大数据分布式计算框架MapReduce 和NoSQL 数据库系统

总体结构图如下:



主要组件

HDFS



HDFS 如何写文件



HDFS 如何读文件



大数据应用领域

  • 医学影像智能识别

  • 病历大数据智能诊疗

  • AI 外语老师

  • 智能解题

  • 舆情监控与分析

  • 大数据风控

  • 新零售

  • 无人驾驶



MapReduce
  • 解决大规模数据的计算问题。通过整合多机的计算能力,并行处理,突破传统单机计算的效率瓶颈。

  • 关键在于拆分计算任务,分而治之的思想。

  • 移动计算比移动数据更划算

  • 分而治之(Divide and Conquer)



MapReduce与HDFS结合,从中读取数据,map函数模块处理分类,之后通过sort/merge,得到reduce的输入,这时已经是按某个key整合的数据,reduce再通过key计算相应的value统计,得到output。





MapReduce框架的架构要点:



Yarn

下一代的MapReduce框架,解决多个大数据框架的计算任务资源共享问题。

  • 资源管理器负责集群整体资源的调度;

  • 节点管理器负责机器节点的管理该机器节点的资源;

  • 资源分析的单位是容器,每个容器具有一定的计算能力和内存;

  • 容器由节点管理器启动和管理,节点管理器汇报容器状态到资源管理器;

  • 应用程序跑在ApplicationMaster里,ApplicationMaster需要向资源管理器申请容器,得到容器后才能进行分布式计算。



Hive

将sql语句转为MapReduce,进行大数据的计算。

  • 操作符是Hive的最小处理单元

  • 每个操作符表示MR作业或HDFS操作

  • Compiler将SQL进行语法树分析,得到一组操作符



Hive和Hadoop关系:



用户头像

大刘

关注

大道至简,知易行难 2017.12.27 加入

想成为合格架构师的架构师

评论

发布
暂无评论
架构师训练营 -week12-总结