写点什么

架构师训练营十二周总结

用户头像
sunnywhy
关注
发布于: 2020 年 09 月 02 日

本周讲解的内容主要有:

大数据概述

HDFS

MapReduce

Yarn

Hive



大数据概述主要讲了大数据发展的历史和应用场景,我个人对于技术发展的历史的是比较感兴趣的,只有代入当时的历史和要解决的问题,才能更好的了解技术产生的原因。



HDFS,分布式文件系统,基本上是大数据领域的基石。很多技术的底层,需要的存储实现都是HDFS。HDFS是用来解决海量数据下,单个文件太大,无法使用单机存储的情况,同时考虑了高可用的情况,当某台机器或磁盘损坏时,不会影响数据的完整性。



MapReduce,是用来解决在大数据上执行计算的问题,map函数用来将单个job分解成多个task,这样将task分配到任意多台机器上进行计算,通过并行来缩短计算时间。reduce函数则是将多个task执行完的结果进行汇总,完成job。



只不过最开始的MapReduce不仅仅是一个计算框架,还是一个资源调度框架,随着技术和业务的发展,出现了更多的计算框架,如spark等,他们也需要一个资源调度框架来分配资源用于执行计算任务。所以将资源调度部分从MapReduce中抽取出来也成为必然,抽取出来的部分也就是Yarn。 Yarn就是单独的资源调度框架,可以为多种计算引擎分配资源。



大数据中很大一部分,还是要进行数据的汇总统计等,只不过数据量太大,无法使用传统的数据库存储,但是分析人员还是之前熟悉SQL的同一批人。针对这种通用需求,出现了Hive。Hive可以让业务人员编写类似SQL的语句,通过后台自动生成MapReduce任务,对海量数据进行分析,汇总,统计等。降低了大数据的使用门槛。

发布于: 2020 年 09 月 02 日阅读数: 43
用户头像

sunnywhy

关注

还未添加个人签名 2019.04.25 加入

还未添加个人简介

评论

发布
暂无评论
架构师训练营十二周总结