写点什么

架构师训练营 第 12 周 总结

用户头像
Kun
关注
发布于: 2020 年 09 月 02 日

内容主要有:

大数据概述

HDFS

MapReduce

Yarn

Hive



大数据概述主要讲了大数据发展的历史和应用场景。大数据是在 Google 业务发展到一定阶段自然产生的技术。



HDFS,分布式文件系统,基本上是大数据领域的基石。很多技术的底层,需要的存储实现都是 HDFS。HDFS 是用来解决海量数据下,单个文件太大,无法使用单机存储的情况,同时考虑了高可用的情况,当某台机器或磁盘损坏时,不会影响数据的完整性。



MapReduce,是用来解决在大数据上执行计算的问题,map 函数用来将单个 job 分解成多个 task,这样将task分配到任意多台机器上进行计算,通过并行来缩短计算时间。reduce 函数则是将多个task执行完的结果进行汇总,完成 job。



最开始的 MapReduce 不仅仅是一个计算框架,还是一个资源调度框架,随着技术和业务的发展,出现了更多的计算框架,如 Spark。 他们也需要一个资源调度框架来分配资源用于执行计算任务。所以将资源调度部分从 MapReduce 中抽取出来也成为必然,抽取出来的部分也就是 Yarn。 Yarn 就是单独的资源调度框架,可以为多种计算引擎分配资源。



大数据中很大一部分,还是要进行数据的汇总统计等,只不过数据量太大,无法使用传统的数据库存储,但是分析人员还是之前熟悉 SQL 的同一批人。针对这种通用需求,出现了 Hive。Hive 可以让业务人员编写类似 SQL 的语句,通过后台自动生成 MapReduce 任务,对海量数据进行分析,汇总,统计等。降低了大数据的使用门槛。



发布于: 2020 年 09 月 02 日阅读数: 39
用户头像

Kun

关注

Life is short. 2018.01.13 加入

Software Developer

评论

发布
暂无评论
架构师训练营 第 12 周 总结