架构师训练营第 12 周总结

关注

发布于: 2020 年 09 月 02 日

内容主要有：
大数据概述
HDFS
MapReduce
Yarn
Hive
﻿
大数据概述主要讲了大数据发展的历史和应用场景。大数据是在 Google 业务发展到一定阶段自然产生的技术。
﻿
HDFS，分布式文件系统，基本上是大数据领域的基石。很多技术的底层，需要的存储实现都是 HDFS。HDFS 是用来解决海量数据下，单个文件太大，无法使用单机存储的情况，同时考虑了高可用的情况，当某台机器或磁盘损坏时，不会影响数据的完整性。
﻿
MapReduce，是用来解决在大数据上执行计算的问题，map 函数用来将单个 job 分解成多个 task，这样将task分配到任意多台机器上进行计算，通过并行来缩短计算时间。reduce 函数则是将多个task执行完的结果进行汇总，完成 job。
﻿
最开始的 MapReduce 不仅仅是一个计算框架，还是一个资源调度框架，随着技术和业务的发展，出现了更多的计算框架，如 Spark。 他们也需要一个资源调度框架来分配资源用于执行计算任务。所以将资源调度部分从 MapReduce 中抽取出来也成为必然，抽取出来的部分也就是 Yarn。 Yarn 就是单独的资源调度框架，可以为多种计算引擎分配资源。
﻿
大数据中很大一部分，还是要进行数据的汇总统计等，只不过数据量太大，无法使用传统的数据库存储，但是分析人员还是之前熟悉 SQL 的同一批人。针对这种通用需求，出现了 Hive。Hive 可以让业务人员编写类似 SQL 的语句，通过后台自动生成 MapReduce 任务，对海量数据进行分析，汇总，统计等。降低了大数据的使用门槛。
﻿

发布于: 2020 年 09 月 02 日阅读数: 39

原文链接:【http://xie.infoq.cn/article/556c71b314f8b164855658e20】。未经作者许可，禁止转载。

Kun

关注

Life is short. 2018.01.13 加入

Software Developer

发布

暂无评论

创作场景

架构师训练营 第 12 周 总结

Kun

评论

架构师训练营第 12 周总结