架构师训练营 第 12 周 总结
内容主要有:
大数据概述
HDFS
MapReduce
Yarn
Hive
大数据概述主要讲了大数据发展的历史和应用场景。大数据是在 Google 业务发展到一定阶段自然产生的技术。
HDFS,分布式文件系统,基本上是大数据领域的基石。很多技术的底层,需要的存储实现都是 HDFS。HDFS 是用来解决海量数据下,单个文件太大,无法使用单机存储的情况,同时考虑了高可用的情况,当某台机器或磁盘损坏时,不会影响数据的完整性。
MapReduce,是用来解决在大数据上执行计算的问题,map 函数用来将单个 job 分解成多个 task,这样将task分配到任意多台机器上进行计算,通过并行来缩短计算时间。reduce 函数则是将多个task执行完的结果进行汇总,完成 job。
最开始的 MapReduce 不仅仅是一个计算框架,还是一个资源调度框架,随着技术和业务的发展,出现了更多的计算框架,如 Spark。 他们也需要一个资源调度框架来分配资源用于执行计算任务。所以将资源调度部分从 MapReduce 中抽取出来也成为必然,抽取出来的部分也就是 Yarn。 Yarn 就是单独的资源调度框架,可以为多种计算引擎分配资源。
大数据中很大一部分,还是要进行数据的汇总统计等,只不过数据量太大,无法使用传统的数据库存储,但是分析人员还是之前熟悉 SQL 的同一批人。针对这种通用需求,出现了 Hive。Hive 可以让业务人员编写类似 SQL 的语句,通过后台自动生成 MapReduce 任务,对海量数据进行分析,汇总,统计等。降低了大数据的使用门槛。
版权声明: 本文为 InfoQ 作者【Kun】的原创文章。
原文链接:【http://xie.infoq.cn/article/556c71b314f8b164855658e20】。未经作者许可,禁止转载。
评论