架构师训练营十二周总结
本周讲解的内容主要有:
大数据概述
HDFS
MapReduce
Yarn
Hive
大数据概述主要讲了大数据发展的历史和应用场景,我个人对于技术发展的历史的是比较感兴趣的,只有代入当时的历史和要解决的问题,才能更好的了解技术产生的原因。
HDFS,分布式文件系统,基本上是大数据领域的基石。很多技术的底层,需要的存储实现都是HDFS。HDFS是用来解决海量数据下,单个文件太大,无法使用单机存储的情况,同时考虑了高可用的情况,当某台机器或磁盘损坏时,不会影响数据的完整性。
MapReduce,是用来解决在大数据上执行计算的问题,map函数用来将单个job分解成多个task,这样将task分配到任意多台机器上进行计算,通过并行来缩短计算时间。reduce函数则是将多个task执行完的结果进行汇总,完成job。
只不过最开始的MapReduce不仅仅是一个计算框架,还是一个资源调度框架,随着技术和业务的发展,出现了更多的计算框架,如spark等,他们也需要一个资源调度框架来分配资源用于执行计算任务。所以将资源调度部分从MapReduce中抽取出来也成为必然,抽取出来的部分也就是Yarn。 Yarn就是单独的资源调度框架,可以为多种计算引擎分配资源。
大数据中很大一部分,还是要进行数据的汇总统计等,只不过数据量太大,无法使用传统的数据库存储,但是分析人员还是之前熟悉SQL的同一批人。针对这种通用需求,出现了Hive。Hive可以让业务人员编写类似SQL的语句,通过后台自动生成MapReduce任务,对海量数据进行分析,汇总,统计等。降低了大数据的使用门槛。
版权声明: 本文为 InfoQ 作者【sunnywhy】的原创文章。
原文链接:【http://xie.infoq.cn/article/cee284c6fca3d18fb8028848b】。
本文遵守【CC-BY 4.0】协议,转载请保留原文出处及本版权声明。
评论