写点什么

架构师第十二周学习总结

用户头像
傻傻的帅
关注
发布于: 2020 年 08 月 30 日

本周学习了大数据相关知识,对hdfs存储系统,mapreduce编程框架,yarn资源调度等进行了讲解。

一说起大数据就不得不提google,大数据技术能有今天的成就,一切都源于google的三篇论文。

既然技术源头在google,那么google采用这些技术要解决什么问题呢?众所周之,google是一个搜索公司,它的主要工作就是收集全世界的所有网页内容,然后分类排序,供用户检索使用。这里成就包含了两大难题:全世界的网页词条,单个看起来非常小,但一滴水最终汇集起来就是汪洋大海,那量级是现存世界上任何一台存储服务器都无法存储的(存储难题);既使有那么一台参存储所有内容,但接下来的难题就是如何计算?我们知道搜索引擎采用的是倒排索引,做倒排索引是需要大量的计算的。如此巨量的数据,如何计算?这将是一个世界性的难题。

但是google很巧妙的解决了这个问题,从raid技术受到启发,从垂直扩展变为水平扩展,采用分布式文件系统来解决存储的问题。raid的垂直扩展终有尽头,但水平扩展理念是无上限的。这就是google的DFS文件系统,也就是hadoop界的hdfs文件系统。

存储的问题解决了,那计算文件如何解决呢?人类对复杂问题的理解,都是将其不断拆分直至最小可理解的模块来解决,这就是分治的思想,那计算可不可以也采用此种方法,单台计算机无法完成的任务,我们能不能分到多台服务器上去完成呢?当然,按照“移动计算比移动数据更划算”的思想,将计算逻辑程序分发到不同的服务器上,然后就近使用本服务器上存储的数据,拿来计算,然后再将结果合并在一起输出,这样就解决了这个问题,这就是mapreduce编辑框架所要完成的工作。

yarn是一个资源调度框架,是后面hadoop2.0以后的版本才分离出来的,一是用于集中资源的管理与调度,二是与mapreduce框架分离开来,解藕,可以用于其他像spark的的资源调度,达到功能复用的目的。

至此,hadoop的核心三件套就全部登场了。HDFS在现在来看的话,不是一个最优的解决方案,但经过数10年的发展,所有的数据都是存储在hdfs上面的,现在即使出现一个类hdfs的文件系统来,那替换成本也是非常高的。因此,后面出现的大数据技术,像hive,spark,flink之类的产品,都是围绕hdfs文件系统来的,底层也都是面对的mapreduce编辑框架,只不过这些产品对MR进行了进一步的封装和的抽象,以更友好的操作面向用户。供用户使用,同时也细分出了不同的应用场景。

发布于: 2020 年 08 月 30 日阅读数: 43
用户头像

傻傻的帅

关注

走自已的路,让别人无路可走 2019.09.18 加入

还未添加个人简介

评论

发布
暂无评论
架构师第十二周学习总结