Hadoop 简介
大数据起源之 Hadoop
1.了解 Hadoop 的前世今生
了解其有什么功能,它能做什么
2.掌握 Hadoop 集群的安装部署
伪分布式集群的安装部署、分布式集群的安装部署
3.掌握 Hadoop 中 HDFS 的使用
涉及到 HDFS 一些底层原理性的知识
什么是 Hadoop
1.我们生活在一个数据大爆炸的时代,数据飞快的增长,急需解决海量数据的存储和计算问题
2.Hadoop 适合海量数据 分布式存储 和 分布式计算
分布式存储:简单理解为存储数据时数据不只存储在一台机器上
分布式计算:很多台机器并行去处理
3.作者孩子对玩具的命名成为了 Hadoop 这个框架的名字
Hadoop 发行版
Apache Hadoop:官方版本,开源
没有技术支持,遇到问题自己解决,可以通过社区,但回复慢,同时也不保证能解决问题
搭建集群时需要修改很多配置文件,运维压力较大
Cloudera Hadoop(CDH):商业版本
对官方版本做了一些优化,提供收费技术支持,提供界面操作,方面集群运维管理.。是收费版本,如果不想付费也能凑合着使用
HortonWorks(HDP):开源,提供界面操作,方便运维管理
一般互联网公司偏向于使用这个
注意:目前 HDP 已经被 CDH 收购,都属于一个公司的产品
建议在实际工作中搭建大数据平台时选择 CDH 或者 HDP,方便运维管理
Hadoop 版本演变历史
Hadoop1.x --> Hadoop2.x --> Hadoop3x
Hadoop1.x:HDFS、MapReduce
解决了分布式存储和分布式计算,MapReduce 负责资源管理
Hadoop2.x:HDFS、YARN、MapReduce、Others
Yarn 是一个公共的资源管理平台
Hadoop3.x:HDFS、YARN、MapReduce、Others
没有大变化,但是还是做了很多细节优化
1.Java 改为支持 8 及以上
2.HDFS 支持纠删码
比副本存储更节省空间的数据持久化存储方案
相同容错情况下,可以比之前的副本机制节省一半左右的内存空间
3.HDFS 支持多 NameNode
4.MR 任务级本地优化
添加了映射输出收集器的本地化实现的支持,对于密集型的 Shuffle 操作,它可以带来 30% 的性能提升
5.多重服务默认端口变更
Hadoop 三大核心组件
HDFS + MapReduce + YARN
HDFS:负责海量数据的分布式存储
MapReduce:是一个计算模型,负责海量数据的分布式计算
YARN:主要负责集群资源的管理和调度
版权声明: 本文为 InfoQ 作者【yuanhang】的原创文章。
原文链接:【http://xie.infoq.cn/article/8a0738fc107b9362ef2b70790】。未经作者许可,禁止转载。
评论