写点什么

Hadoop 简介

用户头像
yuanhang
关注
发布于: 2020 年 09 月 10 日

大数据起源之 Hadoop

1.了解 Hadoop 的前世今生

了解其有什么功能,它能做什么

2.掌握 Hadoop 集群的安装部署

伪分布式集群的安装部署、分布式集群的安装部署

3.掌握 Hadoop 中 HDFS 的使用

涉及到 HDFS 一些底层原理性的知识



什么是 Hadoop

1.我们生活在一个数据大爆炸的时代,数据飞快的增长,急需解决海量数据的存储和计算问题

2.Hadoop 适合海量数据 分布式存储 分布式计算

分布式存储:简单理解为存储数据时数据不只存储在一台机器上

分布式计算:很多台机器并行去处理

3.作者孩子对玩具的命名成为了 Hadoop 这个框架的名字



Hadoop 发行版

Apache Hadoop:官方版本,开源

没有技术支持,遇到问题自己解决,可以通过社区,但回复慢,同时也不保证能解决问题

搭建集群时需要修改很多配置文件,运维压力较大

Cloudera Hadoop(CDH):商业版本

对官方版本做了一些优化,提供收费技术支持,提供界面操作,方面集群运维管理.。是收费版本,如果不想付费也能凑合着使用

HortonWorks(HDP):开源,提供界面操作,方便运维管理

一般互联网公司偏向于使用这个

注意:目前 HDP 已经被 CDH 收购,都属于一个公司的产品

建议在实际工作中搭建大数据平台时选择 CDH 或者 HDP,方便运维管理



Hadoop 版本演变历史

Hadoop1.x --> Hadoop2.x --> Hadoop3x

Hadoop1.x:HDFS、MapReduce

解决了分布式存储和分布式计算,MapReduce 负责资源管理

Hadoop2.x:HDFS、YARN、MapReduce、Others

Yarn 是一个公共的资源管理平台

Hadoop3.x:HDFS、YARN、MapReduce、Others

没有大变化,但是还是做了很多细节优化

1.Java 改为支持 8 及以上

2.HDFS 支持纠删码

比副本存储更节省空间的数据持久化存储方案

相同容错情况下,可以比之前的副本机制节省一半左右的内存空间

3.HDFS 支持多 NameNode

4.MR 任务级本地优化

添加了映射输出收集器的本地化实现的支持,对于密集型的 Shuffle 操作,它可以带来 30% 的性能提升

5.多重服务默认端口变更



Hadoop 三大核心组件

HDFS + MapReduce + YARN

HDFS:负责海量数据的分布式存储

MapReduce:是一个计算模型,负责海量数据的分布式计算

YARN:主要负责集群资源的管理和调度

发布于: 2020 年 09 月 10 日阅读数: 80
用户头像

yuanhang

关注

坚定而执着的向生活索取宽广而伟大的梦想 2018.09.18 加入

一直在努力的路上的全栈工程师

评论

发布
暂无评论
Hadoop 简介