Hadoop 运行模式包括:本地模式、伪分布式模式以及完全分布式模式。我们本次主要完成搭建实际生产环境中比较常用的完全分布式模式,搭建完全分布式模式之前需要对集群部署进行提前规划,不要将过多的服务集中到一台节点上,我们将负责管理工作的 namenode 和 ResourceManager 分别部署在两台节点上,另外一台节点上部署 SecondaryNamenode,所有节点均承担 Datanode 和 Nodemanager 角色,并且 datanode 和 nodemanager 通常存在同一节点上,所有角色尽量做到均衡分配。
集群部署规划如表 1。
对集群角色的分配主要依靠配置文件制定,配置集群文件细节如下。(1)核心配置文件 core-site.xml,该配置文件属于 Hadoop 的全局配置文件,我们主要进行配置分布式文件系统的入口地址 NameNode 的地址和分布式文件系统中数据落地到服务器本地磁盘位置的配置,如下:
[atguigu@hadoop102 hadoop]$ vi core-site.xml
<!-- 指定HDFS中NameNode的地址 -->
<!—其中hdfs为协议名称,hadoop102为namenode的节点主机名称,端口号为9000 -->
<property>
<name>fs.defaultFS</name>
<value>hdfs://hadoop102:9000</value>
</property>
<!-- 指定hadoop运行时产生文件的存储目录,该目录需要单独创建 -->
<property>
<name>hadoop.tmp.dir</name>
<value>/opt/module/hadoop-2.7.2/data/tmp</value>
</property>
复制代码
(2)Hadoop 环境配置文件 hadoop-env.sh,在这个配置文件中我们主要需要制定 jdk 的路径 JAVA_HOME,避免程序运行中出现 JAVA_HOME 找不到的异常。
[atguigu@hadoop102 hadoop]$ vi hadoop-env.sh
export JAVA_HOME=/opt/module/jdk1.8.0_144
复制代码
(3) HDFS 配置文件 hdfs-site.xml,在这个配置文件中主要进行配置 HDFS 文件系统属性配置。
[atguigu@hadoop102 hadoop]$ vi hdfs-site.xml
<!-- 指定hdfs存储内容的副本个数 -->
<!—hadoop通过文件的冗余来确保文件存储的可靠性,由于我们有3个datanode节点,所以我们可以将副本数量设置为3 -->
<property>
<name>dfs.replication</name>
<value>3</value>
</property>
<!-- 指定Hadoop辅助名称节点主机配置 -->
<!—SecondaryNameNode节点主要作为NameNode节点的辅助,端口号为50090 -->
<property>
<name>dfs.namenode.secondary.http-address</name>
<value>hadoop104:50090</value>
</property>
复制代码
(4)YARN 的环境配置文件 yarn-env.sh,同样将 JAVA_HOME 路径配置指明。
[atguigu@hadoop102 hadoop]$ vi yarn-env.sh
export JAVA_HOME=/opt/module/jdk1.8.0_144
复制代码
(5)关于 YARN 的配置文件 yarn-site.xml,其中配置 YARN 的相关参数,主要配置一下两个参数。
[atguigu@hadoop102 hadoop]$ vi yarn-site.xml
<!-- reducer获取数据的方式 -->
<!-- yarn.nodemanager.aux-services是NodeManager上运行的附属服务,其值需要配置成mapreduce_shuffle才可以运行MapReduce程序 -->
<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>
<!-- 指定YARN的ResourceManager的地址 -->
<property>
<name>yarn.resourcemanager.hostname</name>
<value>hadoop103</value>
</property>
复制代码
(6)mapreduce 的环境配置文件 mapred-env.sh,同样将 JAVA_HOME 路径配置指明。
[atguigu@hadoop102 hadoop]$ vi mapred-env.sh
export JAVA_HOME=/opt/module/jdk1.8.0_144
复制代码
(7)关于 MapReduce 的配置文件 mapred-site.xml,主要配置一个参数,指明 MapReduce 的运行框架为 YARN.
[atguigu@hadoop102 hadoop]$ cp mapred-site.xml.template mapred-site.xml
[atguigu@hadoop102 hadoop]$ vi mapred-site.xml
<!—MapReduce计算框架的资源交给YARN来管理 -->
<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>
复制代码
(8) 主节点 NameNode 和 ResourceManager 的角色在配置文件中已经做了配置,从节点的角色还需指定,配置文件 slaves 就是用来配置 Hadoop 集群中各个从节点角色的。如下,对 slaves 文件进行修改,即将 3 台节点全部指定为从节点,可以启动 DataNode 和 NodeManager 进程。
/opt/module/hadoop-2.7.2/etc/hadoop/slaves
[atguigu@hadoop102 hadoop]$ vi slaves
hadoop102
hadoop103
hadoop104
复制代码
(9)在集群上分发配置好的 Hadoop 配置文件,这样 3 台节点即享有相同的 Hadoop 的配置,可准备通过不同的进程启动命令进行启动了。
[atguigu@hadoop102 hadoop]$ xsync /opt/module/hadoop-2.7.2/(10)查看文件分发情况
[atguigu@hadoop103 hadoop]$ cat /opt/module/hadoop-2.7.2/etc/hadoop/core-site.xml 创建数据目录根据 core-site.xml 中配置的分布式文件系统最终落地到各个数据节点上的本地磁盘位置信息/opt/module/hadoop-2.7.2/data/tmp,自行创建该目录。
[atguigu@hadoop102 hadoop-2.7.2]$ mkdir /opt/module/hadoop-2.7.2/data/tmp
[atguigu@hadoop103 hadoop-2.7.2]$ mkdir /opt/module/hadoop-2.7.2/data/tmp
[atguigu@hadoop104 hadoop-2.7.2]$ mkdir /opt/module/hadoop-2.7.2/data/tmp
复制代码
启动 Hadoop 集群(1)如果集群是第一次启动,需要格式化 NameNode[atguigu@hadoop102 hadoop-2.7.2]$ hadoop namenode -format(2)通过 start-dfs.sh 命令在配置了 namenode 的节点启动 HDFS,即可同时启动所有的 datanode 和 SecondaryNameNode 节点。
[atguigu@hadoop102 hadoop-2.7.2]$ sbin/start-dfs.sh
[atguigu@hadoop102 hadoop-2.7.2]$ jps
4166 NameNode
4482 Jps
4263 DataNode
[atguigu@hadoop103 hadoop-2.7.2]$ jps
3218 DataNode
3288 Jps
[atguigu@hadoop104 hadoop-2.7.2]$ jps
3221 DataNode
3283 SecondaryNameNode
3364 Jps
复制代码
(3)通过 start-yarn.sh 命令启动 yarn,大数据培训即可同时启动 ResourceManager 和所有的 Nodemanager 节点。需要注意的是:NameNode 和 ResourceManger 如果不是同一台机器,不能在 NameNode 上启动 yarn,应该在 ResouceManager 所在的机器上启动 yarn。
[atguigu@hadoop103 hadoop-2.7.2]$ sbin/start-yarn.sh 通过 jps 命令可在各个节点上查看进程启动情况,显示如下所示即表示启动成功。
[atguigu@hadoop103 hadoop-2.7.2]$ sbin/start-yarn.sh
[atguigu@hadoop102 hadoop-2.7.2]$ jps
4166 NameNode
4482 Jps
4263 DataNode
4485 NodeManager
[atguigu@hadoop103 hadoop-2.7.2]$ jps
3218 DataNode
3288 Jps
3290 ResourceManager
3299 NodeManager
[atguigu@hadoop104 hadoop-2.7.2]$ jps
3221 DataNode
3283 SecondaryNameNode
3364 Jps
3389 NodeManager
复制代码
Web UI 查看集群是否启动成功
(1) 通过 web 端输入我们之前配置的 NameNode 节点地址和端口号 50070 我们可以查看 HDFS 文件系统,例如:浏览器中输入:http://hadoop102:50070 ,可以检查 NameNode 和 DataNode 是否正常。如图 1 所示
图 1 NameNode 的 web 端
(2) 通过在 web 端输入配置 ResourceManager 节点地址和端口号 8088,可以查看 YARN 上运行任务情况。例如:在浏览器输入:http://hadoop103:8088 ,即可查看本集群 YARN 运行情况。如图 2 所示。
图 2 YARN 的 web 端 6. 运行 PI 实例检查集群是否启动成功在集群任意节点上执行下面的命令,如果看到如图 3 所示的执行结果,则说明集群启动成功。
[atguigu@hadoop102 hadoop]$ cd /opt/module/hadoop-2.7.2/share/hadoop/mapreduce/
[atguigu@hadoop102 mapreduce]$ hadoop jar hadoop-mapreduce-examples-2.7.2.jar pi 10 10
最后输出为
Estimated value of Pi is 3.20000000000000000000
复制代码
图 3 PI 实例运行结果
评论