大数据环境搭建：Hadoop 编译和分布式环境搭建

作者：Lansonli

2022 年 7 月 12 日
本文字数：8093 字
阅读完需：约 27 分钟

Hadoop 编译和分布式环境搭建

一、Hadoop 编译

1、准备 linux 环境

准备一台 linux 环境，内存 4G 或以上，硬盘 40G 或以上，我这里使用的是 Centos7.7 64 位的操作系统（注意：一定要使用 64 位的操作系统），需要虚拟机联网，关闭防火墙，关闭 selinux，安装好 JDK8。

根据以上需求，只需要将 node1 再克隆一台即可，命名为 node4，专门用来进行 Hadoop 编译。

2、安装 maven

这里使用 maven3.x 以上的版本应该都可以，不建议使用太高的版本，强烈建议使用 3.0.5 的版本即可

将 maven 的安装包上传到/export/software

然后解压 maven 的安装包到/export/server

cd /export/software/
tar -zxvf apache-maven-3.0.5-bin.tar.gz -C ../server/

复制代码

配置 maven 的环境变量


vim /etc/profile

复制代码

填写以下内容


export MAVEN_HOME=/export/server/apache-maven-3.0.5
export MAVEN_OPTS="-Xms4096m -Xmx4096m"
export PATH=:$MAVEN_HOME/bin:$PATH

复制代码

让修改立即生效

source /etc/profile

复制代码

解压 maven 的仓库

tar -zxvf mvnrepository.tar.gz  -C /export/server/

复制代码

修改 maven 的配置文件

cd  /export/server/apache-maven-3.0.5/conf
vim settings.xml

复制代码

指定我们本地仓库存放的路径

 <localRepository>/export/server/mavenrepo</localRepository>

复制代码

添加一个我们阿里云的镜像地址，会让我们下载 jar 包更快

<mirror>
      <id>alimaven</id>
      <name>aliyun maven</name>
      <url>http://maven.aliyun.com/nexus/content/groups/public/</url>
      <mirrorOf>central</mirrorOf>
</mirror>

复制代码

3、安装 findbugs

解压 findbugs

tar -zxvf findbugs-1.3.9.tar.gz -C ../server/

复制代码

配置 findbugs 的环境变量

vim /etc/profile

复制代码

添加以下内容:

export MAVEN_HOME=/export/server/apache-maven-3.0.5
export PATH=:$MAVEN_HOME/bin:$PATH


export FINDBUGS_HOME=/export/server/findbugs-1.3.9
export PATH=:$FINDBUGS_HOME/bin:$PATH

复制代码

让修改立即生效

source  /etc/profile

复制代码

4、在线安装一些依赖包

yum -y install autoconf automake libtool cmake
yum -y install ncurses-devel
yum -y install openssl-devel
yum -y install lzo-devel zlib-devel gcc gcc-c++
yum -y install  bzip2-devel

复制代码

5、安装 protobuf

解压 protobuf 并进行编译

cd  /export/software
tar -zxvf protobuf-2.5.0.tar.gz -C ../server/
cd   /export/server/protobuf-2.5.0
./configure
make && make install

复制代码

6、安装 snappy

cd /export/software/
tar -zxvf snappy-1.1.1.tar.gz  -C ../server/
cd ../server/snappy-1.1.1/
./configure
make && make install

复制代码

7、编译 hadoop 源码

对源码进行编译

cd  /export/softwaretar -zxvf hadoop-2.7.5-src.tar.gz  -C ../server/cd  /export/server/hadoop-2.7.5

复制代码

编译支持 snappy 压缩：

mvn package -DskipTests -Pdist,native -Dtar -Drequire.snappy -e -X

复制代码

编译完成之后我们需要的压缩包就在下面这个路径里面,生成的文件名为 hadoop-2.7.5.tar.gz

cd /export/server/hadoop-2.7.5/hadoop-dist/target

复制代码

将编译后的 Hadoop 安装包导出即可

二、分布式环境搭建

1、集群规划

使用完全分布式，实现 namenode 高可用，ResourceManager 的高可用

集群运行服务规划

2、安装包解压

停止之前的 hadoop 集群的所有服务，然后重新解压编译后的 hadoop 压缩包

解压压缩包

node1 机器执行以下命令进行解压

mkdir -p /opt/software
mkdir -p /opt/server
cd /opt/software
tar -zxvf hadoop-2.7.5.tar.gz -C /opt/server/
cd /opt/server/hadoop-2.7.5/etc/hadoop

复制代码

3、配置文件的修改

以下操作都在 node1 机器上进行

3.1、修改 core-site.xml

<configuration>
<!-- 指定NameNode的HA高可用的zk地址  -->
 <property>
   <name>ha.zookeeper.quorum</name>
   <value>node1:2181,node2:2181,node3:2181</value>
 </property>
 <!-- 指定HDFS访问的域名地址  -->
 <property>
   <name>fs.defaultFS</name>
   <value>hdfs://ns</value>
 </property>
 <!-- 临时文件存储目录  -->
<property>
  <name>hadoop.tmp.dir</name>
  <value>/opt/server/hadoop-2.7.5/data/tmp</value>
</property>
 <!-- 开启hdfs垃圾箱机制，指定垃圾箱中的文件七天之后就彻底删掉
单位为分钟
 -->
<property>
 <name>fs.trash.interval</name>
 <value>10080</value>
</property>
</configuration>

复制代码

3.2、修改 hdfs-site.xml

<configuration>
<!-- 指定NameNode的HA高可用的zk地址  -->
 <property>
   <name>ha.zookeeper.quorum</name>
   <value>node1:2181,node2:2181,node3:2181</value>
 </property>
 <!-- 指定HDFS访问的域名地址  -->
 <property>
   <name>fs.defaultFS</name>
   <value>hdfs://ns</value>
 </property>
 <!-- 临时文件存储目录  -->
<property>
  <name>hadoop.tmp.dir</name>
  <value>/opt/server/hadoop-2.7.5/data/tmp</value>
</property>
 <!-- 开启hdfs垃圾箱机制，指定垃圾箱中的文件七天之后就彻底删掉
单位为分钟
 -->
<property>
 <name>fs.trash.interval</name>
 <value>10080</value>
</property>
</configuration>

复制代码

3.3、修改 yarn-site.xml，注意 node03 与 node02 配置不同

<configuration>
<!-- Site specific YARN configuration properties -->
<!-- 是否启用日志聚合.应用程序完成后,日志汇总收集每个容器的日志,这些日志移动到文件系统,例如HDFS. -->
<!-- 用户可以通过配置"yarn.nodemanager.remote-app-log-dir"、"yarn.nodemanager.remote-app-log-dir-suffix"来确定日志移动到的位置 -->
<!-- 用户可以通过应用程序时间服务器访问日志 -->


<!-- 启用日志聚合功能，应用程序完成后，收集各个节点的日志到一起便于查看 -->
<property>
<name>yarn.log-aggregation-enable</name>
<value>true</value>
</property>
 


<!--开启resource manager HA,默认为false--> 
<property>
        <name>yarn.resourcemanager.ha.enabled</name>
        <value>true</value>
</property>
<!-- 集群的Id，使用该值确保RM不会做为其它集群的active -->
<property>
        <name>yarn.resourcemanager.cluster-id</name>
        <value>mycluster</value>
</property>
<!--配置resource manager  命名-->
<property>
        <name>yarn.resourcemanager.ha.rm-ids</name>
        <value>rm1,rm2</value>
</property>
<!-- 配置第一台机器的resourceManager -->
<property>
        <name>yarn.resourcemanager.hostname.rm1</name>
        <value>node2</value>
</property>
<!-- 配置第二台机器的resourceManager -->
<property>
        <name>yarn.resourcemanager.hostname.rm2</name>
        <value>node3</value>
</property>


<!-- 配置第一台机器的resourceManager通信地址 -->
<property>
        <name>yarn.resourcemanager.address.rm1</name>
        <value>node2:8032</value>
</property>
<property>
        <name>yarn.resourcemanager.scheduler.address.rm1</name>
        <value>node2:8030</value>
</property>
<property>
        <name>yarn.resourcemanager.resource-tracker.address.rm1</name>
        <value>node2:8031</value>
</property>
<property>
        <name>yarn.resourcemanager.admin.address.rm1</name>
        <value>node2:8033</value>
</property>
<property>
        <name>yarn.resourcemanager.webapp.address.rm1</name>
        <value>node2:8088</value>
</property>


<!-- 配置第二台机器的resourceManager通信地址 -->
<property>
        <name>yarn.resourcemanager.address.rm2</name>
        <value>node3:8032</value>
</property>
<property>
        <name>yarn.resourcemanager.scheduler.address.rm2</name>
        <value>node3:8030</value>
</property>
<property>
        <name>yarn.resourcemanager.resource-tracker.address.rm2</name>
        <value>node3:8031</value>
</property>
<property>
        <name>yarn.resourcemanager.admin.address.rm2</name>
        <value>node3:8033</value>
</property>
<property>
        <name>yarn.resourcemanager.webapp.address.rm2</name>
        <value>node3:8088</value>
</property>




<!--开启resourcemanager自动恢复功能-->
<property>
        <name>yarn.resourcemanager.recovery.enabled</name>
        <value>true</value>
</property>
<!--在node2上配置rm1,在node3上配置rm2,注意：一般都喜欢把配置好的文件远程复制到其它机器上，但这个在YARN的另一个机器上一定要修改，其他机器上不配置此项-->
<property>       
<name>yarn.resourcemanager.ha.id</name>
<value>rm1</value>
       <description>If we want to launch more than one RM in single node, we need this configuration</description>
</property>
   
   <!--用于持久存储的类。尝试开启-->
<property>
        <name>yarn.resourcemanager.store.class</name>
        <value>org.apache.hadoop.yarn.server.resourcemanager.recovery.ZKRMStateStore</value>
</property>
<property>
        <name>yarn.resourcemanager.zk-address</name>
        <value>node2:2181,node3:2181,node1:2181</value>
        <description>For multiple zk services, separate them with comma</description>
</property>
<!--开启resourcemanager故障自动切换，指定机器--> 
<property>
        <name>yarn.resourcemanager.ha.automatic-failover.enabled</name>
        <value>true</value>
        <description>Enable automatic failover; By default, it is enabled only when HA is enabled.</description>
</property>
<property>
        <name>yarn.client.failover-proxy-provider</name>
        <value>org.apache.hadoop.yarn.client.ConfiguredRMFailoverProxyProvider</value>
</property>
<!-- 允许分配给一个任务最大的CPU核数，默认是8 -->
<property>
        <name>yarn.nodemanager.resource.cpu-vcores</name>
        <value>2</value>
</property>
<!-- 每个节点可用内存,单位MB -->
<property>
        <name>yarn.nodemanager.resource.memory-mb</name>
        <value>2048</value>
</property>
<!-- 单个任务可申请最少内存，默认1024MB -->
<property>
        <name>yarn.scheduler.minimum-allocation-mb</name>
        <value>1024</value>
</property>
<!-- 单个任务可申请最大内存，默认8192MB -->
<property>
        <name>yarn.scheduler.maximum-allocation-mb</name>
        <value>2048</value>
</property>
<!--多长时间聚合删除一次日志 此处-->
<property>
        <name>yarn.log-aggregation.retain-seconds</name>
        <value>2592000</value><!--30 day-->
</property>
<!--时间在几秒钟内保留用户日志。只适用于如果日志聚合是禁用的-->
<property>
        <name>yarn.nodemanager.log.retain-seconds</name>
        <value>604800</value><!--7 day-->
</property>
<!--指定文件压缩类型用于压缩汇总日志-->
<property>
        <name>yarn.nodemanager.log-aggregation.compression-type</name>
        <value>gz</value>
</property>
<!-- nodemanager本地文件存储目录-->
<property>
        <name>yarn.nodemanager.local-dirs</name>
        <value>/opt/server/hadoop-2.7.5/yarn/local</value>
</property>
<!-- resourceManager  保存最大的任务完成个数 -->
<property>
        <name>yarn.resourcemanager.max-completed-applications</name>
        <value>1000</value>
</property>
<!-- 逗号隔开的服务列表，列表名称应该只包含a-zA-Z0-9_,不能以数字开始-->
<property>
        <name>yarn.nodemanager.aux-services</name>
        <value>mapreduce_shuffle</value>
</property>


<!--rm失联后重新链接的时间--> 
<property>
        <name>yarn.resourcemanager.connect.retry-interval.ms</name>
        <value>2000</value>
</property>
</configuration>

复制代码

3.4、修改 mapred-site.xml

<configuration>
<!--指定运行mapreduce的环境是yarn -->
<property>
        <name>mapreduce.framework.name</name>
        <value>yarn</value>
</property>
<!-- MapReduce JobHistory Server IPC host:port -->
<property>
        <name>mapreduce.jobhistory.address</name>
        <value>node3:10020</value>
</property>
<!-- MapReduce JobHistory Server Web UI host:port -->
<property>
        <name>mapreduce.jobhistory.webapp.address</name>
        <value>node0:19888</value>
</property>
<!-- The directory where MapReduce stores control files.默认 ${hadoop.tmp.dir}/mapred/system -->
<property>
        <name>mapreduce.jobtracker.system.dir</name>
        <value>/opt/server/hadoop-2.7.5/data/system/jobtracker</value>
</property>
<!-- The amount of memory to request from the scheduler for each map task. 默认 1024-->
<property>
        <name>mapreduce.map.memory.mb</name>
        <value>1024</value>
</property>
<!-- <property>
                <name>mapreduce.map.java.opts</name>
                <value>-Xmx1024m</value>
        </property> -->
<!-- The amount of memory to request from the scheduler for each reduce task. 默认 1024-->
<property>
        <name>mapreduce.reduce.memory.mb</name>
        <value>1024</value>
</property>
<!-- <property>
               <name>mapreduce.reduce.java.opts</name>
               <value>-Xmx2048m</value>
        </property> -->
<!-- 用于存储文件的缓存内存的总数量，以兆字节为单位。默认情况下，分配给每个合并流1MB，给个合并流应该寻求最小化。默认值100-->
<property>
        <name>mapreduce.task.io.sort.mb</name>
        <value>100</value>
</property>
 
<!-- <property>
        <name>mapreduce.jobtracker.handler.count</name>
        <value>25</value>
        </property>-->
<!-- 整理文件时用于合并的流的数量。这决定了打开的文件句柄的数量。默认值10-->
<property>
        <name>mapreduce.task.io.sort.factor</name>
        <value>10</value>
</property>
<!-- 默认的并行传输量由reduce在copy(shuffle)阶段。默认值5-->
<property>
        <name>mapreduce.reduce.shuffle.parallelcopies</name>
        <value>15</value>
</property>
<property>
        <name>yarn.app.mapreduce.am.command-opts</name>
        <value>-Xmx1024m</value>
</property>
<!-- MR AppMaster所需的内存总量。默认值1536-->
<property>
        <name>yarn.app.mapreduce.am.resource.mb</name>
        <value>1536</value>
</property>
<!-- MapReduce存储中间数据文件的本地目录。目录不存在则被忽略。默认值${hadoop.tmp.dir}/mapred/local-->
<property>
        <name>mapreduce.cluster.local.dir</name>
        <value>/opt/server/hadoop-2.7.5/data/system/local</value>
</property>
</configuration>

复制代码

3.5、修改 slaves

node1
node2
node3

复制代码

3.6、修改 hadoop-env.sh

export JAVA_HOME=/export/server/jdk1.8.0_241

复制代码

4、集群启动过程

将第一台机器的安装包发送到其他机器上

第一台机器执行以下命令：

cd /opt/server
scp -r hadoop-2.7.5/ node2:$PWD
scp -r hadoop-2.7.5/ node3:$PWD

复制代码

三台机器上共同创建目录

三台机器执行以下命令

mkdir -p /opt/server/hadoop-2.7.5/data/dfs/nn/name
mkdir -p /opt/server/hadoop-2.7.5/data/dfs/nn/edits
mkdir -p /opt/server/hadoop-2.7.5/data/dfs/nn/name
mkdir -p /opt/server/hadoop-2.7.5/data/dfs/nn/edits

复制代码

更改 node3 的 rm2

第二台机器执行以下命令

vim yarn-site.xml

复制代码

<!--在 node2 上配置 rm1,在 node3 上配置 rm2,注意：一般都喜欢把配置好的文件远程复制到其它机器上，

但这个在 YARN 的另一个机器上一定要修改，其他机器上不配置此项

注意我们现在有两个 resourceManager 第二台是 rm1 第三台是 rm2

这个配置一定要记得去 node3 上面改好

-->

<property>       
<name>yarn.resourcemanager.ha.id</name>
<value>rm2</value>
   <description>If we want to launch more than one RM in single node, we need this configuration</description>
</property>

复制代码

4.1、启动 HDFS 过程

node1 机器执行以下命令

cd   /opt/server/hadoop-2.7.5
bin/hdfs zkfc -formatZK
sbin/hadoop-daemons.sh start journalnode
bin/hdfs namenode -format
bin/hdfs namenode -initializeSharedEdits -force
sbin/start-dfs.sh

复制代码

node2 上面执行

cd   /opt/server/hadoop-2.7.5
bin/hdfs namenode -bootstrapStandby
sbin/hadoop-daemon.sh start namenode

复制代码

4.2、启动 yarn 过程

node2 上执行

cd   /opt/server/hadoop-2.7.5
sbin/start-yarn.sh

复制代码

node3 上面执行

cd   /export/servers/hadoop-2.7.5
sbin/start-yarn.sh

复制代码

4.3、查看 resourceManager 状态

node2 上面执行

cd   /opt/server/hadoop-2.7.5
bin/yarn rmadmin -getServiceState rm1

复制代码

node3 上面执行

cd   /opt/server/hadoop-2.7.5
bin/yarn rmadmin -getServiceState rm2

复制代码

4.4、node3 启动 jobHistory

node3 机器执行以下命令启动 jobHistory

cd /opt/server/hadoop-2.7.5
sbin/mr-jobhistory-daemon.sh start historyserver

复制代码

4.5、hdfs 状态查看

node1 机器查看 hdfs 状态

http://192.168.88.161:50070/dfshealth.html#tab-overview

node2 机器查看 hdfs 状态

http://192.168.88.162:50070/dfshealth.html#tab-overview

4.6、yarn 集群访问查看

http://192.168.88.163:8088/cluster

4.7、历史任务浏览界面

页面访问：

http://192.168.88.163:19888/jobhistory

发布于: 2022 年 07 月 12 日阅读数: 44

原文链接:【http://xie.infoq.cn/article/0ae4c2dabb3198445b049c93c】。文章转载请联系作者。

Lansonli

关注

微信公众号：三帮大数据 2022.07.12 加入

CSDN大数据领域博客专家，华为云享专家、阿里云专家博主、腾云先锋（TDP）核心成员、51CTO专家博主，全网六万多粉丝，知名互联网公司大数据高级开发工程师

发布

暂无评论

创作场景

大数据环境搭建：​​​​​​​​​​​​​​​​​​​​​Hadoop 编译和分布式环境搭建

​​​​​​​​​​​​​​​​​​​​​​Hadoop 编译和分布式环境搭建

一、Hadoop 编译

1、准备 linux 环境

2、安装 maven

3、安装 findbugs

4、在线安装一些依赖包

5、安装 protobuf

​​​​​​​6、安装 snappy

​​​​​​​7、编译 hadoop 源码

二、分布式环境搭建

1、集群规划

2、安装包解压

​​​​​​​3、配置文件的修改

​​​​​​3.1、修改 core-site.xml

​​​​​​​3.2、修改 hdfs-site.xml

​​​​​​3.3、修改 yarn-site.xml，注意 node03 与 node02 配置不同

​​​​​​3.4、修改 mapred-site.xml

​​​​​​​3.5、修改 slaves

​​​​​​3.6、修改 hadoop-env.sh

​​​​​​​4、集群启动过程

​​​​​​​4.1、启动 HDFS 过程

​​​​​​​4.2、启动 yarn 过程

​​​​​​​4.3、查看 resourceManager 状态

​​​​​​​4.4、node3 启动 jobHistory

​​​​​​4.5、hdfs 状态查看

​​​​​​​4.6、yarn 集群访问查看

4.7、​​​​​​​历史任务浏览界面

Lansonli

评论

大数据环境搭建：Hadoop 编译和分布式环境搭建

Hadoop 编译和分布式环境搭建

6、安装 snappy

7、编译 hadoop 源码

3、配置文件的修改

3.1、修改 core-site.xml

3.2、修改 hdfs-site.xml

3.3、修改 yarn-site.xml，注意 node03 与 node02 配置不同

3.4、修改 mapred-site.xml

3.5、修改 slaves

3.6、修改 hadoop-env.sh

4、集群启动过程

4.1、启动 HDFS 过程

4.2、启动 yarn 过程

4.3、查看 resourceManager 状态

4.4、node3 启动 jobHistory

4.5、hdfs 状态查看

4.6、yarn 集群访问查看

4.7、历史任务浏览界面