Linux 部署 hadoop2.7.7 集群
欢迎访问我的 GitHub
这里分类和汇总了欣宸的全部原创(含配套源码):https://github.com/zq2599/blog_demos
在 CentOS7 环境下,hadoop2.7.7 集群部署的实战的步骤如下:
机器规划;
Linux 设置;
创建用户和用户组
SSH 免密码设置;
文件下载;
Java 设置;
创建 hadoop 要用到的文件夹;
hadoop 设置;
格式化 hdfs;
启动 hadoop;
验证 hadoop;
接下来就逐步开始吧;
机器规划
本次实战用到了三台 CentOS7 的机器,身份信息如下所示:
Linux 设置(三台电脑都要做)
修改文件/etc/hostname ,将三台电脑的内容分别改为 node0、node1、node2;
修改文件/etc/hosts ,在尾部增加以下三行内容:
关闭防火墙,并禁止启动:
关闭 SELINUX,打开文件/etc/selinux/config,找到 SELINUX 的配置,改为 SELINUX=disabled;
创建用户和用户组
执行以下命令创建用户和用户组:
创建完账号后记得用命令 passwd 初始化 hadoop 账号的密码;
SSH 免密码设置
node0、node1、node2 三台机器之间要设置 SSH 免密码登录,详细的设置步骤请参考《Linux配置SSH免密码登录(非root账号)》 ;
改用 hadoop 账号登录
后面在三台机器上的所有操作,都是用 hadoop 账号进行的,不再使用 root 账号;
文件下载
将 JDK 安装文件 jdk-8u191-linux-x64.tar.gz 下载到 hadoop 账号的家目录下;
将 hadoop 安装文件 hadoop-2.7.7.tar.gz 下载到 hadoop 账号的家目录下;
下载完毕后,家目录下的内容如下所示:
JDK 设置(三台电脑都要做)
解压 jdk-8u191-linux-x64.tar.gz 文件:
打开文件~/.bash_profile ,在尾部追加以下内容:
执行命令 source ~/.bash_profile 使得 JDK 设置生效;v 执行命令 java -version 确认设置成功:
创建 hadoop 要用到的文件夹(三台电脑都要做)
创建文件夹,后面 hadoop 会用到:
hadoop 设置
以 hadoop 账号登录 node0;
解压 hadoop 安装包:
进入目录~/hadoop-2.7.7/etc/hadoop ;
依次编辑 hadoop-env.sh、mapred-env.sh、yarn-env.sh 这三个文件,确保它们的内容中都有 JAVA_HOME 的正确配置,如下:
编辑 core-site.xml 文件,找到 configuration 节点,改成以下内容:
编辑 hdfs-site.xml 文件,找到 configuration 节点,改成以下内容,把 node2 配置成 sendary namenode:
编辑 slaves 文件,删除里面的"localhost",增加两行内容:
编辑 yarn-site.xml 文件,找到 configuration 节点,改成以下内容:
将文件 mapred-site.xml.template 改名为 mapred-site.xml:
编辑 mapred-site.xml 文件,找到 configuration 节点,改成以下内容:
将整个 hadoop-2.7.7 目录同步到 node1 的家目录:
将整个 hadoop-2.7.7 目录同步到 node2 的家目录:
格式化 hdfs
在 node0 执行以下命令格式化 hdfs:
启动 hadoop
在 node0 机器执行以下命令,启动 hdfs:
在 node0 机器执行以下命令,启动 yarn:
在 node0 机器执行以下命令,启动 ResourceManager:
在 node0 机器执行以下命令,启动日志服务:
启动成功后,在 node0 执行 jps 命令查看 java 进程,如下:
在 node1 执行 jps 命令查看 java 进程,如下:
在 node2 执行 jps 命令查看 java 进程,如下:
至此,hadoop 启动成功;
验证 hadoop
下面运行一次经典的 WorkCount 程序来检查 hadoop 工作是否正常:
以 hadoop 账号登录 node0,在家目录创建文件 test.txt,内容如下:
在 hdfs 上创建一个文件夹:
将 test.txt 文件上传的 hdfs 的/input 目录下:
直接运行 hadoop 安装包中自带的 workcount 程序:
控制台输出如下:
查看输出结果:
可见 hdfs 的/output 目录下,有两个文件:
看一下文件 part-r-00000 的内容:
可见 WorkCount 计算成功,结果符合预期;
hdfs 网页如下图,可以看到文件信息,地址:http://192.168.119.163:50070
yarn 的网页如下图,可以看到任务信息,地址:http://192.168.119.163:8088
至此,hadoop2.7.7 集群搭建和验证完毕,希望在您搭建环境时能给您提供一些参考;
欢迎关注 InfoQ:程序员欣宸
版权声明: 本文为 InfoQ 作者【程序员欣宸】的原创文章。
原文链接:【http://xie.infoq.cn/article/44a71689d39a6468b3860e785】。文章转载请联系作者。
评论