征文投稿丨使用轻量应用服务器部署 Hadoop 云集群

2022 年 1 月 21 日
本文字数：1993 字
阅读完需：约 7 分钟

编者按：本文来自轻量应用服务器征文活动用户投稿，已获得作者（昵称 Maynor 大数据）授权发布。

由于我在工作学习中经常需要使用到 Hadoop 集群，而本地 Hadoop 有启动速度慢、操作麻烦和占用内存等痛点。最近在和粉丝的交流中，一位提到的伪分布式部署 Hadoop 的概念启发了我。正好领取的服务器还没开始用，何不用来部署云集群？以下为具体的部署过程，我选择的是 Hadoop3.x 的伪分布式部署方法。

1、领取轻量应用服务器

阿里云的产品活动还是很给力的，遇到像双 11 这样的大促活动，甚至可以做到免费获得服务器。如果你是学生，买轻量应用服务器还是很便宜的，只需要 9 元/月，也可以参与阿里云开发者成长计划。

2、服务器选择和配置

这里选择的是轻量应用服务器，系统镜像和应用镜像不需要改变，保持默认值就行（WordPress, CentOS 7.3）。

这里需要设置 root 权限和密码

设置成功后通过本地 terminal（MAC）或者 cmd（Windows）来构建 ssh：

ssh root@****

然后输入之前设置的 root 的权限密码（注意：这里的密码是不会有任何显示的）

若出现上图的情况，需要清理一下之前的 key：

ssh-keygen -R XX.XX.XX.XX

然后再次用 ssh 连接，然后 yes，到此我们进入到了阿里云的服务器。

3、配置 java 环境

首先下载 java 的 jdk：

wget https://download.java.net/openjdk/jdk8u41/ri/openjdk-8u41-b04-linux-x64-14_jan_2020.tar.gz

复制代码

然后解压：

tar -zxvf openjdk-8u41-b04-linux-x64-14_jan_2020.tar.gz

复制代码

移动位置并且配置 java 路径：

mv java-se-8u41-ri/ /usr/java8echo 'export JAVA_HOME=/usr/java8' >> /etc/profileecho 'export PATH=$PATH:$JAVA_HOME/bin' >> /etc/profilesource /etc/profile

复制代码

检查是否安装成功：

java -version

复制代码

若安装成功会出现如下结果：

4、进行 Hadoop 的安装

这个是清华的镜像源，国内的小伙伴下载比较快：

# 借助清华源下载Hadoopwget https://mirrors.tuna.tsinghua.edu.cn/apache/hadoop/common/hadoop-3.2.2/hadoop-3.2.2.tar.gz

复制代码

按照惯例解压：

tar -zxvf hadoop-3.2.2.tar.gz -C /opt/mv /opt/hadoop-3.2.2 /opt/hadoop

复制代码

配置地址：

echo 'export HADOOP_HOME=/opt/hadoop/' >> /etc/profileecho 'export PATH=$PATH:$HADOOP_HOME/bin' >> /etc/profileecho 'export PATH=$PATH:$HADOOP_HOME/sbin' >> /etc/profilesource /etc/profile

复制代码

配置 yarn 和 hadoop：

echo "export JAVA_HOME=/usr/java8" >> /opt/hadoop/etc/hadoop/yarn-env.shecho "export JAVA_HOME=/usr/java8" >> /opt/hadoop/etc/hadoop/hadoop-env.sh

复制代码

查看 Hadoop 安装情况：

hadoop version

复制代码

若出现下图情况，则说明安装成功。

5、利用 vim 来操作 core-site 和 hdfs-site

输入以下命令：

vim /opt/hadoop/etc/hadoop/core-site.xml

复制代码

进入 vim 环境，如下图示：

按下 i（insert）修改

光标移动至 configuration 之间，复制如下的信息：

<property>                <name>hadoop.tmp.dir</name>                <value>file:/opt/hadoop/tmp</value>                <description>location to store temporary files</description>        </property>        <property>                <name>fs.defaultFS</name>                <value>hdfs://localhost:9000</value>        </property>

复制代码

然后按下 esc，停止修改，然后打":wq"（实际无“”）退出 vim 修改。

同理，操作 hdfs-site

输入命令行：

vim /opt/hadoop/etc/hadoop/hdfs-site.xml

复制代码

移动光标，复制以下信息：

<property>        <name>dfs.replication</name>        <value>1</value>        </property>        <property>                <name>dfs.namenode.name.dir</name>                <value>file:/opt/hadoop/tmp/dfs/name</value>        </property>        <property>                <name>dfs.datanode.data.dir</name>                <value>file:/opt/hadoop/tmp/dfs/data</value>        </property>

复制代码

配置 master 和 slave 连接，运行如下指令，并且一直回车，直至出现如下图：

ssh-keygen -t rsa

复制代码

运行如下代码：

cd .sshcat id_rsa.pub >> authorized_keys

复制代码

启动 Hadoop：

hadoop namenode -formatstart-dfs.shstart-yarn.sh

复制代码

踩坑提醒：

ERROR: but there is no YARN_NODEMANAGER_USER defined. Aborting operation

这里踩了一个小坑，出现如上面的错误提示，解决方案参考：

https://blog.csdn.net/ystyaoshengting/article/details/103026872

查看是否配置成功：

jps

复制代码

配置成功图如下：

6、配置防火墙端口

接下来需要开启你在阿里云的防火墙端口，才可以在浏览器上访问，否则你怎么弄都是访问不到。

最后你就可以在浏览器输入 XX.XX.XX.XX：9870 或者 XX.XX.XX.XX:8088 来在浏览器上访问你的 Hadoop，效果图如下：

以上就是使用 Hadoop3.x 的伪分布式部署方法，利用轻量应用服务器部署云集群的全过程，希望对你有所帮助。

点击我要投稿，查看全新升级的轻量应用服务器征文活动，奖励提升，每月都可以投稿。

发布于: 刚刚阅读数: 2

原文链接:【http://xie.infoq.cn/article/11358f4d73185cb0c971e39da】。文章转载请联系作者。

阿里云弹性计算

关注

澎湃算力，无处不在。 2018.08.24 加入

阿里云弹性计算团队，关注虚拟化、通用计算、异构计算以及云上HPC和云上运维CloudOps。

发布

暂无评论

创作场景

征文投稿丨使用轻量应用服务器部署 Hadoop 云集群

阿里云弹性计算

评论