Hadoop HDFS 3.3.1 分布式存储搭建

作者：KunlunDB

2022 年 3 月 10 日
本文字数：2352 字
阅读完需：约 8 分钟

前言

看了标题会不会诧异，怎么昆仑分布式数据库玩起了分布式文件系统？

因为昆仑分布式数据库 0.9 版本起，要增加 HDFS 分布式文件备份功能，所以开发小哥哥工作中，就顺便把学习的过程分享出来。

HDFS（HadoopDistributed File System）是 Hadoop 项目的核心子项目，是分布式计算中数据存储管理的基础。

是基于流数据模式访问和处理超大文件的需求而开发的，可以运行于廉价的商用服务器上。

它所具有的高容错、高可靠性、高可扩展性、高获得性、高吞吐率等特征为海量数据提供了不怕故障的存储，为超大数据集（Large Data Set）的应用处理带来了很多便利。

HDFS 是开源的，存储着 Hadoop 应用将要处理的数据，类似于普通的 Unix 和 Linux 文件系统，不同的是它是实现了 google 的 GFS 文件系统的思想，是适用于大规模分布式数据处理相关应用的、可扩展的分布式文件系统。

下面我们详细介绍在两台 CENTOS8 的虚拟机上，搭建 HDFS 分布式文件存储系统：

一、配置基本环境

1.1 修改主机名，并重启生效

vim /etc/hosts192.168.207.164         centos8-0192.168.207.165         centos8-1

复制代码

1.2 关闭防火墙并设置开机不启动

systemctl stop firewalld.servicesystemctl disable firewalld.service

复制代码

1.3 关闭 Selinux 并设置开机不启动

setenforce 0vim /etc/selinux/configSELINUX=disabled

复制代码

另一台机器，重复 1.1-1.3 步骤

1.4 配置免密登陆

1.4.1 使用 root 用户登陆系统生成密钥：

ssh-keygen

复制代码

一直回车确定 (生成的密钥文件在/root/.ssh 下 id_rsa 、id_rsa.pub)

1.4.2 配置自己对自己的免密登陆：

ssh-copy-id centos8-0

复制代码

（另一台机器 ssh-copy-id centos8-1）根据提示输入 yes，输入密码（centos8-0 就是你当前第一台的主机名）。

1.4.3 将密钥文件拷贝到第二台主机上：

ssh-copy-id centos8-1

复制代码

（另一台机器 ssh-copy-id centos8-0），根据提示输入 yes，根据提示输入对方主机的 root 密码。

1.4.4 配置完免密登陆后，相互测试一下，能不能免密登录：

ssh centos8-0 （ssh centos8-1）

复制代码

二、安装 java 环境

2.1 下载 java 二进制包：https://www.oracle.com/

2.2 解压缩，移到/usr/ocal

tar zxf jdk-8u131-linux-x64.tar.gzmv jdk1.8.0_131 /usr/local

复制代码

2.3 配置环境变量

打开/etc/profile，在文件末尾加入如下内容：

export JAVA_HOME=/usr/local/jdk1.8.0_131export JRE_HOME=/usr/local/jdk1.8.0_131/jreexport PATH=$PATH:$JAVA_HOME/binexportCLASSPATH=.:$JAVA_HOME/lib:/dt.jar:$JAVA_HOME/lib/tools.jarexportLD_LIBRARY_PATH=$JAVA_HOME/jre/lib/amd64:$JAVA_HOME/jre/lib/amd64/server

复制代码

2.4 使环境变量生效

source /etc/profile

复制代码

2.5 测试安装是否成功

java -version

复制代码

2.6 复制到第二台机器

scp -r /usr/local/jdk1.8.0_131/root@centos8-1:/usr/local/scp /etc/profile root@centos8-1:/etc/

复制代码

2.7 第二台虚拟机 centos8-1

source /etc/profile

复制代码

三、Hadoop 安装

3.1 Hadoop 各个版本下载地址：

https://archive.apache.org/dist/hadoop/common/

3.2 建议把 hadoop 放在/home 目录，CENTOS8 根目录空间太小

mkdir /home/hadoop/tar zxf hadoop-3.3.1.tar.gz mkdir /home/hadoop/tmp -pmkdir /home/hadoop/dfs/data -pmkdir /home/hadoop/dfs/name -p

复制代码

3.3 打开并修改/etc/profile，在文件末尾加入如下内容：

exportHADOOP_HOME=/home/hadoop/hadoop-3.3.1exportPATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin

复制代码

3.4 使环境变量生效

source /etc/profile

复制代码

3.5 配置 hadoop-env.sh

cd /home/hadoop/hadoop-3.3.1/etc/hadoopvim hadoop-env.sh

复制代码

然后尾部加入：

export JAVA_HOME=/usr/local/jdk1.8.0_131export HDFS_NAMENODE_USER=rootexport HDFS_DATANODE_USER=rootexport HDFS_DATANODE_SECURE_USER=rootexport HDFS_SECONDARYNAMENODE_USER=rootexport HADOOP_SHELL_EXECNAME=root

复制代码

3.6 配置 core-site.xml

<configuration><property><name>fs.defaultFS</name><value>hdfs://centos8-0:9000</value></property><property><name>hadoop.tmp.dir</name><value>/home/hadoop/tmp</value></property></configuration>

复制代码

3.7 配置 hdfs-site.xml

<configuration><property><name>dfs.replication</name><value>2</value></property><property><name>dfs.namenode.name.dir</name><value>/home/hadoop/dfs/name</value></property><property><name>dfs.datanode.name.dir</name><value>/home/hadoop/dfs/data</value></property><property><name>dfs.namenode.secondary.http-address</name><value>centos8-1:9000</value></property><property><name>dfs.permissions</name><value>false</value></property></configuration>

复制代码

3.8 配置 wroks，添加如下：

centos8-0centos8-1

复制代码

3.9 复制到其他机器

scp -r /home/hadoop root@centos8-1:/home/scp /etc/profile root@centos8-1:/etc/

复制代码

第二台虚拟机 centos8-1

source /etc/profile

复制代码

3.10 初始化 namenode 节点, 第二台机器也要初始化

hdfs namenode -format

复制代码

3.11 在第一台机器启动服务：

start-dfs.sh

复制代码

3.12 访问测试：

默认浏览地址：http://192.168.207.164:9870/

通过 Utilities->Browse thefile system 查看文件，从 WINDOWS 网页端上传文件会失败，需要增加如下：

C:\Windows\System32\drivers\etc\hosts192.168.207.164         centos8-0192.168.207.165         centos8-1

复制代码

3.13 命令行测试

hadoop fs -ls /hadoop fs -mkdir /mytesthadoop fs -copyFromLocal test.txt/test.txthadoop fs -appendToFile test.txt/test.txthadoop fs -cat /test.txt

复制代码

至此 Hadoop HDFS 3.3.1 分布式存储搭建完成

需要技术支持可以微信搜索微信号（KunLunDB-Linda），添加客服，在线沟通即可。

THE END

发布于: 刚刚阅读数: 2

原文链接:【http://xie.infoq.cn/article/b6cf8db3b901b73796fc48793】。文章转载请联系作者。

KunlunDB

关注

还未添加个人签名 2022.03.09 加入

还未添加个人简介

发布

暂无评论

创作场景

Hadoop HDFS 3.3.1 分布式存储搭建

KunlunDB

评论