写点什么

大数据 -01- 基础环境搭建 超详细 Hadoop Java 环境变量 3 节点云服务器 2C4G XML 集群配置 HDFS Yarn MapRedece

作者:武子康
大数据-01-基础环境搭建 超详细 Hadoop Java 环境变量 3节点云服务器 2C4G XML 集群配置 HDFS Yarn MapRedece

基本介绍

目前我已经更新了很多大数据的文章!希望可以帮助到大家!之前都发布到 CSDN 上了,希望可以帮助到更多的小伙伴。


  • 大数据相关 正在更新··· 约 300 篇

  • 大模型相关 正在更新···

  • Java 正在更新··· 约 200 篇


Hadoop

Hadoop 是一个开源的分布式计算框架,由 Apache 软件基金会维护,主要用于处理大规模数据集。Hadoop 的核心组件包括:

HDFS(Hadoop Distributed File System)

Hadoop 分布式文件系统,是 Hadoop 中的存储系统,能够以分布式的方式存储大规模数据集。HDFS 将数据分成块,并将这些块分散存储在集群中的不同节点上,从而提供高容错性和可靠性。

MapReduce

这是 Hadoop 的数据处理模型,适合处理大规模的、需要并行计算的任务。MapReduce 将任务分为两个阶段:


  • Map 阶段:将输入数据拆分为一系列键值对。

  • Reduce 阶段:根据键对数据进行聚合或处理。通过分布式计算,MapReduce 能够处理数百甚至上千台服务器上的数据,并有效利用硬件资源。

YARN(Yet Another Resource Negotiator)

YARN 是 Hadoop 集群中的资源管理器。YARN 负责调度和分配集群中的计算资源,使得 Hadoop 体系结构更灵活,可以支持 MapReduce 之外的其他处理框架。

Hadoop Common

这一组件为 Hadoop 各个模块提供了通用的工具和库,如文件系统抽象、序列化机制和 RPC(远程过程调用)框架。

优点

  • 可扩展性:Hadoop 可以通过增加节点来扩展计算和存储能力,适用于从单台服务器到上千节点的大规模集群。

  • 容错性:HDFS 会将数据复制到不同的节点中,即使部分节点出现故障,数据仍然可以恢复。

  • 成本效益:Hadoop 是开源的,能够运行在廉价的商用硬件上,适合处理 PB 级别的数据。

  • 灵活性:Hadoop 能够处理各种格式的数据,包括结构化、半结构化和非结构化数据。

应用场景

Hadoop 常用于大数据分析、数据仓库、日志处理、推荐系统、机器学习和金融风险分析等场景。例如:


  • 数据存储和处理:企业可以使用 Hadoop 来存储并处理大量的历史数据,并在这些数据上运行分析程序。

  • 机器学习:Hadoop 可以作为机器学习模型训练的基础架构,帮助处理大量的数据集。

  • 日志处理:Hadoop 常用于分析和处理来自不同服务器和应用程序的日志数据,以便监控性能或进行故障排除。


Hadoop 已经成为大数据生态系统的基础,围绕它形成了丰富的技术栈,例如 Apache Hive、Apache HBase、Apache Pig 和 Apache Spark 等,进一步拓展了其能力。

Java 环境

apt 安装

sudo apt install openjdk-8-jdk
复制代码



下载安装

这种就是大家常用的方式安装,我选择的是 apt 的方式


# JDK8:https://www.oracle.com/cn/java/technologies/downloads/#java8-linux
复制代码

验证环境

java -version
复制代码



环境变量

虽然 apt 安装完之后,是有了环境变量,但是为了后续 Hadoop 能够正常的工作,我们还需要手动去配置一下。


找到你目前的Java目录


readlink -f $(which java)
复制代码



修改配置文件


sudo vim /etc/profile
复制代码


**写入如下内容: **


# java export JAVA_HOME=/usr/lib/jvm/java-8-openjdk-amd64export PATH=$JAVA_HOME/bin:$PATH
复制代码


退出保存,并刷新环境变量


source /etc/profile
复制代码


此时,重新测试环境,如果没有问题,恭喜你一切顺利!



Hadoop 环境

创建目录

现在根目录下创建


sudo mkdir /opt/softwaresudo mkdir /opt/servers
复制代码


创建完毕后,进入 软件的目录。


cd /opt/software
复制代码

下载文件



我们直接使用 wget 工具来帮助我们下载:


sudo wget -O hadoop-2.9.2.tar.gz https://archive.apache.org/dist/hadoop/common/hadoop-2.9.2/hadoop-2.9.2.tar.gz
复制代码



解压文件

将文件解压到 servers 目录下


sudo tar -zxvf hadoop-2.9.2.tar.gz -C /opt/servers
复制代码



我们查看当前的目录:


环境变量

打开环境配置


sudo vim /etc/profile
复制代码


在最底部加入如下的内容:


# HADOOP_HOMEexport HADOOP_HOME=/opt/servers/hadoop-2.9.2export PATH=$PATH:$HADOOP_HOME/binexport PATH=$PATH:$HADOOP_HOME/sbin
复制代码


刷新环境变量


source /etc/profile
复制代码

验证环境

hadoop version
复制代码


如果出现如图的内容,那么恭喜你!已经完成了初步的 Java 和 Hadoop 的环境配置!



发布于: 刚刚阅读数: 6
用户头像

武子康

关注

永远好奇 无限进步 2019-04-14 加入

Hi, I'm Zikang,好奇心驱动的探索者 | INTJ / INFJ 我热爱探索一切值得深究的事物。对技术、成长、效率、认知、人生有着持续的好奇心和行动力。 坚信「飞轮效应」,相信每一次微小的积累,终将带来深远的改变。

评论

发布
暂无评论
大数据-01-基础环境搭建 超详细 Hadoop Java 环境变量 3节点云服务器 2C4G XML 集群配置 HDFS Yarn MapRedece_大数据_武子康_InfoQ写作社区