大数据 -01- 基础环境搭建 超详细 Hadoop Java 环境变量 3 节点云服务器 2C4G XML 集群配置 HDFS Yarn MapRedece

基本介绍
目前我已经更新了很多大数据的文章!希望可以帮助到大家!之前都发布到 CSDN 上了,希望可以帮助到更多的小伙伴。
大数据相关 正在更新··· 约 300 篇
大模型相关 正在更新···
Java 正在更新··· 约 200 篇

Hadoop
Hadoop 是一个开源的分布式计算框架,由 Apache 软件基金会维护,主要用于处理大规模数据集。Hadoop 的核心组件包括:
HDFS(Hadoop Distributed File System)
Hadoop 分布式文件系统,是 Hadoop 中的存储系统,能够以分布式的方式存储大规模数据集。HDFS 将数据分成块,并将这些块分散存储在集群中的不同节点上,从而提供高容错性和可靠性。
MapReduce
这是 Hadoop 的数据处理模型,适合处理大规模的、需要并行计算的任务。MapReduce 将任务分为两个阶段:
Map 阶段:将输入数据拆分为一系列键值对。
Reduce 阶段:根据键对数据进行聚合或处理。通过分布式计算,MapReduce 能够处理数百甚至上千台服务器上的数据,并有效利用硬件资源。
YARN(Yet Another Resource Negotiator)
YARN 是 Hadoop 集群中的资源管理器。YARN 负责调度和分配集群中的计算资源,使得 Hadoop 体系结构更灵活,可以支持 MapReduce 之外的其他处理框架。
Hadoop Common
这一组件为 Hadoop 各个模块提供了通用的工具和库,如文件系统抽象、序列化机制和 RPC(远程过程调用)框架。
优点
可扩展性:Hadoop 可以通过增加节点来扩展计算和存储能力,适用于从单台服务器到上千节点的大规模集群。
容错性:HDFS 会将数据复制到不同的节点中,即使部分节点出现故障,数据仍然可以恢复。
成本效益:Hadoop 是开源的,能够运行在廉价的商用硬件上,适合处理 PB 级别的数据。
灵活性:Hadoop 能够处理各种格式的数据,包括结构化、半结构化和非结构化数据。
应用场景
Hadoop 常用于大数据分析、数据仓库、日志处理、推荐系统、机器学习和金融风险分析等场景。例如:
数据存储和处理:企业可以使用 Hadoop 来存储并处理大量的历史数据,并在这些数据上运行分析程序。
机器学习:Hadoop 可以作为机器学习模型训练的基础架构,帮助处理大量的数据集。
日志处理:Hadoop 常用于分析和处理来自不同服务器和应用程序的日志数据,以便监控性能或进行故障排除。
Hadoop 已经成为大数据生态系统的基础,围绕它形成了丰富的技术栈,例如 Apache Hive、Apache HBase、Apache Pig 和 Apache Spark 等,进一步拓展了其能力。
Java 环境
apt 安装

下载安装
这种就是大家常用的方式安装,我选择的是 apt
的方式
验证环境

环境变量
虽然 apt
安装完之后,是有了环境变量,但是为了后续 Hadoop 能够正常的工作,我们还需要手动去配置一下。
找到你目前的Java
目录

修改配置文件
**写入如下内容: **
退出保存,并刷新环境变量
此时,重新测试环境,如果没有问题,恭喜你一切顺利!

Hadoop 环境
创建目录
现在根目录下创建
创建完毕后,进入 软件的目录。
下载文件

我们直接使用 wget
工具来帮助我们下载:

解压文件
将文件解压到 servers
目录下

我们查看当前的目录:

环境变量
打开环境配置
在最底部加入如下的内容:
刷新环境变量
验证环境
如果出现如图的内容,那么恭喜你!已经完成了初步的 Java 和 Hadoop 的环境配置!

版权声明: 本文为 InfoQ 作者【武子康】的原创文章。
原文链接:【http://xie.infoq.cn/article/914a85286e5baba13c6405164】。文章转载请联系作者。
评论