写点什么

MapReduce 服务初体验

作者:乌龟哥哥
  • 2022 年 4 月 21 日
  • 本文字数:2260 字

    阅读完需:约 7 分钟

MapReduce 服务初体验

大数据是人类进入互联网时代以来面临的一个巨大问题:社会生产生活产生的数据量越来越大,数据种类越来越多,数据产生的速度越来越快。传统的数据处理技术,比如说单机存储,关系数据库已经无法解决这些新的大数据问题。为解决以上大数据处理问题,Apache 基金会推出了 Hadoop 大数据处理的开源解决方案。Hadoop 是一个开源分布式计算平台,可以充分利用集群的计算和存储能力,完成海量数据的处理。企业自行部署 Hadoop 系统有成本高,周期长,难运维和不灵活等问题。

针对上述问题,华为云提供了大数据 MapReduce 服务(MRS),MRS 是一个在华为云上部署和管理 Hadoop 系统的服务,一键即可部署 Hadoop 集群。MRS 提供租户完全可控的一站式企业级大数据集群云服务,完全兼容开源接口,结合华为云计算、存储优势及大数据行业经验,为客户提供高性能、低成本、灵活易用的全栈大数据平台,轻松运行 Hadoop、Spark、HBase、Kafka、Storm 等大数据组件,并具备在后续根据业务需要进行定制开发的能力,帮助企业快速构建海量数据信息处理系统,并通过对海量信息数据实时与非实时的分析挖掘,发现全新价值点和企业商机。

1. MapReduce 服务开通

打开 MapReduce:https://console.huaweicloud.com/mrs



点击同意授权



什么是 MapReduce 服务?大数据 MapReduce 服务(MRS)是一个在华为云上部署和管理 Hadoop 系统的服务,一键即可部署 Hadoop 集群。MRS 提供租户完全可控的企业级大数据集群云服务,轻松运行 Hadoop、Spark、HBase、Kafka、Storm 等大数据组件,并具备在后续根据业务需要进行定制开发的能力。


在左上角选择购买集群



选择自定义购买




填写完规格选取后点击下一步


默认如下配置,如果没有创建私有云,可以点击“查看虚拟私有云”,进入虚拟私有云界面,点击“创建虚拟私有云”,所有参数默认,点击“立即创建”即可。回到购买集群页面,点击刷新按钮,即可选中创建的虚拟私有云。



按照下图配置继续操作



输入完密码后点击确认授权并立即购买。


创建大概需要 10-20 分钟


2. 购买弹性公网 IP

进入弹性公网 Ip 控制台https://console.huaweicloud.com/vpc


点击右上角购买弹性公网 Ip



点击立即购买



可以看到我们创建的公网 Ip



回到 MapReduce 控制台,点击前往 MRS 页面



3. 使用公网 IP 登录 MRS Manger 界面


4.利用 MapReduce 做单词统计

4.1 下载实验数据

在 linux 服务器下输入下面指令


wget https://sandbox-experiment-resource.obs.cn-north-1.myhuaweicloud.com/mapreduce/wordcount
复制代码


wget https://sandbox-experiment-resource.obs.cn-north-1.myhuaweicloud.com/mapreduce/hadoop-mapreduce-examples-3.1.1-mrs-2.0.jar 
复制代码


4.2 将数据和代码上传到 OBS

什么是 OBS?对象存储服务是一个基于对象的海量存储服务,为客户提供海量、安全、高可靠、低成本的数据存储能力,包括:创建、修改、删除桶,上传、下载、删除对象等。

4.2.1 创建 OBS 桶

打开对象存储控制台https://console.huaweicloud.com/console/?agencyId=09b9d12f5200f3af1f9ac007869a4ffc&region=MOS&locale=zh-cn#/obs/manager/buckets


点击创建桶



选择好对应规格后立即创建



创建完成后点击桶名称进入对象存储服务,点击左侧栏"对象",进入到对象管理页面,再点击“新建文件夹”创建一个名为“input”的文件夹



创建完成后,点击“input”文件夹名字进入到“input”文件夹,然后点击“上传对象”按钮弹出窗口(上传方式默认),点击“添加文件”将下载的“wordcount”(选择“Home”位置可看到下载的该文件)文件文档,点击“上传”到“input”文件夹中。




点击“返回上一级”,使用同样的方法,新建一个名为“jar”的文件夹,然后点击名称进入,并将“hadoop-mapreduce-examples-3.1.1-mrs-2.0.jar”上传到 jar 文件夹中



4.2.2 提交 mapreduce 作业,进行单词统计

切回浏览器的集群管理页面,选择“作业管理”



① 作业类型:MapReduce;


② 作业名称:MapReduce;


③ 执行程序路径:点击"OBS",选择“obs-xxxx”->“jar”->“hadoop-xxx”文件夹并确定;


④ 执行程序参数:wordcount;


数据输入路径:点击"OBS",选择“obs-xxxx”->“input”文件夹并确定;


数据输出路径:直接输入"/user/wordcount/";


说明:每个参数之间需要添加空格。


⑤ 日志路径:默认点击“确定”完成添加,等待程序执行成功



4.2.3 使用 hdfs 命令行客户端查询计算结果

在 MRS Manager 页面的地址栏,复制弹性 IP 地址



登录弹性公网 IP


ip 地址为弹性公网 Ip


用户名为 root


密码为自己设置的密码




至此,产品体验结束,实验完成。

3.遇到的问题

3.1 绑定公网 IP 后无法访问

在绑定公网 Ip 后还是无法打开 MRS 管理页面


解决方法:MRS 管理页面的端口为 9022,还需要在安全组放开对应端口号可以实现正常访问


3.2 本地无法直接下载 linux 指令文件

为了更好的完成产品体验并提交体验报告,除了在沙箱实验中体验实验外,我还进行了实际操作进行体验,但是有部分体验功能需要在 linux 服务器中进行


为了下载通过 linux 指令下载的文件,我通过在沙箱实验中的 linux 服务器将文件下载下来后,我通过邮箱的方式发送到我的本地电脑,再上传到 obs 桶

3.3 沙箱实验过程描述与现有流程部分不一致

在此次沙箱实验中,由于项目流程的优化迭代,部分操作流程与沙箱实验描述步骤不一致,我通过查询官方说明文档及时做了调整

4.建议

本次实验流程相对比较顺利,而且在官方文档还有视频说明,建议较少,已经做得很棒了

4.1 沙箱实验选取建议

本次是为了体验 MRS 服务,但是单词统计实验只让我们体验到了购买流程,MRS 的大部分功能没有得到展现,希望可以更进一步的介绍该平台的主要使用功能。

4.2 软件更新问题

由于改 MRS 功能集成项目很多,希望可以及时更新每一个组件,提高性能

用户头像

乌龟哥哥

关注

正在努力寻找offer的大四小菜鸟 2021.03.16 加入

擅长 Hbuilder、VS Code、MyEclipse、AppServ、PS 等软件的安装与卸载 精通 Html、CSS、JavaScript、jQuery、Java 等单词的拼写 熟悉 Windows、Linux、 等系统的开关机 看–时间过得多快,不说了,去搬砖了

评论

发布
暂无评论
MapReduce服务初体验_4月月更_乌龟哥哥_InfoQ写作社区