MapReduce 服务初体验
MapReduce 服务初体验
大数据是人类进入互联网时代以来面临的一个巨大问题:社会生产生活产生的数据量越来越大,数据种类越来越多,数据产生的速度越来越快。传统的数据处理技术,比如说单机存储,关系数据库已经无法解决这些新的大数据问题。为解决以上大数据处理问题,Apache 基金会推出了 Hadoop 大数据处理的开源解决方案。Hadoop 是一个开源分布式计算平台,可以充分利用集群的计算和存储能力,完成海量数据的处理。企业自行部署 Hadoop 系统有成本高,周期长,难运维和不灵活等问题。
针对上述问题,华为云提供了大数据 MapReduce 服务(MRS),MRS 是一个在华为云上部署和管理 Hadoop 系统的服务,一键即可部署 Hadoop 集群。MRS 提供租户完全可控的一站式企业级大数据集群云服务,完全兼容开源接口,结合华为云计算、存储优势及大数据行业经验,为客户提供高性能、低成本、灵活易用的全栈大数据平台,轻松运行 Hadoop、Spark、HBase、Kafka、Storm 等大数据组件,并具备在后续根据业务需要进行定制开发的能力,帮助企业快速构建海量数据信息处理系统,并通过对海量信息数据实时与非实时的分析挖掘,发现全新价值点和企业商机。
1. MapReduce 服务开通
打开 MapReduce:https://console.huaweicloud.com/mrs

点击同意授权

什么是 MapReduce 服务?大数据 MapReduce 服务(MRS)是一个在华为云上部署和管理 Hadoop 系统的服务,一键即可部署 Hadoop 集群。MRS 提供租户完全可控的企业级大数据集群云服务,轻松运行 Hadoop、Spark、HBase、Kafka、Storm 等大数据组件,并具备在后续根据业务需要进行定制开发的能力。
在左上角选择购买集群

选择自定义购买


填写完规格选取后点击下一步
默认如下配置,如果没有创建私有云,可以点击“查看虚拟私有云”,进入虚拟私有云界面,点击“创建虚拟私有云”,所有参数默认,点击“立即创建”即可。回到购买集群页面,点击刷新按钮,即可选中创建的虚拟私有云。

按照下图配置继续操作

输入完密码后点击确认授权并立即购买。
创建大概需要 10-20 分钟

2. 购买弹性公网 IP
进入弹性公网 Ip 控制台https://console.huaweicloud.com/vpc
点击右上角购买弹性公网 Ip

点击立即购买

可以看到我们创建的公网 Ip

回到 MapReduce 控制台,点击前往 MRS 页面


3. 使用公网 IP 登录 MRS Manger 界面


4.利用 MapReduce 做单词统计
4.1 下载实验数据
在 linux 服务器下输入下面指令

4.2 将数据和代码上传到 OBS
什么是 OBS?对象存储服务是一个基于对象的海量存储服务,为客户提供海量、安全、高可靠、低成本的数据存储能力,包括:创建、修改、删除桶,上传、下载、删除对象等。
4.2.1 创建 OBS 桶
点击创建桶

选择好对应规格后立即创建

创建完成后点击桶名称进入对象存储服务,点击左侧栏"对象",进入到对象管理页面,再点击“新建文件夹”创建一个名为“input”的文件夹

创建完成后,点击“input”文件夹名字进入到“input”文件夹,然后点击“上传对象”按钮弹出窗口(上传方式默认),点击“添加文件”将下载的“wordcount”(选择“Home”位置可看到下载的该文件)文件文档,点击“上传”到“input”文件夹中。


点击“返回上一级”,使用同样的方法,新建一个名为“jar”的文件夹,然后点击名称进入,并将“hadoop-mapreduce-examples-3.1.1-mrs-2.0.jar”上传到 jar 文件夹中


4.2.2 提交 mapreduce 作业,进行单词统计
切回浏览器的集群管理页面,选择“作业管理”

① 作业类型:MapReduce;
② 作业名称:MapReduce;
③ 执行程序路径:点击"OBS",选择“obs-xxxx”->“jar”->“hadoop-xxx”文件夹并确定;
④ 执行程序参数:wordcount;
数据输入路径:点击"OBS",选择“obs-xxxx”->“input”文件夹并确定;
数据输出路径:直接输入"/user/wordcount/";
说明:每个参数之间需要添加空格。
⑤ 日志路径:默认点击“确定”完成添加,等待程序执行成功


4.2.3 使用 hdfs 命令行客户端查询计算结果
在 MRS Manager 页面的地址栏,复制弹性 IP 地址

登录弹性公网 IP
ip 地址为弹性公网 Ip
用户名为 root
密码为自己设置的密码


至此,产品体验结束,实验完成。
3.遇到的问题
3.1 绑定公网 IP 后无法访问
在绑定公网 Ip 后还是无法打开 MRS 管理页面
解决方法:MRS 管理页面的端口为 9022,还需要在安全组放开对应端口号可以实现正常访问

3.2 本地无法直接下载 linux 指令文件
为了更好的完成产品体验并提交体验报告,除了在沙箱实验中体验实验外,我还进行了实际操作进行体验,但是有部分体验功能需要在 linux 服务器中进行
为了下载通过 linux 指令下载的文件,我通过在沙箱实验中的 linux 服务器将文件下载下来后,我通过邮箱的方式发送到我的本地电脑,再上传到 obs 桶
3.3 沙箱实验过程描述与现有流程部分不一致
在此次沙箱实验中,由于项目流程的优化迭代,部分操作流程与沙箱实验描述步骤不一致,我通过查询官方说明文档及时做了调整
4.建议
本次实验流程相对比较顺利,而且在官方文档还有视频说明,建议较少,已经做得很棒了
4.1 沙箱实验选取建议
本次是为了体验 MRS 服务,但是单词统计实验只让我们体验到了购买流程,MRS 的大部分功能没有得到展现,希望可以更进一步的介绍该平台的主要使用功能。
4.2 软件更新问题
由于改 MRS 功能集成项目很多,希望可以及时更新每一个组件,提高性能
评论