写点什么

架构师训练营第十二周课后作业

用户头像
Gosling
关注
发布于: 2020 年 12 月 13 日
1.在你所在的公司(行业、领域),正在用大数据处理哪些业务?可以用大数据实现哪些价值?

目前所在领域主要使用大数据对物联网设备的测量数据进行分析,主要处理设备的运行监控数据和故障报警数据。

基于这些数据可以实现的价值

1)设备运行数据概况分析:通过对海量接入设备进行数据分析和统计,发现设备运行的指标和环境之间的关系,找出影响指标的关键因素;

2)设备故障分析:通过结合故障报警和监控数据,发现设备故障是否由一些操作不当或发现潜在的产品设计缺陷导致的故障;

3)故障预测:根据收集到的海量数据,对故障进行分类建模,找到一个故障时序模型,从而对故障进行提前预警处理,减少设备故障停机带来的损失。

2.分析如下 HiveQL,生成的 MapReduce 执行程序,map 函数输入是什么?输出是什么,reduce 函数输入是什么?输出是什么?
INSERT OVERWRITE TABLE pv_usersSELECT pv.pageid, u.ageFROM page_view pv   JOIN user u   ON (pv.userid = u.userid);
复制代码

page_view 表和 user 表结构与数据示例如下


根据分析 SQL 语句,得出这是一个联表操作,把用户点击 page 的信息和用户主信息(年龄)进行匹配。从而找出查看某个页面的用户的年龄情况。

map 函数的输入分别是两张表的每一行数据,map 的输出是把联表条件的 userid 作为 key,原始表编号和对应的两张表要取值的数据进行获取,即<表编号,数据项 1,2,3>这样的 N 元组。

然后经过 shuffle 后,把相同的 key 放到一个 reduce 中进行处理。

reduce 函数的输入就是经过 key 归并后的 map 输出,reduce 的输出就是把每一个 value 按照表编号的不同,进行笛卡尔积计算,把数据项进行合并输出。

用户头像

Gosling

关注

这个家伙很懒,只留下这一句话 2017.10.28 加入

还未添加个人简介

评论

发布
暂无评论
架构师训练营第十二周课后作业