week_012 作业

用户头像
徐培
关注
发布于: 2020 年 09 月 02 日

1.在你所在的公司(行业、领域),正在用大数据处理哪些业务?可以用大数据实现哪些价值?

答:我目前所处的行业是物业服务板块。在这个板块,目前就我们集团来说,并没有投入太多的研发力量在其中。不过用大数据确实可以产生比较大的价值。就我目前的了解来说,这个板块对于大数据的研究是有的,主要还是用在那些车位管理啊,灯光控制之类的地方。好像从来没有起到像头条推荐算法那么大的价值,这其实是有很大的改进空间的。

毕竟对于企业来说,最大的价值就在于产品能更好地服务用户,提高用户对于公司产品的依赖性。但太多公司搞大数据只是为了搞一个噱头。

2.分析如下 HiveQL,生成的 MapReduce 执行程序,map 函数输入是什么?输出是什么,reduce 函数输入是什么?输出是什么?

INSERT OVERWRITE TABLE pv_usersSELECT pv.pageid, u.ageFROM page_view pvJOIN user uON (pv.userid = u.userid);

Page_view 表和 user 表结构与数据示例如下:



答:

第一步:分为1,2两张表进行Map,

第一张表的所有行作为输入,输出为<userid,<表编号,pageid>>

第二张表的所有行作为输入,输出为<userid,<表编号,age>>

第二步:进行shuffle,将Key相同的值传输到同一个reduce进程所在机器上。

第三步:进行两次循环,将不同表,相同userid的值进行合并操作,输出为<pageid,age>



用户头像

徐培

关注

还未添加个人签名 2018.10.31 加入

还未添加个人简介

评论

发布
暂无评论
week_012 作业