week_012 作业
1.在你所在的公司(行业、领域),正在用大数据处理哪些业务?可以用大数据实现哪些价值?
答:我目前所处的行业是物业服务板块。在这个板块,目前就我们集团来说,并没有投入太多的研发力量在其中。不过用大数据确实可以产生比较大的价值。就我目前的了解来说,这个板块对于大数据的研究是有的,主要还是用在那些车位管理啊,灯光控制之类的地方。好像从来没有起到像头条推荐算法那么大的价值,这其实是有很大的改进空间的。
毕竟对于企业来说,最大的价值就在于产品能更好地服务用户,提高用户对于公司产品的依赖性。但太多公司搞大数据只是为了搞一个噱头。
2.分析如下 HiveQL,生成的 MapReduce 执行程序,map 函数输入是什么?输出是什么,reduce 函数输入是什么?输出是什么?
Page_view 表和 user 表结构与数据示例如下:
答:
第一步:分为1,2两张表进行Map,
第一张表的所有行作为输入,输出为<userid,<表编号,pageid>>
第二张表的所有行作为输入,输出为<userid,<表编号,age>>
第二步:进行shuffle,将Key相同的值传输到同一个reduce进程所在机器上。
第三步:进行两次循环,将不同表,相同userid的值进行合并操作,输出为<pageid,age>
评论