大数据平台架构作业
Author:Jessie
1. 在你所在的公司(行业、领域),正在用大数据处理哪些业务?可以用大数据实现哪些价值?
我们将大数据应用在电视大屏和电信运营商的用户数据采集、清洗、建模、分析和处理。通过大数据实现机顶盒大屏电视收视分析、订购分析、网络质量和用户发展等多维度的分析;并通过用户画像、推荐做增值业务的推荐拓展,完成行业的智能化、数据驱动运营。
分析如下HiveQL,生成的 MapReduce 执行程序,map 函数输入是什么?输出是什么,reduce 函数输入是什么?输出是什么?
Page_view 表和 user 表结构与数据示例如下:
解析:
Map输入key:数据偏移量,忽略;value:两张表(文件)的每行数据。
Map 输出:key:userid, value:表标识,pageid;
Key:userid,value:表标识,age
如图:
经过shuffle,reduce拿到相同key的列表。
Reduce输入:key:userid,对应key的value
输出:将相同key的value进行表1、表2合并join,<pageid,age>
对应本例:userid 111,输出pageid,age,分别为<1,25><2,25>;
Userid 222 ,输出pageid,age,分别为<1,32>
如图:
版权声明: 本文为 InfoQ 作者【架构5班杨娟Jessie】的原创文章。
原文链接:【http://xie.infoq.cn/article/b0fedc78500bf02f465f7ec63】。文章转载请联系作者。
评论