写点什么

大数据平台架构作业

发布于: 2020 年 09 月 03 日

Author:Jessie



1. 在你所在的公司(行业、领域),正在用大数据处理哪些业务?可以用大数据实现哪些价值?

        

我们将大数据应用在电视大屏和电信运营商的用户数据采集、清洗、建模、分析和处理。通过大数据实现机顶盒大屏电视收视分析、订购分析、网络质量和用户发展等多维度的分析;并通过用户画像、推荐做增值业务的推荐拓展,完成行业的智能化、数据驱动运营。



  1. 分析如下HiveQL,生成的 MapReduce 执行程序,map 函数输入是什么?输出是什么,reduce 函数输入是什么?输出是什么?

INSERT OVERWRITE TABLE pv_users
SELECT pv.pageid, u.age
FROM page_view pv
JOIN user u
ON (pv.userid = u.userid);



Page_view 表和 user 表结构与数据示例如下:





解析:



Map输入key:数据偏移量,忽略;value:两张表(文件)的每行数据。

Map 输出:key:userid, value:表标识,pageid;     

          Key:userid,value:表标识,age

       如图:





经过shuffle,reduce拿到相同key的列表。

Reduce输入:key:userid,对应key的value

      输出:将相同key的value进行表1、表2合并join,<pageid,age>

      对应本例:userid 111,输出pageid,age,分别为<1,25><2,25>;

                 Userid 222 ,输出pageid,age,分别为<1,32>

如图:

 



发布于: 2020 年 09 月 03 日阅读数: 73
用户头像

还未添加个人签名 2018.08.21 加入

码过代码、做过产品;擅长码字、演讲、认真做事之人。

评论

发布
暂无评论
大数据平台架构作业