写点什么

【第十二周】命题作业——大数据

用户头像
三尾鱼
关注
发布于: 2020 年 09 月 03 日
  • 在你所在的公司(行业、领域),正在用大数据处理哪些业务?可以用大数据实现哪些价值?

答:银行风控,机器学习,用户画像,数据中台。



  • 分析如下 HiveQL,生成的 MapReduce 执行程序,map 函数输入是什么?输出是什么,reduce 函数输入是什么?输出是什么?

INSERT OVERWRITE TABLE pv_users
SELECT pv.pageid, u.age
FROM page_view pv
JOIN user u
ON (pv.userid = u.userid);





答:

map 函数

输入:key偏移量,value(一行文本,内容:<userId, pageId>或者<userId, age>)

pv表<userId, pageId>

111, 1

111, 2

222, 1



u表<userId, age>

111, 25

222, 25



输出:key(userId),value(<pv, pageId>或者<u, age>)

111, <pv, 1>

111, <pv, 2>

222, <pv, 1>

111, <u, 25>

222, <u, 32>



reduce 函数

输入:key(userId),values(<pv, pageId>和<u, age>的集合)

111, <pv, 1>,<pv, 2>,<u, 25>

222, <pv, 1>,<u, 32>



输出:<pageId, age>

1,25

2,25

1,32



用户头像

三尾鱼

关注

还未添加个人签名 2018.07.10 加入

还未添加个人简介

评论

发布
暂无评论
【第十二周】命题作业——大数据