写点什么

【第十二周】课后作业

用户头像
云龙
关注
发布于: 2020 年 12 月 12 日

分析如下 HiveQL,生成的 MapReduce 执行程序,map 函数输入是什么?输出是什么,reduce 函数输入是什么?输出是什么?

INSERT OVERWRITE TABLE pv_usersSELECT pv.pageid, u.ageFROM page_view pv   JOIN user u   ON (pv.userid = u.userid);
复制代码

page_view 表和 user 表结构与数据示例如下



  • map 函数

  • 对于 page_view 的 map 函数

  • 输入为 page_view 的每行数据

  • 输出为 key:userid value: <表编号, pageid>

  • 对于 user 的 map 函数

  • 输入为 user 的每行数据

  • 输出为 key:userid value: <表编号, age>

  • reduce 函数

  • 输入为 map 函数计算结果经过 shuffle sort 后的 key: userid value_list: [<表编号, pageid or age>]

  • 输出为 userid: <pageid, age>


用户头像

云龙

关注

还未添加个人签名 2018.03.30 加入

还未添加个人简介

评论

发布
暂无评论
【第十二周】课后作业