写点什么

架构师训练营第 1 期 -- 第十二周作业

发布于: 2020 年 12 月 13 日

分析如下 HiveQL,生成的 MapReduce 执行程序,map 函数输入是什么?输出是什么,reduce 函数输入是什么?输出是什么?

INSERT OVERWRITE TABLE pv_usersSELECT pv.pageid, u.ageFROM page_view pv   JOIN user u   ON (pv.userid = u.userid);
复制代码

page_view 表和 user 表结构与数据示例如下


Map:

输入:即为每个表每行的数据

输出:key: userid

value: 二元组 <表,value>,其中 page_view 表的 value 为 pageid,user 表为 age

Reduce:

经过 Shuffle 后,相同的 key 会进入到相同的 reducer

输入:map 的输出

输出: pageid, age


用户头像

还未添加个人签名 2019.03.19 加入

还未添加个人简介

评论

发布
暂无评论
架构师训练营第 1 期 -- 第十二周作业