架构师训练营第一期 - 第十二周课后作业
分析如下 HiveQL,生成的 MapReduce 执行程序,map 函数输入是什么?输出是什么,reduce 函数输入是什么?输出是什么?
INSERT OVERWRITE TABLE pv_users
SELECT pv.pageid, u.age
FROM page_view pv
JOIN user u
ON (pv.userid = u.userid);
map输入:key:表记录行在数据文件中的偏移位置,value:表记录行的数据
map输出:key:userid, value:<表名,pv.pageid/u.age>
reduce输入:key:userid, value:list(<表名,pv.pageid/u.age>)
reduce输出:value:<pageid, age>
评论