写点什么

架构作业 -- 大数据

用户头像
Nick~毓
关注
发布于: 2020 年 12 月 09 日
  • 分析如下 HiveQL,生成的 MapReduce 执行程序,map 函数输入是什么?输出是什么,reduce 函数输入是什么?输出是什么?

复制代码

INSERT OVERWRITE TABLE pv_usersSELECT pv.pageid, u.ageFROM page_view pv JOIN user u ON (pv.userid = u.userid);

page_view 表和 user 表结构与数据示例如下



Q:执行过程如下:



Map函数的输入:表 page_view pageid,userid 每行的记录;表:user_id , age 每行的记录;

Map函数的输出:key 是 user_id,vaule是list<表的编号,pageid>;

Reduce函数的输入:通过Shuffle sort 将相同的key,记录到同一个reduce,然后作为reduce函数的输入

Reduce函数的输出:通过value,将相同表的编号,后面的vaule进行集成,最终形成pageid、age

用户头像

Nick~毓

关注

还未添加个人签名 2018.05.09 加入

还未添加个人简介

评论

发布
暂无评论
架构作业--大数据