写点什么

架构入门感悟之十二

用户头像
莫问
关注
发布于: 2021 年 01 月 10 日

Questions

  • 分析如下 HiveQL,生成的 MapReduce 执行程序,map 函数输入是什么?输出是什么,reduce 函数输入是什么?输出是什么?

INSERT OVERWRITE TABLE pv_usersSELECT pv.pageid, u.ageFROM page_view pv     JOIN user u   ON (pv.userid = u.userid);
复制代码

page_view 表和 user 表结构与数据示例如下

Map 函数的输入:表 pageview pageid,userid 每行的记录;表:userid , age 每行的记录;

Map 函数的输出:key 是 user_id,vaule 是 list<表的编号,pageid>;

Reduce 函数的输入:通过 Shuffle sort 将相同的 key,记录到同一个 reduce,然后作为 reduce 函数的输入

Reduce 函数的输出:通过 value,将相同表的编号,后面的 vaule 进行集成,最终形成 pageid、age


发布于: 2021 年 01 月 10 日阅读数: 11
用户头像

莫问

关注

站在现在看未来,站在未来看现在 2019.11.20 加入

居安思危,先忧后乐

评论

发布
暂无评论
架构入门感悟之十二