写点什么

架构师训练营 第十二周作业

用户头像
文江
关注
发布于: 2021 年 01 月 09 日
  • 分析如下 HiveQL,生成的 MapReduce 执行程序,map 函数输入是什么?输出是什么,reduce 函数输入是什么?输出是什么?

INSERT OVERWRITE TABLE pv_usersSELECT pv.pageid, u.ageFROM page_view pv   JOIN user u   ON (pv.userid = u.userid);
复制代码

page_view 表和 user 表结构与数据示例如下



会针对两个表(page_view 和 user)做 map 操作

  1. 对于 page_view,

  2. map 操作的输入 page_view 表的偏移量,和一个 split 中的每行数据内容

  3. map 的输出 key 是 userid,value 是<表 page_view 的索引标识,pageid>

  4. 对于 user

  5. map 输入是 user 表的偏移,和一个 split 中每行数据内容

  6. map 数据 key 是 userid,value 是<表 user 的索引标识, age>


发布于: 2021 年 01 月 09 日阅读数: 13
用户头像

文江

关注

还未添加个人签名 2020.04.02 加入

还未添加个人简介

评论

发布
暂无评论
架构师训练营 第十二周作业