写点什么

作业

用户头像
南宫煌
关注
发布于: 2020 年 09 月 02 日

分析如下 HiveQL,生成的 MapReduce 执行程序,map 函数输入是什么?输出是什么,reduce 函数输入是什么?输出是什么?

INSERT OVERWRITE TABLE pv_usersSELECT pv.pageid, u.ageFROM page_view pvJOIN user uON (pv.userid = u.userid);
复制代码

对每个表分别通过 Map 函数进行计算,生成以关联字段为 Key 的键值对,每个 Map 任务的计算结果写入到本地文件系统。然后,MapReduce 开始 Shuffle 过程,在 Map 任务进程调用一个 Patitioner 接口,对 Map 产生的键值对进行 Reduce 分区,将相同 Key 的键值对发送到同一个 Reduce 进程执行。最后,输出执行结果,即表连接后的结果集。

用户头像

南宫煌

关注

还未添加个人签名 2019.10.08 加入

还未添加个人简介

评论

发布
暂无评论
作业