架构师训练营第十二周”数据应用一“作业
Q:分析 MapReduce 输入输出
分析如下 HiveQL,生成的 MapReduce 执行程序,map 函数输入是什么?输出是什么,reduce 函数输入是什么?输出是什么?
复制代码
A1: 普通 Join
Map(假设有两个 Mapper,分别处理 page_view,user)
Mapper1 处理 page_view
复制代码
Mapper2 处理 user
复制代码
Reduce(假设只有一个 Reducer,汇总所有数据)
复制代码
最终输出:
复制代码
A2: MapJoin
复制代码
如果 page_view 数据量很小(单台机器可以加载到内存),将 page_view 加载分配到 mapper 直接 Join。
单个 Mapper 直接处理
复制代码
评论