架构师训练营第 12 周课后练习
分析如下 HiveQL,生成的 MapReduce 执行程序,map 函数输入是什么?输出是什么,reduce 函数输入是什么?输出是什么?
复制代码
map 函数输入
key: 文件偏移量
value: page_view / user 的一行数据
map 函数输出
key: userid
value:
page_view: <1, pageid>
user: <2, age>
reduce 函数输入
key: userid
values: 属于同样 userid 的<1, pageid> / <2, age>列表
reduce 函数输出
最终 join 的结果 <pageid, age>
评论