「架构师训练营」作业:第 12 周
分析如下 HiveQL,生成的 MapReduce 执行程序,map 函数输入是什么?输出是什么,reduce 函数输入是什么?输出是什么?
Page_view 表和 user 表结构与数据示例如下:
Map 的输入:
Key
为Value
在文件的偏移量Value
为表的每一行
Map 的输出:
page_view Map
之后的输出:
Key
:userid
Value
:<表的编号,pageid>
user Map
之后的输出:
Key
:userid
Value
:<表的编号,age>
Reduce
的输入:
Map
输出的结果进行 Shuffle Sort
后,作为Reduce
的输入
userId, <表的编号,pageid>
userId, <表的编号,age>
Reduce
的输出:
pageid, age
评论