架构师训练营第十二周作业
第一题:
当前公司用大数据做数据分析
第二题
语句中,page_view & user 两表是通过 userid 关联进行 JOIN 操作的
page_view、user 关联的 map 函数,输入都是 行偏移量、行内容
page_view 关联的 map 函数,输出是
key: UserId value: <TableId, PageId>
111 <tableid_p 1>
111 <tableid_p, 2>
222 <tableid_p, 1>
user 关联的 map 函数,输出是
key: UserId value: <TableId, Age>
111 <tableid_u, 25>
222 <tableid_u, 32>
reduce 的输入,是以上两个表,按照 userid 进行排序、合并,输入为:
key: UserId value: <TableId, AgeOrPageId>
111 <tableid_u, 25>
111 <tableid_p, 1>
111 <tableid_p, 2>
和
key: UserId value: <TableId, AgeOrPageId>
222 <tableid_u, 32>
222 <tableid_p, 1>
输出是
pageid age
1 32
1 25
2 25
评论