写点什么

架构师训练营第十二周作业

用户头像
听夜雨
关注
发布于: 2020 年 12 月 13 日

第一题:

当前公司用大数据做数据分析


第二题

语句中,page_view & user 两表是通过 userid 关联进行 JOIN 操作的

page_view、user 关联的 map 函数,输入都是 行偏移量、行内容

page_view 关联的 map 函数,输出是

key: UserId value: <TableId, PageId>

111 <tableid_p 1>

111 <tableid_p, 2>

222 <tableid_p, 1>


user 关联的 map 函数,输出是


key: UserId value: <TableId, Age>

111 <tableid_u, 25>

222 <tableid_u, 32>


reduce 的输入,是以上两个表,按照 userid 进行排序、合并,输入为:


key: UserId value: <TableId, AgeOrPageId>

111 <tableid_u, 25>

111 <tableid_p, 1>

111 <tableid_p, 2>

key: UserId value: <TableId, AgeOrPageId>

222 <tableid_u, 32>

222 <tableid_p, 1>


输出是

pageid age

1 32

1 25

2 25


用户头像

听夜雨

关注

还未添加个人签名 2020.08.19 加入

还未添加个人简介

评论

发布
暂无评论
架构师训练营第十二周作业