架构师训练营 第十二周作业
分析如下 HiveQL,生成的 MapReduce 执行程序,map 函数输入是什么?输出是什么,reduce 函数输入是什么?输出是什么?
复制代码
page_view 表和 user 表结构与数据示例如下
会针对两个表(page_view 和 user)做 map 操作
对于 page_view,
map 操作的输入 page_view 表的偏移量,和一个 split 中的每行数据内容
map 的输出 key 是 userid,value 是<表 page_view 的索引标识,pageid>
对于 user
map 输入是 user 表的偏移,和一个 split 中每行数据内容
map 数据 key 是 userid,value 是<表 user 的索引标识, age>
版权声明: 本文为 InfoQ 作者【文江】的原创文章。
原文链接:【http://xie.infoq.cn/article/2aeeb930da7ddac034b12e590】。未经作者许可,禁止转载。
评论