架构入门感悟之十二
Questions
分析如下 HiveQL,生成的 MapReduce 执行程序,map 函数输入是什么?输出是什么,reduce 函数输入是什么?输出是什么?
复制代码
page_view 表和 user 表结构与数据示例如下
Map 函数的输入:表 pageview pageid,userid 每行的记录;表:userid , age 每行的记录;
Map 函数的输出:key 是 user_id,vaule 是 list<表的编号,pageid>;
Reduce 函数的输入:通过 Shuffle sort 将相同的 key,记录到同一个 reduce,然后作为 reduce 函数的输入
Reduce 函数的输出:通过 value,将相同表的编号,后面的 vaule 进行集成,最终形成 pageid、age
版权声明: 本文为 InfoQ 作者【莫问】的原创文章。
原文链接:【http://xie.infoq.cn/article/a86b30ed0e786875b3af11c32】。未经作者许可,禁止转载。
评论