架构师训练营 第十二周 作业
作业:分析如下 HiveQL,生成的 MapReduce 执行程序,map 函数输入是什么?输出是什么,reduce 函数输入是什么?输出是什么?
map函数主要是对来自两个文件中的数据打标签,因此
输入参数为:
key:文件偏移量
value:文件中的每一行记录
输出参数为:
key:来自不同文件的标识,比如Page_view为1,user为2
value
page_view的value为<pageid,userid>的集合
user的value为<userid,age>的集合
reduce函数主要是对map的输出数据进行联结、过滤生成最终结果
输入参数为:
key:来自不同文件的标识,比如Page_view为1,user为2
value
page_view的value为<pageid,userid>的集合
user的value为<userid,age>的集合
输出参数为:
key:这里可以为任意值,或取page_view的标识,表示最终结果以该表为基础
value:两表关联后的结果<pageid,age>
版权声明: 本文为 InfoQ 作者【一雄】的原创文章。
原文链接:【http://xie.infoq.cn/article/ffd344e1e2ed65914596746aa】。
本文遵守【CC-BY 4.0】协议,转载请保留原文出处及本版权声明。
评论