写点什么

架构师训练营 第十二周 作业

用户头像
一雄
关注
发布于: 2020 年 09 月 01 日

作业:分析如下 HiveQL,生成的 MapReduce 执行程序,map 函数输入是什么?输出是什么,reduce 函数输入是什么?输出是什么?

  • map函数主要是对来自两个文件中的数据打标签,因此

  • 输入参数为:

  • key:文件偏移量

  • value:文件中的每一行记录

  • 输出参数为:

  • key:来自不同文件的标识,比如Page_view为1,user为2

  • value

  • page_view的value为<pageid,userid>的集合

  • user的value为<userid,age>的集合

  • reduce函数主要是对map的输出数据进行联结、过滤生成最终结果

  • 输入参数为:

  • key:来自不同文件的标识,比如Page_view为1,user为2

  • value

  • page_view的value为<pageid,userid>的集合

  • user的value为<userid,age>的集合

  • 输出参数为:

  • key:这里可以为任意值,或取page_view的标识,表示最终结果以该表为基础

  • value:两表关联后的结果<pageid,age>



发布于: 2020 年 09 月 01 日阅读数: 46
用户头像

一雄

关注

还未添加个人签名 2020.03.05 加入

还未添加个人简介

评论

发布
暂无评论
架构师训练营 第十二周 作业