写点什么

第 12 周作业

用户头像
paul
关注
发布于: 2020 年 12 月 14 日

内容总结

作业(2 选 1)

  1. 在你所在的公司(行业、领域),正在用大数据处理哪些业务?可以用大数据实现哪些价值?

  2. 分析如下 HiveQL,生成的 MapReduce 执行程序,map 函数输入是什么?输出是什么,reduce 函数输入是什么?输出是什么?

INSERT OVERWRITE TABLE pv_usersSELECT pv.pageid, u.age FROM page_view pv JOIN user u ON (pv.userid = u.userid);
复制代码

答第 2 题:

map 的输入是 Hive 表对应的文件读取内容的行号或偏移,以及行的内容;输出是:以 userid 为 key,值为表的标识+pageid 或 age(page_view 表为 pageid;user 表为 age)

reduce 的输入是:key 为 userid,表的标识+pageid 或 age(page_view 表为 pageid;user 表为 age);输出为 pageid 和 age

用户头像

paul

关注

还未添加个人签名 2018.08.22 加入

还未添加个人简介

评论

发布
暂无评论
第12周作业