第 12 周作业
内容总结
作业(2 选 1)
在你所在的公司(行业、领域),正在用大数据处理哪些业务?可以用大数据实现哪些价值?
分析如下 HiveQL,生成的 MapReduce 执行程序,map 函数输入是什么?输出是什么,reduce 函数输入是什么?输出是什么?
复制代码
答第 2 题:
map 的输入是 Hive 表对应的文件读取内容的行号或偏移,以及行的内容;输出是:以 userid 为 key,值为表的标识+pageid 或 age(page_view 表为 pageid;user 表为 age)
reduce 的输入是:key 为 userid,表的标识+pageid 或 age(page_view 表为 pageid;user 表为 age);输出为 pageid 和 age
评论