【第十二周】命题作业——大数据
在你所在的公司(行业、领域),正在用大数据处理哪些业务?可以用大数据实现哪些价值?
答:银行风控,机器学习,用户画像,数据中台。
分析如下 HiveQL,生成的 MapReduce 执行程序,map 函数输入是什么?输出是什么,reduce 函数输入是什么?输出是什么?
答:
map 函数
输入:key偏移量,value(一行文本,内容:<userId, pageId>或者<userId, age>)
pv表<userId, pageId>
111, 1
111, 2
222, 1
u表<userId, age>
111, 25
222, 25
输出:key(userId),value(<pv, pageId>或者<u, age>)
111, <pv, 1>
111, <pv, 2>
222, <pv, 1>
111, <u, 25>
222, <u, 32>
reduce 函数
输入:key(userId),values(<pv, pageId>和<u, age>的集合)
111, <pv, 1>,<pv, 2>,<u, 25>
222, <pv, 1>,<u, 32>
输出:<pageId, age>
1,25
2,25
1,32
评论