第十二周命题作业
1.在你所在的公司(行业、领域),正在用大数据处理哪些业务?可以用大数据实现哪些价值?
目前应用最多的是 BI 场景
2.分析如下 HiveQL,生成的 MapReduce 执行程序,map 函数输入是什么?输出是什么,reduce 函数输入是什么?输出是什么?
INSERT OVERWRITE TABLE pv_users
SELECT pv.pageid, u.age
FROM page_view pv
JOIN user u
ON (pv.userid = u.userid);
page_view 表和 user 表结构与数据示例如下
Map 函数的输入是:userid
Map 函数的输出是:
111 <page_view,1>
111 <page_view,2>
222 <page_view,1>
111 <user,25>
222 <user,32>
reduce 函数的输入是:
111 <page_view,1>
111 <page_view,2>
111 <user,25>
222 <page_view,1>
222 <user,32>
reduce 函数的输出是:
<1,25>
<2,25>
<1,32>
评论