week 12 作业
在你所在的公司(行业、领域),正在用大数据处理哪些业务?可以用大数据实现哪些价值?
收集推荐日志,日志转换成特征用来训练模型。价值主要是体现在维持模型迭代吧。
INSERT OVERWRITE TABLE pv_users
SELECT pv.pageid, u.age
FROM page_view pv
JOIN user u
ON (pv.userid = u.userid);
job1 连接查询:
map :
page_view表的:page_view 每行数据 输出:(userid, pageid) 最后输出不包括time,可以在map时过滤掉
user表的:user表每行记录 输出: (userid, age) gender可以过滤调不输出
reduce :
输入:page_view / user表的记录
输出 (page_view.pageid, user.age)
job2 insert:
map:
输入:链接查询的结果
输出:写入pv_users表对应的存储文件
reduce:
不需要reduce
评论