第十二周 数据应用一 作业 「架构师训练营 3 期」
一、在你所在的公司(行业、领域),正在用大数据处理哪些业务?可以用大数据实现哪些价值?
二、分析如下 HiveQL,生成的 MapReduce 执行程序,map 函数输入是什么?输出是什么,reduce 函数输入是什么?输出是什么?
复制代码
INSERT OVERWRITE TABLE pv_users
SELECT pv.pageid, u.age
FROM page_view pv
JOIN user u
ON (pv.userid = u.userid);
page_view 表和 user 表结构与数据示例如下
答(一):
公司主营为公交相关业务软件开发;正在用大数据处理公交信息发布、公交智能排班相关业务;可以使用大数据计算分析提供精准的公交预估到站时间和公交计划时刻智能优化(这块还在探索中),大概是可以实现发车时刻表的自动编排和异常提醒。
答(二):
map 输入 page_view 和 user 记录,map 输出 key 为 userid,value 为<来源表编号,pv.pageid 或 user.age>。
reduce 输入 key 和 map 输出的 key,value 列表,reduce 输出 key 为 pageid,value 为 age。
得到最终想要的数据。
评论