写点什么

第十二周课后练习

用户头像
落朽
关注
发布于: 2021 年 01 月 10 日

1、在你所在的公司(行业、领域),正在用大数据处理哪些业务?可以用大数据实现哪些价值?

公司在做物流园,监控所有的车辆进出园,做一些排队叫号站台占用等一些功能。最近要做货车人三方匹配的工作,不过暂时的想法,具体还没有实施。具体现在是采集数据阶段,还没有想到很好的应用场景。

2、分析如下 HiveQL,生成的 MapReduce 执行程序,map 函数输入是什么?输出是什么,reduce 函数输入是什么?输出是什么?

复制代码

INSERT OVERWRITE TABLE pv_usersSELECT pv.pageid, u.ageFROM page_view pv   JOIN user u   ON (pv.userid = u.userid);
复制代码

page_view 表和 user 表结构与数据示例如下


mapreduce 的具体流程如下:


map 流程:

第一张表:

key 是 userId

value 是<表 id,pageId>

第二张表:

key 是 userId

value 是<表 id,age>

Shuffle Sort:分组,key 相同为一组,这样 value 值就会有 age。

reduce 流程:

处理 map 的数据,最终结果的是<pageId,age>


用户头像

落朽

关注

还未添加个人签名 2018.03.26 加入

还未添加个人简介

评论

发布
暂无评论
第十二周课后练习