写点什么

week12 作业

用户头像
追风
关注
发布于: 2020 年 12 月 13 日

作业 1

在你所在的公司(行业、领域),正在用大数据处理哪些业务?可以用大数据实现哪些价值?


我所在公司是物流行业,主要存储快递单,每天规模达上千万。

主要价值:

1、各维度统计相关报表

2、计算一些大客户的月结账单


作业 2

  • 分析如下 HiveQL,生成的 MapReduce 执行程序,map 函数输入是什么?输出是什么,reduce 函数输入是什么?输出是什么?


INSERT OVERWRITE TABLE pv_usersSELECT pv.pageid, u.ageFROM page_view pv   JOIN user u   ON (pv.userid = u.userid);
复制代码

page_view 表和 user 表结构与数据示例如下


MapReduce 的流程如下

第一张表

map 输入:行记录

map 输出:key :userId value:<表 1,pageId>


第二张表

map 输入:行记录

map 输出:key:userId value:<表 2,age>


shuffle sort: 相同 key 合并,然后根据 key 下发不同 reduce


reduce

第一个 reduce

输入 :key :userId value:<表 1,pageId>

输出:根据输入的 value,合并输出 <pageId,age>


第二个 reduce 一样


最终所有 reduce 进行数据合并

用户头像

追风

关注

还未添加个人签名 2018.01.08 加入

还未添加个人简介

评论

发布
暂无评论
week12作业