week12 作业
作业 1
在你所在的公司(行业、领域),正在用大数据处理哪些业务?可以用大数据实现哪些价值?
我所在公司是物流行业,主要存储快递单,每天规模达上千万。
主要价值:
1、各维度统计相关报表
2、计算一些大客户的月结账单
作业 2
分析如下 HiveQL,生成的 MapReduce 执行程序,map 函数输入是什么?输出是什么,reduce 函数输入是什么?输出是什么?
复制代码
page_view 表和 user 表结构与数据示例如下
MapReduce 的流程如下
第一张表
map 输入:行记录
map 输出:key :userId value:<表 1,pageId>
第二张表
map 输入:行记录
map 输出:key:userId value:<表 2,age>
shuffle sort: 相同 key 合并,然后根据 key 下发不同 reduce
reduce
第一个 reduce
输入 :key :userId value:<表 1,pageId>
输出:根据输入的 value,合并输出 <pageId,age>
第二个 reduce 一样
最终所有 reduce 进行数据合并
评论