写点什么

构师训练营 - 第十二周课后练习

用户头像
joshuamai
关注
发布于: 2021 年 01 月 10 日
  • 在你所在的公司(行业、领域),正在用大数据处理哪些业务?可以用大数据实现哪些价值?

大数据离线批量,用于上下游系统传输数据和生成各种产品业务报表和监控报表等。


  • 分析如下 HiveQL,生成的 MapReduce 执行程序,map 函数输入是什么?输出是什么,reduce 函数输入是什么?输出是什么?

复制代码

INSERT OVERWRITE TABLE pv_usersSELECT pv.pageid, u.ageFROM page_view pvJOIN user uON (pv.userid = u.userid);
复制代码

Map 函数的输入是两张表中的每行数据。

Map 函数的输出一个 key- value 对,其中 key 是两表关联字段 userid;value 是个二元组,第一项是来源表编号,第二项是这个表提供的字段,page_view 表提供 pageid, user 表提供 age。

Rduce 函数的输入是 Map 函数输出的 key-value 对经过 shuffle 处理之后的相同 key 的 value 列表。

Reduce 函数的输出就是 pv_users 表,其中字段是 pageid 和 age。


用户头像

joshuamai

关注

还未添加个人签名 2019.05.21 加入

还未添加个人简介

评论

发布
暂无评论
构师训练营 - 第十二周课后练习