写点什么

架构师训练营第 1 期 - 第十二周作业

用户头像
Todd-Lee
关注
发布于: 2020 年 12 月 12 日

作业一:

(至少完成一个)

  • 在你所在的公司(行业、领域),正在用大数据处理哪些业务?可以用大数据实现哪些价值?


目前我们公司并未使用这个技术,整个这个技术对公司来讲都是一片空白.

希望通过目前的学习找到思路和想法.


  • 分析如下 HiveQL,生成的 MapReduce 执行程序,map 函数输入是什么?输出是什么,reduce 函数输入是什么?输出是什么?

复制代码

INSERT OVERWRITE TABLE pv_users SELECT pv.pageid, u.ageFROM page_view pv   	JOIN user u      ON (pv.userid = u.userid);
复制代码

page_view 表和 user 表结构与数据示例如下


map 函数的输入是: 两张表的数据

输出是: 以 userid 为 key, 以表名和其他值作为 value 的键值对

经过 shuffle sort 后, 相同的 key 就包含了同一个用户的, 不同界面的 pv 记录.

这个也就是 reduce 函数的输入,

输出是: userid 为 key, pageid 和 age 值的键值对.


用户头像

Todd-Lee

关注

还未添加个人签名 2017.10.17 加入

还未添加个人简介

评论

发布
暂无评论
架构师训练营第 1 期 - 第十二周作业