写点什么

架构一期第十二周作业

用户头像
Airs
关注
发布于: 2020 年 12 月 17 日

作业一:

(至少完成一个)

  • 在你所在的公司(行业、领域),正在用大数据处理哪些业务?可以用大数据实现哪些价值?

  • 正在使用大数据进行应用日志分析

  • 大数据对用户进行客户画像生成

  • 大数据进行人像,人脸识别

  • 分析如下 HiveQL,生成的 MapReduce 执行程序,map 函数输入是什么?输出是什么,reduce 函数输入是什么?输出是什么?

INSERT OVERWRITE TABLE pv_usersSELECT pv.pageid, u.ageFROM page_view pv JOIN user u ON (pv.userid = u.userid);

page_view 表和 user 表结构与数据示例如下



map输入:偏移量为key,表编号1与userid组成的数组;偏移量为key,表编号1与time组成的数组;偏移量为key,表编号2与age组成的数组;偏移量为key,表编号2与gender组成的数组。

map输出:以userid为key,表编号1与pageid字段值组成的数组;以userid为key,表编号2与age字段值组成的数组;以userid为key,表编号1与time字段值组成的数组;表编号2与gender字段值组成的数组

reduce输入:map的输出根据userid聚合后,变成key为userid,value为相同userid下map输出中的所有值的聚合

reduce输出:将reduce输入中的值进行连接,key为表编号,value为输入中表编号对应的值



作业二:

  • 根据当周学习情况,完成一篇学习总结



发布于: 2020 年 12 月 17 日阅读数: 16
用户头像

Airs

关注

Emmmmmmm 2018.02.28 加入

Emmmmmmm

评论

发布
暂无评论
架构一期第十二周作业