写点什么

第十二周 作业 1

用户头像
Yangjing
关注
发布于: 2020 年 12 月 13 日
  1. 在你所在的公司(行业、领域),正在用大数据处理哪些业务?可以用大数据实现哪些价值?

  • 会员画像。离线的大数据计算,每天通过用户订单、用户行为、运营数据计算用户的消费特性,为顾客画像打标签。然后根据标签来筛选用户,作精准消息的推送和营销。

  • 日志分析预警。通过 storm 实时计算线上日志,对应用错误进行报警提示。

  • 车牌识别。开源的机器学习,根据车辆的入场图片,得到用户的车牌信息,进行线上缴费。


  1. 分析如下 HiveQL,生成的 MapReduce 执行程序,map 函数输入是什么?输出是什么?reduce 函数输入是什么?输出是什么?

INSERT OVERWRITE TABLE pv_usersSELECT pv.pageid, u.ageFROM page_view pv   JOIN user u   ON (pv.userid = u.userid);
复制代码

因为要把 userid 的 page_view 和 age 数据作合并,reduce 需要按 userid 合并。

所以 map 函数的输入是两张表的行记录,它们的内容是不同的 ,map 函数的输出 key 是 userid, value 是表名、 pageid 或 age 的二元组。

经过 Shuffle,相同 key 发送到相同 reduce 进行处理。

reduce 函数的输入 key 是 map 函数的输出(但是相同的 key 是在一个 reduce 进行处理),reduce 的输出是第一张表的每个记录与第二张表的连接进行输出。


发布于: 2020 年 12 月 13 日阅读数: 16
用户头像

Yangjing

关注

还未添加个人签名 2017.11.09 加入

还未添加个人简介

评论

发布
暂无评论
第十二周 作业1