第十二周 作业 1
在你所在的公司(行业、领域),正在用大数据处理哪些业务?可以用大数据实现哪些价值?
会员画像。离线的大数据计算,每天通过用户订单、用户行为、运营数据计算用户的消费特性,为顾客画像打标签。然后根据标签来筛选用户,作精准消息的推送和营销。
日志分析预警。通过 storm 实时计算线上日志,对应用错误进行报警提示。
车牌识别。开源的机器学习,根据车辆的入场图片,得到用户的车牌信息,进行线上缴费。
分析如下 HiveQL,生成的 MapReduce 执行程序,map 函数输入是什么?输出是什么?reduce 函数输入是什么?输出是什么?
复制代码
因为要把 userid 的 page_view 和 age 数据作合并,reduce 需要按 userid 合并。
所以 map 函数的输入是两张表的行记录,它们的内容是不同的 ,map 函数的输出 key 是 userid, value 是表名、 pageid 或 age 的二元组。
经过 Shuffle,相同 key 发送到相同 reduce 进行处理。
reduce 函数的输入 key 是 map 函数的输出(但是相同的 key 是在一个 reduce 进行处理),reduce 的输出是第一张表的每个记录与第二张表的连接进行输出。
版权声明: 本文为 InfoQ 作者【Yangjing】的原创文章。
原文链接:【http://xie.infoq.cn/article/c63bee8b6749004ca3b637682】。文章转载请联系作者。
评论