写点什么

架构师 01 期,第十二周课后作业

用户头像
子文
关注
发布于: 2020 年 12 月 13 日

作业一:

(至少完成一个)

  • 在你所在的公司(行业、领域),正在用大数据处理哪些业务?可以用大数据实现哪些价值?

  • 分析如下 HiveQL,生成的 MapReduce 执行程序,map 函数输入是什么?输出是什么,reduce 函数输入是什么?输出是什么?

INSERT OVERWRITE TABLE pv_users
SELECT pv.pageid, u.age
FROM page_view pv
JOIN user u
ON (pv.userid = u.userid);



page_view 表和 user 表结构与数据示例如下





一、我所在的行业为保险行业,我公司大数据方面的技术主要用在业务数据核对,客户挖掘等方面,目前保险行业主要可以分为三大方面:客户细分及精细化营销、欺诈行为分析和精细化运营。客户细分及精细化营销包括客户细分和差异化服务、潜在客户挖掘及流失用户预测、客户关联销售、客户精准营销。常见的预测和分析欺诈、等非法行为包括医疗保险欺诈与滥用分析以及 车险欺诈分析等。精细化运营包括产品优化、运营分析、代理人(保险销售人员)甄选等



二、

map函数输入的是两张表每行数据,假设page_view为表1,user为表2。

表pageview的map输出的是uid,<1, pageid>,其中1为pageview的标记。具体结果就是:

111, <1, 1>

111, <1, 2>

222, <1, 1>

表user输出的是uid,<2, age>,其中2为user的标记。reduce输出的是uid,输出的是pageid, age。具体结果就是:

111, <2, 25>

222, <2, 32>

然后再进行shuffle sort之后,Reduce的输入为:

111, <1, 1>

111, <1, 2>

111, <2, 25>

222, <1, 1>

222, <2, 32>

最后Reduce的输出为:

1, 25

2, 25

1, 32



用户头像

子文

关注

233 2018.04.03 加入

233

评论

发布
暂无评论
架构师 01 期,第十二周课后作业