写点什么

十二周作业

用户头像
水浴清风
关注
发布于: 2021 年 01 月 10 日

1、在你所在的公司(行业、领域),正在用大数据处理哪些业务?可以用大数据实现哪些价值?

1、处理日志数据,分析用户行为,建立用户画像

2、处理日志数据,优化产品功能,提供用户转化率

3、处理业务数据,分析业务数据,提供 BI 报表给高层做决策支撑

4、处理用户上传图片数据以及信息,对用户上传图片和信息进行风险审核


2、分析如下 HiveQL,生成的 MapReduce 执行程序,map 函数输入是什么?输出是什么,reduce 函数输入是什么?输出是什么?

page_view 表和 user 表结构与数据示例如下


INSERT OVERWRITE TABLE pv_users;SELECT pv.pageid, u.age FROM page_view pv JOIN user u ON (pv.userid = u.userid);
复制代码

对上面 SQL 的分析,生成的 MapReduce 执行程序,根据两种表分别生成 page_view 的 map 程序、user 表的 map 程序。


map 输入:

pag_view 表的 map 的输入:(key->(pag_view 表编码、行偏移量),value->(pageid,userid,time)page_view 表的一行数据)

user 表的 map 的输入:(key->(user 表编码、行偏移量),value->(userid,age,gender)user 表的一行数据)

map 输出:

pag_view 表 map 输出:(key->userId,value->(page_view 表编号,pageid))

user 表 map 输出:(key->userId,value->(user 表编号,age))

reduce 输入:

reduce 输入即是 map 阶段的输出:(key->userId,value->(表编号,pageid/age))

reduce 输出:

根据输入 key 的 userid 与 value 的表编号拉平数据输出(pageid,age)


用户头像

水浴清风

关注

还未添加个人签名 2018.05.16 加入

还未添加个人简介

评论

发布
暂无评论
十二周作业