十二周作业
1、在你所在的公司(行业、领域),正在用大数据处理哪些业务?可以用大数据实现哪些价值?
1、处理日志数据,分析用户行为,建立用户画像
2、处理日志数据,优化产品功能,提供用户转化率
3、处理业务数据,分析业务数据,提供 BI 报表给高层做决策支撑
4、处理用户上传图片数据以及信息,对用户上传图片和信息进行风险审核
2、分析如下 HiveQL,生成的 MapReduce 执行程序,map 函数输入是什么?输出是什么,reduce 函数输入是什么?输出是什么?
page_view 表和 user 表结构与数据示例如下
复制代码
对上面 SQL 的分析,生成的 MapReduce 执行程序,根据两种表分别生成 page_view 的 map 程序、user 表的 map 程序。
map 输入:
pag_view 表的 map 的输入:(key->(pag_view 表编码、行偏移量),value->(pageid,userid,time)page_view 表的一行数据)
user 表的 map 的输入:(key->(user 表编码、行偏移量),value->(userid,age,gender)user 表的一行数据)
map 输出:
pag_view 表 map 输出:(key->userId,value->(page_view 表编号,pageid))
user 表 map 输出:(key->userId,value->(user 表编号,age))
reduce 输入:
reduce 输入即是 map 阶段的输出:(key->userId,value->(表编号,pageid/age))
reduce 输出:
根据输入 key 的 userid 与 value 的表编号拉平数据输出(pageid,age)
评论