【架构训练 Week12 作业 1】
作业一:
在你所在的公司(行业、领域),正在用大数据处理哪些业务?可以用大数据实现哪些价值?
公司主要是为中老年人,提供图文工具和社交应用App。
大约三年前是出于“数据仓库时代”,用大数据来分析和统计输出数据报告,例如用户画像、用户活跃度分析报告、用户创作内容报告等,这能够为产品优化和收入渠道提供辅助;
近两年主要是在“数据挖掘时代”,通过大数据技术分析用户阅读和创作等行为日志,为用户推荐文章,让用户可以很快地阅读到可能会很喜欢的文章,从而提高整站PV和阅读时长,进而对用户粘性和广告收入也有很大增长。
分析如下 HiveQL,生成的 MapReduce 执行程序,map 函数输入是什么?输出是什么,reduce 函数输入是什么?输出是什么?
此题目标是统计页面pageid与访客用户年龄的关系报告,根据sql和分析图,
map函数输入参数:用表中的
userid
作为参数key,value参数用两个字段表示,即表1(page_view)和表2(user)的关键字段{table1, pageid}
,{table2, age}
;map函数输出:经过嵌套两层遍历,外层为表1的参数,内层为表二的参数,经过和并和Shuffle得到输出参数key为userid,value为
{table, pageid}
和{table, age}
,总行数是表1和表2的总和。
reduce函数输入,用map的输出作为reduce函数的基础输入数据,
reduce函数输出,经过遍历与合并输入参数,最终输出key为pageid,value为age
版权声明: 本文为 InfoQ 作者【Rex】的原创文章。
原文链接:【http://xie.infoq.cn/article/20ae1cb1c9a5fcdd26be9e04f】。文章转载请联系作者。
评论