写点什么

【架构训练 Week12 作业 1】

用户头像
Rex
关注
发布于: 2020 年 09 月 03 日

作业一:

在你所在的公司(行业、领域),正在用大数据处理哪些业务?可以用大数据实现哪些价值?

  • 公司主要是为中老年人,提供图文工具和社交应用App。

  • 大约三年前是出于“数据仓库时代”,用大数据来分析和统计输出数据报告,例如用户画像、用户活跃度分析报告、用户创作内容报告等,这能够为产品优化和收入渠道提供辅助;

  • 近两年主要是在“数据挖掘时代”,通过大数据技术分析用户阅读和创作等行为日志,为用户推荐文章,让用户可以很快地阅读到可能会很喜欢的文章,从而提高整站PV和阅读时长,进而对用户粘性和广告收入也有很大增长。



分析如下 HiveQL,生成的 MapReduce 执行程序,map 函数输入是什么?输出是什么,reduce 函数输入是什么?输出是什么?

  • 此题目标是统计页面pageid与访客用户年龄的关系报告,根据sql和分析图,

  • map函数输入参数:用表中的userid作为参数key,value参数用两个字段表示,即表1(page_view)和表2(user)的关键字段{table1, pageid}{table2, age}

  • map函数输出:经过嵌套两层遍历,外层为表1的参数,内层为表二的参数,经过和并和Shuffle得到输出参数key为userid,value为{table, pageid}{table, age},总行数是表1和表2的总和。

  • reduce函数输入,用map的输出作为reduce函数的基础输入数据,

  • reduce函数输出,经过遍历与合并输入参数,最终输出key为pageid,value为age



发布于: 2020 年 09 月 03 日阅读数: 42
用户头像

Rex

关注

还未添加个人签名 2018.06.14 加入

还未添加个人简介

评论

发布
暂无评论
【架构训练 Week12 作业 1】