架构师训练营」第 12 周作业
作业一(任选其一)
在你所在的公司(行业、领域),正在用大数据处理哪些业务?可以用大数据实现哪些价值?
政府项目
主要用Hadoop用做数据仓库 数据建模 数据分析 数据报表,保存客户埋点数据,
然后二次统计分析用户行为数据,分析出热门板块做推荐。得到用户活跃时间等等。
分析如下 HiveQL,生成的 MapReduce 执行程序,map 函数输入是什么?输出是什么,reduce 函数输入是什么?输出是什么?
Page_view 表和 user 表结构与数据示例如下:
map函数
主要是对来自两个文件中的数据打标签,因此输入参数为:
key:
文件偏移量
value:
文件中的每一行记录
输出参数为:
key:
来自不同文件的标识,比如Page_view为1,user为2
value
page_view的value为<pageid,userid>的集合
user的value为<userid,age>的集合
reduce函数
主要是对map的输出数据进行联结、过滤生成最终结果
输入参数为:
key:
来自不同文件的标识,比如Page_view为1,user为2
value
page_view的value为<pageid,userid>的集合
user的value为<userid,age>的集合
输出参数为:
key: 这里可以为任意值,或取page_view的标识,表示最终结果以该表为基础
value: 两表关联后的结果<pageid,age>
如图 :
评论