构师训练营 - 第十二周课后练习
在你所在的公司(行业、领域),正在用大数据处理哪些业务?可以用大数据实现哪些价值?
大数据离线批量,用于上下游系统传输数据和生成各种产品业务报表和监控报表等。
分析如下 HiveQL,生成的 MapReduce 执行程序,map 函数输入是什么?输出是什么,reduce 函数输入是什么?输出是什么?
复制代码
复制代码
Map 函数的输入是两张表中的每行数据。
Map 函数的输出一个 key- value 对,其中 key 是两表关联字段 userid;value 是个二元组,第一项是来源表编号,第二项是这个表提供的字段,page_view 表提供 pageid, user 表提供 age。
Rduce 函数的输入是 Map 函数输出的 key-value 对经过 shuffle 处理之后的相同 key 的 value 列表。
Reduce 函数的输出就是 pv_users 表,其中字段是 pageid 和 age。
评论