架构师训练营—第十二周作业
在你所在的公司(行业、领域),正在用大数据处理哪些业务?可以用大数据实现哪些价值?
网络流量处理,讲网络流量中的行为日志记录在大数据中,使用到的大数据组件有 HDFS,clickhouse,HIVE 等。
分析如下 HiveQL,生成的 MapReduce 执行程序,map 函数输入是什么?输出是什么,reduce 函数输入是什么?输出是什么?
page_view 表和 user 表结构与数据示例如下

map 函数的输入是 page_view 和 user 两张表的记录


map 函数的输出是以 userid 作为 key 的 KV 对


reduce 函数的输入是 map 函数的输出经过 Shuffle 后,相同 key 在一起的结果


reduce 函数的输出是 pageid 与 age 对应的结果


评论