写点什么

架构师训练营—第十二周作业

用户头像
Geek_shu1988
关注
发布于: 2020 年 12 月 13 日
  • 在你所在的公司(行业、领域),正在用大数据处理哪些业务?可以用大数据实现哪些价值?

网络流量处理,讲网络流量中的行为日志记录在大数据中,使用到的大数据组件有 HDFS,clickhouse,HIVE 等。


  • 分析如下 HiveQL,生成的 MapReduce 执行程序,map 函数输入是什么?输出是什么,reduce 函数输入是什么?输出是什么?

page_view 表和 user 表结构与数据示例如下




  • map 函数的输入是 page_view 和 user 两张表的记录



  • map 函数的输出是以 userid 作为 key 的 KV 对



  • reduce 函数的输入是 map 函数的输出经过 Shuffle 后,相同 key 在一起的结果



  • reduce 函数的输出是 pageid 与 age 对应的结果



用户头像

Geek_shu1988

关注

还未添加个人签名 2020.02.02 加入

还未添加个人简介

评论

发布
暂无评论
架构师训练营—第十二周作业