第十二周作业

用户头像
TheSRE
关注
发布于: 2020 年 12 月 13 日

作业一:

  • 在你所在的公司(行业、领域),正在用大数据处理哪些业务?可以用大数据实现哪些价值?



> 在HPC行业,大数据可以处理多种结构化日志,提供多维度的聚合与展示。



  • 分析如下 HiveQL,生成的 MapReduce 执行程序,map 函数输入是什么?输出是什么,reduce 函数输入是什么?输出是什么?



INSERT OVERWRITE TABLE pv_users
SELECT pv.pageid, u.age
FROM page_view pv
JOIN user u
ON (pv.userid = u.userid);



page_view 表和 user 表结构与数据示例如下





map函数的输入,



表page_view的是(key=pageid, value=[userid, time])



表user的是(key=userid, value=[age, gender])



由于是根据userid来join的,因此map的输出是



| 表 | map的输入 | map的输出 |

| --------- | -------------------------------- | ------------------------------------ |

| pageview | key=pageid, value=[userid, time] | key=userid, value=[tableno, pageid] |

| User | key=userid, value=[age, gender] | key=userid, value=[table_no, age] |



具体化为(视频截图)





经过Shuffle和Sort后,将相同的key放到同一个reduce中处理(即将相同的key作为同一个reduce的输入),如图(视频截图):





reduce的输出:



| pageid | age |

| ------ | ---- |

| 1 | 25 |

| 2 | 25 |

| 1 | 32 |



作业二:



  • 根据当周学习情况,完成一篇学习总结



> 本周首次接触大数据,被震撼了。原来对大数据的理解就是,很多数据,用计算机处理,得到很多有价值的经验和模型。事实上,大数据囊括的东西太多了,怪不得招聘网站上有专门的“大数据开发工程师”这样的职位。找了一个练习的平台,练了spark的常用操作,非常棒!我继续努力。



发布于: 2020 年 12 月 13 日阅读数: 14
用户头像

TheSRE

关注

The SRE. 2019.06.25 加入

A SRE engineer.

评论

发布
暂无评论
第十二周作业