第十二周作业
作业一:
在你所在的公司(行业、领域),正在用大数据处理哪些业务?可以用大数据实现哪些价值?
> 在HPC行业,大数据可以处理多种结构化日志,提供多维度的聚合与展示。
分析如下 HiveQL,生成的 MapReduce 执行程序,map 函数输入是什么?输出是什么,reduce 函数输入是什么?输出是什么?
page_view 表和 user 表结构与数据示例如下
map函数的输入,
表page_view的是(key=pageid, value=[userid, time])
表user的是(key=userid, value=[age, gender])
由于是根据userid来join的,因此map的输出是
| 表 | map的输入 | map的输出 |
| --------- | -------------------------------- | ------------------------------------ |
| pageview | key=pageid, value=[userid, time] | key=userid, value=[tableno, pageid] |
| User | key=userid, value=[age, gender] | key=userid, value=[table_no, age] |
具体化为(视频截图)
经过Shuffle和Sort后,将相同的key放到同一个reduce中处理(即将相同的key作为同一个reduce的输入),如图(视频截图):
reduce的输出:
| pageid | age |
| ------ | ---- |
| 1 | 25 |
| 2 | 25 |
| 1 | 32 |
作业二:
根据当周学习情况,完成一篇学习总结
> 本周首次接触大数据,被震撼了。原来对大数据的理解就是,很多数据,用计算机处理,得到很多有价值的经验和模型。事实上,大数据囊括的东西太多了,怪不得招聘网站上有专门的“大数据开发工程师”这样的职位。找了一个练习的平台,练了spark的常用操作,非常棒!我继续努力。
版权声明: 本文为 InfoQ 作者【TheSRE】的原创文章。
原文链接:【http://xie.infoq.cn/article/af148025c4bc8010a90b18506】。文章转载请联系作者。
评论