极客时间架构师训练营 - 第十二周 - 命题作业
作业一
在你所在的公司(行业、领域),正在用大数据处理哪些业务?可以用大数据实现哪些价值?
目前我们公司主要针对各个来源的数据进行收集,然后将清晰之后的数据入到数仓中,提供给业务那边进行查询使用。
讲到大数据价值的话,我觉得比较重要的地方就是,提供了一个更大样本空间的观察视角,可以看得更全、更能反映事物的本来面目,从而更加有利于分析决策。
作业二
分析如下 HiveQL,生成的 MapReduce 执行程序,map 函数输入是什么?输出是什么,reduce 函数输入是什么?输出是什么?
Page_view 表和 user 表结构与数据示例如下:
map输入
key: 偏移量
value: 表中一行数据
map输出
key: userid
value: 二元组。对于page_view,<表编号,pageid>;对于user,<表编号,age>
reduce输出
key: pageid
value: age
版权声明: 本文为 InfoQ 作者【sljoai】的原创文章。
原文链接:【http://xie.infoq.cn/article/e7218942fed6e6ae7f55d69f2】。文章转载请联系作者。
评论 (1 条评论)