写点什么

极客时间架构师训练营 - 第十二周 - 命题作业

用户头像
sljoai
关注
发布于: 2020 年 09 月 02 日
极客时间架构师训练营-第十二周-命题作业

作业一

在你所在的公司(行业、领域),正在用大数据处理哪些业务?可以用大数据实现哪些价值?

目前我们公司主要针对各个来源的数据进行收集,然后将清晰之后的数据入到数仓中,提供给业务那边进行查询使用。

讲到大数据价值的话,我觉得比较重要的地方就是,提供了一个更大样本空间的观察视角,可以看得更全、更能反映事物的本来面目,从而更加有利于分析决策。

作业二

分析如下 HiveQL,生成的 MapReduce 执行程序,map 函数输入是什么?输出是什么,reduce 函数输入是什么?输出是什么?

INSERT OVERWRITE TABLE pv_users
SELECT pv.pageid, u.age
FROM page_view pv
JOIN user u
ON (pv.userid = u.userid);

Page_view 表和 user 表结构与数据示例如下:





map输入

key: 偏移量

value: 表中一行数据

map输出

key: userid

value: 二元组。对于page_view,<表编号,pageid>;对于user,<表编号,age>

reduce输出

key: pageid

value: age

发布于: 2020 年 09 月 02 日阅读数: 44
用户头像

sljoai

关注

还未添加个人签名 2017.11.09 加入

还未添加个人简介

评论 (1 条评论)

发布
用户头像
作业请添加“极客大学架构师训练营”标签,便于分类
2020 年 09 月 03 日 10:21
回复
没有更多了
极客时间架构师训练营-第十二周-命题作业