写点什么

架构师训练营第 12 周作业

用户头像
关注
发布于: 2020 年 09 月 02 日
架构师训练营第12周作业

大半夜地手指在机械键盘上飞舞,忙碌一天的疲惫脸庞已然失去了荣光,最近课也没好好听,但是还是得好好地总结一下哈!

1. 在你所在的公司(行业、领域),正在用大数据处理哪些业务?可以用大数据实现哪些价值?

大概说说吧,我们属于阿里系,主要的大数据应用都是基于阿里的基础体系,使用的服务主要是 ODPS(现在好像叫 MaxCompute),另外也有自建 Hive,现在不在大数据组,所以具体做什么也不是很清楚。

我参与过的大数据项目主要是用在对金融数据进行清洗、打标、落库然后支撑自己的业务系统需要,同时也应用在反洗钱项目中。

2. 分析如下 HiveQL,生成的 MapReduce 执行程序,map 函数输入是什么?输出是什么,reduce 函数输入是什么?输出是什么?

INSERT OVERWRITE TABLE pv_usersSELECT pv.pageid, u.ageFROM page_view pvJOIN user uON (pv.userid = u.userid);
复制代码

Page_view 表和 user 表结构与数据示例如下:


首先按照 SQL 逻辑进行分析:

页面访问记录视图与用户表关联,然后将页面 ID 与用户年龄存储到页面用户表中,目的是为了分析页面访问的年龄分布吧。



用户头像

关注

懒是一种艺术 2018.03.26 加入

间歇性自律,持续性懒散,真的很懒!

评论

发布
暂无评论
架构师训练营第12周作业