写点什么

架构师训练营第 12 周课后练习

用户头像
叶纪想
关注
发布于: 2020 年 12 月 13 日

题目

1.在你所在的公司(行业、领域),正在用大数据处理哪些业务?可以用大数据实现哪些价值?

2.分析如下 HiveQL,生成的 MapReduce 执行程序,map 函数输入是什么?输出是什么,reduce 函数输入是什么?输出是什么?

INSERT OVERWRITE TABLE pv_usersSELECT pv.pageid, u.ageFROM page_view pv   JOIN user u   ON (pv.userid = u.userid);
复制代码

page_view 表和 user 表结构与数据示例如下



解答

1.我所在的公司用大数据处理全国纳税人汇算清缴的事后抽查工作,输入全国的纳税人数据,输出有风险疑点的纳税人信息。大数据技术相比传统的数据加工工具有更高的效率,可以处理更大量的数据。


2.map 输入是 key,value 格式,key 是偏移量,value 是一行记录。

map 输出是 key,value 格式,key 是 userid,value 是<表的编号,查询字段>二元组,第 1 张表是<page_view, pageid>, 第 2 张表是<user, age>。

reduce 输入是 key,values 格式,key 是 userid,values 是<表的编号,查询字段>二元组的集合

reduce 输出是 key,value 格式,key 是 pageid,value 是 age。


用户头像

叶纪想

关注

还未添加个人签名 2018.05.23 加入

还未添加个人简介

评论

发布
暂无评论
架构师训练营第 12 周课后练习