架构师训练营」第 12 周作业

用户头像
edd
关注
发布于: 2020 年 09 月 02 日

作业一(任选其一)

在你所在的公司(行业、领域),正在用大数据处理哪些业务?可以用大数据实现哪些价值?

政府项目

主要用Hadoop用做数据仓库 数据建模 数据分析 数据报表,保存客户埋点数据,

然后二次统计分析用户行为数据,分析出热门板块做推荐。得到用户活跃时间等等。



分析如下 HiveQL,生成的 MapReduce 执行程序,map 函数输入是什么?输出是什么,reduce 函数输入是什么?输出是什么?

INSERT OVERWRITE TABLE pv_usersSELECT pv.pageid, u.ageFROM page_view pvJOIN user uON (pv.userid = u.userid);

Page_view 表和 user 表结构与数据示例如下:





map函数

主要是对来自两个文件中的数据打标签,因此输入参数为:

  • key:

  • 文件偏移量

  • value:

  • 文件中的每一行记录

  • 输出参数为:

  • key:

  • 来自不同文件的标识,比如Page_view为1,user为2

  • value

  • page_view的value为<pageid,userid>的集合

    user的value为<userid,age>的集合

    

    reduce函数

    主要是对map的输出数据进行联结、过滤生成最终结果

  • 输入参数为:

  • key:

  • 来自不同文件的标识,比如Page_view为1,user为2

  • value

  • page_view的value为<pageid,userid>的集合

    user的value为<userid,age>的集合

  • 输出参数为:

  • key: 这里可以为任意值,或取page_view的标识,表示最终结果以该表为基础

    value: 两表关联后的结果<pageid,age>

    如图 :

    

    用户头像

    edd

    关注

    还未添加个人签名 2018.01.18 加入

    还未添加个人简介

    评论

    发布
    暂无评论
    架构师训练营」第 12 周作业