写点什么

架构师训练营第十二周作业

用户头像
李日盛
关注
发布于: 2021 年 01 月 08 日

1. 在你所在的公司(行业、领域),正在用大数据处理哪些业务?可以用大数据实现哪些价值?


我目前所在的行业属于产业互联网,涉及到 IOT 相关的硬件数据的获取,传输和存储。众所周知,一旦进入到万物互联的时代,设备产品产生的数据量将会是个天文数字,所以天然就很适合用大数据进行相应的处理。包括如下的业务:


  • 设备事件大数据存储

  • 基于流数据的系统实时预警

  • 基于历史数据的分析评估

  • 基于历史数据的预测


大数据技术,可以带来三种不同的价值,列举如下:

  1. 解决海量的数据存储问题,保证业务可以适应社会发展

  2. 通过海量的连接的数据,得出层出不穷的分析结果,满足不同的业务需要。通俗来说就是数据掘金

  3. 通过海量的数据,训练 AI 模型,发现隐藏的规律,促进科学发展


2. 分析如下 HiveQL,生成的 MapReduce 执行程序,map 函数输入是什么?输出是什么,reduce 函数输入是什么?输出是什么?

INSERT OVERWRITE TABLE pv_usersSELECT pv.pageid, u.ageFROM page_view pv   JOIN user u   ON (pv.userid = u.userid);
复制代码


首先,通过分析 SQL 语句,Where,On,Group By 这些关键字,对应的字段,通常就是数据分组的 Key,也就是 Map 的输入。这本例子中,map 函数的输入是 userid,具体对应两个 map 过程:


  • Map1: pv -> (userid,<1,pageid>)

  • Map2: u -> (userid,<2,age>)


然后,在 Reduce 的过程中,输入就是 Map 的输出,也就是 (userid,<1,pageid>)和(userid,<2,age>),对相同的 key 进行数据合并,得到输出为:

  • (pageid,age)


示意图如下:


发布于: 2021 年 01 月 08 日阅读数: 14
用户头像

李日盛

关注

好架构=低成本+可实现 2018.01.22 加入

还未添加个人简介

评论

发布
暂无评论
架构师训练营第十二周作业