架构师训练营第十二周作业
1. 在你所在的公司(行业、领域),正在用大数据处理哪些业务?可以用大数据实现哪些价值?
我目前所在的行业属于产业互联网,涉及到 IOT 相关的硬件数据的获取,传输和存储。众所周知,一旦进入到万物互联的时代,设备产品产生的数据量将会是个天文数字,所以天然就很适合用大数据进行相应的处理。包括如下的业务:
设备事件大数据存储
基于流数据的系统实时预警
基于历史数据的分析评估
基于历史数据的预测
大数据技术,可以带来三种不同的价值,列举如下:
解决海量的数据存储问题,保证业务可以适应社会发展
通过海量的连接的数据,得出层出不穷的分析结果,满足不同的业务需要。通俗来说就是数据掘金
通过海量的数据,训练 AI 模型,发现隐藏的规律,促进科学发展
2. 分析如下 HiveQL,生成的 MapReduce 执行程序,map 函数输入是什么?输出是什么,reduce 函数输入是什么?输出是什么?
复制代码
首先,通过分析 SQL 语句,Where,On,Group By 这些关键字,对应的字段,通常就是数据分组的 Key,也就是 Map 的输入。这本例子中,map 函数的输入是 userid,具体对应两个 map 过程:
Map1: pv -> (userid,<1,pageid>)
Map2: u -> (userid,<2,age>)
然后,在 Reduce 的过程中,输入就是 Map 的输出,也就是 (userid,<1,pageid>)和(userid,<2,age>),对相同的 key 进行数据合并,得到输出为:
(pageid,age)
示意图如下:
版权声明: 本文为 InfoQ 作者【李日盛】的原创文章。
原文链接:【http://xie.infoq.cn/article/4909b321bc679b64119b915f3】。文章转载请联系作者。
评论