第 12 周作业
在你所在的公司(行业、领域),正在用大数据处理哪些业务?可以用大数据实现哪些价值?
我所在的领域是工业安全方向的信息化和计算软件。信息化软件的特点是,已经存在了大量的数据报表和统计,而这些计算结果都来自已经规划好的结构化数据,并且这些数据往往并达不到海量,所以如果在这个方面并没有看到真正有很高价值的大数据应用。但是在工业生产方面,如果我们做到"记录一切",使用物联网采集生产和建设过程的现场数据,就可以使用这些大数据对生产决策提供支持,比如各个环节人员比例和生产效率的关系、人员资质对生产安全的影响、生产效率突然降低是与哪个环境的数据变化相关,等等。另外,生产安全方向的计算软件已经有非常成熟的体系,主要通过模拟、推演和概率计算,生成对危险的预测和维保计划的制定。在这里,大数据有天然的应用空间,难点就是收集真实的生产过程数据、检验检测报告以及事故、失效数据。
分析如下 HiveQL,生成的 MapReduce 执行程序,map 函数输入是什么?输出是什么,reduce 函数输入是什么?输出是什么?
map 的输入: value 是两个表中的一行数据
map 的输出: key 是用来做join的字段 userid,value 是 table,pageid 其中 table是由于两个或者多个表都使用同一个map,所以需要有一个位置来表示这个结果是来自于哪个数据表,这个有点类似join中的 as。
reduce 的输入是:value 是kv: userid : array(<table, pageid/age>)
reduce 的输出是 table==1 的表的每条记录都与 table==2的表的相同 userid 的记录做连接后的结果。
评论 (1 条评论)