12.7 作业
在你所在的公司(行业、领域),正在用大数据处理哪些业务?可以用大数据实现哪些价值?
解析:医疗行业:放疗领域。使用大数据处理自动勾画靶区业务:
患者数据脱敏,获取肿瘤图像信息(比如:脑部肿瘤,胸腔肿瘤,腹部肿瘤等),
利用大数据和模型算法提取特征信息,使用机器学习和人工智能自动勾画肿瘤靶区,
目前自动勾靶准确率可达90%,对其他部位肿瘤持续机器学习中。
价值:提升勾画靶区效率,减轻医生工作量,快速为患者提供有效治疗方案。
分析如下 HiveQL,生成的 MapReduce 执行程序,map 函数输入是什么?输出是什么,reduce 函数输入是什么?输出是什么?
INSERT OVERWRITE TABLE pv_users
SELECT pv.pageid, u.age
FROM page_view pv
JOIN user u
ON (pv.userid = u.userid);
page_view 表和 user 表结构与数据示例如下
解析:
INSERT OVERWRITE TABLE pv_users
SELECT pv.pageid, u.age
FROM page_view pv
JOIN user u
ON (pv.userid = u.userid);
逆向分析:
reduce输出分析:reduce数据合并输出为(pageid,age)。
reduce输入分析:因为reduce对相同key数据合并,(pageid,age)数据的相同key是userid。
==>reduce的输入key:userid。
==>reduce的输入value:即MapReduce框架shuffle sort后,
将相同key的数据提交给同一个reduce。
value值<数据来自哪张表,pageid>,
<数据来自哪张表,age>
==>reduce输入数据格式为{userid,<表序号,pageid>},
{userid,<表序号,age>}
map输出分析: reduce的输入即为map的输出
==>map的输出key为:userid。
map的输出value:page_view表map输出value:<表序号,pageid>,
user表map输出value<表序号,age>
==>map输出数据格式{userid,<表序号,pageid>},{userid,<表序号,age>}
map输入分析:page_view,user表的行记录。
正向图解:
MapReduce处理过程如下图:
评论