12.7 作业

用户头像
张荣召
关注
发布于: 2020 年 12 月 14 日
  • 在你所在的公司(行业、领域),正在用大数据处理哪些业务?可以用大数据实现哪些价值?

      解析:医疗行业:放疗领域。使用大数据处理自动勾画靶区业务:

患者数据脱敏,获取肿瘤图像信息(比如:脑部肿瘤,胸腔肿瘤,腹部肿瘤等),

利用大数据和模型算法提取特征信息,使用机器学习和人工智能自动勾画肿瘤靶区,

目前自动勾靶准确率可达90%,对其他部位肿瘤持续机器学习中。

      价值:提升勾画靶区效率,减轻医生工作量,快速为患者提供有效治疗方案。



  • 分析如下 HiveQL,生成的 MapReduce 执行程序,map 函数输入是什么?输出是什么,reduce 函数输入是什么?输出是什么?

INSERT OVERWRITE TABLE pv_users

SELECT pv.pageid, u.age

FROM page_view pv

    JOIN user u

    ON (pv.userid = u.userid);

page_view 表和 user 表结构与数据示例如下

解析:

INSERT OVERWRITE TABLE pv_users

SELECT pv.pageid, u.age

FROM page_view pv

   JOIN user u

   ON (pv.userid = u.userid);

逆向分析:

reduce输出分析:reduce数据合并输出为(pageid,age)。

reduce输入分析:因为reduce对相同key数据合并,(pageid,age)数据的相同key是userid。

                            ==>reduce的输入key:userid。

                            ==>reduce的输入value:即MapReduce框架shuffle sort后,

将相同key的数据提交给同一个reduce。

                                                                    value值<数据来自哪张表,pageid>,

<数据来自哪张表,age>

                            ==>reduce输入数据格式为{userid,<表序号,pageid>},

{userid,<表序号,age>}

map输出分析: reduce的输入即为map的输出

                            ==>map的输出key为:userid。

                                    map的输出value:page_view表map输出value:<表序号,pageid>,

                                                                 user表map输出value<表序号,age>

                            ==>map输出数据格式{userid,<表序号,pageid>},{userid,<表序号,age>} 

map输入分析:page_view,user表的行记录。



正向图解:

MapReduce处理过程如下图:



用户头像

张荣召

关注

还未添加个人签名 2018.05.02 加入

还未添加个人简介

评论

发布
暂无评论
12.7作业