写点什么

架构师训练营第十二周作业

用户头像
我是谁
关注
发布于: 2020 年 12 月 10 日

一、在你所在的公司(行业、领域),正在用大数据处理哪些业务?可以用大数据实现哪些价值?


当前我所在的领域是在规划部门的电子政务领域。根据电子政务服务的不同方向大数据可以在以下业务方向应用:

1、辅助规划:

如在道路规划业务中,通过人口移动手机信令数据,得到全市人口的移动的潮汐交通状况,实现辅助规划设计人员对城市的道路进行规划。

如在城市房建规划业务中,通过电力数据,得到全市人口的分布现状推断某块区域的容积率等信息,实现辅助规划设计人员对城市建设的规划设计。

2、辅助审批:

如在城市的规划建设审批方面,通过历史审批数据的现状和历史案例的分类整理,实现计算机自动对当前的房地产建设申请合理性进行预判,提高整个政务服务的效率。

二、分析如下 HiveQL,生成的 MapReduce 执行程序,map 函数输入是什么?输出是什么,reduce 函数输入是什么?输出是什么?

INSERT OVERWRITE TABLE pv_usersSELECT pv.pageid, u.ageFROM page_view pv   JOIN user u   ON (pv.userid = u.userid);   
复制代码

page_view 表和 user 表结构与数据示例如下

map 函数的输入:page_view 和 user 两张原表结构数据

map 函数的输出:

map1:key=userid,value=每个 userid 对应的表编号与 pageid 对应的 key-value 对

map2:key=userid,value=每个 userid 对应的表编号与 age 对应的 key-value 对

reduce 函数输入:map1 和 map2 的输出根据 userid 进行 shuffle 分组后的 key-value 对

reduce 函数输出:DataTable 的查询结果


三、根据当周学习情况,完成一篇学习总结

本周从大数据历史开始,将大数据的存储(HDFS)、大数据离线计算(MapReduce)、大数据计算的资源调度框架(Yarn)、大数据仓库(Hive)四个部分的关系和联系进行了介绍。重要的是理解以下这张图,代表大数据中各个产品对应的位置:


HDFS

Block

Block 块是 HDFS 基本存储单元,Hadoop 1.X 版本是 64MB,2.X 版本是 128MB。每个 Block 都有一个 id,相同的副本保证 id 一致。由于 block 的存储机制,HDFS 比较适合大文件、快速备份。

NameNode

NameNode 是 HDFS 的核心内容:用于管理 DataNode,记录元数据 Meta。

DataNode

DataNode 用于存储数据,主要以 block 的形式存储。DataNode 会通过心跳机制发送给 NameNode 信息。

MapReduce

MapReduce 是一种计算模型,该模型可以将大型数据处理任务分解成很多单个的、可以在服务器集群中并行执行的任务,而这些任务的计算结果可以合并在一起来计算最终的结果。

MapReduce 最重要的三个过程:Map=>(Shuffle)=>Reduce:

Map

通过原信息按关键词分解数据,获得关键词的 key-value 对

Shuffle

对分解后的数据,根据关键词进行分组

Reduce

底分组后的数据进行归集后出结果

Yarn

Yarn 就是个多了资源管理框架的 Hadoop 架构——Yet Another Resource Negotiator。

Hive

Hive 是基于 Hadoop 的一个数据仓库工具,用于计算基于 Hadoop 实现的一个特别的计算模型 MapReduce,降低 MapReduce 的使用门槛。它可以将计算任务分割成多个处理单元,然后分散到一群家用或服务器级别的硬件机器上,降低成本并提高水平扩展性。Hive 的数据存储在 Hadoop 一个分布式文件系统上,即 HDFS。


用户头像

我是谁

关注

还未添加个人签名 2017.12.04 加入

十五年电子政务老兵

评论

发布
暂无评论
架构师训练营第十二周作业