写点什么

架构师课程第十二周 作业

用户头像
杉松壁
关注
发布于: 2020 年 08 月 31 日
一、在你所在的公司(行业、领域),正在用大数据处理哪些业务?可以用大数据实现哪些价值?

在我的行业中,大数据可以使用在对客户消费习惯进行分析,推荐用户专属的产品。另外大数据可以处理公司内部系统中的有价值的数据,然后进行分析,或许可以发现新的商业价值。

二、总结

本周主要讲解了大数据相关发展与关键技术,主要有HDFS,MapReduce,yarn,hive。

大数据的发展基石是“谷歌三驾马车”,分别是GFS、MapReduce、Bigtable,分布式存储、分布式数据结构、分布式计算。如今大数据也发展一些年头了,有些技术也相对成熟了,而且已经出现了基于大数据的商业,比如基于大数据的分析推荐系统在今天可以说是随处可见,今日头条、抖音等产品都是基于大数据的分析系统,如今正是如日中天。

大数据技术中由于要处理海量数据,所以首先需要有能保存这么大数据的存储系统,传统的单机存储至多可以几百T的数据,对于大数据而言,显然是比较小的,所以人们开发出了使用多机协作存储的文件系统,其中HDFS比较火。HDFS的节点分为NameNode和DataNode两种角色,NameNode主要存储文件的元数据,包括文件的名称,文件存储的位置等。DataNode则是具体存储文件数据的地方。HDFS将DataNode的存储切分成一个一个小块block,由NameNode统一管理。将数据拆分成块的大小,分别存储到不同的块中,为了保证数据的安全,同一份数据会在不同的节点保存多份。客户端存取HDFS的时候,会通过NameNode获取数据所在的块,然后通过访问相应的DataNode获取到块中的数据。

由于数据已经进行了分布式存储,所以进行分布式计算的成本就相对低一些。MapReduce就是通过分布式计算获取高速度高性能的分布式计算系统。MapReduce根据就近原则,让计算多跑路,数据少跑路,尽量让计算在本地存取数据的方式进行计算,通过map计算的中间结果再由reduce函数进行聚合计算。

Yarn称为下一代的MapReduce,用户可以编写自己的计算框架,放到yarn的环境中运行,克服了MapReduce不支持多种计算框架的缺点。Yarn包括一个资源管理器(ResourceManager),一个节点管理器(NodeManager)。ResourceManager进程负责整个集群的资源调度管理,通常部署在独立的服务器上;NodeManager进程负责具体服务器上的资源和任务管理,在集群的每一台计算服务器上都会启动,基本上根HDFS的DataNode进程一起出现。

Hive的主要功能与传统数据库上的SQL语句类似,提供了在分布式存储系统中查询管理数据的工具。



用户头像

杉松壁

关注

还未添加个人签名 2018.03.30 加入

还未添加个人简介

评论

发布
暂无评论
架构师课程第十二周 作业