写点什么

第十二周学习总结

用户头像
菲尼克斯
关注
发布于: 2020 年 09 月 03 日

一、概述

大数据起源:分布式文件系统GFS、大数据分布式计算框架MapReduce、NoSQL数据库系统BigTable。

Hadoop→Hive降低使用难度→Yarn资源调度系统→Spark逐步替代MapReduce

批处理计算MapReduce、Spark

大数据流计算Storm、Flink、Spark Streaming

搜索引擎→数据仓库→数据挖掘→机器学习

应用领域:医学影像智能识别、病历大数据智能诊疗、AI外语老师、大数据风控

二、HDFS

1、RAID技术

2、以流式数据访问模式存储超大文件(一次写入多次读取)

3、不适合HDFS:低延迟的数据访问、大量小文件、多用户随机写入修改文件

4、分而治之。创建了多份数据块的复制。

5、NameNode:负责管理文件系统的名字空间和客户端对文件的访问。DataNode:数据本身+数据块的长度、块数据的校验和、时间戳。

6、高可用

7、节点失效:DataNode磁盘挂了,坏掉的磁盘尽快通知NameNode;DataNode所在机器挂了,10分钟没有向NameNode发送心跳,认为DataNode已经挂了;NameNode挂了,持久化元数据,现在的做法主从;Client挂了,一致性问题。

8、一致性模型:NameNode非立即可见;reader不能看见当前正在写入的块;sync()调用成功后,当前写入数据对所有reader可见且一致。

三、MapReduce

1、处理海量数据>1TB;上百上千CPU实现并行处理。

2、特性:自动实现分布式并行计算、容错、提供状态监控工具、模型抽象简洁,程序员易用。

3、InputFormat:验证作业输入的正确性。

4、Partitioner。对key进行分区,把数据按照我们自己的需求分发。

5、主要调度方法:单队列调度、公平调度。

6、JobTracker:作业监控层、任务控制层、任务执行层。

7、TaskTracker

四、Yarn

资源管理器:调度器(资源分配算法)、应用程序管理器。

五、Hive

Hive编译器:重写执行计划、将逻辑执行计划转化为物理执行计划、适应性Join策略调整。



总结:大数据是未来产品的基石。



用户头像

菲尼克斯

关注

还未添加个人签名 2018.05.14 加入

还未添加个人简介

评论

发布
暂无评论
第十二周学习总结