第十二周学习总结
一、概述
大数据起源:分布式文件系统GFS、大数据分布式计算框架MapReduce、NoSQL数据库系统BigTable。
Hadoop→Hive降低使用难度→Yarn资源调度系统→Spark逐步替代MapReduce
批处理计算MapReduce、Spark
大数据流计算Storm、Flink、Spark Streaming
搜索引擎→数据仓库→数据挖掘→机器学习
应用领域:医学影像智能识别、病历大数据智能诊疗、AI外语老师、大数据风控
二、HDFS
1、RAID技术
2、以流式数据访问模式存储超大文件(一次写入多次读取)
3、不适合HDFS:低延迟的数据访问、大量小文件、多用户随机写入修改文件
4、分而治之。创建了多份数据块的复制。
5、NameNode:负责管理文件系统的名字空间和客户端对文件的访问。DataNode:数据本身+数据块的长度、块数据的校验和、时间戳。
6、高可用
7、节点失效:DataNode磁盘挂了,坏掉的磁盘尽快通知NameNode;DataNode所在机器挂了,10分钟没有向NameNode发送心跳,认为DataNode已经挂了;NameNode挂了,持久化元数据,现在的做法主从;Client挂了,一致性问题。
8、一致性模型:NameNode非立即可见;reader不能看见当前正在写入的块;sync()调用成功后,当前写入数据对所有reader可见且一致。
三、MapReduce
1、处理海量数据>1TB;上百上千CPU实现并行处理。
2、特性:自动实现分布式并行计算、容错、提供状态监控工具、模型抽象简洁,程序员易用。
3、InputFormat:验证作业输入的正确性。
4、Partitioner。对key进行分区,把数据按照我们自己的需求分发。
5、主要调度方法:单队列调度、公平调度。
6、JobTracker:作业监控层、任务控制层、任务执行层。
7、TaskTracker
四、Yarn
资源管理器:调度器(资源分配算法)、应用程序管理器。
五、Hive
Hive编译器:重写执行计划、将逻辑执行计划转化为物理执行计划、适应性Join策略调整。
总结:大数据是未来产品的基石。
评论