架构师训练营第 12 周总结
Hadoop主要由HDFS、MapReduce及YARN构成
HDFS负责存储
MapReduce负责计算
YARN负责任务调度
HDFS
适用场景
适合大文件,不适合大量的小文件,且不适合多用户随机修改文件
设计目标
任何一个节点失败,不影响整体服务
可自动完成副本的复制
文件存储
文件默认分块大小:64M
默认副本数:3
设计思想
分而治之
NameNode:全权管理数据块
DataNode:存放数据本身
NameNode和DataNode之间通过心跳包判断存活
MapReduce
应用场景
处理海量数据(>1TB),成百上千个CPU并行处理
实现思想:移动计算比移动数据更划算
mapreduce由map和reduce两部分程序组成,利用框架在计算机集群上根据需求运行多个程序实例来处理子任务,然后对结果进行归并。
YARN
资源管理器
负责整个集群的资源调度管理,分为调度器和应用程序管理器
节点管理器
负责具体服务器上的资源和任务管理
评论