写点什么

Hadoop 生态系统

用户头像
binfirechen
关注
发布于: 2 小时前

一、hadoop 开源软件和生态系统

1、云计算与大数据

Iaas:基础设施即服务,通过互联网获得服务,例如亚马逊 AWS,openStack

Paas:平台即服务,把服务器平台作为一种服务,例如虚拟开发平台,默认安装开发环境,hadoop

Saas:软件即服务,例如 office365,大量 app


2、大数据应用

hadoop 提供存储和计算能力

支持 PB 级别数据

支持非结构化数据

支持结构化数据

支持万级每秒查询

支持高可靠性系统

支持高效率统计分析


3、hadoop 起源

common 组件、HDFS 组件、Mapreduce 组件(mrv1,mrv2)

02 年: search engine

03 年: GFS、NDFS

04 年: MapReduce

06 年: NDFS&MapReduce Hadoop

08 年: Yahoo, Hadoop apache 基金会


4、核心技术

分布式基础设施:GFS、Chubby 和 Protocol Buffer

分布式大数据处理技术:MapReduce 和 Sawzall

分布式数据库技术:BigTable 和数据库 sharding

数据中心优化技术:数据中心高温化、12V 电池和服务器整合


5、GFS 架构

GFS Master:存储 chunk 元数据信息,主备

Chunkserver1: 存储数据

Chunkserver2:


6、MapReduce 架构

master 进程

map 进程,存储本地磁盘

reduce 进程,copy map 文件,通过分布式文件系统 reduce,最终输出


7、组件对比

google 组件 Hadoop 组件

MapReduce MapReduce(Mrv1、Mrv2)

GFS     HDFS

Bigtable Hbase

Chubby Zookeeper


二、hadoop 特点

hadoop 架构简介

HDFS 组件、MapReduce 组件、Common 组件

2.1 Common 组件:提供 IO、压缩、RPC 通信、序列化,利用 JNI 方法调用

编写的 native 库,加速数据压缩、数据校验等


2.2 HDFS 组件,采用流式数据访问模式,用于存储大量超大文件和海量数据,

具有高吞吐率、方便部署和存储管理特点

HDFS 两种节点:Namenode 和 Datanode

Namenode:内存中保存文件数据块映射信息和整个文件系统的名字空间

Datanode:负责存储和读取数据块


了解读写操作流程



2.3 MapReduce 组件

JobTracker

多个 TaskTacker(MapTask 和 ReduceTask)

map (sort 相同 key 放一起)

copy 到远端磁盘 merge 合并文件,reduce 结果



三、hadoop 生态系统

Ambari:监控管理工具

Zookeeper:分布式服务框架,解决一致性问题

Hbase

Pig(Data Flow)

Hive(SQL) fackbook(数据 etcl,数据存储和数据分析能力)

MapReduce

HDFS

Oozie (Workflow Schedule)多个作业调度动作,有向无环流

Hcatalog: 数据表管理和存储服务


四、hadoop 发行版

Cloudera CDH

Hortonworks HDP: TEZ 底层数据处理引擎

Intel Distribution:

IBM BigInsight


五、hadoop 版本选择

1.0

2.0 0.23.x 2.x (包含 HDFS 和 YARN 两个系统)


考虑问题?

是否支持文件追加

是否支持 HDFS 文件链接访问

保证 hadoop 安全性

是否加入 NameNode HA (0.21x 0.22.x 2.x)

是否加入 HDFS 和 YARN (0.23x 2.x)


六、书籍推荐

Hadoop 权威指南

Hadoop 实战

hadoop.apache.org

hadoop jira

blogs.cloudera.com

hortonworks.com/blog

wiki.apache.ogr/hadoop

用户头像

binfirechen

关注

还未添加个人签名 2020.11.27 加入

85普通大学生的IT之路

评论

发布
暂无评论
Hadoop生态系统