架构师训练营 1 期 - 第 十二周总结(vaik)
本周概述
本周主要讲述了五大主题,
第一部分:大数据基础的原理,历史背景,Hadoop 框架的由来与发展
第二部分:大数据的数据存储,分布式数据存储系统,HDFS 基本原理介绍,应用场景
第三部分:大数据分布式计算框架 MapReduce
第四部分:大数据集群资源管理系统 Yarn
第五部分:大数据仓库 Hive
我的思考:大数据最核心的思想是分而治之,通过 HDFS 作为基础的分布式存储,如何合理拆分存储是关键,以便于进行 MapReduce 的分布式计算
大数据基础的原理
大数据技术发展史
大数据起源,Google 发表的三篇论文 GFS,大数据 MapReduce,NoSQL 数据库系统 BigTable
Lucene 开源项目创始人 Doug Cutting 基本 Google 发表的三篇论文,创建了 Hadoop ,主要包括分布式文件系统 HDFS 和大数据计算引擎 MapReduce
随着 Yahoo 百度 阿里等大公司使用 Hadoop, 2008 年 Hadoop 正式成为 Apache 的项级项目
因为 MapReduce 编程的复杂和麻烦,后来 Yahoo,发明了 Pig 这样新脚本语言,由于 pig 有一定的学习成本 Facebook 发明了 Hive,一种支持使用 SQL 语法来进行大数据计算的转化框架。Hive 大大降低了 Hadoop 的使用难度。
随着 Hadoop 的不断发现,大量周边产品开始出现。
专门将关系数据库中的数据导入到 Hadoop 平台的 Sqooq;
针对大规模日志进行分布式收集,聚合,传输的 Flume;
MapReduce 工作流调度引擎 Oozie.
2012 年 MapReduce 执行引擎和资源调度分离出来,形成新的项目 Yarn
2012 年 Spark 开始崭露头角,为了解决 MapReduce 进行机器学习计算时候性能非常差的问题.
NoSQL 系统处理的主要也是大规模海量数据的存储与访问,所以也被归为大数据技术,出现了像 HBase,Cassandra 等优秀产品
为满足实时产生的大量数据计算,出现了像 Storm,Flink,Spark Streaming 等流计算框架。
大数据框架
大数据应用发展史
搜索引擎时代
数据仓库时代
数据挖掘时代
机器学习时代
大数据应用领域
医学影像智能识别
病历大数据智能诊疗
AI 外语老师
智能解题
舆情监控与分析
大数据风控
新零售
无人驾驶
分布式数据存储系统 HDFS
HDFS 系统架构
我的理解:
NameNode 保存所有 block 的位置信息,作为核心协调和调度的中枢,根据 DataNodes 的集群状态合理调整 Block 的分布(新增,复制,读取)
DataNode 主要功能就是发送心跳,接收复制,读取 Block 的指令
数据存储细节
Block Replication
思考:
我认为这个存储结构的设计至关重要,他决定了 HDFS 的最根本的特性,方件分块,分机器,分机架
Datanodes
HDFS 的设计目标
以流式数据访问模式存储超大文件,运行于商用硬件集群上。
超大文件
流式数据访问:一次写入多次读取
商用硬件
不适合 HDFS 的场景
低延迟的数据访问
大量小文件(超出 NameNode 的处理能力)
多用户随机写入修改文件
评论