写点什么

架构师训练营 1 期 - 第 十二周总结(vaik)

用户头像
行之
关注
发布于: 2020 年 12 月 14 日
架构师训练营 1 期 - 第 十二周总结(vaik)

本周概述

本周主要讲述了五大主题,

第一部分:大数据基础的原理,历史背景,Hadoop 框架的由来与发展

第二部分:大数据的数据存储,分布式数据存储系统,HDFS 基本原理介绍,应用场景

第三部分:大数据分布式计算框架 MapReduce

第四部分:大数据集群资源管理系统 Yarn

第五部分:大数据仓库 Hive

我的思考:大数据最核心的思想是分而治之,通过 HDFS 作为基础的分布式存储,如何合理拆分存储是关键,以便于进行 MapReduce 的分布式计算

大数据基础的原理

大数据技术发展史

  • 大数据起源,Google 发表的三篇论文 GFS,大数据 MapReduce,NoSQL 数据库系统 BigTable

  • Lucene 开源项目创始人 Doug Cutting 基本 Google 发表的三篇论文,创建了 Hadoop ,主要包括分布式文件系统 HDFS 和大数据计算引擎 MapReduce

  • 随着 Yahoo 百度 阿里等大公司使用 Hadoop, 2008 年 Hadoop 正式成为 Apache 的项级项目

  • 因为 MapReduce 编程的复杂和麻烦,后来 Yahoo,发明了 Pig 这样新脚本语言,由于 pig 有一定的学习成本 Facebook 发明了 Hive,一种支持使用 SQL 语法来进行大数据计算的转化框架。Hive 大大降低了 Hadoop 的使用难度。

  • 随着 Hadoop 的不断发现,大量周边产品开始出现。

  • 专门将关系数据库中的数据导入到 Hadoop 平台的 Sqooq;

  • 针对大规模日志进行分布式收集,聚合,传输的 Flume;

  • MapReduce 工作流调度引擎 Oozie.

  • 2012 年 MapReduce 执行引擎和资源调度分离出来,形成新的项目 Yarn

  • 2012 年 Spark 开始崭露头角,为了解决 MapReduce 进行机器学习计算时候性能非常差的问题.

  • NoSQL 系统处理的主要也是大规模海量数据的存储与访问,所以也被归为大数据技术,出现了像 HBase,Cassandra 等优秀产品

  • 为满足实时产生的大量数据计算,出现了像 Storm,Flink,Spark Streaming 等流计算框架。

大数据框架

大数据应用发展史

  • 搜索引擎时代

  • 数据仓库时代

  • 数据挖掘时代

  • 机器学习时代

大数据应用领域

  • 医学影像智能识别

  • 病历大数据智能诊疗

  • AI 外语老师

  • 智能解题

  • 舆情监控与分析

  • 大数据风控

  • 新零售

  • 无人驾驶

分布式数据存储系统 HDFS

HDFS 系统架构

我的理解:

NameNode 保存所有 block 的位置信息,作为核心协调和调度的中枢,根据 DataNodes 的集群状态合理调整 Block 的分布(新增,复制,读取)

DataNode 主要功能就是发送心跳,接收复制,读取 Block 的指令

数据存储细节

  • Block Replication

思考:

我认为这个存储结构的设计至关重要,他决定了 HDFS 的最根本的特性,方件分块,分机器,分机架

  • Datanodes

HDFS 的设计目标

以流式数据访问模式存储超大文件,运行于商用硬件集群上。

  • 超大文件

  • 流式数据访问:一次写入多次读取

  • 商用硬件

不适合 HDFS 的场景

  • 低延迟的数据访问

  • 大量小文件(超出 NameNode 的处理能力)

  • 多用户随机写入修改文件

大数据分布式计算框架 MapReduce


大数据集群资源管理系统 Yarn


大数据仓库 Hive


用户头像

行之

关注

还未添加个人签名 2018.09.18 加入

还未添加个人简介

评论

发布
暂无评论
架构师训练营 1 期 - 第 十二周总结(vaik)