写点什么

架构师训练营第十二周 - 总结

用户头像
人世间
关注
发布于: 2020 年 09 月 02 日

大数据概述

大数据技术发展史:三驾马车-->分布式文件系统GFS、大数据分布式计算框架MapReduce和NoSQL数据库系统BigTable。

大数据应用发展史:搜索引擎时代、数据仓库时代、数据挖掘时代、机器学习时代。

应用领域:新零售,无人驾驶,智慧城市,ai助手等

HDFS

设计目标:

HDFS以流式数据访问模式存储超大文件,运行于商用硬件集群上

  • 超大文件

  • 流失数据访问(一次写入多次读取)

  • 商用硬件

hdfs读写文件原理过程。

HDFS一致性模型

MapReduce

处理海量数据,上千CPU实现并行处理

MapReduce特性:

自动实现分布式并行计算

容错

提供状态监控工具

模型抽象简洁,程序员易用

map和reduce两部分用户程序组成,然后利用框架在计算机集群上面根据需求运行多个程序实例来处理各个子任务,然后再对结果进行归并

YARN: Yet Another Resource Negotiator

下一代MapReduce框架的名称

非传统的MapReduce框架

一个通用的运行时框架,用户可以编写自己的计算框架,在该运行环境中运行

HIVE

HIVE架构

HIVE执行流程



发布于: 2020 年 09 月 02 日阅读数: 40
用户头像

人世间

关注

还未添加个人签名 2018.08.21 加入

还未添加个人简介

评论

发布
暂无评论
架构师训练营第十二周-总结