第十二周总结

用户头像
Linuxer
关注
发布于: 2020 年 09 月 02 日

大数据概述

大数据技术发展史

源于Google在2004年发表的三篇论文,分布式文件系统GFS、大数据

分布式计算框架MapReduce和NoSQL数据库系统BigTable



2006年 Doug Cutting 开发了Hadoop

2008年 Hadoop成为Apache的顶级项目

在Hadoop 早期,MapReduce既是一个执行引擎,又是一个资源调度

框架,服务器集群的资源调度管理由MapReduce自已完成。

2012年,Yarn成为一个独立的项目开始运营

2012年Spark开始崭露头角

大数据应用领域

医学影像智能识别、病历大数据智能诊疗、AI外语老师、智能解题、舆情监控与分析、大数据风控、新零售

无人驾驶



HDFS



不适合HDFS的场景

低延迟的数据访问、大量小文件、多用户随机写入修改文件

HDFS角色:NameNode和DataNode

HDFS 高可用

HDFS 写文件



HDFS读文件



MapReduce

大规模数据处理:移动计算比移动数据更划算,分而治之思想的应用



适合MapReduce的计算类型:TopK、K-means、Bayes、SQL

 

 Yarn 架构

Yarn包括两个部分:资源管理器、节点管理器

 

用户头像

Linuxer

关注

还未添加个人签名 2018.06.12 加入

还未添加个人简介

评论

发布
暂无评论
第十二周总结