第十二周总结
大数据概述
大数据技术发展史
源于Google在2004年发表的三篇论文,分布式文件系统GFS、大数据
分布式计算框架MapReduce和NoSQL数据库系统BigTable
2006年 Doug Cutting 开发了Hadoop
2008年 Hadoop成为Apache的顶级项目

在Hadoop 早期,MapReduce既是一个执行引擎,又是一个资源调度
框架,服务器集群的资源调度管理由MapReduce自已完成。
2012年,Yarn成为一个独立的项目开始运营
2012年Spark开始崭露头角

大数据应用领域
医学影像智能识别、病历大数据智能诊疗、AI外语老师、智能解题、舆情监控与分析、大数据风控、新零售
无人驾驶
HDFS


不适合HDFS的场景
低延迟的数据访问、大量小文件、多用户随机写入修改文件
HDFS角色:NameNode和DataNode
HDFS 高可用

HDFS 写文件

HDFS读文件

MapReduce
大规模数据处理:移动计算比移动数据更划算,分而治之思想的应用


适合MapReduce的计算类型:TopK、K-means、Bayes、SQL
Yarn 架构

Yarn包括两个部分:资源管理器、节点管理器
评论