写点什么

架构师训练营 - 学习总结 第 12 周

用户头像
水边
关注
发布于: 2020 年 08 月 31 日

本周主要讲解了大数据技术,以及Hadoop的相关起源与发展。

1、起源:

2004年Google推出了大数据相关的3篇论文:

分布式文件系统GFS、分布式计算框架MapReduce、NoSQL数据库BigTable

然后Doug Cutting根据论文,自行实现了Hadoop,并进行开源发布。

雅虎、百度、阿里也陆续开始使用,并于2008年,Hadoop成为Apache的顶级项目运作。



2、后续发展:

雅虎开发了Pig语言,编译后生成MapReduce程序,在Hadoop上运行,用于大数据的操作;

接着Facebook发布了Hive,进行使用SQL语法进行大数据计算。

慢慢的Hadoop周边产品也开始出现,生态系统逐渐形成。



3、大数据的应用历史:

搜索引擎时代:Google、百度的内容检索

数据仓库时代

数据挖掘时代

机器学习时代



4、大数据的应用领域:

医学影像智能识别

病历大数据智能诊疗

AI外语老师

智能解题

舆情监控与分析

大数据风控

新零售

无人驾驶



5、HDFS介绍

默认一个数据块为64M,常用于存储大文件;

不建议存储kb级别或10M以下的小文件;不建议随机写入修改文件的场景;

通过在不同的节点存储相同数据块,来保证数据的高可用,和高效的读取性能。



6、MapReduce大数据计算

先通过读取不同的数据块,传入多个Map任务,Map任务的输出作为后续的Reduce任务的输入。

整个调度和传输工作,由框架完成。

所以MapReduce的瓶颈通常会在网络流量上。



7、Yarn

是新的一代MapReduce框架的简称

是一个集群资源调度管理系统

是通用的运行时框架,可以基于它,编写自己的计算框架。



8、Hive

实现MapReduce比较麻烦,因为出现了Hive,将一个SQL翻译成MapReduce程序。



发布于: 2020 年 08 月 31 日阅读数: 300
用户头像

水边

关注

还未添加个人签名 2019.04.14 加入

还未添加个人简介

评论

发布
暂无评论
架构师训练营 - 学习总结 第 12 周