架构师训练营 - 学习总结 第 12 周
本周主要讲解了大数据技术,以及Hadoop的相关起源与发展。
1、起源:
2004年Google推出了大数据相关的3篇论文:
分布式文件系统GFS、分布式计算框架MapReduce、NoSQL数据库BigTable
然后Doug Cutting根据论文,自行实现了Hadoop,并进行开源发布。
雅虎、百度、阿里也陆续开始使用,并于2008年,Hadoop成为Apache的顶级项目运作。
2、后续发展:
雅虎开发了Pig语言,编译后生成MapReduce程序,在Hadoop上运行,用于大数据的操作;
接着Facebook发布了Hive,进行使用SQL语法进行大数据计算。
慢慢的Hadoop周边产品也开始出现,生态系统逐渐形成。
3、大数据的应用历史:
搜索引擎时代:Google、百度的内容检索
数据仓库时代
数据挖掘时代
机器学习时代
4、大数据的应用领域:
医学影像智能识别
病历大数据智能诊疗
AI外语老师
智能解题
舆情监控与分析
大数据风控
新零售
无人驾驶
5、HDFS介绍
默认一个数据块为64M,常用于存储大文件;
不建议存储kb级别或10M以下的小文件;不建议随机写入修改文件的场景;
通过在不同的节点存储相同数据块,来保证数据的高可用,和高效的读取性能。
6、MapReduce大数据计算
先通过读取不同的数据块,传入多个Map任务,Map任务的输出作为后续的Reduce任务的输入。
整个调度和传输工作,由框架完成。
所以MapReduce的瓶颈通常会在网络流量上。
7、Yarn
是新的一代MapReduce框架的简称
是一个集群资源调度管理系统
是通用的运行时框架,可以基于它,编写自己的计算框架。
8、Hive
实现MapReduce比较麻烦,因为出现了Hive,将一个SQL翻译成MapReduce程序。
版权声明: 本文为 InfoQ 作者【水边】的原创文章。
原文链接:【http://xie.infoq.cn/article/759bacb10d924ffd47ee19949】。文章转载请联系作者。
评论