架构师训练营第十二周 - 总结
大数据概述
大数据技术发展史:三驾马车-->分布式文件系统GFS、大数据分布式计算框架MapReduce和NoSQL数据库系统BigTable。
大数据应用发展史:搜索引擎时代、数据仓库时代、数据挖掘时代、机器学习时代。
应用领域:新零售,无人驾驶,智慧城市,ai助手等
HDFS
设计目标:
HDFS以流式数据访问模式存储超大文件,运行于商用硬件集群上
超大文件
流失数据访问(一次写入多次读取)
商用硬件
hdfs读写文件原理过程。
HDFS一致性模型
MapReduce
处理海量数据,上千CPU实现并行处理
MapReduce特性:
自动实现分布式并行计算
容错
提供状态监控工具
模型抽象简洁,程序员易用
map和reduce两部分用户程序组成,然后利用框架在计算机集群上面根据需求运行多个程序实例来处理各个子任务,然后再对结果进行归并
YARN: Yet Another Resource Negotiator
下一代MapReduce框架的名称
非传统的MapReduce框架
一个通用的运行时框架,用户可以编写自己的计算框架,在该运行环境中运行
HIVE
HIVE架构
HIVE执行流程
版权声明: 本文为 InfoQ 作者【人世间】的原创文章。
原文链接:【http://xie.infoq.cn/article/9145eef61c98b1e17e9ab74bd】。
本文遵守【CC-BY 4.0】协议,转载请保留原文出处及本版权声明。
评论