十二周总结
本周主要学习 HDFS、MapReduce 编程模型以及 yarn、spark 框架。大数据生态的发展是基于 Google 发布的三驾马车论文“Google File System”、“Google MapReduce”以及“BigTable”;这三篇论文对应的开源实现分别为 Hdfs、MapReduce 以及 Hbase。
Yarn 从 hadoop 1.0 进化而来,承担提供分布式资源管理调度功能;至此奠定了以分布式文件组件、计算引擎组件、资源管理组件以及 Nosql 存储为生态的大数据生态圈。
评论