第 13 周总结:Spark& 流计算,数据分析和机器学习
Spark为什么比MapReduce更快,老师课程上讲了三点:1)DAG切分的多阶段计算过程更快速 2)使用内存存储中间计算结果更高效 3)RDD的编程模型更简单。其中RDD(弹性数据集)即是Spark面向开发者的编程模型,又是Spark自身架构的核心元素。
流计算的框架主要有三个:Hadoop的Storm,Spark Streaming, Flink。
数据分析和机器学习的内容总结成了下面的思维导图。
Spark为什么比MapReduce更快,老师课程上讲了三点:1)DAG切分的多阶段计算过程更快速 2)使用内存存储中间计算结果更高效 3)RDD的编程模型更简单。其中RDD(弹性数据集)即是Spark面向开发者的编程模型,又是Spark自身架构的核心元素。
流计算的框架主要有三个:Hadoop的Storm,Spark Streaming, Flink。
数据分析和机器学习的内容总结成了下面的思维导图。
评论