带你了解极具弹性的 Spark 架构的原理
本文分享自华为云社区《Spark架构原理》,作者:JavaEdge。
相比 MapReduce 僵化的 Map 与 Reduce 分阶段计算相比,Spark 的计算框架更加富有弹性和灵活性,运行性能更佳。
1 Spark 的计算阶段
MapReduce 一个应用一次只运行一个 map 和一个 reduce
Spark 可根据应用的复杂度,分割成更多的计算阶段(stage),组成一个有向无环图 DAG,Spark 任务调度器可根据 DAG 的依赖关系执行计算阶段
逻辑回归机器学习性能 Spark 比 MapReduce 快 100 多倍。因为某些机器学习算法可能需要进行大量迭代计算,产生数万个计算阶段,这些计算阶段在一个应用中处理完成,而不是像 MapReduce 那样需要启动数万个应用,因此运行效率极高。
DAG,有向无环图,不同阶段的依赖关系是有向的,计算过程只能沿依赖关系方向执行,被依赖的阶段执行完成前,依赖的阶段不能开始执行。该依赖关系不能有环形依赖,否则就死循环。
典型的 Spark 运行 DAG 的不同阶段:
整个应用被切分成 3 个阶段,阶段 3 需要依赖阶段 1、2,阶段 1、2 互不依赖。Spark 执行调度时,先执行阶段 1、2,完成后,再执行阶段 3。对应 Spark 伪代码:
所以 Spark 作业调度执行的核心是 DAG,整个应用被切分成数个阶段,每个阶段的依赖关系也很清楚。根据每个阶段要处理的数据量生成任务集合(TaskSet),每个任务都分配一个任务进程去处理,Spark 就实现了大数据的分布式计算。
负责 Spark 应用 DAG 生成和管理的组件是 DAGScheduler,DAGScheduler 根据程序代码生成 DAG,然后将程序分发到分布式计算集群,按计算阶段的先后关系调度执行。
那么 Spark 划分计算阶段的依据是什么呢?显然并不是 RDD 上的每个转换函数都会生成一个计算阶段,比如上面的例子有 4 个转换函数,但是只有 3 个阶段。
你可以再观察一下上面的 DAG 图,关于计算阶段的划分从图上就能看出规律,当 RDD 之间的转换连接线呈现多对多交叉连接的时候,就会产生新的阶段。一个 RDD 代表一个数据集,图中每个 RDD 里面都包含多个小块,每个小块代表 RDD 的一个分片。
一个数据集中的多个数据分片需要进行分区传输,写入到另一个数据集的不同分片中,这种数据分区交叉传输的操作,我们在 MapReduce 的运行过程中也看到过。
是的,这就是 shuffle 过程,Spark 也需要通过 shuffle 将数据进行重新组合,相同 Key 的数据放在一起,进行聚合、关联等操作,因而每次 shuffle 都产生新的计算阶段。这也是为什么计算阶段会有依赖关系,它需要的数据来源于前面一个或多个计算阶段产生的数据,必须等待前面的阶段执行完毕才能进行 shuffle,并得到数据。
计算阶段划分的依据是 shuffle,不是转换函数的类型,有的函数有时有 shuffle,有时没有。如上图例子中 RDD B 和 RDD F 进行 join,得到 RDD G,这里的 RDD F 需要进行 shuffle,RDD B 不需要。
因为 RDD B 在前面一个阶段,阶段 1 的 shuffle 过程中,已进行了数据分区。分区数目和分区 K 不变,无需再 shuffle:
这种无需进行 shuffle 的依赖,在 Spark 里称作窄依赖
需要进行 shuffle 的依赖,被称作宽依赖
类似 MapReduce,shuffle 对 Spark 也很重要,只有通过 shuffle,相关数据才能互相计算。
既然都要 shuffle,为何 Spark 就更高效?
本质上看,Spark 算是一种 MapReduce 计算模型的不同实现。Hadoop MapReduce 简单粗暴根据 shuffle 将大数据计算分成 Map、Reduce 两阶段就完事。但 Spark 更细,将前一个的 Reduce 和后一个的 Map 连接,当作一个阶段持续计算,形成一个更优雅、高效地计算模型,其本质依然是 Map、Reduce。但这种多个计算阶段依赖执行的方案可有效减少对 HDFS 的访问,减少作业的调度执行次数,因此执行速度更快。
不同于 Hadoop MapReduce 主要使用磁盘存储 shuffle 过程中的数据,Spark 优先使用内存进行数据存储,包括 RDD 数据。除非内存不够用,否则尽可能使用内存, 这也是 Spark 性能比 Hadoop 高的原因。
Spark 作业管理
Spark 里面的 RDD 函数有两种:
转换函数,调用以后得到的还是一个 RDD,RDD 的计算逻辑主要通过转换函数完成
action 函数,调用以后不再返回 RDD。比如 count()函数,返回 RDD 中数据的元素个数;saveAsTextFile(path),将 RDD 数据存储到 path 路径下。Spark 的 DAGScheduler 在遇到 shuffle 的时候,会生成一个计算阶段,在遇到 action 函数的时候,会生成一个作业(job)
RDD 里面的每个数据分片,Spark 都会创建一个计算任务去处理,所以一个计算阶段含多个计算任务(task)。
作业、计算阶段、任务的依赖和时间先后关系:
横轴时间,纵轴任务。两条粗黑线之间是一个作业,两条细线之间是一个计算阶段。一个作业至少包含一个计算阶段。水平方向红色的线是任务,每个阶段由很多个任务组成,这些任务组成一个任务集合。
DAGScheduler 根据代码生成 DAG 图后,Spark 任务调度就以任务为单位进行分配,将任务分配到分布式集群的不同机器上执行。
Spark 执行流程
Spark 支持 Standalone、Yarn、Mesos、K8s 等多种部署方案,原理类似,仅是不同组件的角色命名不同。
Spark cluster components:
首先,Spark 应用程序启动在自己的 JVM 进程里(Driver 进程),启动后调用 SparkContext 初始化执行配置和输入数据。SparkContext 启动 DAGScheduler 构造执行的 DAG 图,切分成最小的执行单位-计算任务。
然后,Driver 向 Cluster Manager 请求计算资源,用于 DAG 的分布式计算。Cluster Manager 收到请求后,将 Driver 的主机地址等信息通知给集群的所有计算节点 Worker。
Worker 收到信息后,根据 Driver 的主机地址,跟 Driver 通信并注册,然后根据自己的空闲资源向 Driver 通报自己可以领用的任务数。Driver 根据 DAG 图开始向注册的 Worker 分配任务。
Worker 收到任务后,启动 Executor 进程执行任务。Executor 先检查自己是否有 Driver 的执行代码,若无,从 Driver 下载执行代码,通过 Java 反射加载后开始执行。
总结
相比 Mapreduce,Spark 的主要特性:
RDD 编程模型更简单
DAG 切分的多阶段计算过程更快
使用内存存储中间计算结果更高效
Spark 在 2012 年开始流行,那时内存容量提升和成本降低已经比 MapReduce 出现的十年前强了一个数量级,Spark 优先使用内存的条件已经成熟。
参考
https://spark.apache.org/docs/3.2.1/cluster-overview.html
版权声明: 本文为 InfoQ 作者【华为云开发者社区】的原创文章。
原文链接:【http://xie.infoq.cn/article/ada38ee0e1ce90143ff3ded0c】。文章转载请联系作者。
评论