spark 为什么比 mapreduce 快？

作者：京东科技开发者

2024-02-20
北京
本文字数：754 字
阅读完需：约 2 分钟

首先澄清几个误区：

1：两者都是基于内存计算的，任何计算框架都肯定是基于内存的，所以网上说的 spark 是基于内存计算所以快，显然是错误的

2;DAG 计算模型减少的是磁盘 I/O 次数（相比于 mapreduce 计算模型而言），而不是 shuffle 次数，因为 shuffle 是根据数据重组的次数而定，所以 shuffle 次数不能减少

所以总结 spark 比 mapreduce 快的原因有以下几点：

1：DAG 相比 hadoop 的 mapreduce 在大多数情况下可以减少磁盘 I/O 次数

因为 mapreduce 计算模型只能包含一个 map 和一个 reduce,所以 reduce 完后必须进行落盘，而 DAG 可以连续 shuffle 的，也就是说一个 DAG 可以完成好几个

mapreduce，所以 dag 只需要在最后一个 shuffle 落盘，就比 mapreduce 少了，总 shuffle 次数越多，减少的落盘次数就越多

2：spark shuffle 的优化

mapreduce 在 shuffle 时默认进行排序，spark 在 shuffle 时则只有部分场景才需要排序（bypass 技师不需要排序），排序是非常耗时的，这样就可以加快 shuffle 速度

3：spark 支持将需要反复用到的数据进行缓存

所以对于下次再次使用此 rdd 时，不再再次计算，而是直接从缓存中获取，因此可以减少数据加载耗时，所以更适合需要迭代计算的机器学习算法

4：任务级别并行度上的不同

mapreduce 采用多进程模型，而 spark 采用了多线程模型，多进程模型的好处是便于细粒度控制每个任务占用的资源，但每次任务的启动都会消耗一定的启动时间，即 mapreduce 的 map task 和 reduce task 是进程级别的，都是 jvm 进程，每次启动都需要重新申请资源，消耗不必要的时间，而 spark task 是基于线程模型的，通过复用线程池中的线程来减少启动，关闭 task 所需要的开销（多线程模型也有缺点，由于同节点上所有任务运行在一个进行中，因此，会出现严重的资源争用，难以细粒度控制每个任务占用资源）

作者：京东零售吴化斌

来源：京东云开发者社区转载请注明来源

发布于: 刚刚阅读数: 3

京东科技开发者

关注

拥抱技术，与开发者携手创造未来！ 2018-11-20 加入

我们将持续为人工智能、大数据、云计算、物联网等相关领域的开发者，提供技术干货、行业技术内容、技术落地实践等文章内容。京东云开发者社区官方网站【https://developer.jdcloud.com/】，欢迎大家来玩

发布

暂无评论

创作场景

spark 为什么比 mapreduce 快？

首先澄清几个误区：

所以总结 spark 比 mapreduce 快的原因有以下几点：

1：DAG 相比 hadoop 的 mapreduce 在大多数情况下可以减少磁盘 I/O 次数

2：spark shuffle 的优化

3：spark 支持将需要反复用到的数据进行缓存

4：任务级别并行度上的不同

京东科技开发者

评论