写点什么

Spark调优

0 人感兴趣 · 5 次引用

  • 最新
  • 推荐

Spark 的动态资源分配

用户头像
小舰4 月 14 日

在进行Spark任务提交的时候,我们知道Spark提供了诸如num-executor、executor-memory等参数用来控制资源的申请和使用。但是你是否遇到过提交了任务后,当资源队列资源充足的时候,spark任务一直在吃内存的情况,貌似有点失控,这其实是“动态资源分配”在作怪

https://static001.geekbang.org/infoq/f4/f46f21ad6ca0650d4e7ec1842f85d8f5.jpeg?x-oss-process=image/resize,w_416,h_234

Spark 性能调优 -Shuffle 调优及故障排除篇

本节开始先讲解Shuffle核心概念;然后针对HashShuffle、SortShuffle进行调优;接下来对map端、reduce端调优;再针对Spark中的数据倾斜问题进行剖析及调优;最后是Spark运行过程中的故障排除。

https://static001.geekbang.org/infoq/25/253aaae9e7d9fbe97cf83e51d6984a37.png?x-oss-process=image/resize,w_416,h_234

Spark 提交后都干了些什么?

用户头像
小舰3 月 19 日

最近做了一个Spark小任务,在client模式下运行没问题,但是换了cluster模式就会出现一些第三方包找不到的问题。这是由于集群只在堡垒机中放了大部分的资源和jar包,而其他的如数据节点等节点中缺少这些包,因此需要将这些jar包也动态传到数据节点。

Spark 优化之小文件是否需要合并?

用户头像
华为云开发者社区2020 年 8 月 13 日

我们知道,大部分Spark计算都是在内存中完成的,所以Spark的瓶颈一般来自于集群(standalone, yarn, mesos, k8s)的资源紧张,CPU,网络带宽,内存。Spark的性能,想要它快,就得充分利用好系统资源,尤其是内存和CPU。有时候我们也需要做一些优化调整来减少内

Spark调优_Spark调优资料文章-InfoQ写作平台