写点什么

Spark调优

0 人感兴趣 · 7 次引用

  • 最新
  • 推荐
https://static001.geekbang.org/infoq/b6/b60677f49c7e9a078dfc22da90eda48a.png?x-oss-process=image%2Fresize%2Cw_416%2Ch_234

个推 Spark 性能调优实战分享:性能提升 60%↑ 成本降低 50%↓

用户头像
个推
2021-09-23

效率和成本始终是行业进行海量数据处理和计算时所必须关注的问题。如何充分发挥Spark的优势,在进行大数据作业时真正实现降本增效呢?个推将多年积累的Spark性能调优妙招进行了总结,与大家分享。

https://static001.geekbang.org/infoq/99/9965904496996cdcd9695d34a7dfaa1a.jpeg?x-oss-process=image%2Fresize%2Cw_416%2Ch_234

Spark :: 源代码 (前传)—Spark 多线程 :: NettyRpcEnv.ask 解读

用户头像
dclar
2021-07-17

Spark中有很多异步处理的例子,每一个地方都值得好好去审视一番,对辅助理解spark的机理以及为自己写出优雅的代码都会有很大的帮助。

Spark 的动态资源分配

用户头像
小舰
2021-04-14

在进行Spark任务提交的时候,我们知道Spark提供了诸如num-executor、executor-memory等参数用来控制资源的申请和使用。但是你是否遇到过提交了任务后,当资源队列资源充足的时候,spark任务一直在吃内存的情况,貌似有点失控,这其实是“动态资源分配”在作怪

https://static001.geekbang.org/infoq/f4/f46f21ad6ca0650d4e7ec1842f85d8f5.jpeg?x-oss-process=image%2Fresize%2Cw_416%2Ch_234

Spark 性能调优 -Shuffle 调优及故障排除篇

本节开始先讲解Shuffle核心概念;然后针对HashShuffle、SortShuffle进行调优;接下来对map端、reduce端调优;再针对Spark中的数据倾斜问题进行剖析及调优;最后是Spark运行过程中的故障排除。

https://static001.geekbang.org/infoq/25/253aaae9e7d9fbe97cf83e51d6984a37.png?x-oss-process=image%2Fresize%2Cw_416%2Ch_234

Spark 提交后都干了些什么?

用户头像
小舰
2021-03-19

最近做了一个Spark小任务,在client模式下运行没问题,但是换了cluster模式就会出现一些第三方包找不到的问题。这是由于集群只在堡垒机中放了大部分的资源和jar包,而其他的如数据节点等节点中缺少这些包,因此需要将这些jar包也动态传到数据节点。

Spark 优化之小文件是否需要合并?

我们知道,大部分Spark计算都是在内存中完成的,所以Spark的瓶颈一般来自于集群(standalone, yarn, mesos, k8s)的资源紧张,CPU,网络带宽,内存。Spark的性能,想要它快,就得充分利用好系统资源,尤其是内存和CPU。有时候我们也需要做一些优化调整来减少内

Spark调优_Spark调优技术文章_InfoQ写作社区