Spark调优
0 人感兴趣 · 7 次引用
- 最新
- 推荐
个推 Spark 性能调优实战分享:性能提升 60%↑ 成本降低 50%↓
效率和成本始终是行业进行海量数据处理和计算时所必须关注的问题。如何充分发挥Spark的优势,在进行大数据作业时真正实现降本增效呢?个推将多年积累的Spark性能调优妙招进行了总结,与大家分享。
Spark 的动态资源分配
在进行Spark任务提交的时候,我们知道Spark提供了诸如num-executor、executor-memory等参数用来控制资源的申请和使用。但是你是否遇到过提交了任务后,当资源队列资源充足的时候,spark任务一直在吃内存的情况,貌似有点失控,这其实是“动态资源分配”在作怪
Spark 性能调优 -Shuffle 调优及故障排除篇
本节开始先讲解Shuffle核心概念;然后针对HashShuffle、SortShuffle进行调优;接下来对map端、reduce端调优;再针对Spark中的数据倾斜问题进行剖析及调优;最后是Spark运行过程中的故障排除。
Spark 提交后都干了些什么?
最近做了一个Spark小任务,在client模式下运行没问题,但是换了cluster模式就会出现一些第三方包找不到的问题。这是由于集群只在堡垒机中放了大部分的资源和jar包,而其他的如数据节点等节点中缺少这些包,因此需要将这些jar包也动态传到数据节点。