谈谈 spark 性能调优的方法

前言

随着数据的不断膨胀，科技的持续进度，我们记录数据的方式也在不断变化。从最早的甲骨文，到纸质记录，再到如今用磁盘硬件收集。再说到大数据，现在普遍使用的是 hadoop 和 spark。而 spark 因其优越的性能优势，已经在逐步取代 hadoop 了。

spark 固然好用，但其学习成本较高，配置项繁多。我们要用好 spark，需要知道它的原理及特性。今天就来讲讲 spark 的性能调优方向。

当我们写完 spark 任务代码后，需要分析其瓶颈，然后优化，保证能更好的利用 spark 的性能。spark 的性能调优本质，可总结为：

途径可分 2 种：

第一种途径，往往需要开发人员有较多的 spark 开发经验。比如一个任务卡在某个 task 了，凭经验大致猜测该任务有 shuffle 的存在。

而第二种途径适合任何人。我们通过 sparkUI 的信息，去分析瓶颈位置的执行情况。从而定位到具体问题。

不管哪种途径，从硬件资源的消耗入手是最快捷的方式，因为瓶颈都是体现在硬件资源上。

在 spark 中，其实方法就 2 种：

spark 的性能调优，目的就是让我们的服务器资源之间得到平衡。因为资源不是无穷尽，我们需要合理调整，让这些硬件之间协调运行，达到少产生瓶颈的状态。

发布于: 刚刚阅读数: 3

关注

还未添加个人签名 2020-06-16 加入

还未添加个人简介

发布

暂无评论