spark
2 人感兴趣 · 63 次引用
- 最新
- 推荐

Spark 中的累加器和广播变量
在默认情况下,当Spark在集群的多个不同节点的多个任务上并行运行一个函数时,它会把函数中涉及到的每个变量,在每个任务上都生成一个副本。但是,有时候需要在多个任务之间共享变量,或者在任务(Task)和任务控制节点(Driver Program)之间共享变量。
你的 Parquet 该升级了:IOException: totalValueCount==0 问题定位之旅
摘要: 使用Spark SQL进行ETL任务,在读取某张表的时候报错:“IOException: totalValueCount == 0”,但该表在写入时,并没有什么异常。

Spark 性能调优 -Shuffle 调优及故障排除篇
本节开始先讲解Shuffle核心概念;然后针对HashShuffle、SortShuffle进行调优;接下来对map端、reduce端调优;再针对Spark中的数据倾斜问题进行剖析及调优;最后是Spark运行过程中的故障排除。

spark 性能调优之 JVN 调优
对于JVM调优,首先应该明确,(major)fullgc/minor gc,都会导致JVM的工作线程停止工作,即stop the world。

Flink VS Spark
这几年大数据的飞速发展,出现了很多热门的开源社区,其中著名的有 Hadoop、Storm,以及后来的 Spark,他们都有着各自专注的应用场景。Spark 掀开了内存计算的先河,也以内存为赌注,赢得了内存计算的飞速发展。Spark 的火热或多或少的掩盖了其他分布式计算的

Spark 性能调优 -Shuffle 调优及故障排除篇
本文开始先讲解Shuffle核心概念;然后针对HashShuffle、SortShuffle进行调优;接下来对map端、reduce端调优;再针对Spark中的数据倾斜问题进行剖析及调优;最后是Spark运行过程中的故障排除。

Spark 提交后都干了些什么?
最近做了一个Spark小任务,在client模式下运行没问题,但是换了cluster模式就会出现一些第三方包找不到的问题。这是由于集群只在堡垒机中放了大部分的资源和jar包,而其他的如数据节点等节点中缺少这些包,因此需要将这些jar包也动态传到数据节点。

企业大数据实战:Kyuubi 与 Spark ThriftServer 的全面对比分析
本文从企业大数据应用场景关注的问题出发,对比了 Kyuubi 与 Spark Thrift Server 的差异与优劣,并引入HiveServer2 进行全面的分析。

Spark 支持自定义 Python 环境
现有大数据平台的Spark版本是2.1.0,Python版本2.7和3.6 ,通过PySpark+Jupyter方式提供服务。Python 2年岁久远,升级支持Python 3

Spark Shuffle 内部机制(二)
在上一篇文章里的Spark Shuffle内部机制(一)中我们介绍了Spark Shuffle Write的框架设计,在本篇中我们继续总结一下Spark Shuffle Read的框架设计。

Spark 持久化介绍(cache/persist/checkpoint)
Spark 持久化原理详解 一、RDD 持久化介绍 二、RDD 持久化级别 三、持久化级别选择 四、删除持久化数据 五、RDD cache 和 persist 六、RDD checkpoint 七、DataSet cache 和 persist

Spark 底层原理详细解析 (深度好文,建议收藏)
Apache Spark是用于大规模数据处理的统一分析引擎,基于内存计算,提高了在大数据环境下数据处理的实时性,同时保证了高容错性和高可伸缩性,允许用户将Spark部署在大量硬件之上,形成集群。
大数据场景下 Volcano 高效调度能力实践
摘要:本篇文章将会从Spark on Kubernetes 发展历程以及工作原理,以及介绍一下Spark with Volcano,Volcano如何能够帮助 Spark运行地更高效。