写点什么

spark

2 人感兴趣 · 69 次引用

  • 最新
  • 推荐

Spark 如何进行动态资源分配

用户头像
数据社5 月 30 日

对于Spark应用来说,资源是影响Spark应用执行效率的一个重要因素。当一个长期运行的服务,若分配给它多个Executor,可是却没有任何任务分配给它,而此时有其他的应用却资源紧张,这就造成了很大的资源浪费和资源不合理的调度。

https://static001.geekbang.org/infoq/85/857c67577db45453b80f8ff6ca06c032.jpeg?x-oss-process=image/resize,w_416,h_234

Spark 知识点简单总结

Hadoop底层使用MapReduce计算架构,只有map和reduce两种操作,表达能力比较欠缺,而且在MR过程中会重复的读写hdfs,造成大量的磁盘io读写操作,所以适合高时延环境下批处理计算的应用;

https://static001.geekbang.org/infoq/5e/5ec64f41428884ba108428bf57b05e5c.jpeg?x-oss-process=image/resize,w_416,h_234

Spark 地基之 RDD

用户头像
正向成长4 月 27 日

RDD是Spark的基本数据抽象,利用将数据存储在内存;分区存储使得其天然支持并行;存储依赖关系提升错误恢复,基于RDD的论文介绍了RDD的一些概念和实现思想

https://static001.geekbang.org/infoq/55/553d6f6c744a8902dc434af1fb57f3ee.jpeg?x-oss-process=image/resize,w_416,h_234

Spark 数据倾斜解决方案

数据倾斜:就是数据分到各个区的数量不太均匀,可以自定义分区器,想怎么分就怎么分

https://static001.geekbang.org/infoq/55/553d6f6c744a8902dc434af1fb57f3ee.jpeg?x-oss-process=image/resize,w_416,h_234

Spark 中的累加器和广播变量

在默认情况下,当Spark在集群的多个不同节点的多个任务上并行运行一个函数时,它会把函数中涉及到的每个变量,在每个任务上都生成一个副本。但是,有时候需要在多个任务之间共享变量,或者在任务(Task)和任务控制节点(Driver Program)之间共享变量。

你的 Parquet 该升级了:IOException: totalValueCount==0 问题定位之旅

摘要: 使用Spark SQL进行ETL任务,在读取某张表的时候报错:“IOException: totalValueCount == 0”,但该表在写入时,并没有什么异常。

https://static001.geekbang.org/infoq/f4/f46f21ad6ca0650d4e7ec1842f85d8f5.jpeg?x-oss-process=image/resize,w_416,h_234

Spark 性能调优 -Shuffle 调优及故障排除篇

本节开始先讲解Shuffle核心概念;然后针对HashShuffle、SortShuffle进行调优;接下来对map端、reduce端调优;再针对Spark中的数据倾斜问题进行剖析及调优;最后是Spark运行过程中的故障排除。

https://static001.geekbang.org/infoq/1b/1b3f61b785e982a54452e06e1ea45cc1.jpeg?x-oss-process=image/resize,w_416,h_234

spark 性能调优之 JVN 调优

对于JVM调优,首先应该明确,(major)fullgc/minor gc,都会导致JVM的工作线程停止工作,即stop the world。

https://static001.geekbang.org/infoq/a5/a523d5835597ac7833159688ba0bd875.png?x-oss-process=image/resize,w_416,h_234

Flink VS Spark

这几年大数据的飞速发展,出现了很多热门的开源社区,其中著名的有 Hadoop、Storm,以及后来的 Spark,他们都有着各自专注的应用场景。Spark 掀开了内存计算的先河,也以内存为赌注,赢得了内存计算的飞速发展。Spark 的火热或多或少的掩盖了其他分布式计算的

https://static001.geekbang.org/infoq/e4/e4797fa6b4b33a063aa396fa67081f33.jpeg?x-oss-process=image/resize,w_416,h_234

Spark 性能调优 -Shuffle 调优及故障排除篇

本文开始先讲解Shuffle核心概念;然后针对HashShuffle、SortShuffle进行调优;接下来对map端、reduce端调优;再针对Spark中的数据倾斜问题进行剖析及调优;最后是Spark运行过程中的故障排除。

https://static001.geekbang.org/infoq/49/4988067b226139fc16a377e4f78f42fe.jpeg?x-oss-process=image/resize,w_416,h_234

Spark 常见的故障排除

在Shuffle过程,reduce端task并不是等到map端task将其数据全部写入磁盘后再去拉取,而是map端写一点数据,reduce端task就会拉取一小部分数据,然后立即进行后面的聚合、算子函数的使用等操作。

https://static001.geekbang.org/infoq/f4/f46f21ad6ca0650d4e7ec1842f85d8f5.jpeg?x-oss-process=image/resize,w_416,h_234

Spark 详细剖析

指的是用户编写的Spark应用程序/代码,包含了Driver功能代码和分布在集群中多个节点上运行的Executor代码。

https://static001.geekbang.org/infoq/25/253aaae9e7d9fbe97cf83e51d6984a37.png?x-oss-process=image/resize,w_416,h_234

Spark 提交后都干了些什么?

用户头像
小舰3 月 19 日

最近做了一个Spark小任务,在client模式下运行没问题,但是换了cluster模式就会出现一些第三方包找不到的问题。这是由于集群只在堡垒机中放了大部分的资源和jar包,而其他的如数据节点等节点中缺少这些包,因此需要将这些jar包也动态传到数据节点。

https://static001.geekbang.org/infoq/0c/0ce472f49105032876ec87ea6c7b9b31.png?x-oss-process=image/resize,w_416,h_234

实时数据流计算引擎 Flink 和 Spark 流计算对比

用户头像
小舰3 月 19 日

在过去几年,业界的主流流计算引擎大多采用Spark Streaming,随着近两年Flink的快速发展,Flink的使用也越来越广泛。与此同时,Spark针对Spark Streaming的不足,也继而推出了新的流计算组件。本文旨在深入分析不同的流计算引擎的内在机制和功能特点,为流处

https://static001.geekbang.org/infoq/24/243b0b466db2df8bf475cb1ce2e3f24c.jpeg?x-oss-process=image/resize,w_416,h_234

企业大数据实战:Kyuubi 与 Spark ThriftServer 的全面对比分析

用户头像
网易数帆3 月 19 日

本文从企业大数据应用场景关注的问题出发,对比了 Kyuubi 与 Spark Thrift Server 的差异与优劣,并引入HiveServer2 进行全面的分析。

https://static001.geekbang.org/infoq/39/3969dac2cd7bd173dbc536e1d2429de8.jpeg?x-oss-process=image/resize,w_416,h_234

Kyuubi: 网易数帆开源的企业级数据湖探索平台(架构篇)

用户头像
网易数帆3 月 17 日

Kyuubi是网易数帆旗下易数大数据团队开源的一个企业级数据湖探索平台,建立在Apache Spark之上。Kyuubi提供一个高性能的通用JDBC和SQL执行引擎,通过它,用户能够像处理普通数据一样处理大数据。本文将详细解读Kyuubi的架构设计。

https://static001.geekbang.org/infoq/6f/6f5b9ae11c45ce2a1ffc2aef0d6d64ab.jpeg?x-oss-process=image/resize,w_416,h_234

上万字详解 Spark Core(建议收藏)

先来一个问题,也是面试中常问的:Spark为什么会流行?

https://static001.geekbang.org/infoq/00/00e5cdb91efc7e251c7ffb5f7ea290f3.png?x-oss-process=image/resize,w_416,h_234

使用 Spark Mllib 进行数据分析

本节内容主要是数据采集到大数据平台之后,然后通过算法模型对数据进行分析,得到分析结果。在教学分析时,采用了多种数据模型及算法。机器学习阶段主要采用监督式学习中的随机森林算法及非监督式学习中的K-mean算法。

https://static001.geekbang.org/infoq/f4/f46f21ad6ca0650d4e7ec1842f85d8f5.jpeg?x-oss-process=image/resize,w_416,h_234

基于 SparkMLlib 智能课堂教学评价系统 - 系统设计 (三)

系统是一个有机整体。因此,系统设计中,要从整个系统的角度进行考虑,使系统有统一的信息代码、统一的数据组织方法、统一的设计规范和标准,以此来提高系统的设计质量[8]。本章节分为三部分进行设计,第一部分数系统需求分析,主要从技术,经济,操作及功能

https://static001.geekbang.org/infoq/a3/a34eefe18681da7f5d7d9a417e1fc7e6.jpeg?x-oss-process=image/resize,w_416,h_234

Spark 支持自定义 Python 环境

用户头像
walker121383 月 3 日

现有大数据平台的Spark版本是2.1.0,Python版本2.7和3.6 ,通过PySpark+Jupyter方式提供服务。Python 2年岁久远,升级支持Python 3

https://static001.geekbang.org/infoq/bd/bdd2e69ab378ef5883a180b278d43842.png?x-oss-process=image/resize,w_416,h_234

与 Hadoop 对比,我是如何看待 Spark 技术?

用户头像
会飞的鱼3 月 2 日

首先看一下Hadoop解决了什么问题,Hadoop就是解决了大数据(大到一台计算机无法进行存储,一台计算机无法在要求的时间内进行处理)的可靠存储和处理。

https://static001.geekbang.org/infoq/36/36e24c70f954897b39e264399f4d6856.png?x-oss-process=image/resize,w_416,h_234

Spark Shuffle 内部机制(三)

用户头像
hanke2 月 24 日

本篇中我们继续总结一下Spark Shuffle整个的发展历史

https://static001.geekbang.org/infoq/b3/b32ede53196caf7e2a8fa3fd92807138.jpeg?x-oss-process=image/resize,w_416,h_234

Spark Shuffle 内部机制(二)

用户头像
hanke2 月 22 日

在上一篇文章里的Spark Shuffle内部机制(一)中我们介绍了Spark Shuffle Write的框架设计,在本篇中我们继续总结一下Spark Shuffle Read的框架设计。

https://static001.geekbang.org/infoq/f4/f4750edbc89855514dc0f0e7e0374817.jpeg?x-oss-process=image/resize,w_416,h_234

用形象比喻理解大数据技术 Hadoop、NoSQL、Spark

用户头像
读字节2 月 22 日

大数据技术平台就是一个生态圈,生态里面的各类技术让人眼花缭乱,即便是资深工程师也需要学习跟实践很多年才有一些积累,非专业的人去看当然晕了!因此我们需要把这么一大堆的内容分解开,找出关键的部分,用形象比喻的方式,更容易得让广大初学者从整体架构

spark_spark资料文章-InfoQ写作平台