写点什么

spark

3 人感兴趣 · 218 次引用

  • 最新
  • 推荐
https://static001.geekbang.org/infoq/8a/8a48662485100eaef2195297cc6b0ce3.jpeg?x-oss-process=image%2Fresize%2Cw_416%2Ch_234

Apache Kyuubi & Celeborn (Incubating) 助力 Spark 拥抱云原生

本文围绕如何基于 Apache Kyuubi & Celeborn 等开源技术,构建企业级 Spark on Kubernetes 云原生离线计算平台展开,包含技术选型、架构设计、经验教训、缺陷改进、降本增效等内容,深入剖析网易在该领域的探索成果。

https://static001.geekbang.org/infoq/b0/b0664f3c6218b9bba899ae0551fe838e.jpeg?x-oss-process=image%2Fresize%2Cw_416%2Ch_234

Java 命令行参数解析方式探索(四):Spark & Flink

我们在提交 Spark 任务时通常会设置任务名称、master 地址、driver 资源和 executor 资源等参数,除此之外还有很多,那么 Spark 是如何一步步解析这些命令行参数呢?让我们一起探索。

CDH5.11.2 集成 IceBerg(二):Spark3 适配

上⽂分析Spark的版本⾄少为Spark3,接下来考虑Spark3与hadoop的兼容性

求爷爷告奶奶,阿里大佬才甩出这份 Spark+Hadoop+ 中台实战 pdf

Spark大数据分析实战 1、Spark简介 初识Spark Spark生态系统BDAS Spark架构与运行逻辑 弹性分布式数据集 2、Spark开发与环境配置 Spark应用开发环境2置 使用Intelli i开发Spark 远程调试Spark程序 Spark编译

在 Inteillj IDEA 中使用 Spark 操作 Hive

前面已经简单介绍过在windows下hadoop和hive环境搭建和基本使用。这次的Spark有点突兀,但是也可以先忽略,重要的是先在IDEA中安装bigData插件连接hadoop已经HDFS,而后再简单介绍使用Spark操作Hive。

Hive 和 Spark 分区策略剖析

随着技术的不断的发展,大数据领域对于海量数据的存储和处理的技术框架越来越多。在离线数据处理生态系统最ju代表性的分布式处理引擎当属Hive和Spark,它们在分区策略方面有着一些相似之处,但也存在一些不同之处。

死磕 Spark 事件总线——聊聊 Spark 中事件监听是如何实现的

Spark中大量采用事件监听方式,实现driver端的组件之间的通信。本文就来解释一下Spark中事件监听是如何实现的

https://static001.geekbang.org/infoq/43/438fc94ba2f35ed306638b5d043a358e.png?x-oss-process=image%2Fresize%2Cw_416%2Ch_234

流处理计算平台 StreamPark 2.0.0 重磅发布,首个 Apache 版本终于来了

Apache StreamPark 2.0.0 正式发布, 这是 StreamPark 加入 Apache 孵化器以来发布的第一个版本,也是一个重大功能更新的版本, 有超过 100 位 Contributor 贡献了超过 700 个 Pull Request,带来了诸多的新特性和改进修复.

https://static001.geekbang.org/infoq/3b/3b5c8d4eb54f792dc115181626fcd428.jpeg?x-oss-process=image%2Fresize%2Cw_416%2Ch_234

Hadoop 及 Spark 分布式 HA 运行环境搭建

工欲善其事必先利其器,在深入学习大数据相关技术之前,先手动从0到1搭建一个属于自己的本地Hadoop和Spark运行环境,对于继续研究大数据生态圈各类技术具有重要意义。本文旨在站在研发的角度上通过手动实践搭建运行环境,文中不拖泥带水过多讲述基础知识,结

BIGO 如何做到夜间同时运行 2.4K 个工作流实例?

主要介绍了 BIGO 如何使用 DophinScheduler 来调度以 Spark 为主的多种类型的离线任务,以及为了满足业务需求、提升用户使用体验,在 DS 和 Spark 上所做的各种改进。

Spark 在 KaiwuDB 中的应用与实践

用户头像
KaiwuDB
01-18

数据库面对大量数据复杂 OLAP 查询,性能出现局限性,无法满足用户 AP 方面的高性能要求。可借助 Spark 平台,融合了 KaiwuDB 分布式集群及列存存储的性能优势,定制了 Spark 工具,为用户提供一个高性能的 OLAP 解决方案,并满足了大数据生态的客户需求。

Spark 在 KaiwuDB 中的应用与实践

用户头像
KaiwuDB
01-06

当数据库面对大量数据复杂 OLAP 查询时,性能出现局限性,无法满足用户 AP 方面的高性能要求。KaiwuDB 推出了此项解决方案:借助 Spark 平台,融合了 KaiwuDB 分布式集群及列存存储的性能优势,定制了 Spark 工具,为用户提供一个高性能的 OLAP 解决方案。

https://static001.geekbang.org/infoq/2e/2e9f3c970395d922b31a4b210936821c.jpeg?x-oss-process=image%2Fresize%2Cw_416%2Ch_234

正式毕业!Apache Kyuubi 成为 Apache 基金会顶级项目!

用户头像
网易数帆
2022-12-29

2022年12月22日,Apache 软件基金会(ASF)官方宣布 Apache Kyuubi 正式毕业,成为顶级项目(TLP)。

https://static001.geekbang.org/infoq/2a/2ac273309f40a868211b65a6794376cf.png?x-oss-process=image%2Fresize%2Cw_416%2Ch_234

Spark 架构

在分布式技术中,架构无非两种,即主从架构(master-slave)和点对点架构(p2p), Spark采取了前者,也是MapReduce的选择——主从架构。

Spark RDD 分区数与分区器源码解析

现如今Spark已经得到了几乎所有大数据企业的认可,而这些企业也迅速将自己的产品与Spark进行了紧密地集成。

https://static001.geekbang.org/infoq/9d/9d02b40bf3dfd194f600a40e7b6256a1.png?x-oss-process=image%2Fresize%2Cw_416%2Ch_234

多点 DMALL × Apache Kyuubi:构建统一 SQL Proxy 探索实践

用户头像
网易数帆
2022-11-25

伴随着国家产业升级的推进和云原生技术成熟,多点 DMALL 大数据技术也经历了从存算一体到存算分离的架构调整变迁。本文将从引入 Kyuubi 实现统一 SQL Proxy 的角度讲述这一探索实践的历程。

如何杜绝 spark history server ui 的未授权访问?

如何杜绝 spark history server ui 的未授权访问? 默认状况下,Spark history Sever ui 是没有任何访问控制机制的,任何用户只要知道 shs 对应的 url,就可以访问链接查看 spark 作业的运行状况。

https://static001.geekbang.org/infoq/85/854859be4bcc059a0948e59396e51d17.webp?x-oss-process=image%2Fresize%2Cw_416%2Ch_234

比 DataX 快 20%!SeaTunnel 同步计算引擎性能测试全新发布

在相同测试环境下,最新发布的同步计算引擎SeaTunnel Engine均比DataX同步数据的速度更快。

线上 hive on spark 作业执行超时问题排查案例分享

分享一个某业务系统的线上 hive on spark 作业在高并发下频现作业失败问题的原因分析和解决方法

https://static001.geekbang.org/infoq/85/8561723c683c91e6f98357205cc32c8f.jpeg?x-oss-process=image%2Fresize%2Cw_416%2Ch_234

Mac 部署 spark2.4.4

用户头像
程序员欣宸
2022-11-06

在Mac系统安装spark,用于学习和开发

Spark+ignite 实现海量数据低成本高性能 OLAP

用户头像
张磊
2022-11-04

Apache Spark 、 Apache Ignite 两个都是顶级开源软件,同属于内存计算框架与平台。在功能上有交集也有侧重点,一山不容二虎,但是在IgniteRDD的作用下,将两个内存计算平台无缝的连接了起来变成了一个新的完美的内存计算框架。

https://static001.geekbang.org/infoq/31/31d9ebda62233d4db87937d8815c7f69.png?x-oss-process=image%2Fresize%2Cw_416%2Ch_234

查看 Spark 任务的详细信息

用户头像
程序员欣宸
2022-10-31

在学习Spark的过程中,查看任务的DAG、stage、task等详细信息是学习的重要手段,在此做个小结

https://static001.geekbang.org/infoq/9c/9c1bebe9659fe44fff34824c93a7d10e.png?x-oss-process=image%2Fresize%2Cw_416%2Ch_234

Spark on k8s 在阿里云 EMR 的优化实践

随着大数据技术的发展,Spark成为当今大数据领域最受关注的计算引擎之一。在传统的生产环境中,Spark on YARN成为主流的任务执行方式,而随着容器化概念以及存算分离思想的普及,尤其是Spark3.1版本下该模式的正式可用(GA),Spark on K8s已成燎原之势。

https://static001.geekbang.org/infoq/01/01dcfa8fb2047c5b5d8e0083d9458e29.jpeg?x-oss-process=image%2Fresize%2Cw_416%2Ch_234

概述 Spark 主要特点

Spark是在MapReduce基础上产生的,它克服了MapReduce存在的性能低下、编程不够灵活等缺点。Spark作为一种DAG计算框架,其主要特点如下。

谈谈 spark 性能调优的方法

说到大数据,现在普遍使用的是hadoop和spark。而spark因其优越的性能优势,已经在逐步取代hadoop了。 spark固然好用,但其学习成本较高,配置项繁多。我们要用好spark,需要知道它的原理及特性。今天就来讲讲spark的性能调优方向。

https://static001.geekbang.org/infoq/1d/1da284b628abf08c6a238dbfd1d29c18.jpeg?x-oss-process=image%2Fresize%2Cw_416%2Ch_234

SparkSQL on K8s 在网易传媒的落地实践

用户头像
网易数帆
2022-10-18

随着云原生技术的发展和成熟,大数据基础设施积极拥抱云原生是业内发展的一大趋势。网易传媒在 2021 年成功将 SparkSQL 部署到了 K8s 集群,并实现与部分在线业务的混合部署,到目前已经稳定运行了一年多。期间传媒联合杭研 Spark 内核团队和云计算团队对出现

https://static001.geekbang.org/infoq/78/78898b565d0b12969e436bf0f69a76d5.jpeg?x-oss-process=image%2Fresize%2Cw_416%2Ch_234

开源无国界,从 openEuler Maintainer 到 Spark Committer 的贡献开源之路

用户头像
openEuler
2022-10-14

2022年10月初,openEuler Maintainer 姜逸坤接受Apache Spark PMC邀请,正式成为Apache Spark Committer。

Spark 数据倾斜解决

数据倾斜就是数据分到各个区的数量不太均匀,可以自定义分区器,想怎么分就怎么分。

spark_spark技术文章_InfoQ写作社区