写点什么

spark

1 人感兴趣 · 30 次引用

  • 最新
  • 推荐
https://static001.geekbang.org/infoq/b3/b32ede53196caf7e2a8fa3fd92807138.jpeg?x-oss-process=image/resize,w_416,h_234

Hadoop 的 MapReduce 到底有什么问题?

用户头像
hanke44 分钟前

作为Hadoop里重要的分布式计算组件MapReduce到底存在什么样的问题,大家纷纷都转投其他技术栈?我们来一起探个究竟。本文会先详细解析一下整个MapReduce的过程,编程方式,然后再去分析一下存在的问题和其中可以借鉴的点。

Spark 扫描 HDFS lzo/gz/orc 异常压缩文件

用户头像
笨小康1 月 8 日

考虑到 Hadoop 3.0.0 的新特性 EC 码,我们将 Hadoop 2.6.0 集群的数据冷备到 Hadoop 3.0.0,来缓解 HDFS 存储的压力,但在冷备操作进行了一段时间后,用户反馈数据读取存在异常,由于文件暂时不可恢复,需要把异常文件给排查出来。

Spark HistoryServer 日志解析 & 清理异常

用户头像
笨小康1 月 8 日

线上集群在使用 Spark HistoryServer 出现过两类问题,一类问题是日志解析异常导致无法查看 Spark 作业执行记录,另一类问题是日志清理异常导致 Spark 作业写 HDFS 目录达到上限无法提交作业,针对这两类问题,我们对 Spark HistoryServer 源码展开了研究。

https://static001.geekbang.org/infoq/be/be3537f2940564f3a07450dd03fc3df0.jpeg?x-oss-process=image/resize,w_416,h_234

Spark 3.0 关键新特性回顾

用户头像
hanke1 月 6 日

从Spark 3.0官方的Release Notes可以看到,这次大版本的升级主要是集中在性能优化和文档丰富上(如下图),其中46%的优化都集中在Spark SQL上。

Flink 比 Spark 好在哪?

用户头像
数据社2020 年 12 月 27 日

Flink 是一个面向分布式数据流处理和批量数据处理的开源计算平台。和 Spark 类似,两者都希望提供一个统一功能的计算平台给用户,都在尝试建立一个统一的平台以运行批量,流式,交互式,图处理,机器学习等应用。

Spark 的分布式存储系统 BlockManager 全解析

用户头像
华为云开发者社区2020 年 12 月 21 日

摘要:BlockManager 是 spark 中至关重要的一个组件,在spark的运行过程中到处都有 BlockManager 的身影,只有搞清楚 BlockManager 的原理和机制,你才能更加深入的理解 spark。

DolphinDB 与 Spark 的性能对比测试报告

用户头像
DolphinDB2020 年 12 月 17 日

Spark是基于内存计算的通用大数据并行计算框架,内置多种组件,如批处理、流处理、机器学习和图处理。Hive是基于Hadoop的数据仓库,支持类SQL的命令查询,提升了Hadoop的易用性。Spark与Hive、Hadoop通常是搭配使用,利用Hive中的数据分区可以方便地管理和过

Spark-submit 执行流程,了解一下

用户头像
华为云开发者社区2020 年 12 月 11 日

摘要:本文主要是通过Spark代码走读来了解spark-submit的流程。

如何应对 Spark-Redis 行海量数据插入、查询作业时碰到的问题

用户头像
华为云开发者社区2020 年 11 月 28 日

摘要:由于redis是基于内存的数据库,稳定性并不是很高,尤其是standalone模式下的redis。于是工作中在使用Spark-Redis时也会碰到很多问题,尤其是执行海量数据插入与查询的场景中。

https://static001.geekbang.org/infoq/aa/aaab88c746347f1a224f4fcd808e2667.jpeg?x-oss-process=image/resize,w_416,h_234

深入浅出 Spark

用户头像
大数志2020 年 11 月 28 日

Spark Join的那些事儿

https://static001.geekbang.org/infoq/6e/6eb240d1eab2d6aed0f27394565d96e3.jpeg?x-oss-process=image/resize,w_416,h_234

过滤 Spark 数据集的四种方法

用户头像
大数志2020 年 11 月 16 日

你知道有四种过滤Spark数据集的方法吗?

案例解析丨 Spark Hive 自定义函数应用

用户头像
华为云开发者社区2020 年 9 月 14 日

摘要:Spark目前支持UDF,UDTF,UDAF三种类型的自定义函数。

https://static001.geekbang.org/infoq/6b/6ba8fdd79643b2383b9b3658d1756d32.jpeg?x-oss-process=image/resize,w_416,h_234

大数据架构 & 数据应用 / 分析 & 机器学习 (二)

用户头像
dony.zhang2020 年 9 月 9 日

随着近年来,信息技术迅猛发展,通过各种终端设备收集大量数据。可通过对这些数据进行分析、挖掘、机器学习,实现个性化营销、智能推荐等应用场景,为公司挖掘更多的商业价值,为用户带来更好的体验。

技术揭秘:华为云 DLI 背后的核心计算引擎

用户头像
华为云开发者社区2020 年 8 月 27 日

摘要:介绍隐藏在华为云数据湖探索服务背后的核心计算引擎Spark,玩转DLI,,轻松完成大数据的分析处理。

https://static001.geekbang.org/infoq/c0/c0eac81aa9fec2a0dd3d5829a72acb9f.png?x-oss-process=image/resize,w_416,h_234

大数据技术发展 (三):Spark 代替 Hadoop ? Spark Or Flink ?

用户头像
抖码算法2020 年 8 月 20 日

在大数据领域中,选择使用 Hadoop、还是 Spark、还是 Flink,这个话题是一个非常热门的话题,这篇文章就带你探个究竟,看看到底选择哪一个技术?

Spark 优化之小文件是否需要合并?

用户头像
华为云开发者社区2020 年 8 月 13 日

我们知道,大部分Spark计算都是在内存中完成的,所以Spark的瓶颈一般来自于集群(standalone, yarn, mesos, k8s)的资源紧张,CPU,网络带宽,内存。Spark的性能,想要它快,就得充分利用好系统资源,尤其是内存和CPU。有时候我们也需要做一些优化调整来减少内

https://static001.geekbang.org/infoq/91/91549244d762a78d49a62bd10ac988f5.png?x-oss-process=image/resize,w_416,h_234

Spark 窗口函数 I

用户头像
马小宝2020 年 7 月 26 日

你想知道的 Spark 窗口函数,都在这里了~

数据湖应用解析:Spark on Elasticsearch 一致性问题

用户头像
华为云开发者社区2020 年 7 月 21 日

摘要:脏数据对数据计算的正确性带来了很严重的影响。因此,我们需要探索一种方法,能够实现Spark写入Elasticsearch数据的可靠性与正确性。

https://static001.geekbang.org/infoq/22/226bb9f244af5d404bcc1ed7d4839d3d.png?x-oss-process=image/resize,w_416,h_234

开源数据交换(client)

用户头像
李孟2020 年 7 月 14 日

exchange是要打造一个轻量级,高扩展性的数据交换平台,支持对结构化及无结构化的异构数据源之间的数据传输,在应用层上具有数据权限管控、节点服务高可用和多租户资源隔离等业务特性,而在数据层上又具有传输架构多样化、模块插件化和组件低耦合等架构特点。

https://static001.geekbang.org/infoq/33/334b30c01f13cf5d41036a48c85e6226.png?x-oss-process=image/resize,w_416,h_234

推荐系统大规模特征工程与 FEDB 的 Spark 基于 LLVM 优化

用户头像
范式AI云2020 年 7 月 13 日

今天给大家分享第四范式在推荐系统大规模特征工程与Spark基于LLVM优化方面的实践,主要包括以下四个主题。

https://static001.geekbang.org/infoq/e3/e38e6a80e0572504ce44bde0e186e718.png?x-oss-process=image/resize,w_416,h_234

半小时,将你的 Spark SQL 模型变为在线服务

用户头像
范式AI云2020 年 7 月 8 日

第四范式已经在很多行业落地了上万个AI应用,比如在金融行业的反欺诈,媒体行业的新闻推荐,能源行业管道检测,而SparkSQL在这些AI应用中快速实现特征变换发挥着重要的作用

Apache Spark 有哪些局限性

用户头像
古月木易2020 年 6 月 11 日

Apache Spark是行业中流行和广泛使用的大数据工具之一。Apache Spark已成为业界的热门话题,并且如今非常流行。但工业正在转移朝向apache flink。

Spark Launcher Java API 提交 Spark 算法

用户头像
杨仪军2020 年 6 月 6 日

主要介绍如何通过Java API调用Spark都Launcher模块提交Spark算法

https://static001.geekbang.org/infoq/93/936f23c4de038bd380f8696f267a93f1.jpeg?x-oss-process=image/resize,w_416,h_234

Spark 学习笔记一之为什么 Spark 这么牛逼

用户头像
Shockang2020 年 6 月 6 日

这一篇文章主要结合 Spark 的发展历程来讲讲 Spark 为什么这么牛逼。

【迁移】Flink vs Spark

用户头像
罗琦2020 年 5 月 22 日

flink我认为这只是模仿实现了spark功能的另一个框架。但是随着我研究的深入,越来越清晰地发觉,有些藏匿在这个看起来很相似的API后的一些新颖的想法使得flink区别于spark。我被这些想法吸引了,并且花越来越多的时间搞懂和探索。

https://static001.geekbang.org/infoq/6b/6bb9667f499789312afe247590eeecff.jpeg?x-oss-process=image/resize,w_416,h_234

3000 字长文教你大数据该怎么学!

用户头像
老蒙2020 年 4 月 29 日

大概两年前写过同样标题的一篇文章,对于这个问题感兴趣的人不少,后台收到不少同学的提问,所以准备细致地解答一下这些问题,希望能解决掉大家90%的疑问。下次再看到相关的提问我会理直气壮地把这篇文章的链接甩你脸上。

spark_spark资料文章-InfoQ写作平台