spark

1 人感兴趣 · 19 次引用

  • 推荐
  • 最新
https://static001.geekbang.org/infoq/33/334b30c01f13cf5d41036a48c85e6226.png?x-oss-process=image/resize,w_416,h_234

推荐系统大规模特征工程与 FEDB 的 Spark 基于 LLVM 优化

用户头像
范式AI云 2020 年 7 月 13 日

今天给大家分享第四范式在推荐系统大规模特征工程与Spark基于LLVM优化方面的实践,主要包括以下四个主题。

https://static001.geekbang.org/infoq/6b/6ba8fdd79643b2383b9b3658d1756d32.jpeg?x-oss-process=image/resize,w_416,h_234

大数据架构 & 数据应用 / 分析 & 机器学习 (二)

用户头像
dony.zhang 2020 年 9 月 9 日

随着近年来,信息技术迅猛发展,通过各种终端设备收集大量数据。可通过对这些数据进行分析、挖掘、机器学习,实现个性化营销、智能推荐等应用场景,为公司挖掘更多的商业价值,为用户带来更好的体验。

https://static001.geekbang.org/infoq/6b/6bb9667f499789312afe247590eeecff.jpeg?x-oss-process=image/resize,w_416,h_234

3000 字长文教你大数据该怎么学!

用户头像
老蒙 2020 年 4 月 29 日

大概两年前写过同样标题的一篇文章,对于这个问题感兴趣的人不少,后台收到不少同学的提问,所以准备细致地解答一下这些问题,希望能解决掉大家90%的疑问。下次再看到相关的提问我会理直气壮地把这篇文章的链接甩你脸上。

https://static001.geekbang.org/infoq/c0/c0eac81aa9fec2a0dd3d5829a72acb9f.png?x-oss-process=image/resize,w_416,h_234

大数据技术发展 (三):Spark 代替 Hadoop ? Spark Or Flink ?

用户头像
Jeffy 2020 年 8 月 20 日

在大数据领域中,选择使用 Hadoop、还是 Spark、还是 Flink,这个话题是一个非常热门的话题,这篇文章就带你探个究竟,看看到底选择哪一个技术?

【迁移】Flink vs Spark

用户头像
罗琦 2020 年 5 月 22 日

flink我认为这只是模仿实现了spark功能的另一个框架。但是随着我研究的深入,越来越清晰地发觉,有些藏匿在这个看起来很相似的API后的一些新颖的想法使得flink区别于spark。我被这些想法吸引了,并且花越来越多的时间搞懂和探索。

Spark Launcher Java API 提交 Spark 算法

用户头像
杨仪军 2020 年 6 月 6 日

主要介绍如何通过Java API调用Spark都Launcher模块提交Spark算法

https://static001.geekbang.org/infoq/93/936f23c4de038bd380f8696f267a93f1.jpeg?x-oss-process=image/resize,w_416,h_234

Spark 学习笔记一之为什么 Spark 这么牛逼

用户头像
Shockang 2020 年 6 月 6 日

这一篇文章主要结合 Spark 的发展历程来讲讲 Spark 为什么这么牛逼。

技术揭秘:华为云 DLI 背后的核心计算引擎

用户头像
华为云开发者社区 2020 年 8 月 27 日

摘要:介绍隐藏在华为云数据湖探索服务背后的核心计算引擎Spark,玩转DLI,,轻松完成大数据的分析处理。

https://static001.geekbang.org/infoq/22/226bb9f244af5d404bcc1ed7d4839d3d.png?x-oss-process=image/resize,w_416,h_234

开源数据交换(client)

用户头像
李孟 2020 年 7 月 14 日

exchange是要打造一个轻量级,高扩展性的数据交换平台,支持对结构化及无结构化的异构数据源之间的数据传输,在应用层上具有数据权限管控、节点服务高可用和多租户资源隔离等业务特性,而在数据层上又具有传输架构多样化、模块插件化和组件低耦合等架构特点。

https://static001.geekbang.org/infoq/91/91549244d762a78d49a62bd10ac988f5.png?x-oss-process=image/resize,w_416,h_234

Spark 窗口函数 I

用户头像
马小宝 2020 年 7 月 26 日

你想知道的 Spark 窗口函数,都在这里了~

https://static001.geekbang.org/infoq/e3/e38e6a80e0572504ce44bde0e186e718.png?x-oss-process=image/resize,w_416,h_234

半小时,将你的 Spark SQL 模型变为在线服务

用户头像
范式AI云 2020 年 7 月 8 日

第四范式已经在很多行业落地了上万个AI应用,比如在金融行业的反欺诈,媒体行业的新闻推荐,能源行业管道检测,而SparkSQL在这些AI应用中快速实现特征变换发挥着重要的作用

数据湖应用解析:Spark on Elasticsearch 一致性问题

用户头像
华为云开发者社区 2020 年 7 月 21 日

摘要:脏数据对数据计算的正确性带来了很严重的影响。因此,我们需要探索一种方法,能够实现Spark写入Elasticsearch数据的可靠性与正确性。

Apache Spark 有哪些局限性

用户头像
古月木易 2020 年 6 月 11 日

Apache Spark是行业中流行和广泛使用的大数据工具之一。Apache Spark已成为业界的热门话题,并且如今非常流行。但工业正在转移朝向apache flink。

案例解析丨 Spark Hive 自定义函数应用

用户头像
华为云开发者社区 2020 年 9 月 14 日

摘要:Spark目前支持UDF,UDTF,UDAF三种类型的自定义函数。

Spark 优化之小文件是否需要合并?

用户头像
华为云开发者社区 2020 年 8 月 13 日

我们知道,大部分Spark计算都是在内存中完成的,所以Spark的瓶颈一般来自于集群(standalone, yarn, mesos, k8s)的资源紧张,CPU,网络带宽,内存。Spark的性能,想要它快,就得充分利用好系统资源,尤其是内存和CPU。有时候我们也需要做一些优化调整来减少内

https://static001.geekbang.org/infoq/3b/3b03cc5d03b58c51dab0747ab9bbc62b.jpeg?x-oss-process=image/resize,w_416,h_234

PySpark RDD 基础运算和操作总结

用户头像
是老郭啊 2020 年 8 月 23 日

Pyspark RDD基础操作

spark_spark资料文章-InfoQ写作平台