写点什么

Sparksql

0 人感兴趣 · 16 次引用

  • 最新
  • 推荐

大数据培训 Spark SQL 底层执行流程

用户头像
@零度
2022-04-25

​Shark底层很多东西还是依赖于Hive,但是修改了内存管理、物理计划、执行三个模块,底层使用Spark的基于内存的计算模型,从而让性能比Hive提升了数倍到上百倍_大数据培训。

Spark SQL 字段血缘在 vivo 互联网的实践

字段血缘可以很好的帮助我们了解数据生成的处理过程,在探索中我们发现了可以通过Spark的扩展来优雅的实现这一功能

https://static001.geekbang.org/infoq/ec/ec1c76738e356bbdbc36cee15ada4e17.png?x-oss-process=image%2Fresize%2Cw_416%2Ch_234

看 SparkSQL 如何支撑企业级数仓

企业级数仓架构设计与选型的时候需要从开发的便利性、生态、解耦程度、性能、 安全这几个纬度思考。本文作者:惊帆 来自于数据平台EMR团队

SparkSQL 的入门实践教程

摘要:Spark SQL是用于处理结构化数据的模块。与Spark RDD不同的是,Spark SQL提供数据的结构信息(源数据)和性能更好,可以通过SQL和DataSet API与Spark SQL进行交互。

SparkSQL 高并发:读取存储数据库

摘要:实践解析如何利用SparkSQL高并发进行读取数据库和存储数据到数据库。

Hive on Spark 和 Spark sql on Hive,你能分的清楚么

摘要:结构上Hive On Spark和SparkSQL都是一个翻译层,把一个SQL翻译成分布式可执行的Spark程序。

大数据开发之 sparkSQL 的使用分享

用户头像
@零度
2021-12-24

​Spark之前使用RDD操作大数据,非常方便,但是也有各种问题,例如RDD每次读取的都是字符串,以及语法比较比较麻烦。大数据培训针对这种情况,spark在新版本中升级RDD为DataFrame和DataSet,并使用SQL的方式去操作数据

大数据开发 Spark 模块之 SparkSQL

用户头像
@零度
2021-12-23

Spark SQL的前身是Shark,它发布时Hive可以说是SQL on Hadoop的唯一选择(Hive负责将SQL编译成可扩展的MapReduce作业),鉴大数据培训于Hive的性能以及与Spark的兼容,Shark由此而生。

https://static001.geekbang.org/infoq/5e/5e663d3c57fe537017b0681dd9528f04.jpeg?x-oss-process=image%2Fresize%2Cw_416%2Ch_234

SparkSQL 内核剖析

用户头像
永健_何
2021-07-08

SparkSQL已经成为Spark最常用的使用方式之一了,但SpakSQL是如何将SQL转化具体的任务执行逻辑,本文将对SparkSQL Catalyst的SQL解析,优化和执行流程进行学习和分析

时空碰撞系列·终

我决定放弃所有花里胡哨的发言,就简单直接的上干货吧

时空碰撞优化系列·二

对之前的方案补充了计算量上的优化

同行分析优化

对数据分析中的同行从逻辑上做了一个简单的优化,解决了内存问题和重复计算问题

https://static001.geekbang.org/infoq/33/334b30c01f13cf5d41036a48c85e6226.png?x-oss-process=image%2Fresize%2Cw_416%2Ch_234

推荐系统大规模特征工程与 FEDB 的 Spark 基于 LLVM 优化

用户头像
范式AI云
2020-07-13

今天给大家分享第四范式在推荐系统大规模特征工程与Spark基于LLVM优化方面的实践,主要包括以下四个主题。

https://static001.geekbang.org/infoq/e3/e38e6a80e0572504ce44bde0e186e718.png?x-oss-process=image%2Fresize%2Cw_416%2Ch_234

半小时,将你的 Spark SQL 模型变为在线服务

用户头像
范式AI云
2020-07-08

第四范式已经在很多行业落地了上万个AI应用,比如在金融行业的反欺诈,媒体行业的新闻推荐,能源行业管道检测,而SparkSQL在这些AI应用中快速实现特征变换发挥着重要的作用

Sparksql_Sparksql技术文章_InfoQ写作社区