大数据开发之 sparkSQL 的使用分享

2021 年 12 月 24 日
本文字数：1329 字
阅读完需：约 4 分钟

SparkSQL，使用 SQL 来完成大数据操作

Spark 之前使用 RDD 操作大数据，非常方便，但是也有各种问题，例如 RDD 每次读取的都是字符串，以及语法比较比较麻烦。大数据培训针对这种情况，spark 在新版本中升级 RDD 为 DataFrame 和 DataSet，并使用 SQL 的方式去操作数据

DataFrame，RDD 的升级版，分布式的数据集，并且以列的方式组合的，类似于二维表格式，除数据外保存数据结构信息 DataSet，DataFrame 扩展，最新的数据抽象，相对于 DataFrame，DataSet 会记录字段的数据类型，并进行严格错误检查三者的关系是 RDD 进化 >>> DataFrame ，DataFrame 进化 >>> DataSet。当然这里也不是说 RDD 不用了，而是把 RDD 转为底层处理，所以同学们还是需要先理解什么是 RDD

常用方法

DataSet，DataFrame 的使用是依赖于 SparkSession 的，所以我们需要先创建 SparkSession

val spark = new SparkContext(

new SparkConf().setMaster("local")

.setAppName("taobao")

)

read.csv("路径")

val data = spark.read.csv("data/A.csv")

val data = spark.read

.option("header","true") // 设置读取首行，这里的声明用于把数据首行作为列名

.csv("data/A.csv")

show(num)

显示顶部 num 行数据

map(func)

操作和 RDD 中类似，不同的是需要隐式转换，在代码前加上

import spark.implicits._

data.map(

x => { // raw 可以通过下标获得到对应中，不需要切分

(x.getString(0),x.getString(1).toInt)

}

)

toDF("列名"...)

转换成 DataFrame 类型，并设置列名

select(col: String, cols: String*): DataFrame

查询指定列并返回数据

val r2 = data.select("名称",

"人均价格")

r2.show(10)

selectExpr(exprs: String*): DataFrame

执行原生的 SQL 中函数

data.selectExpr("count(name)")

data.selectExpr("avg(age)")

rdd

把 DataFrame 和 DataSet 转换成 RDD 类型

printSchema()

查看表结构

root

|-- age: long (nullable = true)

|-- name: string (nullable = true)

filter(Str)

执行过滤

filter("age>10")

filter("age>10 and name='张三'")

sum("列名") \ avg("列名") \ max("列名") \ min("列名") \ count()

针对列进行求和

平均值

最大值

最小值

数量

data.groupBy("age").sum("age").show()

data.groupBy("age").avg("age").show()

....

orderBy("列名")

排序

val r2 = data.map(

x => {

(x.getString(0),x.getString(1).toInt)

}

).toDF("名称","评论数")

.orderBy("评论数")

r2.show(10)

这里注意如果需要降序需要

val r2 = data.map(

x => {

(x.getString(0),x.getString(1).toInt)

}

).toDF("名称","评论数")

.orderBy(desc("评论数"))

r2.show(10)

注意导入 import org.apache.spark.sql.functions.desc

除了上述的方法外，Spark 还支持直接使用 SQL 的方式操作数据，方法如下

createOrReplaceTempView(str)

创建临时表，注意使用 SQL 的时候需要根据当前数据创建临时表，这样才可以在 SQL 里面使用

data.createOrReplaceTempView("user")

sql(str)

在当前数据集上执行 SQL 语句

val result = spark.sql("select name from user")

result.show()

val count = spark.sql("select count(*) from user")

count.show()

spark.udf.register(fName,func)

自定义一个函数，用于 SQL 中处理

spark.udf.register("f1",(x:String) => (x+"a"))

val result = spark.sql("select f1(name) from user")

result.show()

原创作者：浩哥

发布于: 56 分钟前

飞不起来的童年

关注

关注尚硅谷，轻松学IT 2021.11.23 加入

还未添加个人简介

发布

暂无评论

创作场景

大数据开发之 sparkSQL 的使用分享

飞不起来的童年

评论