IDEA 开发 Spark 应用实战 (Scala)
欢迎访问我的 GitHub
这里分类和汇总了欣宸的全部原创(含配套源码):https://github.com/zq2599/blog_demos
Scala 语言在函数式编程方面的优势适合 Spark 应用开发,IDEA 是我们常用的 IDE 工具,今天就来实战 IDEA 开发 Scala 版的 Spark 应用;
版本信息
以下是开发环境:
操作系统:win10;
JDK:1.8.0_191;
IntelliJ IDEA:2018.2.4 (Ultimate Edition)
以下是运行环境:
Spark:2.3.3;
Scala:2.11.12;
Hadoop:2.7.7;
如果您想在几分钟之内搭建好 Spark 集群环境,请参考《docker下,极速搭建spark集群(含hdfs集群)》;
下载 Spark 安装包
去 spark 官网下载 spark 安装包,里面有开发时所需的库,如下图,地址是:http://spark.apache.org/downloads.html
将下载好的文件解压,例如我这里解压后所在目录是:C:\software\spark-2.3.3-bin-hadoop2.7
IDEA 安装 scala 插件
打开 IDEA,选择"Configure"->"Plugins",如下图:
如下图,在红框 1 输入"scala",点击红框 2,开始在中央仓库说搜索:
在搜索结果中选中"scala",再点击右侧的"Install",如下:
等待在线安装成功后,点击"Restart IntelliJ IDEA",如下:
新建 scala 工程
点击下图红框,创建一个新工程:
在弹出窗口中选择"Scala"->"IDEA",如下图:
如下图,在红框 1 中输入项目名称,点击红框 2,选择 Scala SDK:
在弹出的窗口选择"2.11.12"版本,如下图:
点击下图红中的"Finish",完成工程创建:
工程创建成功了,接下来是添加 spark 库,点击"File"->"Project Structure",如下图:
在弹出窗口选择新增一个 jar 库,如下图:
在弹出窗口选择前面安装的 spark-2.3.3-bin-hadoop2.7 文件夹下面的 jar 文件夹,如下:
如下图,弹出的窗口用来选择模块,就选工程目录即可:
至此,整个 spark 开发环境已经设置好了,现在写一个 demo 试试,创建一个 object,源码如下:
以上代码的功能很简单:创建用一个数组,将每个元素做平方运算,再丢弃小于 10 的元素,然后逐个打印出来;
代码完成后,点击右键选择"Run FirstDemo",即可立即在本机运行,如下图:
由于 windows 环境并没有做 hadoop 相关配置,因此控制台上会有错误堆栈输出,但这些信息并不影响程序运行(本例没有用到 hadoop),输出如下,可见结果已经被打印出来(16、25、36):
构建打包,提交到 spark 环境运行
生产环境下一般是将应用构建打包成 jar,放到 spark 集群中运行,所以我们来操作构建打包;
在菜单上选择"File"->"Project Structure",弹出窗口点击"Artifacts",选择新增 jar,如下图:
如下图,在弹出的窗口中,红框 1 位置输入要运行的 class,红框 2 选择的是单选框的第二个"copy to the output ...":
在菜单上选择"Build"->"Build Artifacts...",如下图:
在弹出的菜单中选择"sparkscalademo:jar"->"Rebuild",如下:
如果编译成功,在项目的 out\artifacts 目录下就会生成文件 sparkscalademo.jar,如下:
将文件上传到 spark 服务器上,执行提交命令:
控制台会显示运行信息和结果,如下图:
至此,idea 开发 spark 应用实战就完成了,希望在您配置开发环境的时候本文能够提供一些参考;
欢迎关注 InfoQ:程序员欣宸
版权声明: 本文为 InfoQ 作者【程序员欣宸】的原创文章。
原文链接:【http://xie.infoq.cn/article/5c82adfd9f2dc90fbdab2642f】。文章转载请联系作者。
评论