IDEA 开发 Spark 应用实战 (Scala)

欢迎访问我的 GitHub
这里分类和汇总了欣宸的全部原创(含配套源码):https://github.com/zq2599/blog_demos
- Scala 语言在函数式编程方面的优势适合 Spark 应用开发,IDEA 是我们常用的 IDE 工具,今天就来实战 IDEA 开发 Scala 版的 Spark 应用; 
版本信息
- 以下是开发环境: 
- 操作系统:win10; 
- JDK:1.8.0_191; 
- IntelliJ IDEA:2018.2.4 (Ultimate Edition) 
- 以下是运行环境: 
- Spark:2.3.3; 
- Scala:2.11.12; 
- Hadoop:2.7.7; 
- 如果您想在几分钟之内搭建好 Spark 集群环境,请参考《docker下,极速搭建spark集群(含hdfs集群)》; 
下载 Spark 安装包
- 去 spark 官网下载 spark 安装包,里面有开发时所需的库,如下图,地址是:http://spark.apache.org/downloads.html   
- 将下载好的文件解压,例如我这里解压后所在目录是:C:\software\spark-2.3.3-bin-hadoop2.7 
IDEA 安装 scala 插件
- 打开 IDEA,选择"Configure"->"Plugins",如下图:   
- 如下图,在红框 1 输入"scala",点击红框 2,开始在中央仓库说搜索:   
- 在搜索结果中选中"scala",再点击右侧的"Install",如下:   
- 等待在线安装成功后,点击"Restart IntelliJ IDEA",如下:   
新建 scala 工程
- 点击下图红框,创建一个新工程:   
- 在弹出窗口中选择"Scala"->"IDEA",如下图:   
- 如下图,在红框 1 中输入项目名称,点击红框 2,选择 Scala SDK:   
- 在弹出的窗口选择"2.11.12"版本,如下图:   
- 点击下图红中的"Finish",完成工程创建:   
- 工程创建成功了,接下来是添加 spark 库,点击"File"->"Project Structure",如下图:   
- 在弹出窗口选择新增一个 jar 库,如下图:   
- 在弹出窗口选择前面安装的 spark-2.3.3-bin-hadoop2.7 文件夹下面的 jar 文件夹,如下:   
- 如下图,弹出的窗口用来选择模块,就选工程目录即可:   
- 至此,整个 spark 开发环境已经设置好了,现在写一个 demo 试试,创建一个 object,源码如下: 
- 以上代码的功能很简单:创建用一个数组,将每个元素做平方运算,再丢弃小于 10 的元素,然后逐个打印出来; 
- 代码完成后,点击右键选择"Run FirstDemo",即可立即在本机运行,如下图: 
 
 - 由于 windows 环境并没有做 hadoop 相关配置,因此控制台上会有错误堆栈输出,但这些信息并不影响程序运行(本例没有用到 hadoop),输出如下,可见结果已经被打印出来(16、25、36): 
构建打包,提交到 spark 环境运行
- 生产环境下一般是将应用构建打包成 jar,放到 spark 集群中运行,所以我们来操作构建打包; 
- 在菜单上选择"File"->"Project Structure",弹出窗口点击"Artifacts",选择新增 jar,如下图:   
- 如下图,在弹出的窗口中,红框 1 位置输入要运行的 class,红框 2 选择的是单选框的第二个"copy to the output ...":   
- 在菜单上选择"Build"->"Build Artifacts...",如下图:   
- 在弹出的菜单中选择"sparkscalademo:jar"->"Rebuild",如下:   
- 如果编译成功,在项目的 out\artifacts 目录下就会生成文件 sparkscalademo.jar,如下:   
- 将文件上传到 spark 服务器上,执行提交命令: 
- 控制台会显示运行信息和结果,如下图:   
- 至此,idea 开发 spark 应用实战就完成了,希望在您配置开发环境的时候本文能够提供一些参考; 
欢迎关注 InfoQ:程序员欣宸
版权声明: 本文为 InfoQ 作者【程序员欣宸】的原创文章。
原文链接:【http://xie.infoq.cn/article/5c82adfd9f2dc90fbdab2642f】。文章转载请联系作者。











 
    
评论