写点什么

DolphinScheduler 如何高效调度 AnalyticDB on Spark 作业?

作者:白鲸开源
  • 2025-07-15
    天津
  • 本文字数:1915 字

    阅读完需:约 6 分钟

DolphinScheduler 如何高效调度 AnalyticDB on Spark 作业?

DolphinScheduler 是一个分布式易扩展的可视化 DAG 工作流任务调度开源系统,能高效地执行和管理大数据流程。用户可以在 DolphinScheduler Web 界面轻松创建、编辑和调度云原生数据仓库 AnalyticDB MySQL 版的 Spark 作业。

前提条件

调度 Spark SQL 作业

AnalyticDB for MySQL 支持使用批处理和交互式两种方法执行 Spark SQL。选择的执行方式不同,调度的操作步骤也有所不同。详细步骤如下:

批处理

  1. 安装 Spark-Submit 命令行工具并配置相关参数。

说明:您只需要配置 keyId、secretId、regionId、clusterId 和 rgName 这些必填参数。

  1. 创建项目。

  2. 访问 DolphinScheduler Web 界面,在顶部导航栏单击项目管理。

    单击创建项目。

    在弹出的创建项目对话框中配置项目名称、所属用户等参数。

  3. 创建工作流。

    单击已创建的项目名称,进入工作流定义页面。

    单击创建工作流,进入工作流 DAG 编辑页面。

    在页面左侧选择 SHELL,并将其拖拽到右侧空白画布中。

    在弹出的当前节点设置对话框中配置如下参数:


5.单击确认。

6.单击页面右上角保存,在弹出的基本信息对话框中配置工作流名称等参数,单击确定。

说明:其他参数说明请参见 DolphinScheduler 任务参数。

  1. 运行工作流。

  • 单击工作流操作列的下载按钮,上线工作流。

  • 单击工作流操作列的开始按钮。

  • 在弹出的启动前请先设置参数对话框中,配置对应参数。

  • 单击确定,运行工作流。

  1. 查看工作流详细信息。

  • 在左侧导航栏单击任务实例。

  • 在操作列,单击详情按钮,查看工作流执行结果和日志信息。

交互式

  1. 获取 Spark Interactive 型资源组的连接地址。

以下两种情况,您需要单击公网地址后的申请网络,手动申请公网连接地址。

  1. 提交 Spark SQL 作业的客户端工具部署在本地。

    提交 Spark SQL 作业的客户端工具部署在 ECS 上,且 ECS 与 AnalyticDB for MySQL 不属于同一 VPC。

  2. 登录云原生数据仓库 AnalyticDB MySQL 控制台,在左上角选择集群所在地域。在左侧导航栏,单击集群列表,在企业版、基础版或湖仓版页签下,单击目标集群 ID。

  3. 在左侧导航栏,单击集群管理 > 资源管理,单击资源组管理页签。

  4. 单击对应资源组操作列的详情,查看内网连接地址和公网连接地址。您可单击端口号括号内的按钮,复制连接地址。


  1. 创建数据源。

  2. 访问 DolphinScheduler Web 界面,在顶部导航栏单击数据源中心。

    单击创建数据源,选择数据源类型为 Spark。

    在弹出的创建数据源对话框中配置如下参数:


4.单击测试连接,测试成功后,单击确定。

说明:其他参数为选填参数,详情请参见MySQL数据源


  1. 创建项目。

  2. 访问 DolphinScheduler Web 界面,在顶部导航栏单击项目管理。

    单击创建项目。

    在弹出的创建项目对话框中配置项目名称、所属用户等参数。

  3. 创建工作流。

    单击已创建的项目名称,进入工作流定义页面。

    单击创建工作流,进入工作流 DAG 编辑页面。

    在页面左侧选择 SQL,并将其拖拽到右侧空白画布中。

    在弹出的当前节点设置对话框中配置如下参数:


5.单击确认。

6.单击页面右上角保存,在弹出的基本信息对话框中配置工作流名称等参数,单击确定。

  1. 运行工作流。

  2. 单击工作流操作列的下载按钮,上线工作流。

    单击工作流操作列的开始按钮。

    在弹出的启动前请先设置参数对话框中,配置对应参数。

    单击确定,运行工作流。

  3. 查看工作流

  4. 查看工作流详细信息。

    在左侧导航栏单击任务实例。

    在操作列,单击 image 按钮,查看工作流执行结果和日志信息。

调度 Spark Jar 作业

  1. 安装 Spark-Submit命令行工具配置相关参数

说明:您只需要配置 keyId、secretId、regionId、clusterId 和 rgName 这些必填参数。如果您的 Spark Jar 包在本地,还需要配置 ossUploadPath 等 OSS 相关参数。

  1. 创建项目。

  2. 访问 DolphinScheduler Web 界面,在顶部导航栏单击项目管理。

    单击创建项目。

    在弹出的创建项目对话框中配置项目名称、所属用户等参数。

  3. 创建工作流。

    单击已创建的项目名称,进入工作流定义页面。

    单击创建工作流,进入工作流 DAG 编辑页面。

    在页面左侧选择 SHELL,并将其拖拽到右侧空白画布中。

    在弹出的当前节点设置对话框中配置如下参数:


5.单击确认。

6.单击页面右上角保存,在弹出的基本信息对话框中配置工作流名称等参数,单击确定。

说明:其他参数说明请参见DolphinScheduler任务参数

  1. 运行工作流。

  2. 单击工作流操作列的下载按钮,上线工作流。

    单击工作流操作列的启动按钮。

    在弹出的启动前请先设置参数对话框中,配置对应参数。

    单击确定,运行工作流。

  3. 查看工作流

  4. 查看工作流详细信息。

    在左侧导航栏单击任务实例。

    在操作列,单击按钮,查看工作流执行结果和日志信息。

用户头像

白鲸开源

关注

一家开源原生的DataOps商业公司。 2022-03-18 加入

致力于打造下一代开源原生的DataOps 平台,助力企业在大数据和云时代,智能化地完成多数据源、多云及信创环境的数据集成、调度开发和治理,以提高企业解决数据问题的效率,提升企业分析洞察能力和决策能力。

评论

发布
暂无评论
DolphinScheduler 如何高效调度 AnalyticDB on Spark 作业?_MySQL_白鲸开源_InfoQ写作社区