写点什么

Apache DolphinScheduler DataX 数据集成:新手入门全攻略

作者:白鲸开源
  • 2025-08-06
    天津
  • 本文字数:596 字

    阅读完需:约 2 分钟

Apache DolphinScheduler DataX 数据集成:新手入门全攻略

关键词:大数据、数据集成、数据调度

整体说明

在调研了 DolphinScheduler 之后,在项目上实际使用了一段时间,有了一些使用 Datax 做数据集成的实际经验,分享如下。


一、前置条件

  • Datax 安装: 见 《Datax 安装步骤及优劣势分析》

  • 在同一台服务器: DolphinScheduler 需要执行 Python 来调用 Datax,无法跨服务器,所以 Datax 需要和 DolphinScheduler 在同一台服务器上

二、环境配置

  • DolphinScheduler 环境配置 Datax


按照如图顺序依次点击新增 Datax 环境



在编辑页面填写 Python 执行路径 和 Datax 执行路径,具体内容如下:


export PYTHON_LAUNCHER=/usr/bin/pythonexport DATAX_LAUNCHER=/home/datax/bin/datax.py
复制代码


配置结果如下图片


三、数据集成配置

3.1、源中心

  • 来源数据库: 配置好来源数据库连接

  • 目的数据库: 配置好目的数据库连接

3.2、Datax 任务配置

  • 创建工作流


  • 添加 Datax 组件


配置名称 和 环境信息图片



配置来源库及自定义 SQL 和 目的库目的表图片



保存,之后,保存任务,上线任务


  • 运行测试任务,运行成功



  • 查看日志,数据集成成功


四、方案优势

  • 可视化配置页面: 在可视化页面配置自定义 SQL.来选择源表字段,再也不用编辑 Datax 自带的 JSON 文件了

  • 服务器无侵入性: 当我们编辑 Datax 自带的 JSON 文件时,不可避免的需要服务器的相关权限,需要上传文件等,对服务器有侵入性,一般生产环境,没有这么高的权限

  • 开源方案,成本低: 无论是 Datax 还是 DolphinScheduler 都是开源产品,不需要额外付钱

用户头像

白鲸开源

关注

一家开源原生的DataOps商业公司。 2022-03-18 加入

致力于打造下一代开源原生的DataOps 平台,助力企业在大数据和云时代,智能化地完成多数据源、多云及信创环境的数据集成、调度开发和治理,以提高企业解决数据问题的效率,提升企业分析洞察能力和决策能力。

评论

发布
暂无评论
Apache DolphinScheduler DataX 数据集成:新手入门全攻略_大数据_白鲸开源_InfoQ写作社区