那些年,我们在 Apache SeaTunnel 2.1.0 部署中踩过的坑【含源码分析】
01 简介
SeaTunnel 原名 Waterdrop,自 2021 年 10 月 12 日改名为 SeaTunnel。
SeaTunnel 是一个非常易于使用的超高性能分布式数据集成平台,支持海量数据的实时同步。它每天可以稳定高效地同步数百亿数据,已在近 100 家公司的生产中使用。
02 特点
易于使用,配置灵活,低代码开发
实时流媒体
离线多源数据分析
高性能、海量数据处理能力
模块化和插入式机构,易于扩展
支持通过 SQL 进行数据处理和聚合
支持 Spark 结构化流媒体
支持 Spark 2.x
这里我们踩了一个坑,因为我们测试的 spark 环境已经升级到了 3.x 版本,而目前 SeaTunnel 只支持 2.x,所以要重新部署一个 2.x 的 spark。
03 工作流程
04 安装
安装文档
链接:https://seatunnel.incubator.apache.org/docs/2.1.0/spark/installation
环境准备:安装 jdk 和 spark
config/seatunnel-env.sh
下载安装包
解压后编辑 config/seatunnel-env.sh
指定必要的环境配置,例如 SPARK_HOME(SPARK 下载和解压缩后的目录)
测试 jdbc-to-jdbc
创建新的 config/spark.batch .jdbc.to.jdbc.conf 文件
启动命令
踩坑:之前运行时报[driver] as non-empty ,定位发现 sink 配置里需要设置 driver 参数
测试 jdbc-to-hive
创建新的 config/spark.batch .jdbc.to.hive.conf 文件
运行命令
踩坑:一开始运行时报错,定位发现 conf 文件里没有设置 spark.sql.catalogImplementation = “hive”
报错内容:
更多踩坑经验,请关注后续更新。
版权声明: 本文为 InfoQ 作者【Apache SeaTunnel】的原创文章。
原文链接:【http://xie.infoq.cn/article/aeeb20fb944837ef221a77ed6】。文章转载请联系作者。
评论