写点什么

DataOps 数据集成创新:DolphinScheduler& SeaTunnel on Amazon Web Services

作者:白鲸开源
  • 2025-01-03
    天津
  • 本文字数:2581 字

    阅读完需:约 8 分钟

DataOps数据集成创新:DolphinScheduler& SeaTunnel on Amazon Web Services

在数字化转型的浪潮中,数据已成为企业最宝贵的资产之一。DataOps 作为一种文化、流程和实践的集合,旨在提高数据管道的质量和效率,从而加速数据从源头到消费的过程。白鲸开源科技,作为 DataOps 领域的领先开源原生公司,由 Apache 成员成立,80%的员工都是 Apache Committer,主导着两个 Apache 顶级开源项目:Apache DolphinScheduler 和 Apache SeaTunnel。这些项目在全球 6000 多家企业中得到实践和使用,展现了 DataOps 的优势。


Apache DolphinScheduler:云原生时代的高稳定可视化调度平台


Apache DolphinScheduler 是一个云原生的可视化工作流调度平台,它解决了企业级场景中的多个痛点,如任务单元多、执行频率高、数据量和任务量大、存在依赖关系等。与传统的老旧调度引擎相比,DolphinScheduler 支持多任务类型、集群化部署与拓展,去中心分布式设计,高稳定可用,开源数据组件更新升级频率高,以及多云异构数据的管理能力。

特点

  • 开源数据组件:更新升级频率高,保持技术栈的先进性。

  • 多云异构数据管理:适应不同云环境和数据源的需求。

  • 任务稳定运行:支持百万数据量级的任务稳定运行。


Apache SeaTunnel:新一代实时多源数据同步工具


Apache SeaTunnel 是一个实时多源数据同步工具,支持上百种源数据库/地点和目标数据库/地点,包括 MySQL、PostgreSQL、Kafka、MongoDB、Elastic、Hive 等。SeaTunnel 的性能比原有解决方案快 50%-2 倍,甚至在某些情况下快 30 倍。它支持批量数据全量、增量集成以及实时数据集成,为大数据提供了高速公路。

特点

  • 性能卓越:SeaTunnel 性能快 50%-2 倍,某些情况下快 30 倍。

  • 数据同步与集成:支持批量数据全量、增量集成以及实时数据集成。


WhaleStudio 介绍


WhaleStudio 是白鲸开源科技根据全球最佳实践发布的商业版版本,




调度模块产品功能

工作流编排能力

它支持各类计算任务组件,如 Amazon DMS、Amazon Datasync、Apache Linkis,DataX,Sqoop,SeaTunnel 等,以及各类云数据库和计算架构,支持 K8S、MLDB。平台采用插件式设计,支持自由扩展数据源支持,可视化的数据源管理,大大减少了配置修改带来的工作量。




  • 工作流基本配置:包括标签设置、租户、牌、全局变量和超时告警。

  • 执行策略:可以是并行、串行等待或串行优先。

  • 数据开发能力:包括在线 IDE&集成,实现 DataOps。

数据开发能力

WhaleStudio 可以实现在线 IDE & 集成 ,实现 DataOps.



产品功能详解

  • SQL 任务

在源中心创建数据源连接,在任务中指定数据源,在脚本中编写 SQL 语句,支持读写混合和多行 SQL,支持设置多个前置 SQL 语句,支持调试。



  • 跨项目依赖任务

依赖检查任务,跨工作流检查,支持时间日期检查,支持自循环检查,依赖策略包括失败-继续和失败-等待。

  • 资源中心 – git 打通

Git 文件功能允许用户将整个 Git 仓库作为资源文件上传到资源中心,执行任务时下载脚本文件,并提供更新接口。



  • 数据任务血缘关系影响分析工作流定义和任务定义的影响分析,查看任务加工的影响深度和广度,工作流实例和任务实例的影响分析



  • 源中心

统一管理所有数据源,控制数据源的读写权限,重要信息加密显示,多种使用场景。



同步模块产品功能

WhaleTunnel 支持 160 种数据源接口,多种数据集成方式,包括批量数据全量、增量集成和实时数据集成。它支持商业数据库实时 CDC,包括 Mysql cdc、PostgreSQL cdc 等。

离线同步任务定义

离线同步任务定义包括 Source 和 Sink,Source 用来定义数据的来源,Sink 用来定义数据同步的目标。支持选择同步字段、全表同步、已有表结构处理、已有数据处理和保障数据一致性。

实时同步任务定义

实时同步任务定义包括创建数据源、Source 和任务设置。支持历史数据阶段每次读取的行数、作业启动模式、在快照读取阶段读取增量日志并去重数据、并行度设置等。



数据转换及处理–Transform

WhaleTunnel 提供多种数据转换节点,可以在数据同步管道中对表属性或数据进行转换处理,包括单列复制多列、单列拆分为多列、字段删除、字段重命名、字段值替换、数据变更处理、自定义 sql 脚本等。

Transform 可适配实时同步中的 DDL 变更,如根据表达式匹配的 transform 会自动对新增字段进行处理。

表 DDL 变更检查–刷新表元数据

WhaleTunnel 支持对同步任务中配置的表进行表结构变更检查,以获取尤其是离线同步任务中的表结构变化。支持主动批量检查发现表结构变更和定时批量检查发现表结构变更。



实时数据同步支持 DDL 变更触发暂停、报警以及延迟告警

实时数据处理支持多种实时数据监测处理,包括 DDL 变更暂停、DDL 变更告警、DDL 暂停加表、DDL 手工处理等。

产品功能

  • 数据质量校验

数据质量支持多种数据源,包括正则表达式、表行数校验、两表值比对、空值检测、使用 Spark 实现、及时性校验、多表准确性、字段长度校验、枚举值校验、自定义 SQL、唯一性校验。



  • 数据质量场景

数据质量比对类型包括两表值比对,场景如计算语文成绩详情表 yunwen_list 所有人的总分和成绩汇总表 chengji 中语文总成绩,两者差值在 1 分以内,否则就阻断工作流执行。



Demo 演示


下面是一个 Demo,详细演示如何从 Aurora CDC 实时数据同步到 Redshift:



结语


Apache DolphinScheduler 和 Apache SeaTunnel 作为全球领先的开源原生 DataOps 平台,不仅提供了强大的数据集成和调度能力,还通过其商业版本 WhaleStudio,帮助企业智能化地完成多数据源、多云及信创环境的数据集成、数据开发、工作流编排运维及部署、数据质量管控、团队敏捷协作等一系列问题。这些工具的全球应用案例证明了它们在数据集成领域的创新和领导地位。随着技术的不断进步和企业需求的日益增长,DataOps 将继续引领数据管理的未来。


白鲸开源


白鲸开源是一家开源原生的 DataOps 商业公司,是国家高新技术企业,由多个 Apache Foundation Member 成立,80%员工都是 Apache Committer,运营 2 个全球 Apache 开源项目(DolphinScheduler, SeaTunnel)。白鲸开源已根据全球最佳实践发布商业版产品 WhaleStudio(含白鲸数据调度平台 WhaleScheduler 和白鲸数据集成平台 WhaleTunnel)。我们致力于打造下一代开源原生的 DataOps 平台,助力企业在大数据和云时代,智能化地完成多数据源、多云及信创环境的数据集成、调度开发和治理,以提高企业解决数据问题的效率,提升企业分析洞察能力和决策能力。


了解更多


公司网站: www.whaleops.com

联系邮箱: xiyan@whaleops.com

如果您希望深入了解我们的其他功能,或者讨论如何将 WhaleStudio 与你的业务流程相结合,我们非常愿意为你提供帮助。欢迎您首先试用白鲸调度系统(WhaleScheduler),开始您的大数据之旅。



用户头像

白鲸开源

关注

一家开源原生的DataOps商业公司。 2022-03-18 加入

致力于打造下一代开源原生的DataOps 平台,助力企业在大数据和云时代,智能化地完成多数据源、多云及信创环境的数据集成、调度开发和治理,以提高企业解决数据问题的效率,提升企业分析洞察能力和决策能力。

评论

发布
暂无评论
DataOps数据集成创新:DolphinScheduler& SeaTunnel on Amazon Web Services_DataOps_白鲸开源_InfoQ写作社区