写点什么

WhaleStudio Demo:如何从 Aurora CDC 实时数据同步到 Redshift 详细演示

作者:白鲸开源
  • 2024-12-13
    天津
  • 本文字数:1105 字

    阅读完需:约 4 分钟

WhaleStudio Demo:如何从Aurora CDC 实时数据同步到Redshift详细演示

今天我将向大家详细介绍 如何使用 WhaleStudio 将数据从 Aurora CDC(Change Data Capture)实时同步至 Redshift 的功能。这是一个强大的数据同步功能,它支持多种数据源,包括文件、非结构化数据以及多样化的接口。

数据支持范围

首先,WhaleStudio 支持的数据类型非常广泛,涵盖了约 200 种(视频种 160 多种为口误)不同的数据源。无论是结构化还是非结构化的数据,我们都能够进行有效的处理和同步。

开启 CDC 功能

在我们开始数据同步之前,有一个重要的步骤需要完成,那就是开启 CDC 的 Binlog 功能。这是因为我们的工作流程是基于读取 Binlog 来进行的。一旦成功连接到 Binlog,就可以继续进行下一步操作。

数据同步流程

接下来,我们将进入项目管理,创建实施的任务定义。这里我们支持多表同步,这意味着我们可以同时处理多个数据表的同步工作。

数据源

Source 指的是数据的来源。我们在这里选择 Aurora CDC,大家可以根据需要选择提前创建的数据源和数据库。

数据分片

在处理大量数据时,我们可能需要关注数据的分片能力。例如,如果有几十亿条数据,我们需要根据数据量进行切片处理。Aurora CDC 支持数据分片,以更好地处理数据,包括主键等信息。这对于处理大量数据时尤为重要,因为它可以帮助我们更有效地管理和同步数据。具体可以参考视频中所示的配置。

数据类型转换与目标设置

在数据同步过程中,我们需要将数据转换成 SeaTunnel 的数据类型,因为不同数据库的数据类型需要统一。这是一个模型推演,Sink 指的是数据的目的地。我们可以自定义表名,例如,源表名为 A,目标表名为 B。同时,我们可以使用内置变量来保持表名在多表同步时的一致性。


数据同步配置中有两个重要的部分:表结构处理方式和数据处理方式。

表结构处理方式

  • 如果表不存在,我们将创建表。

  • 如果表存在,我们可以选择删除并重建表,或者跳过不处理。

数据处理方式

  • 直接删除数据。

  • 保持表结构并删除数据。


我们还可以自定义路径和临时路径,因为每次写入都会先写到临时文件中,然后再加载,这是对 Redshift 数据库来说最快的方式。

任务运行与数据检验

设置完成后,我们可以进行数据同步。选择运行任务的工作流程,我们可以查看任务是否已经运行,以及读取了多少数据。例如这里,我们已经读取了 1,460 条数据。

实时数据插入

为了演示,我们来插入更多的数据,因为 CDC 任务可以实时读取数据。通过 SQL 任务,我们试试看插入 100 条数据,并检查 Redshift 中最终的数据量,以进行数据质量检验。

结果验证

运行任务后,我们可以检查工作流中的日志,查看读取了多少数据。这里可以看到,数据已经成功插入。通过 Demo 我们可以了解到,WhaleStudio 数据同步的功能非常丰富,欢迎大家尝试使用,有意向者可添加小助手咨询详细信息。

用户头像

白鲸开源

关注

一家开源原生的DataOps商业公司。 2022-03-18 加入

致力于打造下一代开源原生的DataOps 平台,助力企业在大数据和云时代,智能化地完成多数据源、多云及信创环境的数据集成、调度开发和治理,以提高企业解决数据问题的效率,提升企业分析洞察能力和决策能力。

评论

发布
暂无评论
WhaleStudio Demo:如何从Aurora CDC 实时数据同步到Redshift详细演示_数据同步_白鲸开源_InfoQ写作社区