ETLCloud 的应用策略——实时数据处理是关键
一、ETLCloud 是什么?
ETLCloud 又称数据集成(DataOps),是 RestCloud 旗下的一款数据仓库管理工具,通过自动化数据转换和集成来实现企业内部和外部数据的无缝对接,从而帮助企业快速获取准确的数据信息,进而作出正确的业务决策。
ETLCloud 的功能分为离线数据集成、实时数据集成、数据源管理、监控中心、数据服务开发、用户权限管理等多模块,具有设计高效、开发成本低、数据支持性强、实时数据毫秒级同步、运行监控齐全等特点。
其中,实时数据处理是 ETLCloud 的关键应用策略之一,可以实现如下功能:
1.实时毫秒级同步:通过数据库日志捕获技术可以实现不同异构数据源之间的毫秒级实时同步。
2.构建实时数仓:通过实时同步技术可以帮助企业快速构建实时数仓。
3.实时报表:通过实时数据同步可以让 BI 的数据更快的展现、实时展示业务运作情况。
4.多种数据源支持:支持 MySql、Oracle、Sql Server、PostgreSQL、MQ 等的实时数据同步。
二、实践操作
直接展示监听 Mysql 数据库实时同步到 Oracle 数据库,中途进行数据映射等处理。
在数据库监听器类别中,ETLCloud 可以实现四种监听方式,分别是直接传输、通过 ETL 流程、传输到 Kafka、不处理。
直接传输方式,在配置方面是最简单的,适用于单纯监听同步源数据库表数据到目标库的情景,性能比较高效;
通过 ETL 方式,通过绑定设计离线流程,以达到对数据进行清洗转换等操作后,再同步到库表中,适用于监听源表数据后还需要对数据进行相关操作的情景,功能性比较强;
传输到 Kafka 方式,可以选择将数据传输到 Kafka 中,提供了多种选择;
不处理,可以捕获监听数据,但是不对数据进行后续操作,适用于测试监听器的配置效果便于调整监听器配置以及定位存在问题;
使用实时数据集成模块之前,我们需要在数据源中配置对应的数据源。
(配置好的数据源)
展示一下提前创建好的库表。
(源表和目标表)
进入实时数据集成模块,新建一个监听器。数据传输模式先选择不处理测试监听效果;采集模式全量+增量数据;其他的按照提示选取即可。
(监听器配置)
(接收端配置)
启动监听器,可以看到监听器可以正常监听信息,说明源表可以进行监听,可以在此基础上更改其他数据传输模式;
(启动监听器)
直接到库方式
我们这里新建一个监听器,数据传输模式选择直接到目标库的方式。
(接收端配置)
(表映射)
启动监听器之后,我们对源表进行修改,模拟数据变化时的监听效果。
(启动监听器)
(目标表数据)
这样,就成功实现了源表和目标表的实时同步需求。
传输给 ETL 的流程
首先需要设计输出数据的 ETL 离线流程,只要配置一个库表输出组件即可。
(流程设计)
在基本属性中,我们选取好目标数据库表,这个就是我们提前在数据源管理模块中配置好的数据源。
(基本属性配置)
下一步,输出字段配置,选取数据表后,平台会自动载入字段信息,我们这里直接对数据进行操作即可,对 NAME 字段绑定一个姓名脱敏的转换规则。平台自带多种数据规则,支持自主定义开发规则,也有大量的数据处理组件可以直接使用,按照自己的需求设计即可。
(输出字段配置)
(平台自带规则)
输出选项,可以选择配置数据输出的各种选项;高级配置可以对数据库的事务等以及流程的结果断言进行配置,我们这里直接使用默认的配置。
(输出选项配置)
(高级配置)
保存后,我们前往实时数据集成模块新建一个监听器,数据传输模式选择传输给的 ETL 流程。这里指定的就是刚刚设计好的 ETL 流程。
(监听器配置)
(接收端配置)
启动监听器,然后去目标数据库查看同步效果。
(启动监听器)
(目标表效果)
传输给 Kafka
同理选取源数据库表以及目标数据源。
(监听器配置)
(接受端配置,选择生产者数据源)
保存后启动监听器,手动修改源数据表,查看数据统计以及 kafka 接收到的数据。
(启动监听器)
(Kafka 数据)
可以看到,通过 ETLCloud 平台的这些功能,对实时数据进行处理是非常简单而且高效的。
三、总结
通过 ETLCloud 的实时数据处理功能,企业可以快速地获取最新的数据信息,及时了解市场变化、产品销售情况等重要信息。此外,ETLCloud 还提供了多种数据处理策略和工具,可以根据不同的业务需求和数据特征,定制不同的数据处理方案,从而更好地满足企业的数据管理需求。
评论