如何通过 ETL 把 StarRocks 中的数据同步到数仓

在数据驱动决策的时代,企业对于数据处理和分析的需求日益增加。ETL 作为数据处理的核心环节,扮演着将原始数据转化为有价值信息的关键角色。而 StarRocks 作为一款极速全场景 MPP(Massively Parallel Processing)企业级数据库产品,凭借其创新的架构设计与卓越的性能表现,正成为企业实现高效数据处理与实时分析的优选方案。那如何通过 ETL 工具把 StarRocks 中的数据同步到数仓呢?接下来我们通过实操演示下过程。
一、StarRocks 数据同步到 Doris 演示
新建数据源创建 StarRocks 源数据库:
进入数据源管理选择新建数据源,在数据源中找到 StarRocks 进行创建。

填写 StarRocks 相关配置


新建数据源创建 Doris 源数据库:
Doris 数据源创建步骤和上述相同

新建流程

新建流程,在流程中配置库表输入组件和 doris 输出组件,没有组件的需要前往官网购买。库表输入用于读取 StarRocks 数据,Doris 输出用于往 Doris 中同步数据。

配置库表输入组件,只需选择刚才创建的数据源和数据源中表。当前表中有 30 万条数据。

选中表后会默认生成查询语句,也可以更具需要更改语句。后续的输入字段也会自动识别。


配置 Doris 快速输出组件,同样的 Doris 选择数据源和目标表。


同时使用了自动建表功能在目标端 Doris 数据库中自动创建表。

在路由线中开启 5 个并发线程优化同步速度

执行流程并查看结果

评论