Doris 高速查询背后的秘密:如何用 ETL 工具提升数据导入效率

当前正处于数据大爆发时代,数据海量增长的同时,决策时效性要求也提高了, 企业不再满足于 T+1 的报表,而是需要秒级甚至毫秒级的实时数据分析来支撑运营决策(如实时风控、精准营销、业务监控)。另一方面,技术架构的复杂性与成本效率之间的矛盾: 传统大数据架构(如 Hadoop 生态)组件繁多、架构复杂、运维成本高,很多企业渴望更简单、更一体化的解决方案。在这个背景下,“速度”与“易用性” 成为了下一代数据分析平台的核心竞争力。在当今这个追求实时价值、成本可控、技术普惠的时代背景下,Doris 精准地定位了自己,成为了构建现代实时数据仓库和分析平台的一个非常具有吸引力的选择。
而在业务数据库与 Doris 数仓分析之间,我们还需要做数据同步,接下来会使用 ETLCloud 进行从源端 PostgreSql 到 Doris 的高效离线全量数据同步与实时增量数据同步。
一、配置数据源
在构建数据同步管道之前,我们需要使用 ETLCloud 平台连接上源端 PostgreSql 和 Doris 数据库。
来到 ETLCloud 平台首页,进入数据源管理模块。
首先我们创建 Doris 的数据源,由于数据源连接要指定一个分类,这个分类一般是以数据库的类型命名以便后续方便管理,初始化的分类没有 Doris 我们可以在这里手动创建一个。
创建完分类后,点击创建好的分类,点击新建数据源按钮来创建一个数据源连接。
根据弹窗提示配置数据源连接参数。
注意,Doris 的端口有很多,在数据源管理这里我们在 Url 配置的端口是 Doris 的 query 端口。
配置完成点击保存并测试连接,显示连接成功即可。
接下来配置源端 PostgreSql 的数据源连接。
PostgreSql 数据源的具体配置:
到这里,ETLCloud 已经打通了源端和目标端的数据库配置,接下来配置数据同步流程。
二、构建离线全量数据同步流程
来到平台首页,进入离线数据集成模块。
首先这里我们一会要用到的组件是 Doris 快速输出组件,这个是免费组件但不是初始化系统自带的,我们要到官网购买一下这个组件,并根据官网帮助文档的安装文档去安装一下组件。
进入一个离线应用,来到所有数据流程这里,创建一个新的流程。
设计一个这样的流程。
配置完流程点击上方工具栏的运行按钮。
流程运行结束,数据成功同步。
三、实时增量数据同步
接下来配置实时增量数据同步流程,当源端数据发生变更,平台立马采集变更的数据同步到目标端,保存源端与目标端的数据实时的一致性。
首先在离线数据集成这里创建一个流程。
流程设计只需要一个 Doris 快速输出组件。
配置完离线流程后,来到实时数据集成模块,创建一个数据库监听器。
启动数据库监听器。
显示增量已启动说明监听器启动成功。
对源端 PostgreSql 的表数据进行修改。
监听器可以看到数据传输记录。
检查目标表,源端修改的数据成功同步到目标表这里来。
四、最后
以上便是通过 ETLCloud 打通 PostgreSql 与 Doris 的流程,通过 Doris 的官方提供的 Stream Load 数据导入方式,离线数据集成可以让我们快速同步业务库的整库数据库到 Doris 中进行数据挖掘分析,而实时数据集成能保证 Doris 的数据与源端业务库的强一致性,更大地发挥 Doris 的优势。







评论