写点什么

Apache SeaTunnel+Apache Doris= 全面淘汰 Lambda 架构!

作者:白鲸开源
  • 2025-01-07
    天津
  • 本文字数:1689 字

    阅读完需:约 6 分钟


在大数据时代,企业面临着数据集成和实时处理的挑战。Apache SeaTunnel 和 Apache Doris 的结合提供了一种解决方案,使得企业能够快速搭建批流一体的数据仓库,全面取代传统的 Lambda 架构。本文将详细介绍 Apache SeaTunnel 的特点,在数据集成领域的核心技术原理,从集成开发到数据分析开发的实践技巧,以及如何利用 Apache SeaTunnel 实现数据的高效同步至 Apache Doris,与 Apache Doris 的结合优势以及未来的发展规划,带来了深刻的技术见解和行业趋势分析。


Apache SeaTunnel 简介


Apache SeaTunnel 是一个新一代实时多源数据同步工具,被誉为大数据高速公路。它支持 160+数据源,能够实现批流一体的数据集成。作为一个开源项目,它在 GitHub 上拥有 8.1k 的高星标,显示了其受欢迎程度。SeaTunnel 能够连接上百种源数据库/地点,实现数据同步与集成,目标数据库/地点包括但不限于 Druid、Redis、Hive、Iceberg、Kudu、HBase 等。与传统解决方案相比,如 DataX,SeaTunnel 在性能上快了 30%,甚至在某些场景下快 30 倍。



生态工具 Connectors

Apache SeaTunnel 支持超过 160+ 的 Connectors,用户可以通过搜索“SeaTunnel connector”在 Google 或 seatunnel.apache.org https://seatunnel.apache.org/ 上找到相关信息。

典型案例

JPMorgan & Chase,作为美国最大的商业银行,使用 Apache SeaTunnel 解决了多云异构环境下的数据同步问题,将 AWS Aruora、DynamoDB、SFTP 数据实时同步到 ES、S3、Snowflake 下。这一解决方案处理了日均记录数量级上千亿,日均数据量在 100TB 以上的数据集群。



SeaTunnel+Doris 快速搭建一体数据仓库


Apache Doris 与 Apache SeaTunnel 的结合,提供了一种全面淘汰 Lambda 架构的解决方案。传统的 Lambda 架构存在痛点,如批和流开发需要两套代码,流处理完成后批处理还需要覆盖一遍,以及当日实时数据第二天会变化等问题。



而 Apache Doris+SeaTunnel 的组合,通过贴源层采用全实时架构,原子层数据也来自实时贴源层,指标层采用实时物化视图,可以复用汇总层数据,从而实现实时指标不需要二次计算。

实时数仓的最佳组合

Doris(SelectDB) x SeaTunnel(WhaleTunnel) x DolphinScheduler(WhaleScheduler) 的组合,可以实现多种数据源的实时获取,一读多写的模式实时写入仓库,也可以进入数据湖,通过 Doris 外表模式加载实现实时指标层场景。



Apache SeaTunnel 未来 Roadmap


Apache SeaTunnel 的目标是更快、更好用,作为一个数据集成平台,SeaTunnel 将不断专注于解决数据集成领域的需求和问题。持续从数据源的数量、数据同步的性能和易用性上满足用户的需求,总的方向是聚焦大模型支持,易用性和可监测性的加强。

Apache SeaTunnel 未来一段时间的发展规划包括:

  • 连接器的丰富:支持更多向量数据库

  • 支持更多用户需求较大的连接器种类

  • 支持多表 Source + Sink

  • SeaTunnel Web 的开发

  • CDC 支持 DDL 变更、流速控制

  • K8S+Yarn 支持等。



需要特别指出的是,Apache SeaTunnel 对向量和大模型的支持力度未来将越来越大。目前,SeaTunnel Transform 中已经支持了 Embedding 和 LLM,并已经在 Zilliz 数据库中得到应用,可以通过 Embedding 的方式把数据 Sink 到目标端数据库。



基于 Apache SeaTunnel 的商业版:WhaleTunnel

WhaleTunnel 是基于 Apache SeaTunnel 的商业版,它简单易用,开箱即用,不依赖 HDFS、Flink、Spark 集群。WhaleTunnel 提供全可视化操作,支持可视化运维与监控配置,支持信创,目前支持 198 种数据源。它还支持整库同步、表结构自动变更,并与 WhaleScheduler 全面集成,用户可以使用完成传参和编排工作。



WhaleStudio

WhaleStudio 是由白鲸开源 DolphinScheduler 和 SeaTunnel 核心开发者打造的商业化数据集成调度平台,已经在多个大型企业中得到了应用,例如中信建投等,都在 WhaleStudio 上开发了大量的大数据任务,整合了多个系统和数据库,提高了数据研发效率。


结语


Apache SeaTunnel 和 Apache Doris 的结合,为企业提供了一个强大的批流一体数据仓库解决方案。随着技术的不断进步,Apache SeaTunnel 的未来发展规划将使其更加强大和易用。感谢您的关注,欢迎扫码加入 Apache SeaTunnel 社群,了解更多信息。



发布于: 刚刚阅读数: 6
用户头像

白鲸开源

关注

一家开源原生的DataOps商业公司。 2022-03-18 加入

致力于打造下一代开源原生的DataOps 平台,助力企业在大数据和云时代,智能化地完成多数据源、多云及信创环境的数据集成、调度开发和治理,以提高企业解决数据问题的效率,提升企业分析洞察能力和决策能力。

评论

发布
暂无评论
Apache SeaTunnel+Apache Doris=全面淘汰Lambda架构!_开源_白鲸开源_InfoQ写作社区