写点什么

2025 开源数据工程全景图,九大技术赛道演进趋势预测

作者:白鲸开源
  • 2025-02-17
    天津
  • 本文字数:6472 字

    阅读完需:约 21 分钟

2025开源数据工程全景图,九大技术赛道演进趋势预测

作者 | Alireza Sadeghi

译自 Practical Data Engineering


2025 年开源数据工程领域呈现蓬勃创新与生态重构的双重态势,九大技术赛道在实时化、轻量化与云原生架构驱动下加速演进。一份来自外网的 2025 年开源数据工程全景图全面地展示了这一领域的发展态势与走向,现翻译此文供相关从业者参考。


值得注意的是,在数据工程领域全景图中,白鲸开源运营的开源项目 Apache DolphinScheduler 凭借其高扩展性、可视化 DAG 编排及对混合云环境的深度适配,持续领跑工作流编排领域,尤其在金融、制造业复杂任务调度场景中成为 Airflow 的有力竞争者。其社区活跃度与商业化成熟度显著提升,日均调度任务量突破千万级,助力企业实现 DataOps 全链路自动化。与此同时,白鲸开源运营的另一开源项目 Apache SeaTunnel 以批流一体引擎与超 200 种异构数据源的无缝集成能力,重塑数据集成范式,将传统 ETL 工具(如 Nifi)的同步效率提升 3 倍以上,成为多云环境下数据迁移的首选方案。两大项目的卓越表现不仅印证了开源生态的技术韧性,更凸显了数据工程向低门槛、高弹性架构转型的核心趋势——实时流处理(Flink 生态主导)、零磁盘存储架构(如 Apache Iceberg)及单节点计算引擎(DuckDB 崛起)正共同定义下一代数据基础设施的黄金标准。

引言

开源数据工程领域持续快速发展,2024 年在存储、处理、集成和分析等方向均取得重大进展。


这是开源数据工程全景图的第二次年度发布,目标是识别并展示数据工程领域的关键活跃项目和核心工具,提供对这一动态生态系统的全面概览,并分析主要趋势与发展。


尽管全景图每年发布一次,其配套的 GitHub 仓库会全年持续更新。若发现遗漏内容,欢迎随时贡献补充。

工具选择标准

每个类别的开源项目数量庞大,难以涵盖所有工具。GitHub 页面提供了更完整的工具列表,但年度全景图仅包含活跃项目,排除已停滞或成熟度不足的新项目。需要注意的是,部分入选工具可能尚未完全达到生产就绪状态,仍处于发展阶段。


下面是 2025 年开源数据工程全景图:


2025开源数据工程全景图


开源生态现状(2025 年)

2024 年开源数据工程生态显著增长,新增超 50 个工具,同时移除约 10 个不活跃或归档项目。尽管并非所有新增工具诞生于 2024 年,但它们代表了生态系统的关键扩展。

许可协议挑战与行业贡献

  • 许可协议争议:Redis、CockroachDB、ElasticSearch、Kibana 等老牌项目转向更封闭的许可协议(Elastic 随后宣布回归开源)。

  • 行业巨头贡献:Snowflake 贡献 Polaris、Databricks 开源 Unity Catalog、OneHouse 捐赠 Apache XTable、Netflix 发布 Maestro,彰显企业对开源的支持。

基金会动态

  • Apache 基金会:持续孵化前沿项目,包括 Apache XTable(通用表格式)、Apache Amoro(湖仓管理)、Apache HoraeDB(时序数据库)、Apache Gravitino(数据目录)、Apache Gluten(中间件)和 Apache Polaris(数据目录)。

  • Linux 基金会:托管 Delta Lake、Amundsen、Kedro、Milvus、Marquez 等明星项目,2024 年新增 vLLM(加州大学伯克利分校捐赠)和 OpenSearch(从 AWS 移交)。

开源模式之争:Open Core vs Open Foundation

并非所有项目均为完全开源的中立工具。部分采用 Open Core 模式(核心功能需付费),其可持续性面临挑战。相比之下,Open Foundation 模式(开源软件作为商业化产品基础)可能成为未来主流,确保开源工具的生产就绪性。

九大核心分类概览

数据工程全景图划分为 9 大类别:


  1. 存储系统:OLTP、OLAP 及专用存储引擎

  2. 数据湖平台:湖仓架构工具

  3. 数据处理与集成:批流处理框架与 Python 工具

  4. 工作流编排与 DataOps:流水线编排与数据运营管理

  5. 数据集成:数据摄取与 CDC 工具

  6. 数据基础设施:容器编排与监控组件

  7. ML/AI 平台:机器学习与向量数据库

  8. 元数据管理:数据目录与治理

  9. 分析与可视化:BI 工具与可视化框架


以下为各领域关键进展分析:

1. 存储系统

2024 年,存储系统在架构上取得了显著进展,特别是在 OLAP 数据库系统领域。


DuckDB 在 1.0 版本发布后,成为嵌入式 OLAP 类别的主要成功案例。新的嵌入式 OLAP 系统如 chDB(基于 ClickHouse)、GlareDB 和 SlateDB 的出现,反映了对轻量级分析处理能力的需求增长。



  • OLAP 扩展与 HTAS 架构

  • PostgreSQL 生态涌现 OLAP 扩展(如 MotherDuck 的 pg_duckdb、Crunchy Data 的 pg_parquet),将 OLTP 数据库升级为支持数据湖的 HTAS(混合事务分析存储)系统。


  • 零磁盘架构崛起

  • 基于 S3 等远程存储的架构成为主流,SlateDB、Apache HoraeDB 等新系统原生支持,Apache Doris、StarRocks 等老牌系统 2024 年跟进。


  • 其他亮点

  • Redis 闭源后,Valkey 成为最受关注的开源替代品,获 Google Memorystore 和 Amazon ElastiCache 支持。

  • PostgreSQL 生态的 Elasticsearch 替代品 ParadeDB、流式存储系统 Proton 和 Fluss 推动流批融合。

2. 数据湖平台

随着数据库先驱迈克尔·斯通布雷克(Michael Stonebraker)将湖仓架构和开放表格格式誉为 “下一个十年的 OLAP 数据库管理系统原型”,数据湖仓(lakehouse)继续成为数据工程领域的热点话题。


开放表格格式的生态系统在 2024 年持续演进。第四种主要开放表格格式,Apache Paimon,从孵化阶段毕业,带来了与 Apache Flink 集成的流式湖仓能力。Apache XTable 作为一个新项目,专注于双向格式转换,而 Apache Amoro 进入孵化阶段,提供湖仓管理框架。


在 2024 年,Apache Iceberg 已确立其作为开放表格格式框架的领先地位,凭借其生态系统的扩展和 GitHub 仓库的指标,包括更高的星标、分叉、拉取请求和提交次数。




56 所有主要的 SaaS 和云供应商都在增强其平台,以支持对开放表格格式的访问。然而,写入支持相对较少,Apache Iceberg 是全面 CRUD(创建、读取、更新、删除)集成的首选。


谷歌的 BigLake 托管表,允许在客户管理的云存储中使用可变的 Iceberg 表,亚马逊新宣布的 S3 表,原生支持 Iceberg,以及其他主要 SaaS 工具,如 Redpanda 推出的 Iceberg 主题和 Crunchy Data Warehouse 深度集成 Apache Iceberg,都是 Iceberg 在生态系统中日益采用和深度集成的例子。


展望未来,像 Apache XTable 和 Delta UniForm(Delta Lake Universal Format)这样的通用表格格式可能面临在各种格式之间功能潜在分歧的重大挑战,开放表格格式的命运可能类似于开放文件格式,当 Parquet 成为事实上的标准时。


随着湖仓生态系统的持续增长,采用可互操作的开放标准和框架的开放数据湖仓平台预计将获得更多的关注。



原生表数据库兴起

在数据湖生态系统中,一种新的趋势正在兴起,即开发原生的表格式库,这些库使用 Python 和 Rust 编程语言编写。这些库的目标是直接访问开放的表格式,而无需依赖像 Spark 这样重量级的框架。一些值得关注的例子包括:


  • Delta-rs:这是一个原生的 Rust 库,用于 Delta Lake,并提供了 Python 绑定。它允许开发者直接操作 Delta Lake 表,而无需依赖 Java 或 Apache Spark。

  • Hudi-rs:这是 Apache Hudi 的原生 Rust 实现,同样提供了 Python API。它使 Python 和 Rust 生态系统中的开发者能够更轻松地访问 Hudi 表,而无需依赖 Apache Spark、Java 或 Hadoop。

  • PyIceberg:这是一个正在发展的 Python 库,旨在增强对 Iceberg 表格式的访问能力,使其能够在默认的 Spark 引擎之外使用。


这些原生库的出现,为数据湖的开发和管理提供了更多选择,特别是在需要轻量级解决方案或跨语言开发的场景中。

3. 数据处理与集成

单节点处理的崛起

单节点处理的崛起代表了数据处理的根本转变,向传统的分布式优先方法发起挑战。


最近的分析显示,许多公司高估了其大数据需求,促使重新评估其数据处理要求。即使在拥有大量数据的组织中,约 90%的查询仍在可管理的工作负载范围内,可以在单台机器上运行,仅扫描最近的数据。



现代单节点处理引擎,如 DuckDB、Apache DataFusion 和 Polars,已成为强大的替代方案,能够处理以前需要分布式系统(如 Hive/Tez、Spark、Presto 或 Amazon Athena)的工作负载。

流处理

流处理生态系统在 2024 年持续扩展,Apache Flink 进一步巩固了其作为首选流处理引擎的地位,而 Apache Spark 仍保持其强大的地位。



在庆祝其十周年之际,Flink 发布了 2.0 版本,这是自 Flink 1.0 发布八年来的首次重大更新。Apache Flink 生态系统显著扩展,引入了 Apache Paimon 开放表格格式和新开源的 Fluss 流处理引擎。2024 年,领先的云供应商越来越多地将 Flink 集成到其托管服务中,最新的是谷歌的无服务器 BigQuery 引擎用于 Apache Flink 解决方案。


新兴的流处理引擎,如 Fluvio、Arroyo 和 FastStream,努力与这些成熟的竞争者竞争。Fluvio 和 Arroyo 作为唯一的基于 Rust 的引擎,旨在消除传统 JVM 基础的流处理引擎通常存在的开销。


在开源流处理领域的重大新闻中,Redpanda 收购了 Benthos.dev,并将其重新命名为 Redpanda Connect,同时将其许可模式转变为更偏向专有许可。作为回应,WarpStream 对 Benthos 项目进行了分叉,将其重命名为 Bento,并承诺保持其 100%的 MIT 开源许可。

Python 处理框架

在 Python 数据处理生态系统中,Polars 目前是占主导地位的高性能 DataFrame 库,适用于数据工程工作负载(不包括 PySpark)。Polars 在 2024 年达到了 8900 万次下载的显著里程碑,并发布了 1.0 版本。


然而,Polars 现在面临来自 DuckDB 的 DataFrame API 的竞争,后者以其与外部存储系统的惊人简单集成和与 Apache Arrow 的零复制集成(不同系统之间的直接内存共享)引起了社区的关注。两者都在去年排名前 1%的最受欢迎的 Python 库中。


Apache Arrow 巩固了其作为 Python 数据处理生态系统中内存数据表示的事实标准的地位。该框架与各种 Python 处理框架(包括 Apache DataFusion、Ibis、Daft、cuDF 和 Pandas 3.0)建立了深度集成。


Ibis 和 Daft 是其他具有高潜力的创新 DataFrame 项目。Ibis 提供了对各种基于 SQL 的数据库的无缝后端接口,而 Daft 提供了分布式计算能力,从一开始就支持分布式 DataFrame 处理。

4. 工作流编排与 DataOps

在 2025 年,开源工作流编排类别依然是数据工程生态系统中最有活力的部分之一,拥有超过 10 个活跃项目,从成熟的平台如 Apache Airflow、Apache DolphinScheduler 到新开源的引擎如 Netflix 的 Maestro。

数据质量

Great Expectations 继续作为领先的 Python 数据质量和验证框架,也被列入 Databricks 2024 年十大数据和 AI 产品榜单,紧随其后的是 Soda 和 Pandera。然而,也有一些令人遗憾的消息:Data-Diff 项目已于 2024 年被其主要维护者 Datafold 存档。

数据版本控制

数据版本控制仍然是 2024 年的一个重要话题,努力将现代版本控制系统(如 Git)的功能引入数据湖和湖仓。


像 LakeFS 和 Nessie 这样的项目,通过扩展事务性元数据层,增强了现代数据湖和开放表格格式(如 Iceberg 和 Delta Lake)的功能。

数据转换

dbt 在数据转换方面的应用范围正在扩大,超越了最初在数据仓库系统中的数据建模功能。


它现在通过新的集成和插件,利用 Trino 等短暂计算引擎,进入了数据湖等非仓库环境。


目前,dbt 主要面临 SQLMesh 的竞争。


2024 年,SQLMesh 与 dbt 之间的竞争引起了广泛关注,Tobiko 的首席执行官在社交媒体上声称,SQLMesh 优秀到被 dbt 的 Coalesce 大会“禁用”!

5. 数据集成

在数据集成领域,Airbyte 保持领先地位,在为版本 1.x 做准备时,成功关闭了 13,000 个拉取请求。


dlt 框架通过 1.0 版本的发布,展示了显著的成熟度,而 Apache SeaTunnel 作为一个有竞争力的替代方案,获得了越来越多的关注。



变更数据捕获(CDC)框架

CDC 框架领域出现了新工具,包括 Artie Transfer 和 PeerDB(被 ClickHouse 收购),同时,Flink CDC 连接器在使用 Flink 作为主要流处理引擎的平台中获得了广泛采用。

事件中心(流式发布/订阅服务)

2024 年,数据集成领域出现了显著的架构转变,即存储和计算的分离,以及采用零磁盘架构的对象存储。


WarpStream 是实时流式领域中率先实现这一架构的先驱。


这种模型还使得灵活的“自带云”(BYOC)部署策略成为可能,因为计算和存储可以托管在客户首选的基础设施上,而服务提供商维护控制平面。


WarpStream 的成功促使主要竞争者采用类似的架构。


Redpanda 推出了 Cloud Topics,增强了其产品线,而 AutoMQ 实施了混合方法,采用快速缓存层以提高 I/O 性能。


此外,StreamNative 为 Apache Pulsar 推出了 Ursa 引擎,Confluent 在 2024 年推出了自己的云原生 Freight Clusters。


最终,Confluent 决定收购 WarpStream,进一步扩展其产品线,采用 BYOC 模型。


与此同时,Apache Kafka 正处于可能定义其未来方向的关键时刻。

6. 数据基础设施

2024 年,数据基础设施领域保持稳定,Kubernetes 在庆祝其十周年之际,继续领衔云环境中的资源调度和虚拟化引擎。


在可观察性领域,InfluxDB、Prometheus 和 Grafana 继续占据主导地位,Grafana Labs 通过一轮 2.7 亿美元的融资,巩固了其核心产品(如 Grafana)作为通用可观察性解决方案的长期可行性。

7. 机器学习/人工智能平台

向量数据库在 2023 年的强劲势头下,继续保持增长,Milvus 成为领先者,其它项目包括 Qdrant、Chroma 和 Weaviate。


该类别目前有十个活跃的向量数据库项目,反映了向量搜索能力在现代 AI 驱动的数据架构中的重要性。



本年度,LLMOps(也称为 GenOps)作为一个独立类别出现,标志着 Dify 和 vLLM 等新项目的快速增长,专注于管理 LLM 模型。

8. 元数据管理

元数据管理平台近年来获得了显著进展,DataHub 通过积极的开发和社区参与,继续在开源领域保持领先地位。


然而,2024 年在目录管理方面出现了最显著的发展。


与前几年不同,2024 年市场上涌现出一波新的开放目录解决方案,包括 Snowflake 开源的 Polaris、Databricks 开源的 Unity Catalog、LakeKeeper 和 Apache Gravitino。


这种繁荣反映了新兴的数据湖仓平台,依赖于开放表格格式,缺乏内置的高级目录管理功能,以实现多引擎的无缝互操作性。


所有这些项目都有潜力建立新的标准,成为数据湖仓平台中供应商中立的开放目录服务。


就像 Hive Metastore 曾成为 Hadoop 平台的事实标准一样,这些新兴的目录可能最终取代 Hive Metastore 在开放数据平台上的长期主导地位。

9. 分析与可视化

在开源商业智能领域,Apache Superset 和 Metabase 仍然是领先的 BI 解决方案。


虽然 Superset 在 GitHub 上更受欢迎,但 Metabase 的开发活动更为活跃。


Lightdash 作为一个有前途的新兴工具,获得了 1100 万美元的融资,展示了市场对轻量级 BI 解决方案的需求。



BI 即代码解决方案

BI 即代码作为一个独特的类别出现,受到 Streamlit 持续成功的推动,Streamlit 保持其作为最受欢迎的 BI 即代码解决方案的地位。


这些工具使开发者能够使用代码、SQL 和模板(如 Markdown 或 YAML)创建交互式应用和轻量级 BI 仪表板,将软件工程的最佳实践,如版本控制、测试和 CI/CD,融入到仪表板开发工作流中。


除了广为人知的 Streamlit 和 Evidence 之外,像 Quary 和 Vizro 这样的新入者也逐渐崭露头角。其中,Quary 特别引人注目,因为它采用了基于 Rust 的开发方式,这与该领域常见的以 Python 为中心的模式有所不同。

可组合 BI 堆栈

系统解耦的演变不仅限于存储系统;它还影响了商业智能(BI)堆栈。一种新兴趋势是将轻量级、无后端服务器的 BI 工具与无头嵌入式 OLAP 解决方案(如 Apache DataFusion、Apache Arrow 和 DuckDB)相结合。


这种集成解决了开放源 BI 堆栈中的一些空白,例如原生查询外部数据湖和湖仓的能力,同时保持轻量级、解耦的架构的优势。



像 Omni、GoodData、Evidence 和 Rilldata 这样的 BI 产品,已经将这些引擎集成到其 BI 和数据探索工具中。


Apache Superset(使用 duckdb-engine 库)和 Metabase 现在也支持嵌入式 DuckDB 连接。

MPP 查询引擎

在后 Hadoop 时代,开源 MPP(大规模并行处理)系统的创新和引入相对较少,而现有引擎继续成熟。


虽然 Hive 的份额在下降,但 Presto 和 Trino 仍然是生产中使用的主要开源 MPP 查询引擎,尽管面临着 Spark 作为统一引擎,以及 Databricks、Snowflake 和 AWS Redshift Spectrum 等托管云 MPP 产品的激烈竞争。

未来展望与结论

开源数据生态系统正进入一个成熟阶段,关键领域如数据湖仓,其特征是围绕经过验证的技术的整合和对操作效率的更大关注。


该领域继续朝着云原生、可组合架构方向发展,同时围绕主导技术进行标准化。


需要关注的关键领域包括:


  • 开放表格格式领域的进一步整合

  • 实时和事务性系统中零磁盘架构的持续演变

  • 提供统一湖仓体验的追求

  • LLMOps 和 AI 工程的崛起

  • 数据湖仓生态系统在开放目录集成和本地库开发等领域的扩展

  • 单节点数据处理和嵌入式分析的日益关注


原文链接:https://www.pracdata.io/p/open-source-data-engineering-landscape-2025

用户头像

白鲸开源

关注

一家开源原生的DataOps商业公司。 2022-03-18 加入

致力于打造下一代开源原生的DataOps 平台,助力企业在大数据和云时代,智能化地完成多数据源、多云及信创环境的数据集成、调度开发和治理,以提高企业解决数据问题的效率,提升企业分析洞察能力和决策能力。

评论

发布
暂无评论
2025开源数据工程全景图,九大技术赛道演进趋势预测_大数据_白鲸开源_InfoQ写作社区