写点什么

数据湖与数据仓库的未来之争

作者:qife
  • 2025-08-10
    福建
  • 本文字数:913 字

    阅读完需:约 3 分钟

数据湖的未来

George:首先讨论一个颇具争议的话题——数据湖。我们将数据湖定义为存储在公有云对象存储(如某中心的 S3 或某机构的云存储)中的表格数据,采用 Parquet 或 ORC 等开源文件格式。在数据仓库也能利用对象存储的今天,数据湖是否仍有存在价值?


Martin:技术演进由核心用例驱动。数据仓库服务于分析场景,而数据湖更侧重非结构化数据和操作型 AI。尽管架构上两者可能趋同,但优化方向不同。操作型 AI 的增长速度更快,长期来看数据湖可能吞噬其他架构。


Bob:数据湖终将被 SQL 数据仓库取代。现有仓库已能处理结构化/半结构化数据,未来还将支持图像、视频等复杂数据。所谓"非结构化数据"实为误称——所有数据都有结构,只是形式不同。


Tristan:组织应统一文件存储层,采用开源格式(如 Arrow)实现跨系统互操作。SQL 将主导数据处理,但需保留多样化访问模式。

两套技术栈会融合吗?

关于机器学习(Python/Scala)与分析(SQL/BI)生态的整合,存在三种路径:


  1. 在 SQL 中嵌入 ML(如某机构的 BigQuery 方案)

  2. 在 Python 中集成 SQL(如某中心 Databricks 方案)

  3. 通过 Arrow 格式实现互通


Michelle:Arrow 是最佳选择,既能满足数据工程师的简单特征工程,也支持数据科学家的深度建模需求。


Bob:现阶段需要多系统协作,但最终关系型知识图谱将统一预测分析领域。

数据网格:去中心化团队的架构挑战

Michelle:数据网格将 ETL 和分析下放至业务单元,通过顶层标准化实现协同。其成功依赖于:


  • 专业数据团队

  • 基础设施即服务

  • 数据治理委员会


Bob:数据网格的流式架构无法解决事务数据一致性问题,这是关键缺陷。

现代数据栈的新用例

Bob:医疗领域的图像、医嘱笔记等复杂数据将在五年内被纳入数据栈。


Tristan:反向 ETL(将仓库数据推送至业务系统)是下一个爆发点,可减少系统间手动同步。

延迟:需要多低?

Martin:延迟与吞吐量的权衡取决于系统设计,并非架构固有特性。


Bob:多数场景下 1-2 分钟延迟已足够,仅事件告警需要秒级响应。

终极预测:新平台会出现吗?

关于五年内是否会出现新的主流数据平台(挑战某机构、某中心等),嘉宾投票结果:3 票赞成,1 票反对。


本文源自某机构 Modern Data Stack 会议讨论,内容经过编辑精简。更多精彩内容 请关注我的个人公众号 公众号(办公 AI 智能小助手)公众号二维码

办公AI智能小助手
用户头像

qife

关注

还未添加个人签名 2021-05-19 加入

还未添加个人简介

评论

发布
暂无评论
数据湖与数据仓库的未来之争_数据湖_qife_InfoQ写作社区