数据湖与数据仓库的未来之争
数据湖的未来
George:首先讨论一个颇具争议的话题——数据湖。我们将数据湖定义为存储在公有云对象存储(如某中心的 S3 或某机构的云存储)中的表格数据,采用 Parquet 或 ORC 等开源文件格式。在数据仓库也能利用对象存储的今天,数据湖是否仍有存在价值?
Martin:技术演进由核心用例驱动。数据仓库服务于分析场景,而数据湖更侧重非结构化数据和操作型 AI。尽管架构上两者可能趋同,但优化方向不同。操作型 AI 的增长速度更快,长期来看数据湖可能吞噬其他架构。
Bob:数据湖终将被 SQL 数据仓库取代。现有仓库已能处理结构化/半结构化数据,未来还将支持图像、视频等复杂数据。所谓"非结构化数据"实为误称——所有数据都有结构,只是形式不同。
Tristan:组织应统一文件存储层,采用开源格式(如 Arrow)实现跨系统互操作。SQL 将主导数据处理,但需保留多样化访问模式。
两套技术栈会融合吗?
关于机器学习(Python/Scala)与分析(SQL/BI)生态的整合,存在三种路径:
在 SQL 中嵌入 ML(如某机构的 BigQuery 方案)
在 Python 中集成 SQL(如某中心 Databricks 方案)
通过 Arrow 格式实现互通
Michelle:Arrow 是最佳选择,既能满足数据工程师的简单特征工程,也支持数据科学家的深度建模需求。
Bob:现阶段需要多系统协作,但最终关系型知识图谱将统一预测分析领域。
数据网格:去中心化团队的架构挑战
Michelle:数据网格将 ETL 和分析下放至业务单元,通过顶层标准化实现协同。其成功依赖于:
专业数据团队
基础设施即服务
数据治理委员会
Bob:数据网格的流式架构无法解决事务数据一致性问题,这是关键缺陷。
现代数据栈的新用例
Bob:医疗领域的图像、医嘱笔记等复杂数据将在五年内被纳入数据栈。
Tristan:反向 ETL(将仓库数据推送至业务系统)是下一个爆发点,可减少系统间手动同步。
延迟:需要多低?
Martin:延迟与吞吐量的权衡取决于系统设计,并非架构固有特性。
Bob:多数场景下 1-2 分钟延迟已足够,仅事件告警需要秒级响应。
终极预测:新平台会出现吗?
关于五年内是否会出现新的主流数据平台(挑战某机构、某中心等),嘉宾投票结果:3 票赞成,1 票反对。
本文源自某机构 Modern Data Stack 会议讨论,内容经过编辑精简。更多精彩内容 请关注我的个人公众号 公众号(办公 AI 智能小助手)公众号二维码
办公AI智能小助手
评论