写点什么

阿里云 DLF 3.0:面向 AI 时代的智能全模态湖仓管理平台

  • 2025-10-24
    浙江
  • 本文字数:4353 字

    阅读完需:约 14 分钟

在 2025 年云栖大会上,阿里云 DLF 产品负责人李鲁兵正式发布了 DLF(Data Lake Formation)3.0,升级为面向 AI 时代的智能全模态湖仓管理平台。此次发布标志着 DLF 从传统的湖仓管理工具,全面进化为支持结构化、半结构化与非结构化数据统一管理、安全开放、性能卓越的新一代数据基础设施。本文将系统梳理 DLF 3.0 的架构演进、核心能力、典型应用场景以及其在实际业务中的落地价值。

一、Data+AI 需求驱动 Lakehouse 再进化

随着 AI 时代的到来,数据形态正经历前所未有的变革。传统以表结构为主的数据仓库已难以满足日益复杂的业务需求。如今,企业不仅需要处理结构化交易数据,还需高效管理图像、音频、视频、PDF 等全模态非结构化数据。同时,业务对数据新鲜度的要求也从“天级”、“小时级”快速演进至“分钟级”甚至“秒级”。


在这样的背景下,Lakehouse 架构应运而生,并持续演进。阿里云观察到四大核心趋势正在驱动 Lakehouse 的下一轮升级:


  • 数据处理多维化:从单一表格数据扩展到多模态、多源异构数据的统一管理;

  • 数据新鲜度提升:实时性要求从分钟级向秒级演进;

  • 开放性必须保留:平台需兼容开源生态,避免厂商锁定(Vendor Lock-in);

  • 安全与稳定性要求提高:企业级用户对权限控制、审计合规、系统可靠性提出更高标准;


正是这些需求,推动 DLF 迈向 3.0,构建一个真正“安全、开放、全模态”的新一代全模态湖仓管理平台。

二、DLF 产品演进:从元数据管理到全模态湖仓管理平台

DLF 的发展历程紧密跟随大数据架构的演进路径。其 1.0 版本诞生于 Hadoop 生态时代,核心目标是替代 Hive Metastore(HMS),为用户提供统一的元数据管理服务,帮助企业在复杂的 Hadoop 组件中实现计算与存储引擎的协同。


随着 Lakehouse 架构逐步取代传统 Hadoop 体系,DLF 在 2.0 阶段完成了关键转型:从元数据管理工具升级为面向 Lakehouse 的开放元数据与数据管理平台。该阶段支持 Paimon、Iceberg 等主流湖格式,实现流批一体、分钟级数据新鲜度,并帮助用户平滑迁移至 Lakehouse 架构。


然而,随着用户规模扩大和 AI 场景爆发,2.0 架构暴露出若干挑战:存储管理分散导致误操作风险、安全控制粒度不足、非结构化数据无法纳入统一治理等。为此,DLF 3.0 应运而生。


DLF 3.0 的核心定位是:一个安全、开放、支持全模态数据的一体化 Lakehouse 管理平台。它不仅延续了对结构化表数据的支持,更将文件(Files)、向量、多媒体等非结构化数据纳入统一目录与生命周期管理体系,真正实现“一张湖”管理所有数据。

三、DLF 3.0 核心能力发布:六大企业级服务全面升级

DLF3.0 阶段保持开放的同时是一个安全的面向全模态数据管理的平台,同时我们基于一体化设计能够保证更好的安全、更好的开放性。


最上层是多引擎协同,通过用户的场景,选择不同的引擎。就像我们搭乐高积木,刚开始业务的需求是批计算场景,随着业务迭代需要升级到实时计算,采用 DLF 可以灵活无缝地从批计算升级实时计算。这套平台不仅可以做大规模的实时更新,也可以基于后期 changeLog 数据订阅做流式的加工,所有这些能力在这个平台上都可以以插件化式来进行集成和完成,平滑地满足用户和业务方要求的升级。同时 DLF 也对接了对应的 OLAP 引擎,可以通过 OLAP 分析引擎来快速查询 DLF 里面的数据,使用外表的查询也能够接近原来 OLAP 内表的性能。因此,流、批、OLAP 分析可以同时构建在基于 DLF 这套产品架构上,这也是我们 OpenLake 解决方案的核心理念。


在 DLF 产品本身这层,有几个重磅升级


第一个升级就是 DLF 提供了 managed storage service,因为我们洞察到用户在数据管理上遇到了非常大的挑战,所以我们做了全托管的 manage 方案,不管是数据的生命周期,还是冷热分层,还是存储优化,都能够做更好的支持。


 第二个升级对于 catalog service 的管理,DLF 升级到 Omni Catalog,我们面向全模态可以提供 Iceberg、paimon、lance、object table 及 file 相关的管理,对用户来说有一个非常重要的变化在于原来的 Lakehouse 架构可能只能管 Table,DLF 架构下不仅仅可以管理 Table 数据,还可以管理全模态的数据,意味着 tables 和 files 都可以统一管理。paimon 是实时湖仓最领先的一套方案,同时我们也兼顾了用户存量的系统架构需求,也可以支持 Iceberg 这样的湖仓架构,对于用户来说可以做到更灵活和多样的选择。


在这套架构基础上,DLF 可以提供更好地面向 Catalog,比如说可以基于 Rest 做更好的 Catalog service,同时有权限、血缘以及监控和日志来帮助用户更好地搭建这样一套 Lakehouse 架构,帮助大家更好地升级到 Lakehouse 架构来面对 Data+AI 时代所带来的数据挑战。


通过一系列重磅升级,DLF 产品以统一开放 catalog 为基础,整体功能覆盖从数据入湖、湖表管与优化、湖表存储服务、企业级安全等丰富功能,让用户离线数据、实时数据、存量系统迁移平滑入湖,同时实现更高效的湖表存、管、优化,真正实现安全开放可靠的湖仓平台。

1、Omni Catalog:一套目录统管 Tables 与 Files

DLF 3.0 发布 Omni Catalog,这是其全模态能力的基石。Omni Catalog 不仅支持 Paimon、Iceberg、Lance 等主流湖表格式,还首次引入对文件(如 Parquet、视频、音频、PDF)的原生管理能力。


通过 Table API 与 File API 双接口,平台同时满足 BI(Business Intelligence)与 AI(Artificial Intelligence)两类工作负载,数据分析师可通过 SQL 查询结构化表,AI 工程师可直接通过文件路径读取原始数据进行模型训练。更重要的是,DLF 承诺完全兼容开源社区接口。用户可使用 Paimon SDK、Iceberg SDK、Lance SDK 等社区标准工具无缝接入 DLF,彻底避免厂商锁定。同时,平台提供 Rest API 与 Open API,便于管控台集成与自动化运维。

2、数据入湖:零代码流批摄取与存量迁移

为降低数据入湖门槛,DLF 3.0 推出零代码数据摄取方案:


实时入湖:通过 Flink CDC 实现数据库 Binlog 的全实时捕获,支持 Schema Evolution 等; 离线入湖:借助 Serverless Spark,按调度或事件驱动批量写入; 全模态入湖:支持视频、音频、文档等非结构化数据通过 Dataworks 数据集成、Spark、Flink 等实时离线一体化数据写入或直接上传入湖; 存量迁移:提供产品化迁移工具,支持 Hive、Hudi、Iceberg 等旧系统迁移,并内置数据校验(Count/Sum/MD5/全文比对)确保一致性。 这套方案可以降低用户在数据摄取过程中的复杂度,帮助用户更低成本地将数据入湖,更低成本地将存量系统升级到 Lakehouse 架构。

3、湖表管理与优化:智能 Compaction 与自适应分桶

DLF 3.0 内置智能优化引擎,自动处理湖表维护中的复杂问题,这些能力大幅降低用户运维负担,让 Lakehouse 真正“开箱即用”。


  • 自适应分桶:用户仅需指定分桶 Key,平台根据数据量自动调整分桶数量与并发,实现读写性能最优;

  • 智能 Compaction:自动合并小文件,减少元数据压力,提升查询效率;

  • 快照管理:基于策略自动清理过期快照与孤儿文件,释放存储空间;

4、湖表存储服务:智能冷热分层降低成本

DLF 3.0 推出 Managed Storage Service,实现存储成本与性能的平衡。DLF 基于智能的冷热分层来解决数据合理规划的问题,可以基于读取时间、更新时间的关键事件来决定分区该用什么样的存储介质来承载,同时也可以基于数据的读写行为来对数据做更合理的加速和预热,帮助用户在合理规划存储介质的过程中能够保持数据读写和管理的效率。

5、企业级安全:细粒度权限与跨引擎授权

原来自己搭建的 Lakehouse 平台下,数据权限管理是非常松散,甚至用 AKSK 这样一套方案是非常有挑战的,DLF 提供细粒度的权限管理,可以做到粒级别的数据权限管理,基于 table、DataBase、Catalog 这些层面都可以做到更好的数据权限管理。基于这套数据权限管理也做了数据的共享,因为有跨团队的协同,所以提供了数据共享的能力来帮助大家更好地做数据协同。

6、性能与成本效率:全面跃升

DLF 3.0 在性能与成本上实现跨越式提升,元数据访问性能提升 10 倍以上,存储成本降低 30%,查询性能提升 50%。我们希望 Lakehouse 不再是“昂贵玩具”,而是高性价比,具备普适性的数据基础设施。

四、典型应用场景

场景一:湖流一体-数据新鲜度从分钟级迈向秒级

基于去年发布的 Streaming Lakehouse,DLF 3.0 进一步引入 Fluss 实时存储引擎,构建“湖流一体”架构:

  • 实时数据通过 Flink 写入 Fluss,实现秒级延迟;

  • 根据策略,数据可定时归档至 Paimon 表,供准实时、离线分析使用;

  • 维表通过 Paimon 的 Partial Update 能力实现高效更新;


该方案成功替代 Lambda 架构,统一了湖流处理链路,降低开发与运维成本,同时满足秒级与分钟级的分析需求。

场景二:离线数仓升级 Lakehouse 架构

针对大量仍在使用 Hadoop 生态的企业,DLF 提供无感迁移路径,整体平台性能提升 20%以上。

  • 通过迁移工具将 Hive 表迁移至 DLF 管理的 Paimon 湖表;

  • 保留原有 SQL 接口,业务代码几乎无需修改;

  • 迁移后可逐步引入实时能力,实现架构渐进式演进;


我们一位 DLF 的用户在完成迁移后激动地表示:“这是历史性时刻,我们终于告别了古早的 Hadoop 集群!”

场景三:全模态数据管理与检索

DLF 3.0 最引人注目的创新在于全模态数据支持。随着 AI 时代的到来,大家听到更多的是非结构化数据该怎么管,非常多的视频、图片数据该如何管理,该如何圈选我的 DataSet。通过 DLF 平台可以将非结构化数据,包括视频、音频、PDF 进行管理,同时原来这套结构化数据也可以进一步接入。通过实时采集或者离线采集或者数据上传的方式接入到 DLF 平台,同时通过 Lance 这样一套底层能力来构建全模态数据的存储、管理以及后续承载 embedding 数据接入的能力。


基于这样的能力,对于用户来说就可以做到更好的全模态检索,包括图搜图、文搜图,可以更好地检索召回我们的数据。在全模态能力下 DLF 可以支持多主体的识别,通过多主体的识别,能够帮助后续流程做更好的基于对应主体做 embedding,实现更精准的 search 场景。

五、实战案例:助力淘宝闪购业务准时上线,实现全链路实时运营

在 2025 年秋季,阿里云 DLF 3.0 成功支撑了阿里巴巴集团闪购业务的准时上线。该业务对数据实时性要求极高,需在秒级内完成用户行为分析、库存预警与营销决策。因为在去年阿里巴巴集团就做了 Alake 项目,基于 Lakehouse 架构构建了整个平台,所以基于 DLF 可以让流批做更好地融合。面向用户场景会有 BI 场景、AI 场景,这套架构可以很好地兼容两种场景的使用,灵活选择多种引擎应对业务方的需求。


DLF 3.0 的发布,不仅是产品能力的升级,更是阿里云对 Data+AI 时代数据基础设施的深刻思考。全模态数据将成为未来企业核心资产,而 Lakehouse 必须进化为能承载这一资产的“智能湖”。基于阿里云 OpenLake 解决方案的理念,DLF 3.0 不再只是一个数据湖管理工具,而是一个融合结构化与非结构化数据、打通 BI 与 AI、兼顾性能与成本、开放且安全的新一代全模态湖仓管理平台。在 AI 浪潮席卷全球的今天,DLF 3.0 为企业提供强有力的基础设施支撑,用数据驱动智能未来。


当前 DLF3.0 已经在阿里云上开放使用,如果期望了解更多详细内容,可以在阿里云官网搜索 DLF。

用户头像

还未添加个人签名 2020-10-15 加入

分享阿里云计算平台的大数据和AI方向的技术创新和趋势、实战案例、经验总结。

评论

发布
暂无评论
阿里云DLF 3.0:面向AI时代的智能全模态湖仓管理平台_阿里云_阿里云大数据AI技术_InfoQ写作社区