云栖 2025 | 阿里云开源大数据发布新一代“湖流一体”数智平台及全栈技术升级
随着企业数字化转型加速,现代数据架构正经历从数据仓库到数据湖,再到湖流一体的演进。从传统的离线批处理转向分钟级甚至秒级的流批一体计算,支撑实时决策与动态响应;多模态数据的融合管理(结构化、非结构化、时序数据)推动数据价值边界的扩展,而智能化技术则重塑数据分析范式,实现从“数据可用”到“数据好用”的质变。
9 月 26 日,云栖大会开源大数据分论坛上阿里云智能集团开源大数据平台负责人王峰发表了《打造 AI 时代开源开放的“湖流一体”数智平台》主题演讲,并带来了开源大数据平台多款产品的升级发布。
王峰表示,阿里云开源大数据平台围绕“实时化、多模态、智能化”的现代数据架构演进趋势,为企业提供“实时、准实时、离线”数据分析一体化及 Data + AI 领域的创新实践,全面赋能企业实现高效智能的数据管理与 AI 融合创新。

阿里云发布 DLF-3.0 全模态湖仓平台,湖流一体全模态架构引领数据智能新范式
王峰宣布推出 Data Lake Formation-3.0 (DLF) 全模态湖仓管理平台,在支持 Paimon、Iceberg 等主流湖表格式的基础上,将存储格式从传统结构化数据,拓展至全模态数据场景,支持面向 AI 场景的 Lance 文件数据、表格数据等全类型。

在技术层面,阿里云通过兼容开源、超越开源的三大分析引擎构建统一底座:Flash 向量化流处理引擎性能较开源提升 5-10 倍;Fusion 向量化批处理引擎在 100T TPC-DS 测试中登顶;Stella 存算分离 OLAP 引擎在 10T TPC-H 测试中性能领先。
针对不同业务需求,阿里云提出覆盖全场景的数据分析方案:实时场景基于 Flink + Fluss 构建一站式流处理平台,满足毫秒级响应;准实时场景采用 Flink + StarRocks + DLF 流式湖仓架构,融合 Apache Paimon 流批一体湖表;离线场景则依托 Spark + StarRocks + DLF 流式湖仓架构,支撑大规模离线数据处理。这一“实时-准实时-离线”一体化架构,统一了存储与计算逻辑,显著降低企业数据管理复杂度。
在 AI 融合领域,阿里云通过 Spark + DLF 全模态湖仓实现文本、音频、视频等多模态数据的统一治理与 AI 模型训练,而 Flink + Milvus + LLM 构建的实时智能分析决策系统,则支持舆情分析、直播监控等场景的毫秒级 AI 决策。王峰强调,湖流一体全模态数智平台不仅解决了传统架构的碎片化问题,更通过开源生态与 AI 技术的深度融合,为千行百业提供了高效、开放、智能的数据底座。
实时计算 Flink 版升级:打造面向 AI 时代的新一代流处理存储一体化平台
阿里云智能集团实时计算 Flink 版产品负责人黄鹏程介绍了产品的核心升级方向。黄鹏程重点发布了实时计算 Flink 版分钟级近实时计算能力,基于增量计算技术,在保证时效性的同时显著降低成本。同时,Flink SQL 支持分钟级数据新鲜度配置,提升开发运维效率。
在流存储方面,黄鹏程宣布面向实时流计算、湖流一体的存储 Fluss 现已上线阿里云并即将在十月正式开启公测。该存储方案基于 Apache Arrow 列式存储设计,大幅优化 IO 性能,并支持流读列裁剪、分区下推等特性,实现高性能低成本的流处理。

在 AI 融合方面,实时计算 Flink 版提供了强大的 AI 函数功能,支持使用 Flink SQL 直接调用大语言模型。该能力现已全面支持阿里云 PAI、百炼等大模型服务平台,并可与各类兼容 OpenAI API 的大模型服务实现无缝对接。同时支持将实时向量化数据写入 Milvus 数据库,为实时 RAG 场景提供技术支撑。这些新特性将为企业构建实时情感分析、智能推荐、异常检测、语义搜索、智能客服等多样化 AI 应用场景提供完整解决方案。
EMR 产品线全面拥抱 AI,登顶 TPC 基准测试榜单
阿里云智能集团计算平台事业部 EMR 负责人李钰在年度发布中指出,面对 AI 时代对数据处理和读写的效率、多样性以及便利性的全新挑战,EMR 全系列产品(EMR on ECS、EMR Serverless Spark、EMR Serverless StarRocks)全面提升内核引擎性能和拥抱 AI 技术,完成一系列能力升级, Fusion (企业级 Spark 内核) 和 Stella (企业级 StarRocks 内核) 技术登顶 TPC 全球榜单。其中 EMR Serverless Spark 在 TPC-DS 100TB 测试中,以 QphDS 性能提升 100%的成绩夺冠。

首次参加评测的 EMR Serverless StarRocks 以 QphH 超 754 万分的性能结果斩获全球冠军,领先第二名 111%。

在 AI 融合方面,EMR Agent 正式开启公测,推出通过自然语言交互即可实现运维操作、开源组件自助诊断、平台功能高效咨询等智能化交互式产品能力,大幅降低大数据集群使用门槛。同时,EMR Serverless 产品提供面向 GPU 和多模态的数据处理能力、全面的 AI Function 支持等。为企业用户提供高效智能的 AI 大数据平台底座。
DataWorks 构建湖仓一体化开发平台
阿里云智能集团高级技术专家晨曦表示,DataWorks 面向数据湖推出 OpenLake 湖仓一体化开发平台,依托 DLF 3.0 实现多源数据高效入湖与智能化调度,覆盖多模态数据从采集、存储、开发、治理到分析的全生命周期管理闭环,进一步降低数据价值挖掘成本。
在入湖方面,提供丰富的数据源支持,极致性能优化;在湖流/湖仓一体化开发运维方面,提供丰富任务类型支持,统一运维方案;在企业级治理能力方面,覆盖存储、计算、开发、安全多维度,事前、事中、事后等全方位治理能力;在多模态数据管理方面,结合 DLF 多模态数据管理,实现全链路血缘追踪;同时提供丰富的 Data+AI 一体化开发任务,支持 60 余种任务类型,涵盖开源大数据流/批处理、AI 训练、推理等能力;Copliot+ChatBI,帮助用户提升开发、治理、数据分析的效率。

客户实践:多行业共筑“湖流一体”数智平台新范式
在本次论坛中,来自汽车、农业、制造业及金融科技领域的客户代表分享了基于阿里云新一代“湖流一体”数智平台的创新实践。零跑科技通过实时计算 Flink+Hologres 实现车辆终端与业务系统的全链路实时数据同步,支撑万辆级车联网的毫秒级响应;牧原集团依托 Flink 平台构建生猪养殖的实时数据链路,实现环境感知与疫病预警的智能化升级;海信聚好看结合 EMR 与 Paimon 湖格式,打造多模态数据湖,为 AI 模型训练提供 AI-Ready 数据底座;洋钱罐则基于 EMR Serverless 架构,构建全球一体化数字金融平台,兼顾资源弹性与金融级可靠性。这些案例展现了“湖流一体”平台在实时计算、多模态治理及 Serverless 落地中的核心价值,为多行业数字化转型提供了可复用的技术路径与实践经验。

零跑汽车大数据高级专家聂清分享零跑科技实时计算的应用与实践

牧原集团大数据负责人王瑞洁分享牧原集团的 Flink 规模化落地之路

海信聚好看研发总经理张纪宽分享多模态数据湖实现数智化转型 AI-Ready 的落地实践

洋钱罐大数据运维总监宋晓峰分享洋钱罐基于 EMR Serverless 产品构建全球一体化数字金融平台
结语
阿里云开源大数据平台持续推动“湖流一体”架构创新与 AI 技术融合,为企业提供覆盖数据存储、实时计算、智能分析到全栈开发的完整解决方案。未来,阿里云将继续深耕开源生态,助力全球客户在 AI 时代实现数据驱动的业务跃迁。
评论