写点什么

下一代 Lakehouse 智能未来新引擎 | Apache Hudi Meetup 亚洲站活动回顾

  • 2025-12-04
    北京
  • 本文字数:3556 字

    阅读完需:约 12 分钟

近日,由京东主办的 Apache Hudi Meetup 亚洲站在京东集团总部顺利举行,来自 Onehouse、京东、快手和华为的四位技术专家齐聚一堂,不仅带来了 Apache Hudi 1.1 版本前瞻,也分享了各自在数据湖仓建设上的"独门秘籍"。从 AI 场景的支持,到实时数据处理,再到成本优化,每个话题都直击当下数据工程师最关心的痛点。

Hudi 社区领袖远程助阵

首先,Onehouse CEO&创始人、Apache Hudi PMC Chair Vinoth Chandar 通过视频为此次活动致开场辞。他表示,经过八年的发展,Hudi 已成为数据湖领域的重要基石,其愿景已转化为行业广泛认可的成果。今年发布的 1.0 版本标志着项目进入成熟阶段,为数据湖仓带来了诸多类数据库功能。

目前,社区正稳步推进 1.x 系列版本,重点提升 Flink 性能、推出新的 Trino 连接器,并通过可插拔表格式层增强互操作性。面对数据湖领域的快速发展,Vinoth 强调,优秀的技术和稳健的设计才是长期制胜的关键。Hudi 现已实现许多商业引擎未能达到的能力,这得益于其低调、聪慧且富有创造力的社区。

展望未来,社区将致力于将 Hudi 打造为支持从 BI 到 AI 全场景的存储引擎,探索包括非结构化数据管理、向量搜索等前沿方向。

Vinoth 特别感谢京东对 Apache Hudi 的重大贡献,在前 100 位贡献者中,有 6 位来自京东。最后,他也邀请更多开发者加入这个充满活力的社区,共同推动数据基础设施的创新与发展。

京东零售数据湖技术挑战与展望

作为活动的联合主办方,京东零售 AI Infra & 大数据计算负责人张科在致辞中对参与此次 Meetup 的嘉宾和观众表示欢迎,同时也指出了当前数据领域面临两大核心挑战:

在 BI 层面,长期存在的"流批一体"难题尚未得到完美解决,导致数据研发人员不得不在多套系统间重复工作,这要求我们必须从根本上重构数据架构,找到统一处理流与批计算的新范式。

在 AI 层面,随着多模态时代的到来,传统仅处理结构化数据的方案已无法满足需求。无论是模型训练的数据供给效率,还是推荐系统的实时特征计算,亦或是大模型所需的知识库构建,都迫切需要一个能统一存储多模态数据、同时兼顾成本与性能的底层支撑。

业界正寄望于通过 Apache Hudi 这样的开源技术,构建一个能够统一承载批处理、流计算、数据分析与 AI 工作负载的存储底座。

Apache Hudi 1.1 前瞻与 AI 原生 Lakehouse 演进

在《Apache Hudi 1.1 前瞻与 AI 原生 Lakehouse 演进》议题中,Onehouse 数据架构工程师、Apache Hudi PMC 核心成员郭一骅(Ethan)分享了 Hudi 的技术演进路径与未来展望。作为 Hudi 代码贡献全球第一的开发者,他从项目定位、版本规划到 AI 原生架构进行了系统阐述。

郭一骅指出,Apache Hudi 的定位远不止于一个开放表格式,而是构建在云存储之上的 embedded、headless、distributed 数据库系统。Hudi 正从“湖仓上的事务型数据库”朝着“AI 原生的 Lakehouse 平台”方向迈进。

在即将发布的 1.1 版本中,Hudi 实现了多项重要突破。其中,可插拔表格式架构有效解决了当前数据湖生态中格式割裂的痛点,使用户能够“一次写入,多格式可读”。与此同时,Hudi 对 Flink 集成进行了深度优化,通过异步生成机制解决了流式写入中的吞吐瓶颈,并构建了全新的原生写入器,实现了从 Avro 格式到 Flink RowData 的端到端处理,显著降低了序列化开销与 GC 压力。实测表明,Hudi 1.1 在流式入湖场景中的吞吐性能达到 1.0 版本的 3.5 倍。

面对 AI 时代带来的新挑战,Hudi 正在积极构建原生 AI 数据底座。通过支持非结构化数据存储、优化多模态数据的列组结构、内置向量索引能力,并构建支持事务与版本控制的统一存储层,Hudi 致力于为 AI 工作流提供高实时、可追溯、易扩展的数据支撑。这一系列演进将推动 Apache Hudi 从优秀的数据湖框架,成长为支撑 AI 时代的核心数据基础设施。

Apache Hudi 在京东的最新架构演进

在《Apache Hudi 在京东的最新架构演进》议题中,京东实时数据平台负责人韩飞系统介绍了 Hudi 在京东生产环境中的最新架构演进与落地成果。

针对原生 MoR 表在高吞吐场景下存在的性能瓶颈,京东数据湖团队基于 LSM-Tree 架构重构了 Hudi MoR 表的数据组织协议。通过将原有的“Avro + Append”更新模式替换为“Parquet + Create”模式,实现了无锁并发写入能力,并结合 Engine-Native 数据格式、Remote Partitioner 策略以及流式增量 Compaction 调度机制等一系列优化手段,显著提升了读写性能。Benchmark 测试结果显示,MoR-LSM 方案的读写性能达到原生 MoR-Avro 方案的 2–10 倍,展现出显著的技术优势。

面对 BI 场景日益增长的准实时需求,流式维度打宽逐渐成为多主题域数据处理的共同挑战。传统 Flink 流式 Join 存在状态膨胀与维护复杂度高的问题,京东数据湖团队借鉴 Hudi PartialUpdate 的多流拼接思路,构建了支持主外键映射的索引机制。该机制通过正排与倒排索引协同运作,高效完成流式维度关联与实时更新。同时,引入可插拔的 HBase 作为索引存储,确保了在点查询场景下的高性能访问能力。

在 AI 场景的探索中,团队设计并实现了 Hudi NativeIO SDK。该 SDK 通过构建数据调用层、跨语言 Transformation 层、Hudi 视图管理层和高性能查询层四大核心模块,打通了样本训练引擎直接基于数据湖表完成训练的端到端流程。

京东将上述能力与业务场景深度融合,将其应用于流量数仓 ADM 层的准实时化改造。经过一系列优化,流量浏览链路的写入吞吐量由每分钟 4500 万提升至 8000 万,Compaction 执行效率提高一倍,并实现了 SKU 维度信息的实时一致性维护,完成了从 T+1 离线修数模式向实时处理模式的全面转型。

在推进技术自研的同时,京东也积极回馈开源社区,累计贡献并获合并 PR 达 109 项。未来,团队将持续深化 Hudi 在实时数据湖领域的应用,为业务创新提供更强大的数据支撑能力。

快手实时入湖如何助力 BI & AI 场景架构升级

在《快手实时入湖如何助力 BI & AI 场景架构升级》议题中,快手数据架构研发工程师王泽宇介绍了快手基于 Apache Hudi 构建实时数据湖的完整演进路径与实践经验。

针对传统 BI 数仓场景,快手实现了从 Mysql2Hive 到 Mysql2Hudi2.0 的架构升级。通过引入 Hudi 小时级分区表,支持全量、增量和快照等多种查询模式,并创新性地设计了 Full Compact 与 Minor Compact 机制优化数据布局。分桶异构的引入,使得全量分区与增量分区支持不同桶数,大幅降低入湖资源消耗。相比原有架构,新方案天然支持长生命周期,支持更丰富的查询行为,在存储成本降低的同时,实现了数据就绪时间从天级到分钟级的跨越式提升。

在 AI 存储架构层面,快手构建了流批统一的数据湖架构,解决了离线和实时训练数据不一致的核心痛点。通过统一存储介质、支持流批统一消费、逻辑宽表列拼接等能力,实现了训练数据的统一管理与高效复用。基于 Event-time timeline 的元数据管理机制,既保证了数据的有序性,又通过无锁设计保障了实时写入性能。

未来,快手将继续完善数据湖在训练、检索、分析等多场景的服务能力,推动数据湖向更智能、更统一的方向演进。快手的实践充分证明,基于 Hudi 的实时数据湖架构能够有效支撑起大规模 BI 与 AI 场景的现代化升级需求。

Apache Hudi 在华为云的深度优化与 AI 探索

在《Apache Hudi 在华为云的深度优化与 AI 探索》议题中,华为大数据 Lakehouse 内核研发工程师杨宣分享了华为云基于 Apache Hudi 构建新一代 Lakehouse 架构的技术实践与创新突破。面对企业级数据平台在实时性、智能化和管理效率方面的挑战,华为从平台架构、内核优化和生态融合三个维度进行了深度探索。

在平台架构层面,华为自研了 LDMS 统一湖仓管理服务平台,实现了表服务的全托管式运维。该平台通过智能数据布局优化、CBO 统计信息收集等核心能力,大幅降低了湖仓平台的运维复杂度,让用户能够更专注于业务逻辑而非底层维护。

在内核优化方面,华为对 Apache Hudi 进行了多项深度改造。通过 RFC-84/87 实现的去 Avro 序列化优化,使得 Flink 写入性能提升 1-10 倍,同时显著降低了 GC 压力;创新的 LogIndex 机制有效解决了对象存储场景下的流读性能瓶颈;动态 Schema 变更支持使得 CDC 入湖流程更加灵活;而列簇机制的引入则为千列稀疏宽表的实时化处理提供了可行的解决方案。

Hudi Native 通过使用 Rust 重写 Parquet 读写逻辑、采用 Arrow 内存格式替代 Avro,构建了高性能的 IO 加速层。通过 JNI 提供统一的高性能 Java 读写接口,实现了与 Spark、Flink 等计算引擎的无缝集成,为未来的性能突破奠定了坚实基础。

在生态融合与 AI 探索方面,华为构建了支持多模态数据的管理架构,通过湖表格式管理非结构化数据的元数据,实际文件存储于对象存储,既保证了 ACID 特性,又避免了数据冗余。同时集成 LanceDB 提供高效的向量检索能力,为文档检索、智能问答等 AI 应用场景提供了完善的数据基础支撑。

这次 Meetup 让我们相信,数据湖仓的星辰大海,离不开开源社区与企业的“众人拾柴”。那些在业务战场上经过淬炼的技术,最终都回馈为滋养整个生态的养分。这或许就是技术最纯粹的浪漫:让复杂的事情变简单,让不可能成为可能。前路充满想象,而我们,正共同塑造着一个更优雅、更强大的数据处理未来。


用户头像

还未添加个人签名 2024-01-12 加入

京东零售那些事,有品、有调又有料的研发资讯,带你深入了解程序猿的生活和工作。

评论

发布
暂无评论
下一代 Lakehouse 智能未来新引擎 | Apache Hudi Meetup亚洲站活动回顾_京东零售技术_InfoQ写作社区