写点什么

湖仓一体化(Lakehouse)指什么?有哪些应用场景?

作者:镜舟科技
湖仓一体化(Lakehouse)指什么?有哪些应用场景?

引言

随着数据规模及复杂度呈指数级攀升,企业面临传统数据存储和分析架构难以为继的挑战。在这一背景下,湖仓一体化应运而生,作为大数据技术发展的新趋势,它为企业提供了更灵活、高效的数据管理方案。本文将深入探讨湖仓一体化的概念以及其广泛的应用场景。

湖仓一体化的定义

湖仓一体化(Lakehouse)是一种新型开放式架构,它将数据湖和数据仓库的优势充分结合,构建在数据湖低成本的数据存储架构之上,同时继承了数据仓库的数据处理和管理功能,打通数据湖和数据仓库两套体系,让数据和计算在湖和仓之间自由流动 。

简而言之,湖仓一体化不是简单地将“数据湖”和“数据仓库”拼接在一起,而是一种全新的数据管理模式,将数据仓库构建在数据湖之上,有效简化了企业数据的基础架构,提升数据存储弹性和质量的同时还能降低成本,减小数据冗余 。

湖仓一体化的关键特性

湖仓一体化具有以下核心特性 :

  1. 事务支持:支持 ACID 事务,确保数据并发访问的一致性与正确性。

  2. 模式实施和数据治理:支持各类数据模型的实现和转变,具有健全的治理和审计机制。

  3. BI 支持:可直接在源数据上使用 BI 工具,提升分析效率、降低数据延时。

  4. 存储与计算分离:采取存算分离架构,能够根据业务需求动态扩缩容。

  5. 开放性与兼容性:提供丰富的 API 支持,采用开放、标准化的存储格式。

  6. 支持多种数据类型:可存储、优化、分析和访问结构化、半结构化和非结构化数据。

  7. 支持各种工作负载:包括数据科学、机器学习、SQL 查询、分析等多种计算场景。

  8. 端到端流式任务:支持实时报告和流式处理,消除对专门服务实时数据应用的单独系统需求。


湖仓一体化的应用场景

1. 在线数据抽取场景

传统模式中,业务常从线上 MySQL 库表以离线方式抽取全量数据到 Hive 表,这种方式存在诸多痛点:每天全量查询消耗大量资源,业务 MySQL 库压力大;抽取任务延迟高导致下游无法及时获取数据;分库分表维护成本高等 。湖仓一体可通过准实时入湖方式解决这些问题:

  • 链路更加稳定,减少线上库集群压力

  • 效率提升,延迟较低,提升数据时效性

  • 大大降低维护成本,只需维护较少离线任务

  • 业务扩展:一份存储多种用途,方便扩展到准实时场景

2. 部分列更新场景

原有 Flink 多流实时 join 场景中,多个指标数据进行关联时可能出现时间差较大的异常情况,且维持大状态会给内存带来压力。湖仓一体方案可将原有计算侧 join 改为存储侧自动处理,通过 Hudi 的自定义 payload 策略实现高效稳定的关联处理 。

3. 与 AI 结合的机器学习场景

面对数据应用场景的持续扩展,企业对底层数据平台提出更高的敏捷性、易用性、实时性和智能化要求。湖仓一体通过对机器学习和 AI 算法的支持,构建数据湖+数据仓库的闭环,配合上层多样化的计算生态,帮助企业实现大数据能力的提升 。

4. 分布式多级数据湖场景

随着企业发展,产生的不同业务库、数据仓库和数据湖形成了数据孤岛。湖仓一体平台可打破这些孤岛,实现数据联动和统一分析,无需数据搬迁就能实现快速分析。同时,通过多租户、数据权限和资源隔离等机制保障数据安全,满足大型央国企和金融客户的多湖多租户需求 。

5. 数据中台的实时数仓场景

在数据中台中,对数据库的分析处理过程提出了事务一致性要求,同时需要保持低延迟和提升实时处理能力,湖仓一体技术能够针对这些需求提供支持 。

湖仓一体架构的典型应用场景包括 “在线数据抽取场景”和“ 数据中台的实时数仓场景”,StarRocks 作为一款湖仓分析引擎,可以增强湖仓一体的实时数据处理能力。StarRocks 可以在这些场景中发挥作用:

  • 湖仓一体需要处理准实时入湖和低延迟数据访问的需求

  • StarRocks 的计算节点设计支持弹性扩展,可以根据负载情况灵活添加或移除节点

  • StarRocks 提供灵活的缓存机制,可根据实际情况优化查询性能,特别适合需要快速响应的场景

实施建议:在构建湖仓一体架构时,可利用 StarRocks 的计算节点和缓存机制,为实时数据分析场景提供支持,尤其是对于需要低延迟查询响应的业务场景,StarRocks 的弹性计算能力可以有效满足这一需求。


湖仓一体化的核心优势

  • 统一的数据管理:提供完善的数据管理能力,包括数据源、连接、格式、Schema 以及权限管理 。

  • 多模态的存储引擎:内置多模态存储引擎,满足不同应用对数据访问的需求,提供可插拔式存储框架 。

  • 丰富的计算引擎:提供从批处理、流式计算、交互式分析到机器学习等各类计算引擎 。

  • 数据全生命周期管理:对数据的全生命周期进行管理,包括数据的定义、接入、存储、处理、分析、应用的全过程 。

  • 批流融合:在表格式层统一流和批表,实现存储资源节省,通过 CDC 能力实现从数据入湖、湖内建仓整个数据链路的批流融合 。

  • 降本增效:简化数据架构,减少数据重复建设和移动,提高资源利用率 。

湖仓一体化实践应用案例

  1. 腾讯微信:StarRocks + Iceberg 的实时湖仓融合

微信在视频号直播、微信键盘等业务中构建湖仓一体架构,将实时数据写入 Iceberg 表,并通过 StarRocks 直接查询 Iceberg 数据,实现准实时分析。数据冷热分层管理:热数据实时接入 StarRocks 数仓,冷数据存储在 Iceberg 数据湖中,通过 Meta Server 统一元数据管理,支持跨源联邦查询,无需 ETL 即可分析湖中数据。

  • 核心技术

    外表物化视图:通过 StarRocks 外表直接关联 Iceberg 表,实现湖仓数据的透明加速查询。

    Iceberg Routine Load:支持 Iceberg 数据的分钟级增量刷新,优化资源利用和实时性。

  • 成效

    集群规模达数百台机器,数据接入量近千亿。

    直播业务场景中,数据开发任务数减半,存储成本降低 65% 以上,离线任务产出时间缩短 2 小时。

  1. 同程旅行:StarRocks + Paimon 的流批一体湖仓

同程旅行通过 Paimon 实现流式数仓升级,覆盖 ODS 层(原始数据入湖)、DWD 层(数据清洗与打宽)、DWS 层(聚合计算)和 ADS 层(分析查询),并借助 StarRocks 作为核心查询引擎,支持分钟级延迟的高效分析。数据存储依托 Paimon,计算由 Flink 引擎完成,支持流批一体处理。

  • 核心技术

    Paimon 特性:主键表支持高效实时更新,Partial Update 技术优化订单处理,Time Travel 实现历史数据回溯。

    StarRocks 外表查询:通过 Paimon Catalog 直接查询外部表,结合 Data Cache 缓存热数据,TPCH 10G 数据集查询性能较 Trino 提升 4-10 倍。

  • 成效

    ODS 层同步任务资源消耗减少 30%,写入效率提升 3 倍,存储总量达 600TB。

    替换原有 Hudi 表后,点查场景性能显著优化,并实现全量 Hudi 表下线。

StarRocks + Iceberg 更适用于冷热数据分层、联邦查询场景,强调存储成本与实时分析的平衡。StarRocks + Paimon 则聚焦流批一体和实时更新场景,适合需要高写入效率和灵活查询的业务。两者均通过湖仓融合实现了存储与计算的解耦,显著降低运维复杂度并提升性能。

结语

总体趋势表明,湖仓一体将在未来的数据分析中发挥关键作用,预测表明,到 2025 年,超过一半的分析工作负载将在湖仓一体架构上运行。 这种转变是由成本节约、灵活性和开放数据格式的标准化推动的。

推荐阅读:

领取 StarRocks Lakehouse 白皮书

进一步学习

Gartner D&A 趋势:https://www.gartner.com/en/data-analytics/topics/data-trends

用户头像

镜舟科技

关注

镜舟,连接大数据与价值 2023-01-12 加入

镜舟科技成立于2022年3月,致力于帮助中国企业建立卓越的数据分析系统,形成自己的“数据护城河”。

评论

发布
暂无评论
湖仓一体化(Lakehouse)指什么?有哪些应用场景?_大数据_镜舟科技_InfoQ写作社区