写点什么

MaxCompute x 聚水潭:基于近实时数仓解决方案构建统一增全量一体化数据链路

  • 2025-06-30
    陕西
  • 本文字数:1980 字

    阅读完需:约 6 分钟

客户介绍

聚水潭是中国领先的电商 SaaS ERP 服务商,通过全链路数字化解决方案(覆盖订单/仓储/供应链/财务)助力企业降本增效。其核心 ERP 产品为不同类型及规模的客户提供一套统一且直观的业务监控、运营及管理工具,赋能客户做出数据驱动的智能决策,使其能在快速发展的电商行业中脱颖而出。


  • 服务客户基数大,截至 2024 年,已为 88,400 名不同类型的 SaaS 客户提供服务。

  • 核心产品成熟度高,其云端电商 SaaS 产品,能够推动商家客户与中国乃至全球超过 400 个电商平台连接(根据灼识咨询的资料,行业平均连接的电商平台数量不足 200 个)

  • 技术基础设施稳定高效,在 2024 年“双 11”期间成功处理了约 16 亿份订单,创下行业领先记录。


为什么选择 MaxCompute 近实时数仓解决方案

原有架构痛点

用户很多现有业务数据符合 PK 主键的场景,在相关表格的日常数据的增全量合并操作时,必须进行复杂的 PK 去重操作以维护数据一致性。随着用户业务的不断扩展,用户仓内核心业务数据量迅速增大,给客户带来如下明显痛点:


  1. 日常维护复杂的增全量合并 ETL 链路

  2. 每日对全量数据进行扫描,计算成本随数据量提升不断增加

  3. 最新全量数据按天保存,冗余数据不断积累大大提升存储成本

  4. 增全量合并计算性能随数据量上升而下降,数据新鲜度变低,下游业务消费数据的压力不断增大

MaxCompute 近实时数仓 Delta Table 解决方案优势

MaxCompute 在原有的离线批处理引擎基础上升级了系统架构,推出了近实时数仓解决方案。MaxCompute 的近实时数仓,基于全新的表格式实现了增全量数据一体化存储和管理,并且推出了丰富的增量计算能力,同时升级了 MaxCompute 短查询加速(MaxQA)以支持查询秒级返回。


MaxCompute 近实时数仓设计了多种新的表数据组织格式,既可支持 MaxCompute 普通表的所有功能,同时也能很好的支持增量处理链路的新场景。其中,PKDelta Table 作为增量表格式中支持数据包含主键场景的重要格式,完全契合聚水潭包含 PK 主键的业务场景,并能很好的解决用户原有业务的诸多痛点。


  • PK Delta Table 数据文件类型


PK Delta Table 支持多种数据文件组织格式,来高效支持全量读写和近实时增量读写等多种场景,主要包含 Checkpoint File,Delta File 和 CDC Log。



其中,每次上游事务 commit 的数据会写入 Delta File,来保存每行数据的中间历史状态,从而为用户提供增量数据的读取功能。Delta File 经过 Compact 合并操作后会生成 Checkpoint File,PK 值相同的记录只会保留一行,并按照列式压缩存储,用来支撑高效的全量数据查询需求。


  • Deletion Vector 功能提升 PK Delta Table 文件读写性能


MaxCompute 针对 PK Delta Table 的表格式最新推出了 Deletion Vector 功能,通过一种轻量化的紧凑的二级制格式,形成一个类似向量的结构(Bitmap),在增量数据不断更新过程中,高效管理已经被删除的数据,从而避免每次读写时候的全量数据进行 replay 扫描的耗时,来提升查询性能。当用户读写的 PK Delta Table 数据量较大(平均文件大小>10M)且 SQL 对表格多列进行读写时加速效果更为明显。



客户生产系统落地效果:提效比例超过 200%


在深度参与商家业务优化的分析后,客户发现在聚水潭电商最核心的销售履约链路上,围绕订单、出库、售后的全流程数据,均存在如下符合 Delta Table 使用场景的明显特征:


  1. 明确的业务 PK 主键

  2. 基于业务主键的数据更新

  3. 主表和明细表关联查询

  4. 数据量大(PB 级数据规模)


基于以上评估分析,最终用户选择对订单明细链路(表数据量最大,逻辑最复杂,依赖最多,计算存储成本消耗最大,且成上升趋势)作为 Delta Table 改造项目的首选目标进行尝试。



图 1 - 销售履约订单明细链路增全量合并 ETL 链路



图 2 - T 时增量具体业务流程


伴随订单明细链路的改造完成,Delta Table 也完成了元数据更新,写入攒批,多表查询等诸多特性的优化,最终聚水潭履约链路的数据更新周期从近 3 个小时提升至 30 分钟左右,提效比例超过 200%,配合业务上对于更长周期数据更新的诉求(如预售订单超 180,售后维保超 1 年),聚水潭数据中台团队基于 Delta Table 架构快速验证了更长更新周期、全链路 H 时效的技术方案,整体方案从设计到落地优化不到 2 个月时间,大大简化了增量数据写入和消费的成本,计算资源消耗降低 56%。同时,利用 MaxCompute 近实时数仓最新推出的 Deletion Vector 的性能优化功能,针对生产的 23 条相关核心 SQL 任务进行优化后,整体性能提升 42%,且计算资源消耗在之前基础上进一步降低 21%。

未来展望


聚水潭将部分核心业务从传统批式引擎迁移到近实时数仓链路的过程中,构建了统一的增全量一体化数据链路,大幅降低了日常处理新增数据的核心业务的复杂度和资源成本,同时利用最新的 Deletion Vector 能力使得增量数据写入和查询任务的性能得到明显提升。未来,用户将重点致力于进一步提升核心业务数据的新鲜度,确保下游能更及时获取最新业务状态。同时,结合 MaxQA 对秒级查询响应的支持,将为商家提供更敏捷的实时数据洞察与交互式分析体验,进一步赋能其快速决策。


用户头像

还未添加个人签名 2020-10-15 加入

分享阿里云计算平台的大数据和AI方向的技术创新和趋势、实战案例、经验总结。

评论

发布
暂无评论
MaxCompute x 聚水潭:基于近实时数仓解决方案构建统一增全量一体化数据链路_人工智能_阿里云大数据AI技术_InfoQ写作社区