写点什么

阿里云携手 MiniMax 构建云原生数仓最佳实践:大模型时代的 Data + AI 数据处理平台

  • 2025-09-02
    浙江
  • 本文字数:2959 字

    阅读完需:约 10 分钟

阿里云携手MiniMax构建云原生数仓最佳实践:大模型时代的 Data + AI 数据处理平台

MiniMax 简介

MiniMax 是全球领先的通用人工智能科技公司。自 2022 年初成立以来,MiniMax 以“与所有人共创智能”为使命,致力于推动人工智能科技前沿发展,实现通用人工智能(AGI)。MiniMax 自主研发了一系列多模态通用大模型,包括 MiniMax M1、Hailuo 02、Speech 2.5 和 Music 01 等,具备超长上下文处理能力,能够理解、生成并整合包括文本、音频、图像、视频和音乐在内的多种模态。自研模型的飞速进展,有力支撑了 MiniMax 的全球业务拓展。迄今,MiniMax 的自研多模态模型及 AI 原生应用已累计为来自超过 200 个国家及地区的逾 1.57 亿名个人用户,以及来自超过 90 个国家及地区的 50,000 余名企业客户以及开发者提供服务。


业务大数据实践:数据驱动 MiniMax 业务高效迭代

业务痛点

自 2024 年起,MiniMax 的海螺 AI、MiniMax Audio 和星野等业务在国内外迎来快速增长,用户数据量呈现爆发式增长,快速攀升至数十 PB 级别,给数据平台的建设带来了诸多技术挑战:


  1. 异构架构的效率瓶颈


  • 技术栈碎片化:前期 MiniMax 在国内和海外引入了不同云厂商,部署独立数据平台,需要开发团队同时维护多套不同引擎的开发规范

  • 开发效率低:基于开源 Dolphin Scheduler 二次开发自建大数据治理工具,功能迭代和维护成本高,无法高效满足快速发展的业务需求

  • 运维成本高:双系统并行导致权限治理、资源监控、故障排查等运维工作需要跨平台执行,管理成本线性增长


  1. 资源成本与利用率失衡


  • TCO 高昂:部分云服务按量付费模式导致数据扫描、数据传输、计算节点运行时间等成本难以预测和控制

  • 资源利用率低:部分云服务成熟度不足,在大规模实时数仓等复杂场景下优化效果有限

  • 资源优化瓶颈:开源大数据组件的任务优化高度依赖人工经验,调优工作耗费大量人力成本

阿里云原生数仓解决方案

阿里云协助 MiniMax 构建了全球一体化云原生数仓技术架构,该架构以阿里云数据开发治理平台 Dataworks 作为一站式开发治理中枢,实现了异构数据源接入、流批计算融合、实时离线数据协同及数据生命周期全链路管理


  1. 数据源层


聚合多模异构存储,覆盖 OLTP、非结构化数据及实时流数据


  1. 计算层


  • 数据治理:DataWorks 实时数据集成提供异构数据源到数仓的一站式同步能力,具备完善的元数据管理、质量监控和权限管控功能

  • 实时计算:基于阿里云实时计算 Flink 版处理 Kafka 流式数据,支撑低延时实时处理

  • 实时数仓:Hologres 支撑海量数据实时写入、更新与分析,提供亚秒级响应能力

  • 离线数仓:MaxCompute 承担批量数据加工处理,支撑复杂离线分析场景

  • 数据检索:Elasticsearch 承载 Flink 处理后的近实时数据,满足全文检索和即席查询需求


  1. 存储层


对象存储 OSS 作为冷数据存储层,无缝对接 MaxCompute,实现数据智能冷热分层,优化成本与性能平衡


业务价值

基于阿里云云原生数仓解决方案,MiniMax 构建了覆盖全球业务的一体化数仓技术栈,依托高性能、低延时与 Serverless 快速弹性能力,为经营分析、用户增长等关键业务场景提供了高效稳定的技术支撑。


  1. 数据入仓加速,决策效率提升


通过 DataWorks 可视化 ETL 实现数据源到 Hologres 的实时全量与增量同步,利用 MaxCompute 和 Hologres 的跨引擎数据联邦能力,构建实时存储与离线计算解耦架构,关键数据入仓时间提前约 1 小时,显著提升业务决策时效性。


  1. 架构统一,运维效率提升


全球统一技术栈基于阿里云云原生数仓的 Serverless 存算分离架构,大幅降低运维复杂度,提升团队交付效率。


  1. 稳定支撑大规模数据处理


基于 DataWorks、 MaxCompute、Hologres 等构建的一站式大数据平台,实现开发、调度、运维与治理全链路统一管理,当前数据总量超数十 PB,日均处理量达数百 TB。


  1. 资源利用率优化,成本显著降低


通过存算分离、算子优化等技术手段,计算资源用量降低 50%,后续通过进一步优化计算资源利用率,计算资源用量整体降低 75%;通过数据生命周期管理策略,存储成本降低 40%,实现性能与成本的最优平衡。

基于阿里云 MaxFrame 构建云原生数据流水线:赋能 AI 工作流加速

在大模型技术迅猛发展的背景下,数据与人工智能的深度融合已成为企业构建核心竞争力的关键要素。大模型训练持续驱动大规模数据处理技术升级迭代,对计算弹性、预处理算子性能及统一数据治理体系提出了更高要求。基于 MiniMax 在阿里云云原生数仓解决方案上的深度业务实践,双方正持续探索更先进的大规模数据处理与 AI 融合解决方案,致力于通过阿里云 MaxFrame 等新一代计算框架,进一步提升数据处理效能,加速 AI 创新落地。

业务痛点

  1. 资源弹性瓶颈


模型训练节奏快,常需临时调用大规模弹性资源,对 PB 级数据进行短时高效预处理,并在任务完成后快速释放资源。传统架构难以兼顾资源弹性、处理时效与成本控制。


  1. 预处理算子性能不足


数据预处理过程中常出现文件大小限制、内存溢出(OOM)、全量 MinHash 去重任务无法完成等问题,导致作业成功率低、稳定性差,严重影响整体流程效率。


  1. 缺乏统一任务管理与可视化支持


原有流程依赖 Python 程序完成开发、调试与生产任务,缺少可视化任务开发、管理、调度和运维能力,多参数迭代效果评估困难,开发效率低下。


  1. 开发与运维人力投入受限


自研数据预处理(如 Common Crawl 数据集处理等)需投入大量人力进行开发与维护,团队难以专注于核心 AI 业务创新。

解决方案

MiniMax 基于阿里云 MaxCompute 构建了全托管、一站式 Data + AI 数据处理平台,并通过 MaxFrame 分布式计算框架实现了对多类数据(结构化与非结构化、多模态等)的统一管理与弹性伸缩的大规模预处理能力:


  1. 阿里云自研分布式计算框架,统一 Python 开发生态,同时无缝对接 MaxCompute 计算资源、数据;

  2. 提供兼容开源的分布式算子,如 Pandas、Minhash 等,大大提高数据处理效率;

  3. 支持分布式数据处理、离线推理等场景,构建 Data + AI 开发整体 Pipeline;

  4. 提供开箱即用的 Python 环境,支持用户自定义镜像,提供更便捷的开发体验。


业务价值

通过引入 MaxFrame 分布式计算框架,MiniMax 在资源利用率、处理效率与平台架构方面实现显著提升:


  1. 资源利用率显著提高

  • 借助 MaxCompute“包月固定资源+按需弹性资源”组合模式,MiniMax 可根据业务周期灵活调配资源,高峰时段支持数十万核计算资源的快速弹性扩展;

  • 实现计算资源利用率提升 30%,在资源效率与成本间取得最优平衡;

  • 通过 MaxCompute 原生存储冷热分层能力,对低热度大表自动实施低频/长期存储策略,历史数据存储成本降低 40%。


  1. 分布式计算框架带来性能突破

  • 基于 MaxFrame 构建的分布式计算架构替代原有开源方案,其内置高性能 Minhash 等优化算子,缩短大模型数据预处理任务耗时;

  • 加载 FastText 模型完成文本分类任务,利用 MaxCompute 弹性 CPU 资源执行批量推理,显著提升处理效率。


  1. 数据平台完成架构升级,运维效率提升

  • 基于 MaxCompute MaxFrame 构建国内外一体化 Data+AI 数据处理平台,依托全托管云原生 PaaS 能力,显著降低自研与维护成本,运维资源投入减少 50%;

  • 实现开发、调度、运维闭环统一管理,支持多模态数据与复杂 AI 工作流的高效协同。


总结与展望

MiniMax 与阿里云开展深度技术协同,在大模型时代成功构建了以云原生数据仓库为核心的高效、低成本 Data+AI 一体化数据处理平台,有效应对业务高速迭代与弹性扩展挑战。该方案不仅实现了数据处理效能的显著提升和运营成本的大幅优化,也为大模型驱动下的 AI 应用研发提供了可广泛复用的工程范式。未来,双方将持续深化在大模型数据预处理、多模态数据处理等前沿场景的联合创新,共同推动 Data+AI 技术在全球范围内的规模化产业应用。


用户头像

还未添加个人签名 2020-10-15 加入

分享阿里云计算平台的大数据和AI方向的技术创新和趋势、实战案例、经验总结。

评论

发布
暂无评论
阿里云携手MiniMax构建云原生数仓最佳实践:大模型时代的 Data + AI 数据处理平台_阿里云_阿里云大数据AI技术_InfoQ写作社区