阿里云携手 MiniMax 构建云原生数仓最佳实践:大模型时代的 Data + AI 数据处理平台

MiniMax 简介
MiniMax 是全球领先的通用人工智能科技公司。自 2022 年初成立以来,MiniMax 以“与所有人共创智能”为使命,致力于推动人工智能科技前沿发展,实现通用人工智能(AGI)。MiniMax 自主研发了一系列多模态通用大模型,包括 MiniMax M1、Hailuo 02、Speech 2.5 和 Music 01 等,具备超长上下文处理能力,能够理解、生成并整合包括文本、音频、图像、视频和音乐在内的多种模态。自研模型的飞速进展,有力支撑了 MiniMax 的全球业务拓展。迄今,MiniMax 的自研多模态模型及 AI 原生应用已累计为来自超过 200 个国家及地区的逾 1.57 亿名个人用户,以及来自超过 90 个国家及地区的 50,000 余名企业客户以及开发者提供服务。
业务大数据实践:数据驱动 MiniMax 业务高效迭代
业务痛点
自 2024 年起,MiniMax 的海螺 AI、MiniMax Audio 和星野等业务在国内外迎来快速增长,用户数据量呈现爆发式增长,快速攀升至数十 PB 级别,给数据平台的建设带来了诸多技术挑战:
异构架构的效率瓶颈
技术栈碎片化:前期 MiniMax 在国内和海外引入了不同云厂商,部署独立数据平台,需要开发团队同时维护多套不同引擎的开发规范
开发效率低:基于开源 Dolphin Scheduler 二次开发自建大数据治理工具,功能迭代和维护成本高,无法高效满足快速发展的业务需求
运维成本高:双系统并行导致权限治理、资源监控、故障排查等运维工作需要跨平台执行,管理成本线性增长
资源成本与利用率失衡
TCO 高昂:部分云服务按量付费模式导致数据扫描、数据传输、计算节点运行时间等成本难以预测和控制
资源利用率低:部分云服务成熟度不足,在大规模实时数仓等复杂场景下优化效果有限
资源优化瓶颈:开源大数据组件的任务优化高度依赖人工经验,调优工作耗费大量人力成本
阿里云原生数仓解决方案
阿里云协助 MiniMax 构建了全球一体化云原生数仓技术架构,该架构以阿里云数据开发治理平台 Dataworks 作为一站式开发治理中枢,实现了异构数据源接入、流批计算融合、实时离线数据协同及数据生命周期全链路管理
数据源层
聚合多模异构存储,覆盖 OLTP、非结构化数据及实时流数据
计算层
数据治理:DataWorks 实时数据集成提供异构数据源到数仓的一站式同步能力,具备完善的元数据管理、质量监控和权限管控功能
实时计算:基于阿里云实时计算 Flink 版处理 Kafka 流式数据,支撑低延时实时处理
实时数仓:Hologres 支撑海量数据实时写入、更新与分析,提供亚秒级响应能力
离线数仓:MaxCompute 承担批量数据加工处理,支撑复杂离线分析场景
数据检索:Elasticsearch 承载 Flink 处理后的近实时数据,满足全文检索和即席查询需求
存储层
对象存储 OSS 作为冷数据存储层,无缝对接 MaxCompute,实现数据智能冷热分层,优化成本与性能平衡

业务价值
基于阿里云云原生数仓解决方案,MiniMax 构建了覆盖全球业务的一体化数仓技术栈,依托高性能、低延时与 Serverless 快速弹性能力,为经营分析、用户增长等关键业务场景提供了高效稳定的技术支撑。
数据入仓加速,决策效率提升
通过 DataWorks 可视化 ETL 实现数据源到 Hologres 的实时全量与增量同步,利用 MaxCompute 和 Hologres 的跨引擎数据联邦能力,构建实时存储与离线计算解耦架构,关键数据入仓时间提前约 1 小时,显著提升业务决策时效性。
架构统一,运维效率提升
全球统一技术栈基于阿里云云原生数仓的 Serverless 存算分离架构,大幅降低运维复杂度,提升团队交付效率。
稳定支撑大规模数据处理
基于 DataWorks、 MaxCompute、Hologres 等构建的一站式大数据平台,实现开发、调度、运维与治理全链路统一管理,当前数据总量超数十 PB,日均处理量达数百 TB。
资源利用率优化,成本显著降低
通过存算分离、算子优化等技术手段,计算资源用量降低 50%,后续通过进一步优化计算资源利用率,计算资源用量整体降低 75%;通过数据生命周期管理策略,存储成本降低 40%,实现性能与成本的最优平衡。
基于阿里云 MaxFrame 构建云原生数据流水线:赋能 AI 工作流加速
在大模型技术迅猛发展的背景下,数据与人工智能的深度融合已成为企业构建核心竞争力的关键要素。大模型训练持续驱动大规模数据处理技术升级迭代,对计算弹性、预处理算子性能及统一数据治理体系提出了更高要求。基于 MiniMax 在阿里云云原生数仓解决方案上的深度业务实践,双方正持续探索更先进的大规模数据处理与 AI 融合解决方案,致力于通过阿里云 MaxFrame 等新一代计算框架,进一步提升数据处理效能,加速 AI 创新落地。
业务痛点
资源弹性瓶颈
模型训练节奏快,常需临时调用大规模弹性资源,对 PB 级数据进行短时高效预处理,并在任务完成后快速释放资源。传统架构难以兼顾资源弹性、处理时效与成本控制。
预处理算子性能不足
数据预处理过程中常出现文件大小限制、内存溢出(OOM)、全量 MinHash 去重任务无法完成等问题,导致作业成功率低、稳定性差,严重影响整体流程效率。
缺乏统一任务管理与可视化支持
原有流程依赖 Python 程序完成开发、调试与生产任务,缺少可视化任务开发、管理、调度和运维能力,多参数迭代效果评估困难,开发效率低下。
开发与运维人力投入受限
自研数据预处理(如 Common Crawl 数据集处理等)需投入大量人力进行开发与维护,团队难以专注于核心 AI 业务创新。
解决方案
MiniMax 基于阿里云 MaxCompute 构建了全托管、一站式 Data + AI 数据处理平台,并通过 MaxFrame 分布式计算框架实现了对多类数据(结构化与非结构化、多模态等)的统一管理与弹性伸缩的大规模预处理能力:

阿里云自研分布式计算框架,统一 Python 开发生态,同时无缝对接 MaxCompute 计算资源、数据;
提供兼容开源的分布式算子,如 Pandas、Minhash 等,大大提高数据处理效率;
支持分布式数据处理、离线推理等场景,构建 Data + AI 开发整体 Pipeline;
提供开箱即用的 Python 环境,支持用户自定义镜像,提供更便捷的开发体验。

业务价值
通过引入 MaxFrame 分布式计算框架,MiniMax 在资源利用率、处理效率与平台架构方面实现显著提升:
资源利用率显著提高
借助 MaxCompute“包月固定资源+按需弹性资源”组合模式,MiniMax 可根据业务周期灵活调配资源,高峰时段支持数十万核计算资源的快速弹性扩展;
实现计算资源利用率提升 30%,在资源效率与成本间取得最优平衡;
通过 MaxCompute 原生存储冷热分层能力,对低热度大表自动实施低频/长期存储策略,历史数据存储成本降低 40%。
分布式计算框架带来性能突破
基于 MaxFrame 构建的分布式计算架构替代原有开源方案,其内置高性能 Minhash 等优化算子,缩短大模型数据预处理任务耗时;
加载 FastText 模型完成文本分类任务,利用 MaxCompute 弹性 CPU 资源执行批量推理,显著提升处理效率。
数据平台完成架构升级,运维效率提升
基于 MaxCompute MaxFrame 构建国内外一体化 Data+AI 数据处理平台,依托全托管云原生 PaaS 能力,显著降低自研与维护成本,运维资源投入减少 50%;
实现开发、调度、运维闭环统一管理,支持多模态数据与复杂 AI 工作流的高效协同。
总结与展望
MiniMax 与阿里云开展深度技术协同,在大模型时代成功构建了以云原生数据仓库为核心的高效、低成本 Data+AI 一体化数据处理平台,有效应对业务高速迭代与弹性扩展挑战。该方案不仅实现了数据处理效能的显著提升和运营成本的大幅优化,也为大模型驱动下的 AI 应用研发提供了可广泛复用的工程范式。未来,双方将持续深化在大模型数据预处理、多模态数据处理等前沿场景的联合创新,共同推动 Data+AI 技术在全球范围内的规模化产业应用。
评论