写点什么

云栖实录|人工智能 + 大数据平台加速企业模型后训练

  • 2025-10-13
    浙江
  • 本文字数:3159 字

    阅读完需:约 10 分钟

本文根据 2025 云栖大会演讲整理而成,演讲信息如下:

演讲人:魏博文(阿里云智能集团计算平台事业部解决方案负责人)

演讲主题:人工智能+大数据平台加速企业模型后训练


目前大模型能力已经足够优秀,模型后训练作为大模型落地的重要一环,能显著优化模型性能,适配特定领域需求。相比于模型预训练,后训练阶段对计算资源和数据资源需求更小,更易迭代,为大语言模型提供了针对特定业务场景调优的能力,打通了通用大模型到垂直领域应用的"最后一公里"。


阿里云大数据 AI 平台重磅发布大模型后训练解决方案,通过全栈 AI 能力,为企业提供从算力到平台的“后训练”一体化支撑。凭借稳定、高效、全能的产品特性,让企业从容面对大模型后训练阶段复杂的系统性工程挑战。使用阿里云大数据 AI 平台大模型后训练解决方案,实现训练加速比 3 倍、训练效率 100%的提升,有效助力大模型后训练技术在各行各业的落地。

一、“大模型训练”落地方案的演进

在 AI 加速重塑千行百业的浪潮中,大模型的落地路径正持续演进,逐步从通用能力构建走向深度场景化应用。


2022 年,随着大规模预训练模型的兴起,企业开始聚焦基础预训练,探索模型的通用能力,开启了 AI 大模型的产业化序幕。2023 年,行业转向“继续预训练”,结合领域内的专有数据与公开语料,进一步提升模型在特定场景中的语义理解与表达能力。进入 2024 年,以监督微调(SFT)为代表的后训练技术成为主流,企业得以在少量高质量数据的基础上,高效实现模型能力的定制化提升,显著降低了训练成本与资源消耗。而自 2025 年起,强化学习(RL)与 Agentic AI 理念深度融合,推动大模型向自主决策、多轮交互、工具调用等复杂任务迈进,成为垂直领域智能化升级的关键驱动力。


在此背景下,以 Qwen 为代表的高性能开源大模型,凭借其强大的基础能力,为企业提供了理想的起点。通过结合行业高质量数据进行系统性后训练,企业不仅能够精准解决实际业务问题,更可突破通用模型的性能瓶颈,实现超越闭源模型的领域专精能力。这一从“预训练”到“后训练”的完整演进路径,正构筑起企业构建专属 AI 大脑的核心基石,加速千行百业的智能化转型进程。


后训练不仅关乎算法层的优化,更依赖底层算力、平台能力与应用层协同,确保全链路的可行性与稳定性。用户对平台的需求,不再是预训练阶段仅需把数据规整好提供给平台后等待结果那么简单了,在后训练阶段,用户需要的是一个安全稳定、性能卓越且功能全面的平台。越来越多企业认识到:唯有“云+AI”的融合,才能从底层资源到应用层全面释放 AI 价值。

二、企业级大模型后训练解决方案突破效能边界

针对企业大模型后训练的需求,阿里云大数据 AI 平台发布基于“人工智能+大数据平台”的企业级大模型后训练解决方案。依托人工智能平台 PAI、云原生大数据计算服务 MaxCompute 等系列产品,以稳定、高效、全能的方案优势,全面打通从数据预处理、模型训练到推理部署的全链路,助力企业高效构建具备领域深度的 Agentic AI 应用。大模型后训练解决方案将企业从繁重的底层工程中解放出来,专注于业务创新。

阿里云后训练解决方案架构图


围绕“数据-训练-推理-AI 应用”的全生命周期,阿里云大数据 AI 平台为后训练提供端到端支撑,保障从基模选择、数据准备、模型训练到部署上线的每一个环节都能高效运行且无缝对接。


数据处理阶段,阿里云提供面向 AI 场景的多模态数据处理方案,接入业务数据和场景化合成的数据,通过 MaxCompute MaxFrame+PAI-EAS+Flink 等产品实现统一的数据处理体验,支持百万任务调度与管理,整体数据处理效率提升 10 倍以上,数据处理推理任务优化提速 1 倍以上,相同资源产能提升 1 倍。大数据开发治理平台 DataWorks 负责数据集成、数据预处理任务开发和任务调度,确保数据能够被高效地处理和利用。实时计算 Flink 版作为流式引擎,提供端到端亚秒级实时数据分析能力,实时解析并写入接收到的数据,将其转化为可处理的格式。MaxCompute 将 AI 的能力应用于数据预处理环节,发布科学计算框架 MaxFrame。MaxFrame 是构建在大规模计算平台 MaxCompute 之上的完全兼容 Python 生态的分布式计算引擎,支持 Python 编程接口,兼容 Pandas 等数据处理及 ML 算子接口且自动实现分布式处理,同时提供 AI Function 调用能力,实时调用大模型,进行多模态数据预处理,以满足用户不断增长的在 Python 生态中高效进行大数据处理和 AI 开发的需求。方案可集成 Hologres 和高性能向量增强引擎 Elasticsearch 实现海量数据的实时查询和向量数据的毫秒级检索;可使用 Data-Juicer 在亿级别甚至千亿级别的样本量级下,实现高效的大规模数据预处理。

MaxCompute Data+AI 加速后训练数据预处理


在模型训练阶段,围绕大模型后训练的三大核心挑战——长上下文训练效率低、MoE(混合专家)模型通信开销大、强化学习环境复杂,推出多项技术创新。


随着参数规模变大,专家负载不均、路由不稳定、通信开销爆炸——尤其是在数千卡甚至万卡以上集群,如何提升算力利用率就成为了模型迭代的生命线。人工智能平台 PAI 重磅推出专为大规模 MoE 模型训练而生的 paiMoE 框架,通过规范调度策略、计算通信掩盖、计算显存分离式并行,实现超大规模算力情况下高效训练计算。实测达到 Qwen3 训练端到端加速比提效 3 倍。MoE 高性能训练优化 Tangram, 通过五级 PP 调度(segment/chunk/slice/phase/fragment),分段策略(Front Segment 显存优化+Backbone Segment 高效调度),实现计算通信精细掩盖与显存灵活管理;长序列训练优化 ChunkFlow 针对变长/超长序列数据集,通过重组为等长 Chunk(8K),解决显存浪费、负载不均、PP Bubble 等问题。已在 Qwen 全系模型 SFT/CPT 阶段作为默认方案,实现 2 倍+性能提升。


同时,推出灵活、易用、高效的大规模强化学习训练框架 PAI-Chatlearn,支持 RLHF、DPO、GRPO 等多种先进的 Alignment 训练算法,支持任意模型的后训练任务快速配置。实验数据表明,Qwen3-30B-A3B 模型在相同的硬件环境下,PAI-ChatLearn 相较于开源的框架来说,训练的吞吐基本上提升 2 倍以上

使用 paiMoE 进行大尺寸 MoE 模型训练


在模型部署阶段,模型在线服务平台 PAI-EAS 面向 Agentic-AI 时代全面升级。PAI-EAS 提供分布式推理能力,通过多机 Prefill-Decode-EP 分离架构,结合 LLM 智能路由和 MoE 分布式推理调度引擎 Llumnix,能显著提升推理速度和资源利用率以降低模型使用成本,做到首 Token 生成响应时间降低 92%,端到端服务吞吐提升 5 倍+。同时,PAI-ModelGallery 支持包含 Qwen、DeepSeek 在内的 300 +模型的零代码一键后训练、评测、部署。

PAI-EAS:面向 Agentic-AI 时代的推理基础设施


新发布的企业级大模型后训练解决方案在性能、成本、功能、安全等多维度均有着突出优势:

  • 模型训练效率提升:训练加速比 3 倍提升,训练资源规模效率提升 100%;

  • 模型推理效率提升:首 Token 生成响应时间降低 92%,端到端服务吞吐提升 5 倍+;

  • 一体化开发效率提速:数据包处理效率相比自建提升 10 倍以上,数据处理推理任务优化提速 1 倍以上,相同资源产能提升 1 倍;

  • 支持百万级任务管理及并发调度,每拉起 10000 CU 资源运行仅需不到 10 秒;

  • 全链路样本数据血缘存储和检索分析,数据合规安全保护;

  • 企业级 Serverless 化平台,稳定可靠,兼容开源生态。

三、技术底座揭秘:解决方案核心产品全解析

大模型后训练解决方案是基于人工智能平台和大数据产品构建的,关键场景的产品作用如下:


大模型后训练方案的发布,标志着我们在构建高质量、可落地的大模型应用道路上迈出了坚实一步。未来,阿里云大数据 AI 平台将持续深耕大模型全生命周期的技术能力建设,不断优化数据处理、模型训练与推理效率,推动大模型在更多行业与场景中的深入应用,助力企业实现智能化升级与业务突破。

用户头像

还未添加个人签名 2020-10-15 加入

分享阿里云计算平台的大数据和AI方向的技术创新和趋势、实战案例、经验总结。

评论

发布
暂无评论
云栖实录|人工智能+大数据平台加速企业模型后训练_人工智能_阿里云大数据AI技术_InfoQ写作社区