MaxCompute x DataWorks × DeepSeek,实现使用自定义数据集微调 DeepSeek-R1 蒸馏模型
一、整体概要
基于阿里云云原生大数据计算服务 MaxCompute 以及大数据开发治理平台 DataWorks 实现使用自定义数据集微调 DeepSeek-R1 蒸馏模型主要分为两大部分,一部分是基于人工智能平台 PAI 的微调训练,第二部分是通过如何构建自有数据集,并进行接入,下面我们以 MaxCompute+DataWorks+PAI 为基础,快速微调 DeepSeek-R1 蒸馏模型。
二、如何微调 DeepSeek
进入人工智能平台 PAI 控制台,左侧导航栏进入快速开始 > Model Gallery,选择模型。下面我们以 DeepSeek-R1-Distill-Qwen-7B 为例,进行微调训练。(其他模型微调也可以基于这个流程)

进入 DeepSeek-R1-Distill-Qwen-7B 模型页面后,点击“训练”按钮,核心是基于自有数据集进行模型调优,自有数据集可以选择存在对象存储 OSS 的数据,也可以选择存在 MaxCompute 的数据,下面我们以存在 MaxCompute 的数据的自有数据集为例进行 DEMO 演示。


训练数据集选择自定义数据集-新建数据集。

存储类型选择云原生大数据计算服务 MaxCompute。

导入 MaxCcompute 的项目名和表名进行关联,进行挂在路径配置。

然后再选择模型输出路径。

最后选择相应的资源配置,及参数配置,点击“训练”就可以基于自有数据集进行微调了,一起试试吧。

三、如何构建自有数据集,接入 DeepSeek 进行微调
在人工智能平台 PAI 上使用自定义数据集,主要需要关联 MaxCompute 的项目和数据表。首先创建 MaxCompute 项目:打开MaxCompute控制台,点击左侧导航栏【工作区】-【项目管理】,选择【新建项目】

创建 MaxCompute 表:打开DataWorks控制台,左侧导航栏选择【数据开发与运维】->【数据开发】,进入数据开发界面,界面左侧导航栏【表管理】新建表,详细建表过程可参考文档。

自定义数据集写入
表结构新建好并提交发布后,您可以使用 DataWorks 通过数据集成任务、MaxCompute节点任务向 MaxCompute 表中写入数据,DataWorks 深度适配数十种大数据及 AI 计算引擎进行数据集成,支持自定义数据集的开发与调度。此外,DataWorks 还支持通过上传数据功能将本地数据导入 MaxCompute 表中。当然,也可以使用 DataWorks 对写入的数据进行二次开发。
四、微调 DeepSeek R1 蒸馏模型部署及应用
通过 MaxCompute 和 DataWorks 创建完项目和表后,即可开始使用 PAI 平台开始使用自定义数据集微调 DeepSeek-R1 蒸馏模型,更多模型微调参考教程可参考人工智能平台 PAI 的部署及应用实践。
部署DeepSeek-V3、DeepSeek-R1模型_人工智能平台 PAI(PAI)-阿里云帮助中
使用PAI一键部署通义千问模型_人工智能平台 PAI(PAI)-阿里云帮助中心
通过EAS一键部署MLLM多模态大语言模型应用_人工智能平台 PAI(PAI)-阿里云帮助中心
评论