写点什么

MaxCompute x DataWorks × DeepSeek,实现使用自定义数据集微调 DeepSeek-R1 蒸馏模型

  • 2025-02-28
    浙江
  • 本文字数:1048 字

    阅读完需:约 3 分钟

一、整体概要

基于阿里云云原生大数据计算服务 MaxCompute 以及大数据开发治理平台 DataWorks 实现使用自定义数据集微调 DeepSeek-R1 蒸馏模型主要分为两大部分,一部分是基于人工智能平台 PAI 的微调训练,第二部分是通过如何构建自有数据集,并进行接入,下面我们以 MaxCompute+DataWorks+PAI 为基础,快速微调 DeepSeek-R1 蒸馏模型。

二、如何微调 DeepSeek

进入人工智能平台 PAI 控制台,左侧导航栏进入快速开始 > Model Gallery,选择模型。下面我们以 DeepSeek-R1-Distill-Qwen-7B 为例,进行微调训练。(其他模型微调也可以基于这个流程)



进入 DeepSeek-R1-Distill-Qwen-7B 模型页面后,点击“训练”按钮,核心是基于自有数据集进行模型调优,自有数据集可以选择存在对象存储 OSS 的数据,也可以选择存在 MaxCompute 的数据,下面我们以存在 MaxCompute 的数据的自有数据集为例进行 DEMO 演示。




训练数据集选择自定义数据集-新建数据集。



存储类型选择云原生大数据计算服务 MaxCompute。



导入 MaxCcompute 的项目名和表名进行关联,进行挂在路径配置。



然后再选择模型输出路径。



最后选择相应的资源配置,及参数配置,点击“训练”就可以基于自有数据集进行微调了,一起试试吧。


三、如何构建自有数据集,接入 DeepSeek 进行微调

在人工智能平台 PAI 上使用自定义数据集,主要需要关联 MaxCompute 的项目和数据表。首先创建 MaxCompute 项目:打开MaxCompute控制台,点击左侧导航栏【工作区】-【项目管理】,选择【新建项目】



创建 MaxCompute 表:打开DataWorks控制台,左侧导航栏选择【数据开发与运维】->【数据开发】,进入数据开发界面,界面左侧导航栏【表管理】新建表,详细建表过程可参考文档


自定义数据集写入

表结构新建好并提交发布后,您可以使用 DataWorks 通过数据集成任务MaxCompute节点任务向 MaxCompute 表中写入数据,DataWorks 深度适配数十种大数据及 AI 计算引擎进行数据集成,支持自定义数据集的开发与调度。此外,DataWorks 还支持通过上传数据功能将本地数据导入 MaxCompute 表中。当然,也可以使用 DataWorks 对写入的数据进行二次开发。

四、微调 DeepSeek R1 蒸馏模型部署及应用

通过 MaxCompute 和 DataWorks 创建完项目和表后,即可开始使用 PAI 平台开始使用自定义数据集微调 DeepSeek-R1 蒸馏模型,更多模型微调参考教程可参考人工智能平台 PAI 的部署及应用实践。


部署DeepSeek-V3、DeepSeek-R1模型_人工智能平台 PAI(PAI)-阿里云帮助中


使用PAI一键部署通义千问模型_人工智能平台 PAI(PAI)-阿里云帮助中心


通过EAS一键部署MLLM多模态大语言模型应用_人工智能平台 PAI(PAI)-阿里云帮助中心


用户头像

还未添加个人签名 2020-10-15 加入

分享阿里云计算平台的大数据和AI方向的技术创新和趋势、实战案例、经验总结。

评论

发布
暂无评论
MaxCompute x DataWorks × DeepSeek,实现使用自定义数据集微调DeepSeek-R1蒸馏模型_大数据_阿里云大数据AI技术_InfoQ写作社区