DistilQwen2.5-DS3-0324 发布:知识蒸馏 + 快思考 = 更高效解决推理难题
作者:蔡文睿(清素)、汪诚愚(熊兮)、严俊冰(玖烛)、黄俊(临在)
引言
在大语言模型领域的快速发展中,如何有效平衡高效推理和模型思维能力之间的矛盾一直是学术界和工业界关注的重点。DeepSeekV3-0324 默认没有采用深度思考的模式,使得模型推理速度更快,兼顾了快速推理和复杂任务处理之间的平衡。
DistilQwen 系列是阿里云人工智能平台 PAI 推出的蒸馏语言模型系列,包括 DistilQwen2、DistilQwen2.5、DistilQwen2.5-R1 等。在此次工作中,我们将 DeepSeekV3-0324 基于快思考的推理能力成功迁移到更轻量的小模型中,全新推出 DistilQwen2.5-DS3-0324。在继承了原始模型思维链蒸馏的精华的同时,引入了快思考策略,显著提升了推理速度,使得在资源受限的设备和边缘计算场景中,模型能够高效执行复杂任务。
实验显示,DistilQwen2.5-DS3-0324 系列模型在多个基准测试中表现突出,其 32B 模型效果甚至接近参数量接近其 10 倍的闭源大模型。在复杂问题解决方面,也大幅降低了思维链的长度,展示了卓越的效率。DistilQwen2.5-DS3-0324 系列的发布,助力“大模型+快思考”的新模式,逐步成为解决推理难题的标准配置。

为方便开发者和企业在实际应用中使用 DistilQwen2.5-DS3-0324 系列模型,已将所有的 Checkpoint 在 Hugging Face 和 Model Scope 开源社区中公开。本文将深入阐述 DistilQwen2.5-DS3-0324 的蒸馏算法、性能评估,并且提供在阿里云人工智能平台 PAI 上的使用指南及相关下载教程。
DistilQwen2.5-DS3-0324 中的蒸馏技术
本节中,我们主要描述 DistilQwen2.5-DS3-0324 系列模型训练中使用的数据增强与知识蒸馏技术。
推理模型通过深度思考可以解决复杂的推理任务,但这种深度思考也带来了大规模的计算资源需求。模型思考的过程中一般都有反思机制的参与,其会反复推敲模型已有的推理步骤,确保每个步骤都正确推进。这种反思机制在提高推理准确率的同时,也会不可避免地带来一些重复冗余的部分,导致推理模型所需的计算资源居高不下。因此,取得模型深度思考和快速回答间的平衡显得格外重要。
此外,蒸馏模型的参数量普遍较小。而由于自身参数量的显著差异,大模型与小模型的认知与推理轨迹有时并不完全一致。以数学问题为例:小模型由于自身参数量的限制,会倾向于使用更基础的方法去解决问题。而大模型基于其强大的推理能力,会采用较为高阶的方法。正是由于大小模型的认知轨迹偏差,小模型有时无法有效理解大模型的思维链。如果直接将大模型的思维链全部蒸馏到小模型中,往往无法达到最优效果。
针对这些问题,我们设计了一种小型推理模型蒸馏框架,主要包含 2 个阶段:快思考 CoT 数据收集,CoT 轨迹认知对齐。该框架可以让模型在快速思考的同时,消除认知轨迹偏差带来的负面影响。我们通过第一阶段收集大模型的快思考数据,在第二阶段对快思考数据进行与小模型的认知能力对齐,最终使用对齐后的快思考 CoT 对 Qwen2.5 系列基座小模型进行监督微调(SFT),得到 DistilQwen2.5-DS3-0324 系列模型。
快思考 CoT 数据收集
正如上文中提到的,模型深度思考和快速回答间的平衡显得格外重要。如果模型的中间思考步骤出现错误,此时的反思机制可以有效帮助模型自查纠错。但如果模型输出的是正确的思考步骤,此时反复的自查思考反而会导致不必要的资源浪费。因此,我们需要一种快思考 CoT,其保留了必要的推理和自查纠错步骤,同时去除了不必要的重复冗余部分。这种快思考 CoT 大幅缩减了推理长度,可以帮助模型进行快速思考和快速回复,在资源受限场景中高效完成任务。我们的快思考 CoT 数据主要来源于:
推理大模型 CoT 数据的 Long To Short 思维链改写。基于 DeepSeek-R1 的推理数据,我们从中提炼关键步骤,生成更高效、简洁的推理路径。
快思考大模型蒸馏。我们认为 DeepSeek-V3-0324 的输出具备快思考的特点,我们从中蒸馏出一些推理轨迹,涵盖数学、代码和科学问题等多个领域。
特别的,针对推理大模型产生的思维链过于冗长的问题,我们进一步使用 QwQ-32B 对思维链进行改写,其功能在于精简思维链长度,降低蒸馏模型的输出 token 数量,同时,保证思维链的正确性,避免错误传播到蒸馏模型中。使用大模型进行 Long To Short 思维链改写的 Prompt 如下所示:
CoT 轨迹认知对齐
正如上文中提到的,大小模型间的认知推理轨迹有时存在显著偏差。因此,对于待蒸馏的大模型快思考 CoT 数据集,小模型可能无法有效理解全部内容。举例来说,对于计算直角边分别为 3 和 4 的三角形面积,大模型可能使用线性代数进行求解:

这种方式对小模型而言比较难以学会,其一般采用简单的算术方法求解:

因此,直接将大模型的输出蒸馏到小模型容易造成小模型难以拟合的问题。
我们采用了 LLM-as-a-Judge 的范式,对大模型的推理过程进行评价并改进。给定问题、大模型的推理过程和问题的答案,我们使用模型判断这个推理过程是简单、中等还是困难。难度等级的核心标准是小模型是否能够遵循给定的推理过程得到问题的答案。以下是思维链的难度等级及定义:
中等: 小模型可以遵循该推理过程得到问题的答案。
简单: 给定的推理过程过于简单,缺少小模型所需的必要步骤,导致大模型可以依赖其强大的推理能力解决问题,但小模型无法遵循该过程得到答案。
困难: 给定的推理过程过于复杂或过于困难,导致小模型无法遵循该过程得到答案。
其中,我们使用如下 Prompt 调用 QwQ-32B 模型进行思维链难度的估计:
基于一个大模型的问题与思维链集合,我们可以将其分为简单、中等和困难三类。对于评级为中等的部分,我们予以保留。对于被评为简单和困难的数据,我们使用模型对思维链进行改进。具体来说:对于简单部分,我们扩展其推理过程,直至小模型可以遵循扩展的过程得到答案。对于评级为困难的部分,我们精简其推理过程,直至小模型可以遵循精简的过程得到答案。精简思维链的过程可以参考 Long To Short 的 Prompt 示例。扩展思维链的过程与 Long To Short 相反,其 Prompt 模版如下所示:
我们之后对改进结果进行进一步验证,包括:对改进后的思维链再次评价难度等级,检测其是否被归类为中等难度。如果改进后的思维链通过验证,说明改进有效,该数据可以被小模型有效理解,我们将其保留。如果验证不通过,说明改进无效,我们将返回到改进步骤,重新进行改进,直至通过验证。最终,我们获取了优化后的思维链数据集,其组成部分如下:
初始难度评级为中等的数据。
初始难度评级为简单,经过改进扩展后评为中等并通过验证的数据。
初始难度评级为困难,经过改进精简后评为中等并通过验证的数据。
此时,数据集内所有思维链的最终难度评级均为中等,意味着小模型可以有效理解数据集内的所有思维链,并能遵循这些思维链解决相应推理问题。上文提到的大小模型认知轨迹偏差问题在改进后的数据集中得到妥善解决,其可能带来的负面影响也被消除。相关流程如下所示:

相关工作参考论文 Training Small Reasoning LLMs with Cognitive Preference Alignment. arXiv。
我们在第二阶段使用这种 CoT 轨迹认知对齐机制对得到的快思考 CoT 数据进行优化,最终使用优化后的数据集对 Qwen2.5 系列基座模型进行监督微调(SFT),得到 DistilQwen2.5-DS3-0324 系列模型。
DistilQwen2.5-DS3-0324 模型效果评测
在本节中,我们从多个角度评测 DistilQwen2.5-DS3-0324 系列蒸馏小模型在推理任务上的实际效果;同时,我们将通过统计数据印证 DistilQwen2.5-DS3-0324 系列模型推理的快速性和高效性。
模型综合能力评测
我们在多个模型推理能力评测基准上测试了 DistilQwen2.5-DS3-0324 系列模型的能力,涵盖数学、代码和科学问题三个主流推理领域。
数学领域:采用 AIME2024 和 MATH-500 两个基准。AIME2024 为美国数学邀请赛的 2024 年测试集,含 30 道高难题,聚焦代数与几何等复杂推理能力;MATH-500 涵盖 500 道题,旨在全面考察模型在数学解题上的能力。
代码领域:使用 LiveCodeBench V2,其包含 2023 年 5 月-2024 年 5 月的 511 个代码问题,测试模型在高难度编码、自我修复和执行测试等方面的综合能力。
科学问题领域:使用 GPQA-Diamond 和 MMLU-PRO。前者为高质量专家级科学问题集(共 198 题),后者涵盖 12,000+道题,强调模型的复杂推理能力而非仅靠知识检索,精准追踪大模型在推理任务上的进步和不足。
如下图所示,DistilQwen2.5-DS3-0324 系列模型在 7B、14B 和 32B 四个参数量级的模型中,与原始 Qwen2.5 模型的效果进行了对比。可以看出,DistilQwen2.5-DS3-0324 系列模型的推理能力在多个评测基准上取得了一致而明显的效果提升。
我们还将 DistilQwen2.5-DS3-0324-32B 与当前主流的非推理大模型作了比较,结果如下图所示。

可以看出,尽管这些大模型的参数量是自己的数十倍,DistilQwen2.5-DS3-0324-32B 依旧在这些推理基准上取得了相对不错的结果。其中,DistilQwen2.5-DS3-0324-32B 在 AIME2024 和 MATH-500 两个基准上高于多个闭源大模型(例如 Qwen-Max 和 Claude-Sonnet-3.7),在 LiveCodeBench 超过了其他所有大模型,包括其教师模型 DeepSeek-V3-0324。
平衡精度和输出 Token 数量
为展示 DistilQwen2.5-DS3-0324 系列模型高效推理效果,以 32B 模型为例,我们分别统计了 DistilQwen2.5-DS3-0324 模型和 DistilQwen2.5-R1 系列模型在各个推理 benchmark 上输出的平均 token 数。可以看出,相较于采用深度思考进行推理的模型,DistilQwen2.5-DS3-0324 系列模型推理输出的 token 数量大幅降低,与 DeepSeek-V3-0324(teacher model)的输出 Token 数相当,兼顾了快速推理和复杂任务处理。这种快思考的特点使得 DistilQwen2.5-DS3-0324 系列模型在资源受限的设备和边缘计算场景中依旧能高效解决复杂推理任务。

模型输出案例
我们在此列举一些有趣的小例子,以体现 DistilQwen2.5-DS3-0324 系列模型强大的代码能力。以下 case 均为 DistilQwen2.5-DS3-0324-32B 输出结果。为便于复现,我们还提供了不同 case 对应的 prompt。将 prompt 对应的模型输出代码保存到本地 html 文件中,使用浏览器打开 html 文件即可复现类似结果。
示例一:前端网页生成:

Prompt:Create a detailed web page for a new SAAS with all the necessary information images and pricing and all, give me the code so that I can test locally using vscode.
示例二:贪吃蛇游戏

Prompt: Develop an interactive version of the classic Snake game in a single HTML file using HTML, inline CSS, and inline JavaScript. The game must include responsive controls, dynamic score tracking, and a game-over screen with a restart option. Use proper image assets for the snake and food items (no placeholders) so that the entire game is self-contained.
模型下载和使用
DistilQwen2.5-DS3-0324 在阿里云人工智能平台 PAI 上的实践
以下 HuggingFace transformers 库为例,简要介绍如何在 PAI-DSW 上使用 DistilQwen2.5-DS3-0324 模型。首先需要保证 PAI-DSW 镜像内 transformers 版本大于等于 4.37.0,否则会在加载模型时报错:
以 DistilQwen2.5-DS3-0324-7B 为例,我们可以使用如下代码调用模型:
DistilQwen2.5-DS3-0324 在开源社区的下载
我们在 Hugging Face 和 Model Scope 上开源了我们蒸馏后的模型,分别为DistilQwen2.5-DS3-0324-7B、DistilQwen2.5-DS3-0324-14B、DistilQwen2.5-DS3-0324-32B。以 Hugging Face 为例,用户可以使用如下代码下载这两个模型:
小结与未来工作
综上所述,DistilQwen2.5-DS3-0324 系列模型通过知识蒸馏快思考策略,实现了在资源受限环境中的高效推理,兼顾了快速推理和处理复杂任务的需求。这一系列模型在多个基准测试中表现优异,证明了其卓越的推理能力和实际应用价值。作为“大模型+快思考”新模式的经典案例,DistilQwen2.5-DS3-0324 系列为小模型的广泛应用提供了巨大的空间。未来,我们将继续优化和提升 DistilQwen 系列模型的蒸馏技术,以进一步增强小模型的智能水平和推理效率,推广更多高效、轻量化的语言模型,支持开发者和企业在实际应用中的广泛采用。
参考资料
相关发表论文
Wenrui Cai, Chengyu Wang, Junbing Yan, Jun Huang, Xiangzhong Fang. Training Small Reasoning LLMs with Cognitive Preference Alignment. arXiv
Yuanhao Yue, Chengyu Wang, Jun Huang, Peng Wang. Building a Family of Data Augmentation Models for Low-cost LLM Fine-tuning on the Cloud. COLING 2025
Yuanhao Yue, Chengyu Wang, Jun Huang, Peng Wang. Distilling Instruction-following Abilities of Large Language Models with Task-aware Curriculum Planning. EMNLP 2024
技术文章
DistilQwen2.5-R1 发布:知识蒸馏助推小模型深度思考:https://developer.aliyun.com/article/1659288
DistilQwen2.5 发布:通义千问蒸馏小模型再升级:https://developer.aliyun.com/article/1653842
DistilQwen2:通义千问大模型的知识蒸馏实践:https://developer.aliyun.com/article/1633882
DistilQwen2 蒸馏小模型的训练、评测、压缩与部署实践:https://help.aliyun.com/zh/pai/user-guide/training-evaluation-compression-and-deployment-of-distilqwen2
大语言模型数据增强与模型蒸馏解决方案:https://help.aliyun.com/zh/pai/user-guide/llm-data-enhancement-and-model-distillation-solution
评论