DeepSeek 的成功，真的抛弃了 SFT 吗？

2025-03-11
上海
本文字数：1124 字
阅读完需：约 4 分钟

近期，DeepSeek 在 AI 领域备受关注，其出色的复杂逻辑推理能力令人印象深刻。有人声称，R1 完全抛弃了传统监督学习(SFT)路线，纯靠强化学习就达到了与 o1 相当的水平。

然而，DeepSeek 的成功真的完全抛弃了 SFT，尤其是复杂领域的 SFT 了吗？我们将通过一个实际案例，深入探讨这一技术的应用与价值。

◈复杂领域的监督式微调

许多人认为 DeepSeek 带来的震撼是不需要做 SFT 了（Supervised Fine-Tuning，有监督微调）——这点很值得讨论。事实上，DeepSeek 并没有完全抛弃 SFT，而是根据不同模型的需求进行了调整和优化。SFT 在 DeepSeek 的模型训练中起到的作用包含：

01
提升模型在特定任务上的性能：例如，在 DeepSeek-V3 中，通过在多个领域的数据集上进行 SFT，模型在教育、语言理解、问答等任务上的性能得到显著提升。

02
优化生成内容的风格和质量：在 DeepSeek-V3 的训练过程中，SFT 阶段让模型接触到了大量高质量的语言表达示例，帮助模型学习到更优美的语言表达方式。

03
作为冷启动数据集的基础：在 DeepSeek-R1 模型中，SFT 阶段生成的数据被用作冷启动数据集，经人工标注员优化，为后续强化学习提供基础，帮助模型在特定任务上更好地对齐人类偏好。

在今天分享的案例中，澳鹏 Appen 针对医疗、金融、代码等 30+个专业领域的特定应用场景对模型进行微调，使其能够流畅处理思维链推理、复杂问答等任务。

目标

OBJECTIVE

与澳鹏 Appen 合作，客户的目标很明确：通过在 30 多个复杂领域（如代数、微积分、博弈论、归纳和演绎推理、科学证据评估等）中创建以思维链推理风格编写的结构化“提示-响应对”，显著增强大语言模型（LLM）的推理能力。

挑战

CHALLENGE

如何在 30+个不同的专业领域招募到足够合格的标注人员，是客户面临的一大挑战。与一般标注项目不同的是，每位标注者均需具备数学、商业、法律或推理等领域的专业知识和专长。

精准匹配能够有效构建复杂逻辑推理能力的提示与响应的人员，是项目成功的关键。这些人员需要确保数据的持续高质量，以满足监督式微调的需求。

解决

SOLUTION

为提高模型的逻辑推理性能，澳鹏 Appen 团队开发了与特定范畴的逻辑推理相一致的不同提示（prompt），例如根本原因识别及后果评估。通过澳鹏 Appen 的富文本编辑器，标注者可使用表格、代码块、用于方程的 LaTeX 和各种文本输入格式，从而生成高质量数据，增强模型的推理能力。

提示（prompt）运用高级推理技能，要求模型通过清晰分解问题，并得出具有逻辑性的解决方案，不能省略推理步骤。响应（response）要遵循真实、清晰、语境等标准，并在需要时引用研究结果以保证事实的准确性。

成果

RESULT

澳鹏 Appen 团队为模型提供了丰富的高质量推理提示与响应，显著提高客户 LLM 的逻辑推理能力，帮助其有效处理复杂的论点并进行演绎推理。与此同时，项目的成功促成了客户业务的进一步拓展。

发布于: 2025-03-11阅读数: 2

原文链接:【http://xie.infoq.cn/article/1e6a72470c517e37cc1d7dced】。文章转载请联系作者。

澳鹏Appen

关注

还未添加个人签名 2021-03-15 加入

高质量的AI训练数据服务商

发布

暂无评论

创作场景

DeepSeek 的成功，真的抛弃了 SFT 吗？

目标

挑战

解决

成果

澳鹏Appen

评论