写点什么

DeepSeek 的成功,真的抛弃了 SFT 吗?

作者:澳鹏Appen
  • 2025-03-11
    上海
  • 本文字数:1124 字

    阅读完需:约 4 分钟

DeepSeek的成功,真的抛弃了SFT吗?

近期,DeepSeek 在 AI 领域备受关注,其出色的复杂逻辑推理能力令人印象深刻。有人声称,R1 完全抛弃了传统监督学习(SFT)路线,纯靠强化学习就达到了与 o1 相当的水平。


然而,DeepSeek 的成功真的完全抛弃了 SFT,尤其是复杂领域的 SFT 了吗?我们将通过一个实际案例,深入探讨这一技术的应用与价值。


复杂领域的监督式微调


许多人认为 DeepSeek 带来的震撼是不需要做 SFT 了(Supervised Fine-Tuning,有监督微调)——这点很值得讨论。事实上,DeepSeek 并没有完全抛弃 SFT,而是根据不同模型的需求进行了调整和优化。SFT 在 DeepSeek 的模型训练中起到的作用包含:


01

提升模型在特定任务上的性能:例如,在 DeepSeek-V3 中,通过在多个领域的数据集上进行 SFT,模型在教育、语言理解、问答等任务上的性能得到显著提升。


02

优化生成内容的风格和质量:在 DeepSeek-V3 的训练过程中,SFT 阶段让模型接触到了大量高质量的语言表达示例,帮助模型学习到更优美的语言表达方式。


03

作为冷启动数据集的基础:在 DeepSeek-R1 模型中,SFT 阶段生成的数据被用作冷启动数据集,经人工标注员优化,为后续强化学习提供基础,帮助模型在特定任务上更好地对齐人类偏好。


在今天分享的案例中,澳鹏 Appen 针对医疗、金融、代码等 30+个专业领域的特定应用场景对模型进行微调,使其能够流畅处理思维链推理、复杂问答等任务。


目标

OBJECTIVE


与澳鹏 Appen 合作,客户的目标很明确:通过在 30 多个复杂领域(如代数、微积分、博弈论、归纳和演绎推理、科学证据评估等)中创建以思维链推理风格编写的结构化“提示-响应对”,显著增强大语言模型(LLM)的推理能力。


挑战

CHALLENGE


如何在 30+个不同的专业领域招募到足够合格的标注人员,是客户面临的一大挑战。与一般标注项目不同的是,每位标注者均需具备数学、商业、法律或推理等领域的专业知识和专长。


精准匹配能够有效构建复杂逻辑推理能力的提示与响应的人员,是项目成功的关键。这些人员需要确保数据的持续高质量,以满足监督式微调的需求。


解决

SOLUTION


为提高模型的逻辑推理性能,澳鹏 Appen 团队开发了与特定范畴的逻辑推理相一致的不同提示(prompt),例如根本原因识别及后果评估。通过澳鹏 Appen 的富文本编辑器,标注者可使用表格、代码块、用于方程的 LaTeX 和各种文本输入格式,从而生成高质量数据,增强模型的推理能力。



提示(prompt)运用高级推理技能,要求模型通过清晰分解问题,并得出具有逻辑性的解决方案,不能省略推理步骤。响应(response)要遵循真实、清晰、语境等标准,并在需要时引用研究结果以保证事实的准确性。



成果

RESULT


澳鹏 Appen 团队为模型提供了丰富的高质量推理提示与响应,显著提高客户 LLM 的逻辑推理能力,帮助其有效处理复杂的论点并进行演绎推理。与此同时,项目的成功促成了客户业务的进一步拓展。


发布于: 2025-03-11阅读数: 2
用户头像

澳鹏Appen

关注

还未添加个人签名 2021-03-15 加入

高质量的AI训练数据服务商

评论

发布
暂无评论
DeepSeek的成功,真的抛弃了SFT吗?_ChatGPT_澳鹏Appen_InfoQ写作社区