DeepSeek 的成功,真的抛弃了 SFT 吗?

近期,DeepSeek 在 AI 领域备受关注,其出色的复杂逻辑推理能力令人印象深刻。有人声称,R1 完全抛弃了传统监督学习(SFT)路线,纯靠强化学习就达到了与 o1 相当的水平。
然而,DeepSeek 的成功真的完全抛弃了 SFT,尤其是复杂领域的 SFT 了吗?我们将通过一个实际案例,深入探讨这一技术的应用与价值。
◈复杂领域的监督式微调

许多人认为 DeepSeek 带来的震撼是不需要做 SFT 了(Supervised Fine-Tuning,有监督微调)——这点很值得讨论。事实上,DeepSeek 并没有完全抛弃 SFT,而是根据不同模型的需求进行了调整和优化。SFT 在 DeepSeek 的模型训练中起到的作用包含:
01
提升模型在特定任务上的性能:例如,在 DeepSeek-V3 中,通过在多个领域的数据集上进行 SFT,模型在教育、语言理解、问答等任务上的性能得到显著提升。
02
优化生成内容的风格和质量:在 DeepSeek-V3 的训练过程中,SFT 阶段让模型接触到了大量高质量的语言表达示例,帮助模型学习到更优美的语言表达方式。
03
作为冷启动数据集的基础:在 DeepSeek-R1 模型中,SFT 阶段生成的数据被用作冷启动数据集,经人工标注员优化,为后续强化学习提供基础,帮助模型在特定任务上更好地对齐人类偏好。
在今天分享的案例中,澳鹏 Appen 针对医疗、金融、代码等 30+个专业领域的特定应用场景对模型进行微调,使其能够流畅处理思维链推理、复杂问答等任务。
目标
OBJECTIVE
与澳鹏 Appen 合作,客户的目标很明确:通过在 30 多个复杂领域(如代数、微积分、博弈论、归纳和演绎推理、科学证据评估等)中创建以思维链推理风格编写的结构化“提示-响应对”,显著增强大语言模型(LLM)的推理能力。
挑战
CHALLENGE
如何在 30+个不同的专业领域招募到足够合格的标注人员,是客户面临的一大挑战。与一般标注项目不同的是,每位标注者均需具备数学、商业、法律或推理等领域的专业知识和专长。
精准匹配能够有效构建复杂逻辑推理能力的提示与响应的人员,是项目成功的关键。这些人员需要确保数据的持续高质量,以满足监督式微调的需求。
解决
SOLUTION
为提高模型的逻辑推理性能,澳鹏 Appen 团队开发了与特定范畴的逻辑推理相一致的不同提示(prompt),例如根本原因识别及后果评估。通过澳鹏 Appen 的富文本编辑器,标注者可使用表格、代码块、用于方程的 LaTeX 和各种文本输入格式,从而生成高质量数据,增强模型的推理能力。

提示(prompt)运用高级推理技能,要求模型通过清晰分解问题,并得出具有逻辑性的解决方案,不能省略推理步骤。响应(response)要遵循真实、清晰、语境等标准,并在需要时引用研究结果以保证事实的准确性。

成果
RESULT
澳鹏 Appen 团队为模型提供了丰富的高质量推理提示与响应,显著提高客户 LLM 的逻辑推理能力,帮助其有效处理复杂的论点并进行演绎推理。与此同时,项目的成功促成了客户业务的进一步拓展。
版权声明: 本文为 InfoQ 作者【澳鹏Appen】的原创文章。
原文链接:【http://xie.infoq.cn/article/1e6a72470c517e37cc1d7dced】。文章转载请联系作者。
评论