语言模型的后完成学习技术解析
当前语言模型训练范式通常在遇到序列结束符(<eos>
)时终止学习,忽视了后完成空间的潜在学习机会。提出后完成学习(PCL)框架,系统性地利用模型输出完成后的序列空间,以同步增强推理与自我评估能力。PCL 使模型能够在训练阶段继续生成自我评估和奖励预测,同时在推理阶段保持高效性(于完成点停止)。
为充分利用后完成空间,设计了一种白盒强化学习方法:模型根据奖励规则评估输出内容,随后计算分数并与奖励函数对齐以实现监督。通过双轨监督微调(SFT)优化推理与评估能力,并结合强化学习训练实现多目标混合优化。
在不同数据集和模型上的实验结果表明,该方法相较于传统 SFT 和强化学习方法均取得稳定提升。该技术为语言模型训练提供了新路径,可在保持部署效率的同时提升输出质量。更多精彩内容 请关注我的个人公众号 公众号(办公 AI 智能小助手)公众号二维码

办公AI智能小助手
评论