写点什么

偏好优化

0 人感兴趣 · 1 次引用

  • 最新
  • 推荐

FocalPO:通过聚焦正确偏好排序增强偏好优化技术

用户头像
qife
08-07

本文提出FocalPO,一种改进的偏好优化算法,通过动态调整损失函数权重优先优化模型已能正确排序的偏好对,实验证明其在Alpaca Eval 2.0等基准测试中超越DPO及其变体。

偏好优化_偏好优化技术文章_InfoQ写作社区