0 人感兴趣 · 1 次引用
本文提出FocalPO,一种改进的偏好优化算法,通过动态调整损失函数权重优先优化模型已能正确排序的偏好对,实验证明其在Alpaca Eval 2.0等基准测试中超越DPO及其变体。
提供全面深入的云计算技术干货
InfoQ签约作者
还未添加个人签名