0 人感兴趣 · 1 次引用
本文提出RAIF方法,通过可验证规则奖励机制和专家行为克隆技术,显著提升大型语言模型处理并行/链式/分支结构复杂指令的能力。1.5B参数模型性能提升11.74%,达到8B模型水平。
提供全面深入的云计算技术干货
InfoQ签约作者
还未添加个人签名