推理能力
0 人感兴趣 · 2 次引用
- 最新
- 推荐
AGORA:通过群体蒸馏激发大语言模型的群体涌现能力
AGORA框架通过结构化交互激发大语言模型的群体涌现能力,在数学推理任务上超越现有单体模型4.45个百分点,验证了交互作为智能扩展新维度的潜力。
超长输出强化学习提升大语言模型推理能力
本文提出了一种超长输出强化学习方法UloRL,通过分段解码和动态掩码技术解决长序列训练中的效率问题,显著提升大语言模型在复杂推理任务中的表现。
0 人感兴趣 · 2 次引用
AGORA框架通过结构化交互激发大语言模型的群体涌现能力,在数学推理任务上超越现有单体模型4.45个百分点,验证了交互作为智能扩展新维度的潜力。
本文提出了一种超长输出强化学习方法UloRL,通过分段解码和动态掩码技术解决长序列训练中的效率问题,显著提升大语言模型在复杂推理任务中的表现。