GSPO
0 人感兴趣 · 1 次引用
- 最新
- 推荐
基于 PAI-ChatLearn 的 GSPO 强化学习实践
近期,阿里通义千问团队创新性提出了 GSPO 算法,PAI-ChatLearn 框架第一时间支持并复现了GSPO的强化学习训练过程,本文将介绍在 PAI 平台复现 GSPO 的最佳实践。
0 人感兴趣 · 1 次引用
近期,阿里通义千问团队创新性提出了 GSPO 算法,PAI-ChatLearn 框架第一时间支持并复现了GSPO的强化学习训练过程,本文将介绍在 PAI 平台复现 GSPO 的最佳实践。