veRL CollabLLM recipe: 奖励全局最优,训练出善于对话的协作型 LLM_LLM_火山引擎开发者社区_InfoQ写作社区