个人开发者也能训练推理模型?GRPO 技术详解_AI_Baihai IDP_InfoQ写作社区