Post-Training on PAI (4):模型微调SFT、DPO、GRPO_人工智能_阿里云大数据AI技术_InfoQ写作社区