PPO应用——大模型偏好优化的核心场景与落地实践_小刘的大模型笔记_InfoQ写作社区