大模型对齐实战:PPO算法的原理与应用实践_小刘的大模型笔记_InfoQ写作社区