写点什么

ppo算法

0 人感兴趣 · 3 次引用

  • 最新
  • 推荐

使用 PPO 算法进行 RLHF 的 N 步实现细节

用户头像
EquatorCoco
2023-11-17

当下,RLHF/ChatGPT 已经变成了一个非常流行的话题。我们正在致力于更多有关 RLHF 的研究,这篇博客尝试复现 OpenAI 在 2019 年开源的原始 RLHF 代码库,其仓库位置位于 openai/lm-human-preferences。尽管它具有 “tensorflow-1.x” 的特性,但 OpenAI 的原

https://static001.geekbang.org/infoq/f5/f5a8e8cfaf36ae1eda32f2429ec79831.jpeg?x-oss-process=image%2Fresize%2Cw_416%2Ch_234

人工智能 LLM 模型:奖励模型的训练、PPO 强化学习的训练、RLHF | 社区征文

在大语言模型完成 SFT 监督微调后,下一阶段是构建一个奖励模型来对问答对作出得分评价。奖励模型源于强化学习中的奖励函数,能对当前的状态刻画一个分数,来说明这个状态产生的价值有多少。在大语言模型微调中的奖励模型是对输入的问题和答案计算出一个分数

ppo算法_ppo算法技术文章_InfoQ写作社区