ppo算法_ppo算法技术文章_InfoQ写作社区

全部标签 



写点什么

登录注册

ppo算法

0 人感兴趣 · 3 次引用

关注

最新
推荐

使用 PPO 算法进行 RLHF 的 N 步实现细节

2023-11-17

当下，RLHF/ChatGPT 已经变成了一个非常流行的话题。我们正在致力于更多有关 RLHF 的研究，这篇博客尝试复现 OpenAI 在 2019 年开源的原始 RLHF 代码库，其仓库位置位于 openai/lm-human-preferences。尽管它具有 “tensorflow-1.x” 的特性，但 OpenAI 的原

算法 ppo算法

https://static001.geekbang.org/infoq/f5/f5a8e8cfaf36ae1eda32f2429ec79831.jpeg?x-oss-process=image%2Fresize%2Cw_416%2Ch_234

人工智能 LLM 模型：奖励模型的训练、PPO 强化学习的训练、RLHF | 社区征文

汀丶人工智能

2023-07-17

在大语言模型完成 SFT 监督微调后，下一阶段是构建一个奖励模型来对问答对作出得分评价。奖励模型源于强化学习中的奖励函数，能对当前的状态刻画一个分数，来说明这个状态产生的价值有多少。在大语言模型微调中的奖励模型是对输入的问题和答案计算出一个分数

人工智能强化学习 RLHF ppo算法年中技术盘点

https://static001.geekbang.org/infoq/d9/d9d59535db6237eaa41836e3ea8df5d8.png?x-oss-process=image%2Fresize%2Cw_416%2Ch_234

强化学习从基础到进阶 - 常见问题和面试必知必答 [8]：近端策略优化（proximal policy optimization，PPO）算法

汀丶人工智能

2023-06-28

强化学习从基础到进阶-常见问题和面试必知必答[8]：近端策略优化（proximal policy optimization，PPO）算法

人工智能深度学习强化学习 6 月优质更文活动 ppo算法

1

热门活动

优质合集

精选文章