写点什么

A3C算法

0 人感兴趣 · 1 次引用

  • 最新
  • 推荐
https://static001.geekbang.org/infoq/d9/d9d59535db6237eaa41836e3ea8df5d8.png?x-oss-process=image%2Fresize%2Cw_416%2Ch_234

强化学习从基础到进阶 - 案例与实践 [6]:演员 - 评论员算法(advantage actor-critic,A2C),异步 A2C、与生成对抗网络的联系等详解

在REINFORCE算法中,每次需要根据一个策略采集一条完整的轨迹,并计算这条轨迹上的回报。这种采样方式的方差比较大,学习效率也比较低。我们可以借鉴时序差分学习的思想,使用动态规划方法来提高采样效率,即从状态 开始的总回报可以通过当前动作的即时奖励

A3C算法_A3C算法技术文章_InfoQ写作社区