A3C算法_A3C算法技术文章_InfoQ写作社区

全部标签 



写点什么

登录注册

A3C算法

0 人感兴趣 · 1 次引用

关注

最新
推荐

https://static001.geekbang.org/infoq/d9/d9d59535db6237eaa41836e3ea8df5d8.png?x-oss-process=image%2Fresize%2Cw_416%2Ch_234

强化学习从基础到进阶 - 案例与实践 [6]：演员 - 评论员算法（advantage actor-critic，A2C），异步 A2C、与生成对抗网络的联系等详解

汀丶人工智能

06-26

在REINFORCE算法中，每次需要根据一个策略采集一条完整的轨迹，并计算这条轨迹上的回报。这种采样方式的方差比较大，学习效率也比较低。我们可以借鉴时序差分学习的思想，使用动态规划方法来提高采样效率，即从状态开始的总回报可以通过当前动作的即时奖励

人工智能深度学习强化学习 6 月优质更文活动 A3C算法

1

玩转社区

Q&A

优质合集

精选文章

企业号社区

行业技术资讯