写点什么

Qlearning

0 人感兴趣 · 2 次引用

  • 最新
  • 推荐
https://static001.geekbang.org/infoq/d9/d9d59535db6237eaa41836e3ea8df5d8.png?x-oss-process=image%2Fresize%2Cw_416%2Ch_234

强化学习从基础到进阶 - 常见问题和面试必知必答 [3]:表格型方法:Sarsa、Qlearning;蒙特卡洛策略、时序差分等以及 Qlearning 项目实战

概率函数和奖励函数:概率函数定量地表达状态转移的概率,其可以表现环境的随机性。但是实际上,我们经常处于一个未知的环境中,即概率函数和奖励函数是未知的。

https://static001.geekbang.org/infoq/e8/e86ce3b42146da210874fdd0a6cdc634.jpeg?x-oss-process=image%2Fresize%2Cw_416%2Ch_234

强化学习从基础到进阶 - 案例与实践 [3]:表格型方法:Sarsa、Qlearning;蒙特卡洛策略、时序差分等以及 Qlearning 项目实战

策略最简单的表示是查找表(look-up table),即表格型策略(tabular policy)。使用查找表的强化学习方法称为表格型方法(tabular method),如蒙特卡洛、Q学习和Sarsa。本章通过最简单的表格型方法来讲解如何使用基于价值的方法求解强化学习问题。

Qlearning_Qlearning技术文章_InfoQ写作社区