写点什么

马尔科夫决策

0 人感兴趣 · 2 次引用

  • 最新
  • 推荐
https://static001.geekbang.org/infoq/e8/e86ce3b42146da210874fdd0a6cdc634.jpeg?x-oss-process=image%2Fresize%2Cw_416%2Ch_234

强化学习从基础到进阶 - 案例与实践 [2]:马尔科夫决策、贝尔曼方程、动态规划、策略价值迭代

图 2.1 介绍了强化学习里面智能体与环境之间的交互,智能体得到环境的状态后,它会采取动作,并把这个采取的动作返还给环境。环境得到智能体的动作后,它会进入下一个状态,把下一个状态传给智能体。在强化学习中,智能体与环境就是这样进行交互的,这个交互

https://static001.geekbang.org/infoq/d9/d9d59535db6237eaa41836e3ea8df5d8.png?x-oss-process=image%2Fresize%2Cw_416%2Ch_234

强化学习从基础到进阶 - 常见问题和面试必知必答 [2]:马尔科夫决策、贝尔曼方程、动态规划、策略价值迭代

马尔可夫性质(Markov property,MP):如果某一个过程未来的状态与过去的状态无关,只由现在的状态决定,那么其具有马尔可夫性质。换句话说,一个状态的下一个状态只取决于它的当前状态,而与它当前状态之前的状态都没有关系。

马尔科夫决策_马尔科夫决策技术文章_InfoQ写作社区