马尔科夫决策
0 人感兴趣 · 2 次引用
- 最新
- 推荐
强化学习从基础到进阶 - 案例与实践 [2]:马尔科夫决策、贝尔曼方程、动态规划、策略价值迭代
图 2.1 介绍了强化学习里面智能体与环境之间的交互,智能体得到环境的状态后,它会采取动作,并把这个采取的动作返还给环境。环境得到智能体的动作后,它会进入下一个状态,把下一个状态传给智能体。在强化学习中,智能体与环境就是这样进行交互的,这个交互
强化学习从基础到进阶 - 常见问题和面试必知必答 [2]:马尔科夫决策、贝尔曼方程、动态规划、策略价值迭代
马尔可夫性质(Markov property,MP):如果某一个过程未来的状态与过去的状态无关,只由现在的状态决定,那么其具有马尔可夫性质。换句话说,一个状态的下一个状态只取决于它的当前状态,而与它当前状态之前的状态都没有关系。