强化学习:有限马尔科夫决策过程

本文是reinforcement learning:An introduction书第三章的翻译.

在本章中我们将介绍有限马尔科夫决策过程形式的问题(finite MDPs),本书的剩余部分都将解决此类问题.该问题包括可评估的反馈,就像和bandits问题一样,但是同时也有一个相关性的方面-在不同的情形下选择不同的行为.MDPs是序列决策问题的一种经典的形式.行为不光影响立即的回报,同时影响接下去的状态.因此,MDPs包括未来的奖励并且需要权衡立即的奖励与未来的奖励.在bandit问题中,我们估计每个行为$a$的值$q_*(a)$.

在MDPs中我们估计在$s$状态下,在$a$行为的条件下的值$q_*(s,a)$.