强化学习:有限马尔科夫决策过程

本文是reinforcement learning:An introduction书第三章的翻译.

在本章中我们将介绍有限马尔科夫决策过程形式的问题(finite MDPs),本书的剩余部分都将解决此类问题.该问题包括可评估的反馈,就像和bandits问题一样,但是同时也有一个相关性的方面-在不同的情形下选择不同的行为.MDPs是序列决策问题的一种经典的形式.行为不光影响立即的回报,同时影响接下去的状态.因此,MDPs包括未来的奖励并且需要权衡立即的奖励与未来的奖励.在bandit问题中,我们估计每个行为$a$的值$q_*(a)$.

在MDPs中我们估计在$s$状态下,在$a$行为的条件下的值$q_*(s,a)$.

MDPs是强化学习的一个数学理想化形式,能够用精确的理论性语句描述.我们介绍强化学习问题的数学结构中的关键问题,例如回报,值函数,贝尔曼方程.我们努力将很大范围的实际问题用MDPs来表示.在人工智能中,算法应用的广度和数学溯源性之间有着一定的张力.在这一章中,我们将介绍这个张力,并且讨论算法实现的挑战和平衡点.

3.1 agent-environment接口

$$S_0, A_0, R_1, S_1, A_1, R_2, S_2, A_2, R_3,…$$

$$P(s\prime,r|s,a) = Pr{S_t=s\prime,R_t=r|S_{t-1}=s,A_{t-1}=a}$$

3.2 目标和奖励

在强化学习中,agent的目标被正式化定义为一个特殊的信号,称为奖励(Reward),从environment传递给agent.在每个time step,奖励是一个实属.不正式得讲,agent的目标是为了最大化所有它收到的回报之和.这意味着最大化的不是立即奖励,而是长期的累计奖励.我们可以清楚地表述这个非正式的想法作为奖励假设:

3.3 回报和Episodes

至此,我们讨论了强化学习的目标.agent的目标是为了最大化它在长期的过程中接收到的累计奖励.如何正式地定义? 如果在time step t以后接收到的奖励序列可以表示为$R_{t+1},R_{t+2},R_{t+3},…$,我们希望最大化这个序列的哪个方面.通常,我们将要最大化期望回报,用$G_t$来表示,定义为奖励序列的一些特定函数,在最简单的情况下,回报是奖励的总和: $$G_t = R_{t+1}+R_{t+2}+R_{t+3}+…+R_{T}$$ 其中,$T$是最后一个时刻.

3.4 Episodes任务与连续任务的统一的记号

在之前的一小节中,我们介绍了两种强化学习任务,一种是

3.5 策略与值函数

3.6 策略的优化与值函数的优化

3.7 优化和近似

3.8 总结

评论