0%

强化学习:有限马尔科夫决策过程

本文是reinforcement learning:An introduction书第三章的翻译.

在本章中我们将介绍有限马尔科夫决策过程形式的问题(finite MDPs),本书的剩余部分都将解决此类问题.该问题包括可评估的反馈,就像和bandits问题一样,但是同时也有一个相关性的方面-在不同的情形下选择不同的行为.MDPs是序列决策问题的一种经典的形式.行为不光影响立即的回报,同时影响接下去的状态.因此,MDPs包括未来的奖励并且需要权衡立即的奖励与未来的奖励.在bandit问题中,我们估计每个行为\(a\)的值\(q_*(a)\).

在MDPs中我们估计在\(s\)状态下,在\(a\)行为的条件下的值\(q_*(s,a)\).

MDPs是强化学习的一个数学理想化形式,能够用精确的理论性语句描述.我们介绍强化学习问题的数学结构中的关键问题,例如回报,值函数,贝尔曼方程.我们努力将很大范围的实际问题用MDPs来表示.在人工智能中,算法应用的广度和数学溯源性之间有着一定的张力.在这一章中,我们将介绍这个张力,并且讨论算法实现的挑战和平衡点.

3.1 agent-environment接口

\[S_0, A_0, R_1, S_1, A_1, R_2, S_2, A_2, R_3,...\]

\[P(s\prime,r|s,a) = Pr\{S_t=s\prime,R_t=r|S_{t-1}=s,A_{t-1}=a\}\]

3.2 目标和奖励

在强化学习中,agent的目标被正式化定义为一个特殊的信号,称为奖励(Reward),从environment传递给agent.在每个time step,奖励是一个实属.不正式得讲,agent的目标是为了最大化所有它收到的回报之和.这意味着最大化的不是立即奖励,而是长期的累计奖励.我们可以清楚地表述这个非正式的想法作为奖励假设:

3.3 回报和Episodes

至此,我们讨论了强化学习的目标.agent的目标是为了最大化它在长期的过程中接收到的累计奖励.如何正式地定义? 如果在time step t以后接收到的奖励序列可以表示为\(R_{t+1},R_{t+2},R_{t+3},...\),我们希望最大化这个序列的哪个方面.通常,我们将要最大化期望回报,用\(G_t\)来表示,定义为奖励序列的一些特定函数,在最简单的情况下,回报是奖励的总和: \[G_t = R_{t+1}+R_{t+2}+R_{t+3}+...+R_{T}\] 其中,\(T\)是最后一个时刻. ## 3.4 Episodes任务与连续任务的统一的记号 在之前的一小节中,我们介绍了两种强化学习任务,一种是

3.5 策略与值函数

3.6 策略的优化与值函数的优化

3.7 优化和近似

3.8 总结

If you like my blog, please donate for me.