强化学习：有限马尔科夫决策过程

本文是reinforcement learning:An introduction书第三章的翻译．

在本章中我们将介绍有限马尔科夫决策过程形式的问题（finite MDPs），本书的剩余部分都将解决此类问题．该问题包括可评估的反馈，就像和bandits问题一样，但是同时也有一个相关性的方面－在不同的情形下选择不同的行为．MDPs是序列决策问题的一种经典的形式．行为不光影响立即的回报，同时影响接下去的状态．因此，MDPs包括未来的奖励并且需要权衡立即的奖励与未来的奖励．在bandit问题中，我们估计每个行为的值.

在MDPs中我们估计在状态下，在行为的条件下的值.

MDPs是强化学习的一个数学理想化形式，能够用精确的理论性语句描述．我们介绍强化学习问题的数学结构中的关键问题，例如回报，值函数，贝尔曼方程．我们努力将很大范围的实际问题用MDPs来表示．在人工智能中，算法应用的广度和数学溯源性之间有着一定的张力．在这一章中，我们将介绍这个张力，并且讨论算法实现的挑战和平衡点．

3.1 agent-environment接口

3.2 目标和奖励

在强化学习中，agent的目标被正式化定义为一个特殊的信号，称为奖励(Reward)，从environment传递给agent．在每个time step，奖励是一个实属．不正式得讲，agent的目标是为了最大化所有它收到的回报之和．这意味着最大化的不是立即奖励，而是长期的累计奖励．我们可以清楚地表述这个非正式的想法作为奖励假设：

3.3 回报和Episodes

至此，我们讨论了强化学习的目标．agent的目标是为了最大化它在长期的过程中接收到的累计奖励．如何正式地定义？如果在time step t以后接收到的奖励序列可以表示为，我们希望最大化这个序列的哪个方面．通常，我们将要最大化期望回报，用来表示，定义为奖励序列的一些特定函数，在最简单的情况下，回报是奖励的总和：其中，是最后一个时刻． ## 3.4 Episodes任务与连续任务的统一的记号在之前的一小节中，我们介绍了两种强化学习任务，一种是

强化学习：有限马尔科夫决策过程

3.1 agent-environment接口

3.2 目标和奖励

3.3 回报和Episodes

3.5 策略与值函数

3.6 策略的优化与值函数的优化

3.7 优化和近似

3.8 总结