强化学习:有限马尔科夫决策过程

Oliver xu

本文是reinforcement learning:An introduction书第三章的翻译.

在本章中我们将介绍有限马尔科夫决策过程形式的问题(finite MDPs),本书的剩余部分都将解决此类问题.该问题包括可评估的反馈,就像和bandits问题一样,但是同时也有一个相关性的方面-在不同的情形下选择不同的行为.MDPs是序列决策问题的一种经典的形式.行为不光影响立即的回报,同时影响接下去的状态.因此,MDPs包括未来的奖励并且需要权衡立即的奖励与未来的奖励.在bandit问题中,我们估计每个行为的值.

在MDPs中我们估计在状态下,在行为的条件下的值.

MDPs是强化学习的一个数学理想化形式,能够用精确的理论性语句描述.我们介绍强化学习问题的数学结构中的关键问题,例如回报,值函数,贝尔曼方程.我们努力将很大范围的实际问题用MDPs来表示.在人工智能中,算法应用的广度和数学溯源性之间有着一定的张力.在这一章中,我们将介绍这个张力,并且讨论算法实现的挑战和平衡点.

3.1 agent-environment接口

3.2 目标和奖励

在强化学习中,agent的目标被正式化定义为一个特殊的信号,称为奖励(Reward),从environment传递给agent.在每个time step,奖励是一个实属.不正式得讲,agent的目标是为了最大化所有它收到的回报之和.这意味着最大化的不是立即奖励,而是长期的累计奖励.我们可以清楚地表述这个非正式的想法作为奖励假设:

3.3 回报和Episodes

至此,我们讨论了强化学习的目标.agent的目标是为了最大化它在长期的过程中接收到的累计奖励.如何正式地定义? 如果在time step t以后接收到的奖励序列可以表示为,我们希望最大化这个序列的哪个方面.通常,我们将要最大化期望回报,用来表示,定义为奖励序列的一些特定函数,在最简单的情况下,回报是奖励的总和: 其中,是最后一个时刻. ## 3.4 Episodes任务与连续任务的统一的记号 在之前的一小节中,我们介绍了两种强化学习任务,一种是

3.5 策略与值函数

3.6 策略的优化与值函数的优化

3.7 优化和近似

3.8 总结

  • 标题: 强化学习:有限马尔科夫决策过程
  • 作者: Oliver xu
  • 创建于 : 2019-04-14 15:47:31
  • 更新于 : 2024-11-20 21:07:04
  • 链接: https://blog.oliverxu.cn/2019/04/14/强化学习:有限马尔科夫决策过程/
  • 版权声明: 本文章采用 CC BY-NC-SA 4.0 进行许可。
评论