强化学习:有限马尔科夫决策过程
本文是reinforcement learning:An introduction书第三章的翻译.
在本章中我们将介绍有限马尔科夫决策过程形式的问题(finite MDPs),本书的剩余部分都将解决此类问题.该问题包括可评估的反馈,就像和bandits问题一样,但是同时也有一个相关性的方面-在不同的情形下选择不同的行为.MDPs是序列决策问题的一种经典的形式.行为不光影响立即的回报,同时影响接下去的状态.因此,MDPs包括未来的奖励并且需要权衡立即的奖励与未来的奖励.在bandit问题中,我们估计每个行为
在MDPs中我们估计在
MDPs是强化学习的一个数学理想化形式,能够用精确的理论性语句描述.我们介绍强化学习问题的数学结构中的关键问题,例如回报,值函数,贝尔曼方程.我们努力将很大范围的实际问题用MDPs来表示.在人工智能中,算法应用的广度和数学溯源性之间有着一定的张力.在这一章中,我们将介绍这个张力,并且讨论算法实现的挑战和平衡点.
3.1 agent-environment接口
3.2 目标和奖励
在强化学习中,agent的目标被正式化定义为一个特殊的信号,称为奖励(Reward),从environment传递给agent.在每个time step,奖励是一个实属.不正式得讲,agent的目标是为了最大化所有它收到的回报之和.这意味着最大化的不是立即奖励,而是长期的累计奖励.我们可以清楚地表述这个非正式的想法作为奖励假设:
3.3 回报和Episodes
至此,我们讨论了强化学习的目标.agent的目标是为了最大化它在长期的过程中接收到的累计奖励.如何正式地定义? 如果在time step t以后接收到的奖励序列可以表示为
3.5 策略与值函数
3.6 策略的优化与值函数的优化
3.7 优化和近似
3.8 总结
- 标题: 强化学习:有限马尔科夫决策过程
- 作者: Oliver xu
- 创建于 : 2019-04-14 15:47:31
- 更新于 : 2024-12-21 21:05:39
- 链接: https://blog.oliverxu.cn/2019/04/14/强化学习:有限马尔科夫决策过程/
- 版权声明: 本文章采用 CC BY-NC-SA 4.0 进行许可。