复习了一下Sutton书中的第四章,动态规划,整理一下。
动态规划算法是所有强化学习算法的基础,所有强化学习算法都可以看作是为了得到和动态规划相同的效果,同时减少计算量和对环境模型的依赖。
这一章节主要分为三部分:策略评估,策略改进,策略迭代。
策略评估:对于一个给定的策略下,迭代地计算策略的价值函数。
策略改进:根据一个旧的策略的值函数,计算一个改进的策略。
将这两种方法结合起来,可以得到策略迭代算法和价值迭代算法。
复习了一下Sutton书中的第四章,动态规划,整理一下。
动态规划算法是所有强化学习算法的基础,所有强化学习算法都可以看作是为了得到和动态规划相同的效果,同时减少计算量和对环境模型的依赖。
这一章节主要分为三部分:策略评估,策略改进,策略迭代。
策略评估:对于一个给定的策略下,迭代地计算策略的价值函数。
策略改进:根据一个旧的策略的值函数,计算一个改进的策略。
将这两种方法结合起来,可以得到策略迭代算法和价值迭代算法。
今天装了用虚拟机装了一台软路由,总结两个字:真香
Pytorch有非常多的函数,这篇文章长期更新,记录使用到的函数。
官方文档:https://pytorch.org/docs/stable/distributions.html
CLASS torch.distributions.categorical.Categorical(probs=None, logits=None, validate_args=None)
作用:创建一个以probs为参数的类别分布。
采样的样本是
如果probs是一维的,那么就是对对应的index进行采样。
如果probs是二维的,那么相当于对一批一维的数组进行采样。
上次读PEP8还是很多年前的事情了,现在重新读一下,看看有没有新的收获
本文档给出了构成主要Python发行版中标准库的Python代码的编码约定。
很多项目有自己的编码规定,优先权更高。
实验室有一台I7-3770,32GB内存的服务器,虽然没有显卡,但是用来作为编译机器还是可以的,所以装了一个Proxmox系统来进行管理,可以很方便的开虚拟机,实验室的小伙伴能一起使用了。
本文是对《Policy Gradient Adaptive Dynamic Programming for Data-Based Optimal Control》文章的整理归纳
期刊:《IEEE TRANSACTIONS ON CYBERNETICS》2019影响因子:11.079
这篇文章考虑了离散时间非线性系统的无模型的最优控制问题,提出了一个基于数据的策略梯度自适应动态规划算法(PGADP),使用离线和在线的数据而不是数学模型,使用梯度下降方法来改进策略,这篇文章还证明了PGADP算法的收敛性。
最优控制问题一般需要求解一个复杂的Hamilton-Jacobi-Bellman equation,对于非线性系统,很难求出解析解,用ADP求解该方程在近年来取得了较大的成果。
主要分为三大类:
本文是对Sutton的《Reinforcement learning An introduction》书中第13章Policy Gradient Methods部分的总结,主要包括Policy Gradient方法的离散时间情形下的公式推导,REINFORCE算法,REINFORCE with Baseline算法,Short Corridor with switched actions环境下的仿真。
和PG算法相对应的是基于action-value的方法,这些方法学习动作的价值然后根据这些价值的大小选择行为,但是对于PG算法来说,直接学习一个参数化的策略,该策略的输入是状态,输出是动作,策略可以直接选择动作而不是依据价值函数进行判断,用
策略参数的学习需要基于某种性能度量
其中,
本文主要是对文章《A Survey of Deep Learning Applications to Autonomous Vehicle Control》的整理
期刊:IEEE TRANSACTIONS ON INTELLIGENT TRANSPORTATION SYSTEMS
影响因子:6.3
对于自动驾驶,设计一个满足所有驾驶场景的控制器是一个非常大的挑战因为真实的环境非常复杂且很多场景没有办法去测试。然而,深度学习方法展现出了很好的前景,对于复杂和非线性控制问题,它不光有非常好的性能,而且学习出来的规则很容易迁移到另一个新的场景中。这篇论文对近年来所有用深度学习方法解决自动驾驶问题的文献做了综述,自动驾驶涉及了多学科的内容和方法,该文主要综述控制问题而非感知问题。分析了优缺点,给出了存在的挑战。
基金推荐与投资记录系统:如何成为一名合格的韭菜!
基金相比于股票,收益要更加稳定,不需要过多专业知识且无需花自己大量的时间去盯盘,适合有一些闲钱却又不会投资的人进行投资。
今年2月份以来我开始投资基金,使用支付宝进行购买。
在投资的过程中,我发现了几个问题:
2019年3月份看到了有人安利Manjaro,装电脑上用了一年,分享一下使用一年的感受。
先说结论,我上个月换回了Ubuntu。