Oliver xu's Blog

强化学习之动态规划
复习了一下Sutton书中的第四章，动态规划，整理一下。
动态规划算法是所有强化学习算法的基础，所有强化学习算法都可以看作是为了得到和动态规划相同的效果，同时减少计算量和对环境模型的依赖。
这一章节主要分为三部分：策略评估，策略改进，策略迭代。
策略评估：对于一个给定的策略下，迭代地计算策略的价值函数。
策略改进：根据一个旧的策略的值函数，计算一个改进的策略。
将这两种方法结合起来，可以得到策略迭代算法和价值迭代算法。
2020-08-19
Reinforcement Learning
Reinforcement Learning
阅读全文强化学习之动态规划
软路由
今天装了用虚拟机装了一台软路由，总结两个字：真香
2020-08-17
Linux
Linux
阅读全文软路由
Pytorch使用笔记
Pytorch有非常多的函数，这篇文章长期更新，记录使用到的函数。
参考资源：
1. Pytorch cheat sheet
Categorical
官方文档：https://pytorch.org/docs/stable/distributions.html
CLASS torch.distributions.categorical.Categorical(probs=None, logits=None, validate_args=None)
作用：创建一个以probs为参数的类别分布。
采样的样本是个整数，其中，是probs的长度。
如果probs是一维的，那么就是对对应的index进行采样。
如果probs是二维的，那么相当于对一批一维的数组进行采样。
2020-08-14
python
python
阅读全文Pytorch使用笔记
再读PEP8
上次读PEP8还是很多年前的事情了，现在重新读一下，看看有没有新的收获
简介
本文档给出了构成主要Python发行版中标准库的Python代码的编码约定。
很多项目有自己的编码规定，优先权更高。
- 代码的可读性非常重要
- 代码规范可以在项目中获得一致性
2020-08-13
python
python
阅读全文再读PEP8
实验室服务器安装Proxmox
实验室有一台I7-3770，32GB内存的服务器，虽然没有显卡，但是用来作为编译机器还是可以的，所以装了一个Proxmox系统来进行管理，可以很方便的开虚拟机，实验室的小伙伴能一起使用了。
2020-08-08
Linux
Linux
阅读全文实验室服务器安装Proxmox
PGADP数据驱动的优化控制
本文是对《Policy Gradient Adaptive Dynamic Programming for Data-Based Optimal Control》文章的整理归纳
期刊：《IEEE TRANSACTIONS ON CYBERNETICS》2019影响因子：11.079
这篇文章考虑了离散时间非线性系统的无模型的最优控制问题，提出了一个基于数据的策略梯度自适应动态规划算法（PGADP），使用离线和在线的数据而不是数学模型，使用梯度下降方法来改进策略，这篇文章还证明了PGADP算法的收敛性。
简介
最优控制问题一般需要求解一个复杂的Hamilton-Jacobi-Bellman equation，对于非线性系统，很难求出解析解，用ADP求解该方程在近年来取得了较大的成果。
主要分为三大类：
- model based：用ADP来近似求解HJBE
- partially model based：既用模型也用数据
- model free：模型未知，完全从数据中学习控制策略
2020-08-02
Reinforcement Learning
Reinforcement Learning
阅读全文PGADP数据驱动的优化控制
PolicyGradient公式推导
本文是对Sutton的《Reinforcement learning An introduction》书中第13章Policy Gradient Methods部分的总结，主要包括Policy Gradient方法的离散时间情形下的公式推导，REINFORCE算法，REINFORCE with Baseline算法，Short Corridor with switched actions环境下的仿真。
Policy Gradient
和PG算法相对应的是基于action-value的方法，这些方法学习动作的价值然后根据这些价值的大小选择行为，但是对于PG算法来说，直接学习一个参数化的策略，该策略的输入是状态，输出是动作，策略可以直接选择动作而不是依据价值函数进行判断，用来表示策略的参数，可以将需要学习的策略写成：，意思是在t时刻，当agent处于状态，选择动作的概率，PG算法的目标就是求这个。
策略参数的学习需要基于某种性能度量的梯度，PG方法的目标是最大化性能指标，所以它们的更新近似于的梯度上升：
其中，是一个随机估计，它的期望是性能指标对它的参数的梯度的近似。所有符合这个框架的算法都是策略梯度方法。
2020-08-01
Reinforcement Learning
Reinforcement Learning
阅读全文PolicyGradient公式推导
深度学习在无人驾驶中的应用
本文主要是对文章《A Survey of Deep Learning Applications to Autonomous Vehicle Control》的整理
期刊：IEEE TRANSACTIONS ON INTELLIGENT TRANSPORTATION SYSTEMS
影响因子：6.3
对于自动驾驶，设计一个满足所有驾驶场景的控制器是一个非常大的挑战因为真实的环境非常复杂且很多场景没有办法去测试。然而，深度学习方法展现出了很好的前景，对于复杂和非线性控制问题，它不光有非常好的性能，而且学习出来的规则很容易迁移到另一个新的场景中。这篇论文对近年来所有用深度学习方法解决自动驾驶问题的文献做了综述，自动驾驶涉及了多学科的内容和方法，该文主要综述控制问题而非感知问题。分析了优缺点，给出了存在的挑战。
2020-07-07
Deep Learning
Deep Learning
阅读全文深度学习在无人驾驶中的应用
基金投资管理系统
基金推荐与投资记录系统：如何成为一名合格的韭菜！
项目背景
基金相比于股票，收益要更加稳定，不需要过多专业知识且无需花自己大量的时间去盯盘，适合有一些闲钱却又不会投资的人进行投资。
今年2月份以来我开始投资基金，使用支付宝进行购买。
在投资的过程中，我发现了几个问题：
2020-06-29
fund
fund
阅读全文基金投资管理系统
Manjaro适合什么样的人
2019年3月份看到了有人安利Manjaro，装电脑上用了一年，分享一下使用一年的感受。
先说结论，我上个月换回了Ubuntu。
Manjaro的优点
1. 装软件非常方便，基本上各种软件在软件源中都能找到，并直接安装，而且安装的都是新版本。
2. 包括CUDA，显卡管理软件（忘记叫什么了，可以设置使用集显或独显或只用cuda）。
3. WIKI资料很丰富，出了问题可以直接查。
2020-06-28
阅读全文Manjaro适合什么样的人

1…3 456 7…10

参考资源：

Categorical

简介

简介

Policy Gradient

项目背景

Manjaro的优点