0%

最近写了一篇强化学习用于供水管网的论文,算法的训练过程中用到了Tensorboard(stable-baselines提供了tansorboard的接口)来可视化训练数据,但是,tensorboard的图直接放入到论文中会显得很难看,包括xlabel和ylabel需要重新定义,图片的风格需要修改等等操作直接在tensorboard中很难操作,需要将这些数据导出来,然后使用matplotlib和seaboarn来进行plot,这篇博客记录一下如何将tensorboard中的数据进行导出并画图。

阅读全文 »

背景需求:

办公室用的TP-Link WDR7660路由器,有公网IP,所以可以设置端口映射,但是由于局域网中的设备较多,需要映射的端口超过了TP-Link的限制(TP-Link默认只能16个端口)需要做一个端口中转服务器

阅读全文 »

在使用gitalk的时候,遇到了点击初始化gitalk后跳转到首页的问题,经过搜索和试验后发现:新建的文章文件名不能有中文,否则无法编码和转码。

参考

需求

本人的开发环境:代码的运行环境一般都是远程主机,本地使用一台台式机或者使用笔记本来进行远程开发,开发环境使用visual studio code,但是,由于是远程,对于输出一些结果图片,比如用到matplotlib之类的库,不是很方便。

后来了解到visual studio code具有一些插件:remote ssh,remote x11等可以转发x11。记录一下远程转发x11的过程。

阅读全文 »

需求

网上很多人使用github action,借助github的服务器来进行博客的推送,但是,当你博客文章数量较多,且使用了国内的CDN,例如本博客使用了阿里云CDN,本站的解析是国外IP访问的是github仓库的网站,国内用户访问的是阿里云CDN的节点,在使用github action的时候,发现推送速度非常慢,原因是github的服务器在国外,往阿里云服务器推送的时候速度很慢。所以,每次更新博客,往往需要10分钟的时间才能推送好。这是不能忍受的。。。

阅读全文 »

背景及环境

实验室服务器,装的Proxmox虚拟机,我开了一台LXC,系统是Debian10,上面搭建了强化学习的环境,我11日晚上将它映射到路由器的公网IP上了,端口是22

12号凌晨03:25,被黑了,我是在13号早上,发现服务器的htop显示着所有的CPU的核心都是满载,但是我并没有跑什么程序,想着应该是被入侵了,打开SSH尝试连接,发现果然连不上去了。

阅读全文 »

论文:

[1] Schulman, J., Levine, S., Moritz, P., Jordan, M. I. & Abbeel, P. Trust Region Policy Optimization. arXiv:1502.05477 [cs] (2017).

[2] Schulman, J., Wolski, F., Dhariwal, P., Radford, A. & Klimov, O. Proximal Policy Optimization Algorithms. arXiv:1707.06347 [cs] (2017).

[3] Heess, N. et al. Emergence of Locomotion Behaviours in Rich Environments. arXiv:1707.02286 [cs] (2017).

第一、二篇是openai的,第三篇是deepmind的

Trust Region Policy Optimization算法是在2015年由UCB/Openai的John Schulman提出的,基本思想就是在传统的Policy Gradient算法中对梯度的更新增加一个信赖域,来保证梯度更新前后的策略相差不超过一定的阈值,用两个概率分布的KL散度来衡量这个阈值,TRPO算法的表达形式中有一个硬约束,这给求解最优问题带来了困难,而PPO则是在2017年由UCB/Openai的John Schulman提出的,是TRPO的近似算法,将TRPO的软约束转化成目标函数中的一个惩罚项,以此来简化计算,方便实现。

阅读全文 »

论文《Policy Iteration Adaptive Dynamic Programming Algorithm for Discrete-Time Nonlinear Systems》

这几天读了ADP相关的几篇论文,早期08年-14年都是用Policy Iteration方法进行求解,14-18年,Policy Gradient方法多了起来。

阅读全文 »

非线性系统的最优控制器论文整理

仿射非线性系统:

Al-Tamimi, A., Lewis, F. L. & Abu-Khalaf, M. Discrete-Time Nonlinear HJB Solution Using Approximate Dynamic Programming: Convergence Proof. IEEE Trans. Syst., Man, Cybern. B 38, 943–949 (2008).

这篇文章的主要贡献是给出了使用值迭代的启发式算法求解仿射非线性系统的收敛性的证明

阅读全文 »