0%

2021年8月5日更新:由于时间安排冲突和疫情防控原因,几个小伙伴凑不到一块,只能搁置了,不过将来肯定会来填坑!

阅读全文 »

PR是一款比较流行的视频剪辑软件,不同平台的性能会有很大的区别。本人的工作环境是一台Linux主机,上面装着vmware虚拟机,Pr装在这个虚拟机里,同时还有一台2021 Mac mini M1,主要对比一下这两个平台的性能测试(导出视频),测试纯属娱乐,没有那么专业,看看就好,不过对于该场景下的用户应该还是会有一定的参考意义。

所以:对比的是:虚拟机windows10 VS Mac mini M1

阅读全文 »

Model-based reinforcement learning和model-free reinforcement learning很难区分和界定,这篇文章记录一下几片关于model-based的文献,对于这几年做的强化学习做一个总结。

参考文献:

《Model-based Reinforcement Learning: A Survey》

读后总结:这篇文章写的不清不楚,没有啥干货,讲的太浅显了。

阅读全文 »

搞了很久的ADP(Adaptive dynamic programming),但是,仿真总是会出现一些问题,因为从我个人的理解来看,很多ADP文章其实都是局部且异步的PI或者VI算法。根据《Reinforcement Learning: An Introduction》书中所介绍的方法,PI和VI都是对于离散的状态空间来说的。如果对于具有连续的状态空间的问题来说,需要采用近似的算法来拟合其值函数。本文是对多篇ADP文章进行的总结和仿真。主要包括:

  1. 《Nearly optimal control laws for nonlinear systems with saturating actuators using a neural network HJB approach》2004年
  2. 《Discrete-Time Nonlinear HJB Solution Using Approximate Dynamic Programming: Convergence Proof》2008年
  3. 《Policy Iteration Adaptive Dynamic Programming Algorithm for Discrete-Time Nonlinear Systems》2014年
  4. 《Discrete-Time Local Value Iteration Adaptive Dynamic Programming: Convergence Analysis》2018年
阅读全文 »

上海交通大学有一个硕士博士学位论文系统,里面有所有的硕士博士学位论文,但是由于其网站速度非常慢(论文拆分成一张一张图片),经常打开的时候挂了,严重影响体验。所以写了这么一个批量下载某个专业所有硕士或者博士学位论文的小工具。

阅读全文 »

去年上《学术英语》课程的时候学过了科研语料库的使用,但当时没咋写论文,所以实际操作体验效果不明显,但是最近在润色之前写的一篇论文,又想到了这个语料库的使用,于是用了一下,发现效果还不错,本博客记录一下语料库的使用。同时,给出制作语料库的Python脚本。

阅读全文 »

本文主要是对《Learning-Based model predictive control: Toward Safe Learning in Control》文章中Section5中所引用的文章的笔记和理解,以及safe reinforcement learning一个简单的综述和分析。

介绍safe reinforcement learning不同的思路和方法(以2021TAC文章为例)

综述文章《Learning-based model predictive control: Toward Safe Learning in Control》,文中主要对三个方向进行阐述和介绍:1. learning the system dynamics 2. Learning the controller design 3. MPC for safe learning. 其中,前两个都是很常规的操作,对于第三个,结合当前很火的safe reinforcement learning,文中列举了几个工作。这篇文章主要是ETH的实验室的人做的工作,其引用了很多自己实验室的工作。

通常基于学习的控制算法,例如强化学习,已经在高维度的控制问题中取得了巨大进展,但是由于系统物理约束的存在,大部分的工作都不能保证安全性,尤其是在迭代学习的过程中,为了解决这个问题,2011年的一篇文章《Guaranteed safe online learning of a bounded system》提出了一个安全性框架,通过在必要的时候使用一个基于模型的控制器来进行控制,否则使用一个基于学习的控制器进行控制,来最优化损失函数。

阅读全文 »

最近在准备拟定自己的研究方向及资格考试答辩,然而,看了很多,发现实在太难确定方向了,旁人都建议说边做边找,做的过程中慢慢再挖掘并补充,且自己以前的确看的太多太杂了(虽然也是不得已而为之),现在已经是第二年快结束了,该定下来研究方向了,遂不再继续广泛挖掘,直接专注于某一个具体的小点进行深入研究。和实验室师兄一起解决SMPC的问题,这周先整理下MPC相关的笔记和理解。

阅读全文 »

《Input Convex Neural Networks》

《Optimal Control Via Neural Networks: A Convex Approach》

对于复杂系统的控制往往分为两步,对系统的辨识和控制器的设计。 深度神经网络被证明在辨识任务中取得了重大成功,但是,由于这些辨识出来的系统往往是非线性和非凸的,其控制器很难设计,所以,实际系统往往还是用线性模型去逼近,尽管这些线性模型的拟合能力很弱,因此,往往设计出来的控制器的性能都不行。

这两篇文章,主要提出了ICNN及其改进网络结构,ICNN的特点就是对于输入是凸的,第一篇文章主要提出了ICNN这一网络结构,通过将神经网络的前向通道中的权重设置为非负值,这一简单的改变,就可以将神经网络变为输入凸的,且该网络的拟合能力并为受到较大的影响。

这篇文章主要完成3点:

  1. 复现ICNN,原版的ICNN是用tensorflow写的,代码不全,且使用了较老的库版本,运行不了,在此采用pytorch进行复现出一个通用程序。
  2. 对于一个给定的函数:\(y=3x_1^2+4x_2^2\),利用普通的DNN,和ICNN进行对比,验证ICNN的拟合能力(验证的过程使用相同的网络层数,每层的节点数,学习率等参数)。
  3. 对于《Input Convex Neural Networks》中的simulation中的synthetic 2D example和《Optimal Control Via Neural Networks: A Convex Approach》中的APPENDIX中的Toy Example分别进行复现及仿真验证。
阅读全文 »

上一篇博客中,科研论文常用句式语法汇总整理,每天将所看论文中的优秀的语句进行摘录整理,经过一个月的使用(其实也就不到一周,中间春节没有学习),感觉也还是有点不得劲,所以,这篇博客是对论文的各部分的段落进行整理,翻译成中文,最好能背诵下来(笨办法,先试试看,毕竟身边没人教我hhhh)。

这篇博客将长期更新,分为5个部分,包括abstract, Introduction, method, simulation, conclusion,争取做到每天更新,每天看一篇论文,在学习其内容的同时,摘录其优秀的整段文字,并进行分类整理。

每天整理并背诵一段话。

阅读全文 »