记录一下已经被录用的两篇文章的投稿过程的时间节点,给需要的人参考一下
2021年12月12日补充第三篇投稿的信息
从2021年3月份开始,在健身房泡了几个月,中间由于生病等问题,差不多总共休息了2到3个月左右的时间,对于这几个月的成果进行一下总结,也希望有大佬能够指点指点我,促使我进步更快,或者纠正我训练中的问题。
最近在看《Guided policy search》这篇文章,其中,用到了Importance Sampling,KL divergence等技术,虽然这些之前都用过,但是没有系统的整理过一些文档出来,《Guided policy search》这篇文章是13年的,但是TRPO和PPO等一些算法用到的技术,在这篇文章里基本都有用到了。初步感觉这篇文章还是比较经典的。
2021年8月5日更新:由于时间安排冲突和疫情防控原因,几个小伙伴凑不到一块,只能搁置了,不过将来肯定会来填坑!
PR是一款比较流行的视频剪辑软件,不同平台的性能会有很大的区别。本人的工作环境是一台Linux主机,上面装着vmware虚拟机,Pr装在这个虚拟机里,同时还有一台2021 Mac mini M1,主要对比一下这两个平台的性能测试(导出视频),测试纯属娱乐,没有那么专业,看看就好,不过对于该场景下的用户应该还是会有一定的参考意义。
所以:对比的是:虚拟机windows10 VS Mac mini M1
Model-based reinforcement learning和model-free reinforcement learning很难区分和界定,这篇文章记录一下几片关于model-based的文献,对于这几年做的强化学习做一个总结。
参考文献:
《Model-based Reinforcement Learning: A Survey》
读后总结:这篇文章写的不清不楚,没有啥干货,讲的太浅显了。
搞了很久的ADP(Adaptive dynamic programming),但是,仿真总是会出现一些问题,因为从我个人的理解来看,很多ADP文章其实都是局部且异步的PI或者VI算法。根据《Reinforcement Learning: An Introduction》书中所介绍的方法,PI和VI都是对于离散的状态空间来说的。如果对于具有连续的状态空间的问题来说,需要采用近似的算法来拟合其值函数。本文是对多篇ADP文章进行的总结和仿真。主要包括:
上海交通大学有一个硕士博士学位论文系统,里面有所有的硕士博士学位论文,但是由于其网站速度非常慢(论文拆分成一张一张图片),经常打开的时候挂了,严重影响体验。所以写了这么一个批量下载某个专业所有硕士或者博士学位论文的小工具。
去年上《学术英语》课程的时候学过了科研语料库的使用,但当时没咋写论文,所以实际操作体验效果不明显,但是最近在润色之前写的一篇论文,又想到了这个语料库的使用,于是用了一下,发现效果还不错,本博客记录一下语料库的使用。同时,给出制作语料库的Python脚本。