使用强化学习求解鲁棒控制器

问题背景

不确定动态系统的鲁棒控制近年来受到了控制界的广泛关注[1]，对于很多场景，例如化学过程，电力系统，机器人和航天工程中，被控系统往往不能够得到精确的数学模型或被控系统存在不确定性，因此获得系统的鲁棒性能对系统的精准控制起着重要作用。

鲁棒稳定性和最优控制器的设计具有一定的关系[2]，求解鲁棒控制器在某些条件下可以转化为求解一个最优控制器的问题，对于离散时间线性系统来说，求解最优控制器，就是求解代数Riccatic方程，对于非线性系统，就是求解HJB方程。然而，对于一般的非线性系统，HJB方程的解析解可能不存在，通常，使用迭代的算法进行求解，可以采用ADP（approximate dynamic programming）的方法进行求解。

近些年，强化学习在解决不确定环境下的决策问题上取得了巨大的成功[3]，通常，强化学习算法可以分为on-policy和off-policy两类算法，on-policy算法将每次迭代后的策略运用到被控对象上，而off-policy优化的策略和与环境交互的策略不一定是一个策略，即策略的更新可以在多步迭代以后。

目前，对于不确定性离散时间线性系统的鲁棒控制问题，已经有一些团队采用强化学习方法，在系统动力学信息完全未知或部分未知的情况下，使用自适应动态规划的算法，对贝尔曼方程进行求解。

本文章对使用强化学习求解线性离散时间不确定性鲁棒控制器的问题进行综述。

问题描述

含有不确定性的离散时间非线性系统可以用如下表示：

其中，系统状态，控制输入，漂移动态，输入动态，是不确定性参数，限制于一个有限集合，系统状态矩阵包含标称部分和不确定部分，对应的标称系统可以表示为

设，鲁棒控制问题可以描述成以下形式：

对于闭环系统，找到一个状态反馈控制律，对于任意的，使得系统渐近稳定。

反馈增益可以采用ARE方法进行设计，通过使用一个附属系统：

可以将求解鲁棒控制器问题转化为求解一个最优控制问题，即：找到状态反馈控制器, ，使得以下附属系统的代价函数最小：

为了简化表示，代价函数中的第项可以表示成：

使用ARE方程求解鲁棒控制器

假设存在一个正定矩阵，满足以下ARE：

其中，，贝尔曼方程迭代形式可以表示为：

定义哈密尔顿函数：

价值函数可以表示成：

基于文献[4]：

最优控制器的必要条件是：

考虑哈密尔顿函数和二次型代价函数，上式可以写成：

令：

那么和可以表示成：

且和满足：

可以求出：

基于文献[5]：

ARE的解可以表示成意外一种形式：

系统稳定性的正面见文献[6]：使用ARE的条件是系统的动态参数已知。

基于模型的on-policy强化学习算法

不加探测噪声

on-policy策略迭代的方法从一个初始的和，在第次迭代中，策略和可以通过求解以下的贝尔曼方程：

边界条件为：，其中，，控制律可以通过迭代进行更新：

写成和的迭代公式为：

当时，算法可以保证稳定，此时，，，，证明过程可以参考文献[]7]。

和可以看作是第次迭代的近似。而$u^{i+1}(x_{k}) $和$ v^{{i+1}(x_{k}) $是由$ V}{i}(x_{k}) $获得，其是$ u^{{i}(x_{k}) $和$ v}{i}(x_{k}) $的代价函数，因此，在每次迭代时，更新的控制策略需要应用到系统中，然后价值函数$ V^{i}(x_{k})$才会有变化，这就是on-policy的体现。

加入探测噪声

强化学习算法中的"expoloration"和"exploitation"是一对权衡的策略，且对算法的效果有着重要的影响。持续激励的概念和ADP中的"exploration"有着密切的关系，能够保证学习的参数收敛到最优值。

在算法1中的策略迭代步骤中，on-policy贝尔曼方程可以写成：

其中，有个独立变量，上式是一个最小平方方程。为了确保上式在迭代的过程中存在可行解，需要引入持续激励，根据参考文献【39】的定义：

若存在和，使得：，则称一个有界的信号向量是持续激励的。

为了满足持续激励的条件，需要在控制输入中添加一个探测噪声。因此，在第次迭代中，应用到控制系统的控制信号为：

得到加入探测噪声的on-policy的的贝尔曼方程：

相比于算法1，算法2不会生成和算法1同样的解。算法2对于探测噪声更加鲁棒，算法1限制了on-policy强化学习算法的"exploration"。

在使用算法1和算法2的时候，需要将更新的控制策略应用到系统中来更新代价函数，因此，on-policy是一个离线算法，同时在策略迭代的过程中，系统的动态(A, B, D)需要知道，因此，on-policy是一个基于模型的算法。为了避免离线计算的低效率等问题，介绍off-policy算法。

基于模型的off-policy强化学习算法

不加探测噪声

考虑对系统施加一个容许策略，则该系统可以重写为：

其中，，定义策略和是施加到系统上的控制策略，而和是用于迭代学习的迭代策略。

考虑代价函数：，应用泰勒展开式将二次型的代价函数展开：

将动态系统代入上式，可得：

同时满足离散时间Lyapunov方程：

其中，。将上式代入，可得off-policy贝尔曼方程：

将代入off-policy贝尔曼方程可得：

化简可得：

进一步化简可得和算法1相同的形式：

所以从意义上而言，算法1和算法3是等价的。

加入探测噪声

在控制策略施加探测噪声:

具有探测噪声的off-policy贝尔曼方程可以写成：

无模型的off-policy强化学习算法

通过使用Kronecker积，off-policy贝尔曼方程可以写为：

下面使用最小二乘法进行求解：

令：

其中，

对于系统运行时在线采集的数据可以表示为：

其中，

进而，代价函数的第项可以通过在线测量的数据表示成如下形式：

最后，Kronecker积可以改写成：

对于最小二乘法，需要最少个数据来进行求解，因此，对于系统，假设采集了个不同的数据，写作：

因此，最小二乘解为：

进而反馈增益和可以通过下式更新：

总结

对于离散时间线性系统的鲁棒控制器求解问题，目前学术届取得了相应的成果，大多数是结合自适应动态规划方法，利用贝尔曼最优性原理，借助神经网络（Neural Network）和最小二乘辨识（Least Square Identification）的方法进行逼近求解最优解。早期的研究中，多用策略迭代和值迭代等on-policy的迭代方法，但是由于其存在的种种问题，在近几年的研究中，出现了off-policy的方法，克服了on-policy离线计算的效率低等问题，最近几年出现了许多新的强化学习算法，如何将最新的强化学习算法运用到求解鲁棒控制值得进一步深入研究。

参考文献

[1] Wang, Ding, Haibo He, and Derong Liu. "Adaptive critic nonlinear robust control: A survey." IEEE transactions on cybernetics 47.10 (2017): 3429-3451.

[2] Lin, Feng. Robust control design: an optimal control approach. Vol. 18. John Wiley & Sons, 2007.

[3] Sutton, Richard S., and Andrew G. Barto. Reinforcement learning: An introduction. MIT press, 2018.

[4] Lewis, Frank L., Draguna Vrabie, and Vassilis L. Syrmos. Optimal control. John Wiley & Sons, 2012.

[5] Tripathy, Niladri Sekhar, I. N. Kar, and Kolin Paul. "Stabilization of uncertain discrete-time linear system with limited communication." IEEE Transactions on Automatic Control 62.9 (2016): 4727-4733.

[6] Yang, Yongliang, et al. "Data-driven robust control of discrete-time uncertain linear systems via off-policy reinforcement learning." IEEE transactions on neural networks and learning systems 30.12 (2019): 3735-3747.

[7] Liu, Derong, and Qinglai Wei. "Policy iteration adaptive dynamic programming algorithm for discrete-time nonlinear systems." IEEE Transactions on Neural Networks and Learning Systems 25.3 (2013): 621-634.

[8] Tao, Gang. Adaptive control design and analysis. Vol. 37. John Wiley & Sons, 2003.