浙江大学学报(工学版), 2023, 57(4): 693-701 doi: 10.3785/j.issn.1008-973X.2023.04.006

自动化技术、计算机技术

基于高斯回归学习的场景优化鲁棒预测控制

熊伟亮,, 何德峰,, 王秀丽, 周丹

浙江工业大学 信息工程学院,浙江 杭州 310012

Scenario optimization robust predictive control via Gaussian regression learning

XIONG Wei-liang,, HE De-feng,, WANG Xiu-li, ZHOU Dan

College of Information Engineering, Zhejiang University of Technology, Hangzhou 310012, China

通讯作者: 何德峰,男,教授. orcid.org/0000-0002-8183-2372. E-mail: hdfzj@zjut.edu.cn

收稿日期: 2022-04-26  

基金资助: 国家自然科学基金资助项目(62173303);浙江省属高校基本科研业务费资助项目(RF-C2020003)

Received: 2022-04-26  

Fund supported: 国家自然科学基金资助项目(62173303);浙江省属高校基本科研业务费资助项目(RF-C2020003)

作者简介 About authors

熊伟亮(1999—),男,博士生,从事模型预测控制的研究.orcid.org/0000-0002-2476-8941.E-mail:17857102644@163.com , E-mail:17857102644@163.com

摘要

针对具有未知加性不确定性的约束线性系统,提出基于高斯过程回归学习的场景优化鲁棒模型预测控制算法. 在离线阶段使用高斯回归从经验数据中学习不确定性结构与参数,能够抽取大量随机场景. 在在线控制阶段中,求解抽取场景所构建的有限时域优化问题,将滚动优化得到的控制律作用于系统. 引入松弛变量保证优化问题的可行性,应用随机凸优化理论,证明所提算法使系统以一定的置信度满足松弛机会约束,收敛于终端域. 通过DC-DC转换器和网联车巡航控制仿真实验,验证了本文算法的有效性和优越性.

关键词: 鲁棒模型预测控制 ; 场景优化 ; 高斯回归学习 ; 机会约束 ; 随机凸优化

Abstract

A scenario optimization robust model predictive control algorithm based on Gaussian process regression was proposed for constrained linear systems with unknown additive uncertainty. The Gaussian regression was used to learn the uncertainty parameter from the empirical data in the offline stage, so that sufficient scenarios could be obtained. The finite-horizon optimal control problem constructed by extracted scenarios was solved in the online control stage, and the control law obtained by rolling optimization was used to control the system. The relaxation variable was introduced to ensure the feasibility of the optimization problem. Then the random convex optimization theory was used. It was proved that the closed-loop system satisfied the relaxed chance constraint and converged to the terminal set with certain confidence bound. The control simulation experiments of a DC-DC converter and a connected vehicle cruise system illustrated the feasibility and merits of the proposed algorithm.

Keywords: robust model predictive control ; scenario optimization ; Gaussian regression learning ; chance constraint ; random convex optimization

PDF (1863KB) 元数据 多维度评价 相关文章 导出 EndNote| Ris| Bibtex  收藏本文

本文引用格式

熊伟亮, 何德峰, 王秀丽, 周丹. 基于高斯回归学习的场景优化鲁棒预测控制. 浙江大学学报(工学版)[J], 2023, 57(4): 693-701 doi:10.3785/j.issn.1008-973X.2023.04.006

XIONG Wei-liang, HE De-feng, WANG Xiu-li, ZHOU Dan. Scenario optimization robust predictive control via Gaussian regression learning. Journal of Zhejiang University(Engineering Science)[J], 2023, 57(4): 693-701 doi:10.3785/j.issn.1008-973X.2023.04.006

模型预测控制(model predictive control,MPC)基于系统模型的预测求解有限时域最优控制问题,并将最优控制序列第一元素作用于系统,滚动向前[1-2]. 由于滚动优化机制,MPC具有本质鲁棒性[3]. 为了提高鲁棒性,近年来通过在最优控制问题中显式考虑扰动边界,提出一系列鲁棒MPC (robust MPC,RMPC)策略[3-8]. 由于RMPC直接考虑扰动所有可能的实现,存在严重的保守性质.

在实际中,扰动通常以典型“实现”作用于系统,引入机会约束和场景优化可以降低RMPC保守性[4, 9-15]. 场景优化将时域内扰动的实现视作“场景”,构建RMPC随机最优控制问题[13]. 若控制律对所有场景满足约束,则实际系统以较高的置信度满足预设机会约束. Calafiore等[14]针对线性变参系统,提出在线抽取场景的RMPC策略. Lorenzen等[15]离线抽取场景以保证机会约束满足,给出系统稳定所需的场景数量边界. 通常,场景优化由随机凸优化理论保证机会约束概率,较高概率需要在扰动实现分布中抽取大量场景[16-18],但实际中难以获取扰动实现的完整概率分布,这限制了场景优化的应用范围.

为了建立少量数据下的约束满足,可以使用学习方法离线建模[19-21],再设计RMPC策略[22],如集员[23]与Kinky推断方法[24]. 这些方法能够从数据中学习扰动边界,但无法得到扰动随机分布,实现机会约束. 高斯过程(Gaussian process,GP)[25-26]能够同时提供最优预测值与预测方差,已用于随机MPC设计. Li等[26]基于GP提出解析近似MPC算法,处理加性不确定性问题. Grancharova等[27]使用GP设计随机MPC,用于燃烧控制. Wang等[28]基于GP给出针对饮用水网络的MPC算法. Hewing等[19-20]结合GP和MPC,实现车辆的自动驾驶控制. 现有算法在理论上缺少稳定性与可行性结果[27-28],且假定扰动为独立同分布,限制了该算法的理论拓展与应用范围.

本文考虑约束不确定线性系统,提出基于高斯回归的场景优化鲁棒模型预测控制策略. 基于先验数据集进行高斯回归学习,获得扰动的完整概率模型. 在线抽取大量场景构建松弛机会约束下的随机凸优化问题,通过开环优化、闭环反馈镇定系统. 建立保证闭环系统鲁棒稳定性和满足松弛机会约束的充分条件. 应用DC-DC转换器和车辆巡航仿真,验证了本文策略的有效性.

1. 问题描述

考虑离散时间不确定线性系统:

$ {{\boldsymbol{x}}_{k+1}} = {\boldsymbol{A}}{{\boldsymbol{x}}_k}+{\boldsymbol{B}}{{\boldsymbol{u}}_k}+{{\boldsymbol{w}}_k};\;k \in {N_0}. $

式中:xkukwk分别为k时刻的系统状态变量、控制变量和未知不确定扰动,xkRnukRmwkRnAB为已知矩阵;Ni为所有不小于i的整数集合. 系统状态和控制输入满足如下约束:

$ {{\boldsymbol{x}}_k} \in X,\;{{\boldsymbol{u}}_k} \in U,\;\;k \in {N_0}. $

式中:X = {xRn| fX(x)≤0}和U = {uRm| fU(u)≤0}为紧凸集,fX(x)和fU(u)分别为xu的凸函数. 假设系统状态可测,矩阵对(A, B)可镇定,即存在增益矩阵Kf使A+BKf稳定. 系统存在给定的先验数据集D,其中包含长度为Ls条历史运行轨迹. 先验数据集是学习型控制律的基本条件[19, 24, 26],可由给定的标准测试数据、专家知识或系统运行历史数据产生[29-31],更多关于先验数据集获取的知识可以参见文献[32].

假设1  系统(1)的不确定扰动w未知但有界,即wkW, $k \in N_{\rm{0}} $,其中集合W $\subset$Rn为紧集.

假设2  系统(1)存在包含原点的一个凸邻域Xf及其局部控制律u = Kf x,使Xf为闭环系统的鲁棒正不变集(robust positive invariant set,RPI),即Xf={xX| (A+BKf)x+wXf, Kf xU, $\forall $xXf, wW}.

注1  假设1的扰动可以描述系统参数摄动、外界附加扰动、建模误差等[3]. 对于假设2中的终端域Xf,Kouvaritakis等[33]给出求解最大RPI(maximal RPI, MRPI)作为Xf 的计算方法,其中Kf通过求解系统(1)的Riccati方程得到.

考虑系统(1),用Kf参数化控制输入[26]

$ {\boldsymbol{u}} = {{\boldsymbol{K}}_{\rm{f}}}{\boldsymbol{x}}+{\boldsymbol{v}}. $

式中:v为控制摄动变量,通过在线滚动优化计算得到. 参数化控制律通过将MPC开环优化问题转化为可计算的闭环控制律优化问题,可以降低RMPC控制器的保守性,使得算法可以用于开环不稳定系统[2-4, 33]. 令AK = A+BKf,则系统(1)等价于

$ {{\boldsymbol{x}}_{k+1}} = {{\boldsymbol{A}}{\rm{_K}}}{{\boldsymbol{x}}_k}+{{\boldsymbol{Bv}}_k}+{{\boldsymbol{w}}_k};\;k \in {N_0}. $

本文的目标是计算系统(1)的控制律(3),使得闭环系统在任意有界扰动w作用下,状态进入并始终保持在集合Xf内,同时系统状态和控制输入满足预设概率为Pp的机会约束:

$ {P}({{\boldsymbol{u}}_k} \in U,{{\boldsymbol{x}}_k} \in X) \geqslant P_{\rm{p}};\;k \in {N_1}. $

采用高斯过程回归和模型预测控制方法计算控制律(3).

2. 高斯回归场景优化预测控制

通过GP学习时间指标k到扰动wk的映射,基于预测时域内扰动实现的联合高斯分布抽取场景,构建RMPC优化问题,设计新的场景优化RMPC算法.

考虑系统(1)及先验数据集D,有

$ {{\boldsymbol{w}}_k} = {{\boldsymbol{x}}_{k+1}} - ({{\boldsymbol{Ax}}_k}+{{\boldsymbol{Bu}}_k}). $

先验数据集D中包含任意时刻ks个扰动值wk,其中 $k \in I_0^{L - 1} $( $I_0^{L - 1} $表示集合{0, 1,···, L−1}).

2.1. 高斯过程回归

GP由均值与协方差函数唯一确定. 令向量kD = [0, 1, 2,···, L]T,使用先验数据集D对GP进行训练学习. 在学习完毕后,对于待预测的输入数据向量k*,有如下的联合高斯分布:

$ \left[ {\begin{array}{*{20}{c}} {{{\boldsymbol{k}}_D}} \\ {{{\boldsymbol{k}}^*}} \end{array}} \right]\sim {\rm{N}}\left( {\left[ {\begin{array}{*{20}{c}} {{\boldsymbol{E}}({{\boldsymbol{k}}_D})} \\ {{\boldsymbol{E}}({{\boldsymbol{k}}^*})} \end{array}} \right],\left[ {\begin{array}{*{20}{c}} {{\boldsymbol{K}}({{\boldsymbol{k}}_D},{{\boldsymbol{k}}_D})}&{{\boldsymbol{K}}{{({{\boldsymbol{k}}^*},{{\boldsymbol{k}}_D})}^{\rm{T}}}} \\ {{\boldsymbol{K}}({{\boldsymbol{k}}^*},{{\boldsymbol{k}}_D})}&{{\boldsymbol{K}}({{\boldsymbol{k}}^*},{{\boldsymbol{k}}^*})} \end{array}} \right]} \right). $

GP是概率模型,均值向量的行数与协方差阵的维度等于输入时间指标的数目.

由高斯分布的性质可知,k*相关输出的条件分布服从高斯分布[5],均值向量与协方差矩阵分别为

$ {\boldsymbol{E}}({{\boldsymbol{w}}_{{k^*}}}) = {\boldsymbol{K}}({{\boldsymbol{k}}^*},{{\boldsymbol{k}}_D}){\boldsymbol{K}}{({{\boldsymbol{k}}_D},{{\boldsymbol{k}}_D})^{ - 1}}{{\boldsymbol{k}}_D}, $

$ \begin{gathered} {\boldsymbol{K}}({{\boldsymbol{k}}^*},{{\boldsymbol{k}}^*}) = {\boldsymbol{K}}({{\boldsymbol{k}}_D},{{\boldsymbol{k}}^*}) - {\boldsymbol{K}}({{\boldsymbol{k}}^*},{{\boldsymbol{k}}_D}){\boldsymbol{K}}{({{\boldsymbol{k}}_D},{{\boldsymbol{k}}_D})^{ - 1}}{\boldsymbol{K}}{({{\boldsymbol{k}}^*},{{\boldsymbol{k}}_D})^{\rm{T}}}. \end{gathered} $

式中:协方差矩阵K的每一项由预先指定的核函数表述. 选择核函数为径向基函数:

$ k({k_1},{k_2}) = {\sigma ^2}\exp\; [ - {{{{({k_1} - {k_2})}^2}} /( {2{l^2}})}]. $

式中:k1k2为任意2个时间指标标量;待求解参数σ2 用于控制输出信号方差;l反映输入尺度放缩,可以在离线阶段基于D通过极大似然法或者最大后验估计求得. w(k*)的预测是由式(8)、(9)决定的联合高斯分布,其维数等于向量k*中的元素个数. 在系统运行的任一时刻,可以认为预测时域内扰动分布已知,能够在线抽取大量场景.

2.2. 算法设计

xt为当前时刻t的系统状态测量,根据GP给出的预测时域内的联合高斯分布,在时刻t抽取M个扰动场景 ${\boldsymbol{\delta}}^{(1)}_t$, ${{\boldsymbol{\delta}}}^{(2)}_t$,···, ${{\boldsymbol{\delta}}}^{(M)}_t $,其中第i个场景为 $\boldsymbol{\delta}_t^{(i)}=\left[\boldsymbol{w}_{0 \mid t}^{(i)}, \boldsymbol{w}_{1| t}^{(i)}, \cdots, \boldsymbol{w}_{N-1 \mid t}^{(i)}\right]\left(i \in I_1^M\right)$,即预测时域内扰动w的一种可能实现. 选定权重矩阵QRP>0,对第i个扰动场景定义二次型目标函数[26, 33]

$ J^{(i)}=\sum_{j=0}^{N-1}\left(\boldsymbol{x}_{j \mid t}^{(i) \mathrm{T}} \boldsymbol{Q} \boldsymbol{x}_{j \mid t}^{(i)}+\boldsymbol{u}_{j \mid t}^{\mathrm{T}} \boldsymbol{R} \boldsymbol{u}_{j \mid t}\right)+\boldsymbol{x}_{N \mid t}^{(i) \mathrm{T}} \boldsymbol{P} \boldsymbol{x}_{N \mid t}^{(i)} .$

构建时刻t的有限时域最优控制问题如下:

控制量由摄动序列 ${\boldsymbol{V}}_t=\left[{\boldsymbol{v}}_{0 \mid t}, {\boldsymbol{v}}_{1 \mid t}, \cdots, {\boldsymbol{v}}_{N-1 \mid t}\right]$、约束松弛变量qt和所有场景对应的目标函数上界zt构成. 式(12b)为目标函数的上界约束,式(12c)为预镇定状态反馈律,式(12d)为基于抽取场景的模型预测,式(12e)~(12g)分别为状态、输入和终端域Xf约束松弛,式(12h)为优化问题的初始条件,式(12i)保证约束被松弛.1是维度适当的全1列向量,γ>0为qt对应的权重,当qt无穷大或γ = 0时,约束默认满足;当γ无穷大或qt=0时,该优化问题对应于无松弛RMPC问题.qt反映系统在当前状态下对约束的违反程度. 设定γ为一个较大的常数,以惩罚约束违反,保证优化问题对任意抽取的场景均可行,实现控制器鲁棒性和约束松弛的折中. 优化问题(12)的解是当前状态xt的隐函数,受模型参数(A, B, fX, fU)和设计参数(N, M, Q, R, γ)的综合影响. 由于扰动场景是随机抽取的,对于相同的初始条件,抽取的场景不同,会得到不同的最优解.

在线求解优化问题(12),得到最优解 $q_t^* $$z_t^* $${\boldsymbol{V}}_t^*=\left[{\boldsymbol{v}}_{0 \mid t}^*, {\boldsymbol{v}}_{1 \mid t}^*, \cdots, {\boldsymbol{v}}_{N-1 \mid t}^*\right] $. 根据MPC滚动优化原理,计算场景优化RMPC控制量为

$ {\boldsymbol{u}}_t^{{\rm{MPC}}} = {{\boldsymbol{K}}_{\rm{f}}}{{\boldsymbol{x}}_t}+{\boldsymbol{v}}_{0|t}^*, $

并作用于系统(1). 在下一时刻,测量系统状态,更新优化问题(12)的初始条件,再重复整个计算过程,实现场景优化RMPC的滚动时域优化控制.

引理1[18]  考虑如下优化问题:

$ \mathop {\min }\limits_{\boldsymbol{s}} \;\;\{ {{\boldsymbol{c}}^{\rm{T}}}{\boldsymbol{s}};\;\;{h_{\boldsymbol{\delta}} }({\boldsymbol{s}}) \leqslant {\boldsymbol{0}}\} . $

式中:cRn×1为常数向量, ${h_{\boldsymbol{\delta}} }\left( \cdot \right) $为取决于随机变量 ${\boldsymbol{\delta}} $的凸约束. 设定常数β∈(0, 1.0)与机会约束的预设概率Pp,若随机抽取 ${\boldsymbol{\delta}} ^{(i)} $的场景数目M使得下式成立:

$ \sum\limits_{j = 0}^{d - 1} {\left( {\begin{array}{*{20}{c}} M \\ j \end{array}} \right)} {(1 - P_{\rm{p}})^j}{P_{\rm{p}}^{M - j}} \leqslant \beta , $

其中d为优化变量s的维度,则优化问题

$ \mathop {\min }\limits_{\boldsymbol{s}} \;\;\{ {{\boldsymbol{c}}^{\rm{T}}}{\boldsymbol{s}};\quad {h_{{\delta ^{(i)}}}}({\boldsymbol{s}}) \leqslant {\boldsymbol{0}},\;i \in I_1^M\} $

的解s*以1−β的置信度满足P(hδ(s)≤0) ≥ Pp.

注2  式(15)的等号仅对全支撑(fully-supported)问题成立[18]. 在GP学习中,先验数据可能不严格满足高斯过程,或者由于先验数据的不完备使得GP预测存在偏差,式(15)的保守性质缓解了由先验数据带来的控制器性能下降或闭环系统失控问题.

对于优化问题(12),应用引理1的结果,可得关于场景优化非滚动优化控制量的性质.

引理2  考虑优化问题(12)及最优摄动序列解 ${\boldsymbol{V}}_t^*=\left[{\boldsymbol{v}}_{0 \mid t}^*, \cdots, {\boldsymbol{v}}_{N-1 \mid t}^*\right] $. 若假设1和2成立,且PpβM满足式(15),则在t, t+1, ···, t+N−1时刻依次调用Vt*的元素形成控制量(3),序列 ${\boldsymbol{V}}_t^* $以1 − β置信度,不低于Pp的概率和约束违反qt满足:

a)将系统(1)在N步内驱动到终端域Xf内,即

$ {{P}}({{P}}({f}_{{X}_{{\rm{f}}}}({{\boldsymbol{x}}}_{t+N})-{\bf{1}}{q}_{t}\leqslant {\boldsymbol{0}})\geqslant P_{\rm{p}})\geqslant 1-\beta . $

b)使系统(1)满足输入和状态约束(2),即

$\tag{18a} {{P}}({{P}}({f}_{U}({{\boldsymbol{u}}}_{t+j})-{\bf{1}}{q}_{t}\leqslant {\boldsymbol{0}})\geqslant P_{\rm{p}})\geqslant 1-\beta , $

$\tag{18b} {{P}}({{P}}({f}_{X}({{\boldsymbol{x}}}_{t+j})-{\bf{1}}{q}_{t}\leqslant {\boldsymbol{0}})\geqslant P_{\rm{p}})\geqslant 1-\beta ,\;j\in {I}_{1}^{N}. $

为了设计新的场景优化RMPC 算法,定义位于终端域Xf中的以原点为中心、φ>0为半径的闭球Bφ={x| ||x||≤φ} $\subset $Xf. 由假设2可知,Xf为包含原点在其内部的紧集,故Bφ总是存在. 由式(11)、(12b),有zJxTQx ≥ 0,故Bφ外的系统状态x对应的最优值函数上界z必有下界 $\underline z $.

系统(1)的场景优化RMPC算法描述如下.

算法1 场景优化RMPC算法

离线阶段(初始化)

1)设定GP核函数,基于先验数据集D学习GP参数. 设定Ppβ,计算M和终端域Xf ;设定正常数d,使得 $\underline z $ldlN1;令t = 0.

2)测量状态xt,求解优化问题(12)得到最优解 $\left\{q_t^*, z_t^*, {\boldsymbol{V}}_t^*=\left[{\boldsymbol{v}}_{0 \mid t}^*, {\boldsymbol{v}}_{1 \mid t}^*, \cdots, \dot{{\boldsymbol{v}}}_{{N}-1 \mid t}^*\right]\right\} $,计算控制量utMPC并作用于系统(1). 令 $q_t=q_t^*, z_t=z_t^*, \boldsymbol{V}_t=\boldsymbol{V}_t^* $.

在线阶段

3)令t=t+1, $\hat{\boldsymbol{V}}_t=\left[\boldsymbol{v}_{1 \mid t-1}, \cdots, \boldsymbol{v}_{N-1 \mid t-1},{\boldsymbol{0}}\right]$, $\hat{q}_t=q_{t-1} $$\hat{z}_ t=\max\; \left\{0, z_{t-1}-d\right\}$. 求解优化问题(12),得到最优解 $\left\{q_t^*, z_t^*, \boldsymbol{V}_t^*\right\} $.

4)判定如下条件:

a)若 $z_t^*>\hat{z}_t $$\hat{z}_t<\boldsymbol{x}_t^{\mathrm{T}} \boldsymbol{x}_t $,则令 $\boldsymbol{V}_t=\hat{\boldsymbol{V}}_t, q_t=\hat{q}_t, z_t=0 $.

b)若 $z_t^*>\hat{z}_ t $$\hat{z}_t \geqslant \boldsymbol{x}_t^{\mathrm{T}} \boldsymbol{x}_t $,则令 $\boldsymbol{V}_t=\hat{\boldsymbol{V}}_t, q_t=\hat{q}_{t}, z_t=\hat{z}_t$.

c)若 $z_t^* \leqslant \hat{z}_t$,则令 $\boldsymbol{V}_t=\boldsymbol{V}_t^*, q_t=q_t^*, z_t=z_t^* $.

5)由Vt第一元素计算控制量utMPC并作用于系统(1),返回3).

在算法1中, $\left\{q_t^*, z_t^*, {\boldsymbol{V}}_t^*\right\} $表示时刻t实时求解获得的最优解, $\left\{\hat{q}_t, \hat{z}_t, \hat{\boldsymbol{V}}_t\right\} $表示备选解,{qt, zt, Vt}表示用于系统实际控制的解. 球半径φ可以通过求解如下的优化问题获得:

$ \varphi = \mathop {\min }\limits_{\boldsymbol{r}} \;\{ \left\| {\boldsymbol{r}} \right\|;\;\;{\boldsymbol{r}} \in \partial {X_{\rm{f}}}\} . $

式中: $\partial {X_{\rm{f}}} $为集合Xf的边界. 进一步可以计算Bφ外目标函数下界:

$ \underline{z} = \mathop {\min }\limits_{\boldsymbol{x}}\; \{ {{\boldsymbol{x}}^{\rm{T}}}{\boldsymbol{Qx}};\;\;{{\boldsymbol{x}}^{\rm{T}}}{\boldsymbol{x}}\; \geqslant \;{\varphi ^2}\} . $

注3  传统场景优化RMPC的稳定性由离线设计的矩阵参数保证[13-14],本文只需要设计φ$\underline{z} $2个标量参数,简化了场景优化RMPC算法的分析与设计.

2.3. 算法性能分析

下面给出场景优化RMPC的机会约束满足和闭环系统的鲁棒稳定性分析.

定理1  若假设1和2成立,且算法参数{M, Pp, β}满足式(15),则闭环系统(1)在算法1控制下将以1−β置信度和松弛qt满足所有概率为Pp的机会约束,即

$\tag{21a} {{P}}({{P}}({f}_{{X}_{{\rm{f}}}}({{\boldsymbol{x}}}_{{{t}}+{{N}}})-{\boldsymbol{1}}{q}_{t}\leqslant {\boldsymbol{0}})\geqslant P_{\rm{p}})\geqslant 1-\beta , $

$\tag{21b} {{P}}({{P}}({f}_{U}({{\boldsymbol{u}}}_{t+j})-{\boldsymbol{1}}{q}_{t}\leqslant {\boldsymbol{0}})\geqslant P_{\rm{p}})\geqslant 1-\beta , $

$\tag{21c} {{P}}({{P}}({f}_{X}({{\boldsymbol{x}}}_{t+j})-{\bf{1}}{q}_{t}\leqslant {\boldsymbol{0}})\geqslant P_{\rm{p}})\geqslant 1-\beta ,j\in {I}_{1}^{N}. $

证明:由算法1的第4步可知,在任意时刻有qt = $\hat{q} _t $$q_t=q_t^* $,下面分类讨论.

1)若qt = $\hat{q} _t $,由算法1第3步可得qt = qt−1Vt = $\hat{{\boldsymbol{V}}} _t $,将引理2应用于t−1时刻,可知不等式(21)成立.

2)若 $q_t=q_t^* $,则 ${\boldsymbol{V}}_t={\boldsymbol{V}}_t^* $. 将引理2用于当前时刻t,可知不等式(21)成立,从而定理1结果成立. 证毕.

定理2  若假设1和2成立,算法参数{M, Pp, β}满足式(15),则闭环系统(1) 在算法1控制下以不低于1−β的置信度,以概率Pp收敛于终端域Xf或在有限时间内到达终端域.

证明: 根据算法1的第4步a)条件是否满足,分类讨论如下.

1)不满足第4步的a)条件,即控制器运行4.b)或4.c). 根据第3步中 $\hat {z}_t $的取值,分别讨论如下.

1.1)若在第3步 $\hat {z}_t=\max \;\left\{0, z_{t-1}-d\right\}=0 $,则在4.b)时有 ${\boldsymbol{x}}_t^{\mathrm{T}} {\boldsymbol{x}}_t<\hat{z}_t=0 $,即xt = 0;或在4.c)时有 $z_t^* \leqslant \hat{z}_t=0 $,即xt = 0(显然在优化问题(12)中 $z_t^* $=0时必有xt = 0). 因此,系统收敛至终端域中的原点.

1.2)若在第3步 $\hat{z}_t=\max \;\left\{0, z_{t-1}-d\right\}=z_{t-1}-d $,则4.b)时满足递减性条件 $z_t=\hat{z}_t=z_{t-1}-d $,或4.c)时有 $z_t=z_t^* \leq \hat z_t=z_{t-1}-d $. 考虑到d的性质,只要闭环状态位于Bφ外,递减性条件max {0, zt−1d}=zt−1d成立,从而闭环系统必定渐近稳定于Bφ. 由于Bφ$ \subset $Xf,则系统状态收敛于终端域. 在该情况下,系统从初始时刻到终端域的总时间不高于 $\left\lceil {z_0^*/d} \right\rceil $,因为到达终端域的时间不高于到达闭球Bφ的时间,更不高于到达原点的时间.

2)当前时刻满足第4步的a)条件. 此时按下一时刻的情况分类考虑如下.

2.1)若下一时刻满足第4步的a)条件,则实际上使用备选解产生RMPC控制量(在极端情况下,使用初始时刻t = 0时的最优解V0* 产生RMPC控制量,即非滚动优化算法). 根据定理1可知,系统以不低于1−β的置信度和松弛qt,以Pp的概率满足约束且收敛于终端域.

2.2)若下一时刻满足4.b)或4.c),则由上述证明过程1)中的讨论可知,系统收敛于终端域. 证毕.

3. 仿真实例

3.1. DC-DC转换器控制

考虑如下DC-DC转换器的线性时不变模型[26]

$ {{\boldsymbol{x}}_{k+1}} = \left[ {\begin{array}{*{20}{c}} 1&{0.007\;5} \\ { - 0.143}&{0.115} \end{array}} \right]{{\boldsymbol{x}}_k}+\left[ {\begin{array}{*{20}{c}} {4.798} \\ {0.115} \end{array}} \right]{{{u}}_k}+\left[ {\begin{array}{*{20}{c}} 1 \\ 1 \end{array}} \right]{{{w}}_k}. $

式中:扰动信号wk由持续扰动项0.01sin k和不确定项ek组成,即wk = 0.01sin k + ek,在任一k时刻,e的取值分布为均值为0、方差为0.0052的截断高斯分布. 系统状态、控制输入和扰动约束集合分别为X = {xR2| [−2, −3]Tx≤[2, 3]T}, U = {uR|−0.2≤u≤0.2}和W = {wR| −0.02≤w≤0.02}.

在GP离线训练阶段,在约束范围内随机生成长度L = 16的50条经验轨迹数据,拟合结果如图1所示. 从图1可知,GP能够准确拟合非线性三角函数,且双侧0.8置信区间可正确覆盖约80%的点,说明GP能够正确拟合时间相关扰动分布.

图 1

图 1   GP拟合结果及双侧0.8置信区间

Fig.1   Fitting results and bilateral 0.8 confidence region of GP


在线控制阶段中,选择预测时域的时间尺度N = 8,置信度β = 10−5,权重矩阵

R = 1,γ = 104,根据式(19)、(20)计算得到φ = 0.345 9,z = 0.119 7. 常数d = 0.05和l = 2,初始点x0 = [3.4, 3.5]T.

为了验证本文算法的机会约束满足和低保守性,使用10 000次蒙特卡洛实验测定机会约束频率pc与优化问题求解时间ts,对比滚动场景优化RMPC(简记为算法1)与非滚动优化设计(简记为算法2). 在算法1中,基于实时松弛量qt 构建松弛约束,并判定其是否违反. 在算法2中,约束判定依赖于t=0时优化问题的松弛约束,在一次模拟中的任何约束违反视作该模拟失败. 2种算法的机会约束统计频率与求解时间如表1所示.

表 1   10 000次蒙特卡洛模拟的统计结果

Tab.1  Statistical results of 10 000 Monte Carlo simulations

Pp(M) pc ts/ms
算法1 算法2
0.1(19) 0.800 1 0.636 8 10.95
0.3(30) 0.862 8 0.720 1 14.11
0.5(48) 0.905 0 0.733 6 19.90
0.7(88) 0.944 3 0.808 1 29.63
0.9(285) 0.982 4 0.934 1 90.51

新窗口打开| 下载CSV


分析表1可知,当Pp = 0.7或0.9时,M > s,此时满足高概率机会约束需要GP学习. 随着Pp值上升,M增大,统计频率上升说明控制器的鲁棒性更强. 2种算法的实际机会约束概率均高于Pp,即满足机会约束,但存在一定的保守性,这是由于优化问题(12)仅在初始时刻接近全支撑问题. 算法1的保守性更低,这得益于松弛变量的实时更新. 在算法2下,由于初始点离终端域最远,q0值过大导致后续约束违反较难. 算法2由于滚动优化实时刷新qt,降低了保守性. 在时效性上,tsM的增大而变长,这是由于式(12)的约束数目随着M的增大而增加,但优化问题的严格凸性和可行性保证了该问题的快速求解.

图2~4验证了算法1的可行性与松弛变量的必要性. 图2中,x1x2分别为系统状态x的第一和第二分量,由于x0的一步可达集合X1与状态约束集合X无交集,有必要引入松弛变量q0保证RMPC控制律的可行性. 如图34所示为当Pp = 0.1时算法1下系统的闭环状态和输入轨迹,图3中的状态轨迹全部收敛于终端域,验证了本文算法的可行性. 如图4所示为图3对应的输入轨迹,算法1在t = 0时违反输入约束,松弛量典型值为q0 = 0.083,说明了松弛变量的有效性.

图 2

图 2   初始状态的一步可达集合与状态约束集合

Fig.2   State constraint set and one-step reachable set of initial state


图 3

图 3   算法1在Pp = 0.1时的10 000条蒙特卡洛状态轨迹

Fig.3   10 000 Monte Carlo state trajectories of algorithm 1 at Pp = 0.1


图 4

图 4   算法1在Pp = 0.1时10 000条蒙特卡洛输入轨迹

Fig.4   10 000 Monte Carlo input trajectories of algorithm 1 at Pp = 0.1


3.2. 网联车巡航控制

考虑网联车自主巡航控制系统[34]

$ \Delta d = d - {d_{{\rm{des}}}},\;\Delta v = {v_{\rm{p}}} - {v_{\rm{h}}},\;{\tau _{\rm{d}}}{\dot a_{\rm{h}}}+{a_{\rm{h}}} = {a_{{\rm{des}}}}. $

式中:Δd为车间距误差;d为实际车间距,d = xpxhl,其中xpxh分别为前、后车的位移,l为前车车长;ddes为理想车间距,ddes = thvh+d0,其中vh为后车的速度,th为车头时距,d0为最小安全间距;Δv为相对速度,vp为前车的速度;τd为巡航时间常数,ah为后车的加速度, $\dot{a}_{\mathrm{h}} $ah的导数,ades为期望加速度. 在车联网环境下,后车可以通过网络通信获取当前时刻的前车加速度和速度信息.

选择状态变量x = [Δd, Δv, ah]T,输入为ades,扰动为ap(其中ap为前车的加速度),则巡航控制系统(24)的离散时间状态方程为

$ {{\boldsymbol{x}}_{k+1}} = {{\boldsymbol{A}}_k}{{\boldsymbol{x}}_k}+{{\boldsymbol{B}}_k}{{{u}}_k}+{{\boldsymbol{G}}_k}{{{w}}_k}. $

式中:

其中Tc为采样离散时间,Tc > 0.

仿真中令th = 2.5 s,Tc = 0.4 s,τd= 0.5,γ = 1 500,d = 4,R = 60,Q为三阶单位阵,N = 8,先验轨迹数s = 15,场景数目M = 25. 令v = Gkw,系统扰动范围为W={v| −1≤||v||≤1},且方差为0.122,状态和控制约束为

使用算法1与算法2,在加速和减速2种工况中进行对比实验.

考虑减速停车工况,设定前车初始速度为4.26 m/s,仿真初始状态x0 = [8, 2, 1]T,使用离散sigmoid函数模拟前车速度,对应的前车加速度如表2所示. 由于前车最终停止,设定最终vk为0. 分别使用算法1和算法2控制系统,绘制被控后车的加速度、速度、间距误差与系统状态轨迹曲线,如图5~8所示.

表 2   2种工况下的理想加速度数据

Tab.2  Ideal acceleration data under two working conditions

k ap /(m·s−2)
减速 加速
1 −0.807 5 0.807 5
2 −1.684 5 1.684 6
3 −2.500 0 2.500 0
4 −2.500 0 2.500 0
5 −1.684 5 1.684 6
6 −0.807 5 0.807 5
7 −0.331 2 0.331 2
8 −0.127 1 0.127 1
≥9 0 0

新窗口打开| 下载CSV


图 5

图 5   减速工况下的加速度对比图

Fig.5   Comparison of acceleration under decelerating condition


图 6

图 6   减速工况下的速度对比图

Fig.6   Comparison of speed under decelerating condition


图 7

图 7   减速工况下的间距误差对比图

Fig.7   Comparison of spacing error under decelerating condition


图 8

图 8   减速工况下的状态轨迹对比图

Fig.8   Comparison of state trajectory in decelerating condition


分析图5可知,算法1控制下的自主车辆加速度更接近前车. 图67中,算法1控制的自主车辆速度与间距误差变化更加平缓,意味着自主巡航车辆拥有更好的舒适性与跟踪性能. 图8中,2种算法作用下的车辆加速度、速度和理想间距均能渐近稳定于原点. 由于初始状态位于约束X外部且距离较远,系统初始轨迹位于约束X外部,此时须引入松弛因子q0保证可行性.

考虑加速工况,设定系统初始状态x0 = [−9, −3, −1]T,前车初始速度为15.21 m/s,加速度如表2所示. 仿真结果如图9~12所示. 类似于减速工况分析可知,算法1控制下的自主车辆加速度更加接近于前车加速度. 自主车辆速度与间距误差更加平稳,意味着算法1控制下的车辆在前车加速工况下具有更好的舒适性与跟踪性能. 由于前车速度变化后自主巡航控制系统存在不确定扰动vk,系统状态不会渐近稳定于原点,但始终位于终端域中.

图 9

图 9   加速工况下的加速度对比图

Fig.9   Comparison of acceleration under accelerating condition


图 10

图 10   加速工况下的速度对比图

Fig.10   Comparison of speed under accelerating condition


图 11

图 11   加速工况下的间距误差对比图

Fig.11   Comparison of spacing error under accelerating condition


图 12

图 12   加速工况下的状态轨迹对比图

Fig.12   Comparison of state trajectory under accelerating case


4. 结 语

本文设计基于GP学习的场景优化RMPC算法. 去除了传统场景优化分布已知或足够场景可获得的假设,通过使用GP学习扰动实现的取值分布,抽取场景构建随机凸优化问题,求解控制摄动序列. 引入松弛变量保证算法可行性,基于随机凸优化引理证明了闭环系统的鲁棒稳定性. DC-DC转换器和网联车巡航控制仿真结果验证了本文算法的有效性和优越性. 后续将进一步研究非准确学习下的RMPC算法及低场景数和高效算法设计.

参考文献

SCHWENZER M, AY M, BERGS T, et al

Review on model predictive control: an engineering perspective

[J]. The International Journal of Advanced Manufacturing Technology, 2021, 117 (5): 1327- 1349

[本文引用: 1]

MUNOZ-CARPINTERO D, CANNON M

Convergence of stochastic nonlinear systems and implications for stochastic model-predictive control

[J]. IEEE Transactions on Automatic Control, 2020, 66 (6): 2832- 2839

[本文引用: 2]

MAYNE D Q

Model predictive control: recent developments and future promise

[J]. Automatica, 2014, 50 (12): 2967- 2986

DOI:10.1016/j.automatica.2014.10.128      [本文引用: 3]

MAYNE D

Robust and stochastic model predictive control: are we going in the right direction

[J]. Annual Reviews in Control, 2016, 41: 184- 192

DOI:10.1016/j.arcontrol.2016.04.006      [本文引用: 2]

RAWLINGS J B, MAYNE D Q, DIEHL M. Model predictive control: theory, computation, and design [M]. Madison, WI: Nob Hill, 2017.

[本文引用: 1]

HEYDARI R, FARROKHI M

Robust tube-based model predictive control of LPV systems subject to adjustable additive disturbance set

[J]. Automatica, 2021, 129: 109672

DOI:10.1016/j.automatica.2021.109672     

HANEMA J, LAZAR M, TÓTH R

Heterogeneously parameterized tube model predictive control for LPV systems

[J]. Automatica, 2020, 111: 108622

DOI:10.1016/j.automatica.2019.108622     

ZHANG K, LIU C, SHI Y

Self-triggered adaptive model predictive control of constrained nonlinear systems: a min–max approach

[J]. Automatica, 2022, 142: 110424

DOI:10.1016/j.automatica.2022.110424      [本文引用: 1]

MESBAH A

Stochastic model predictive control: an overview and perspectives for future research

[J]. IEEE Control Systems Magazine, 2016, 36 (6): 30- 44

DOI:10.1109/MCS.2016.2602087      [本文引用: 1]

MUÑOZ-CARPINTERO D, HU G, SPANOS C J

Stochastic model predictive control with adaptive constraint tightening for non-conservative chance constraints satisfaction

[J]. Automatica, 2018, 96: 32- 39

DOI:10.1016/j.automatica.2018.06.026     

ZIDEK R A E, KOLMANOVSKY I V, BEMPORAD A

Model predictive control for drift counteraction of stochastic constrained linear systems

[J]. Automatica, 2021, 123: 109304

DOI:10.1016/j.automatica.2020.109304     

DHAR A, BHASIN S

Indirect adaptive MPC for discrete-time LTI systems with parametric uncertainties

[J]. IEEE Transactions on Automatic Control, 2021, 66 (11): 5498- 5505

DOI:10.1109/TAC.2021.3050446     

CALAFIORE G C, FAGIANO L

Robust model predictive control via scenario optimization

[J]. IEEE Transactions on Automatic Control, 2012, 58 (1): 219- 224

[本文引用: 2]

CALAFIORE G C, FAGIANO L

Stochastic model predictive control of LPV systems via scenario optimization

[J]. Automatica, 2013, 49 (6): 1861- 1866

DOI:10.1016/j.automatica.2013.02.060      [本文引用: 2]

LORENZEN M, DABBENE F, TEMPO R, et al

Stochastic MPC with offline uncertainty sampling

[J]. Automatica, 2017, 81: 176- 183

DOI:10.1016/j.automatica.2017.03.031      [本文引用: 2]

SCHILDBACH G, FAGIANO L, MORARI M

Randomized solutions to convex programs with multiple chance constraints

[J]. SIAM Journal on Optimization, 2013, 23 (4): 2479- 2501

DOI:10.1137/120878719      [本文引用: 1]

ROSOLIA U, ZHANG X, BORRELLI F

Data-driven predictive control for autonomous systems

[J]. Annual Review of Control, Robotics, and Autonomous Systems, 2018, 1 (1): 259- 286

DOI:10.1146/annurev-control-060117-105215     

CAMPI M C, GARATTI S

The exact feasibility of randomized solutions of uncertain convex programs

[J]. SIAM Journal on Optimization, 2008, 19 (3): 1211- 1230

DOI:10.1137/07069821X      [本文引用: 3]

HEWING L, WABERSICH K P, MENNER M, et al

Learning-based model predictive control: toward safe learning in control

[J]. Annual Review of Control, Robotics, and Autonomous Systems, 2020, 3 (1): 269- 296

DOI:10.1146/annurev-control-090419-075625      [本文引用: 3]

HEWING L, KABZAN J, ZEILINGER M N

Cautious model predictive control using Gaussian process regression

[J]. IEEE Transactions on Control Systems Technology, 2019, 28 (6): 2736- 2743

[本文引用: 1]

KLENSKE E D, ZEILINGER M N, SCHÖLKOPF B, et al

Gaussian process-based predictive control for periodic error correction

[J]. IEEE Transactions on Control Systems Technology, 2015, 24 (1): 110- 121

[本文引用: 1]

TERZI E, FARINA M, FAGIANO L, et al

Robust multi-rate predictive control using multi-step prediction models learned from data

[J]. Automatica, 2022, 136: 109852

DOI:10.1016/j.automatica.2021.109852      [本文引用: 1]

KÖHLER J, KÖTTING P, SOLOPERTO R, et al

A robust adaptive model predictive control framework for nonlinear uncertain systems

[J]. International Journal of Robust and Nonlinear Control, 2021, 31 (18): 8725- 8749

DOI:10.1002/rnc.5147      [本文引用: 1]

MANZANO J M, DE LA PENA D M, CALLIESS J P, et al

Componentwise hölder inference for robust learning-based MPC

[J]. IEEE Transactions on Automatic Control, 2021, 66 (11): 5577- 5583

DOI:10.1109/TAC.2021.3056356      [本文引用: 2]

WILLIAMS C K I, RASMUSSEN C E. Gaussian processes for machine learning [M]. Cambridge: MIT press, 2006.

[本文引用: 1]

LI F, LI H, HE Y

Adaptive stochastic model predictive control of linear systems using Gaussian process regression

[J]. IET Control Theory and Applications, 2021, 15 (5): 683- 693

DOI:10.1049/cth2.12070      [本文引用: 6]

GRANCHAROVA A, KOCIJAN J, JOHANSEN T A

Explicit stochastic predictive control of combustion plants based on Gaussian process models

[J]. Automatica, 2008, 44 (6): 1621- 1631

DOI:10.1016/j.automatica.2008.04.002      [本文引用: 2]

WANG Y, OCAMPO‐MARTINEZ C, PUIG V

Stochastic model predictive control based on Gaussian processes applied to drinking water networks

[J]. IET Control Theory and Applications, 2016, 10 (8): 947- 955

DOI:10.1049/iet-cta.2015.0657      [本文引用: 2]

BISHOP C M, NASRABADI N M. Pattern recognition and machine learning [M]. New York: Springer, 2006.

[本文引用: 1]

CLOETE J B, STANDER T, WILKE D N

Parametric circuit fault diagnosis through oscillation-based testing in analogue circuits: statistical and deep learning approaches

[J]. IEEE Access, 2022, 10: 15671- 15680

DOI:10.1109/ACCESS.2022.3149324     

WANG J, JIANG C, HAN Z, et al

Internet of vehicles: sensing-aided transportation information collection and diffusion

[J]. IEEE Transactions on Vehicular Technology, 2018, 67 (5): 3813- 3825

DOI:10.1109/TVT.2018.2796443      [本文引用: 1]

ALI I, AHMEDY I, GANI A, et al

Data collection in studies on Internet of things (IoT), wireless sensor networks (WSNs), and sensor cloud (SC): similarities and differences

[J]. IEEE Access, 2022, 10: 33909- 33931

DOI:10.1109/ACCESS.2022.3161929      [本文引用: 1]

KOUVARITAKIS B, CANNON M. Model predictive control: classical, robust and stochastic [M]. Switzerland: Springer, 2016.

[本文引用: 3]

HE D, PENG B

Gaussian learning-based fuzzy predictive cruise control for improving safety and economy of connected vehicles

[J]. IET Intelligent Transport Systems, 2020, 14 (5): 346- 355

DOI:10.1049/iet-its.2019.0452      [本文引用: 1]

/