浙江大学学报(工学版), 2025, 59(8): 1617-1623 doi: 10.3785/j.issn.1008-973X.2025.08.008

机械工程、能源工程

水下不完全信息的微分博弈机动攻防导引律设计

韩冬阳,, 张倩倩, 汪海涛, 印明明

1. 上海船舶电子设备研究所,上海 201108

2. 上海交通大学 机械与动力工程学院,上海 200240

Design of maneuvering attack-defense guidance law for differential game with underwater incomplete information

HAN Dongyang,, ZHANG Qianqian, WANG Haitao, YIN Mingming

1. Shanghai Marine Electronic Equipment Research Institute, Shanghai 201108, China

2. School of Mechanical Engineering, Shanghai Jiao Tong University, Shanghai 200240, China

收稿日期: 2024-07-28  

基金资助: 智能博弈重点实验室创新工作站开放课题(ZBKF-24-03).

Received: 2024-07-28  

Fund supported: 智能博弈重点实验室创新工作站开放课题(ZBKF-24-03).

作者简介 About authors

韩冬阳(1998—),男,助理工程师,从事水下博弈策略的研究.orcid.org/0000-0002-3711-4744.E-mail:1061118711@qq.com , E-mail:1061118711@qq.com

摘要

针对水下机动攻防环境中信息不完全问题,基于微分博弈理论,开展目标-攻击者-防御者的导引律设计研究. 通过相对运动关系与博弈最优条件,获得满足纳什均衡的航行反馈控制形式. 考虑航行器运动控制与观测含噪因素,设计基于随机微分博弈的改进导引策略. 结合离散观测信息条件,推导鞍点博弈对. 调整对策,使导引控制对策更贴近现实探测. 通过对策模拟与对比,验证所提博弈求解结果在递进信息限制条件下的有效性. 结果显示,所提策略的表现良好,可以为不完全信息机动导引律的设计提供指导.

关键词: 机动攻防 ; 不完全信息 ; 导引律 ; 随机微分博弈

Abstract

Research was conducted on the design of guidance laws for targets, attackers and defenders based on differential game theory aiming at the issue of incomplete information in underwater maneuvering attack-defense environment. A navigation feedback control form that satisfied Nash equilibrium was obtained by using relative motion relationships and game-theoretic optimal conditions. An improved guidance strategy based on stochastic differential games was designed by considering the noisy factors in aircraft motion control and observation. The saddle-point game pair was derived by combining the conditions of discrete observation information. The game countermeasures were adjusted to make the guidance control countermeasures closer to real-world detection. The effectiveness of the proposed method under progressive information constraint conditions was verified through game simulation and comparison. Results show that the proposed strategy performs well and can provide guidance for the design of maneuvering guidance laws with incomplete information.

Keywords: maneuvering attack-defense ; incomplete information ; guidance law ; stochastic differential game

PDF (1095KB) 元数据 多维度评价 相关文章 导出 EndNote| Ris| Bibtex  收藏本文

本文引用格式

韩冬阳, 张倩倩, 汪海涛, 印明明. 水下不完全信息的微分博弈机动攻防导引律设计. 浙江大学学报(工学版)[J], 2025, 59(8): 1617-1623 doi:10.3785/j.issn.1008-973X.2025.08.008

HAN Dongyang, ZHANG Qianqian, WANG Haitao, YIN Mingming. Design of maneuvering attack-defense guidance law for differential game with underwater incomplete information. Journal of Zhejiang University(Engineering Science)[J], 2025, 59(8): 1617-1623 doi:10.3785/j.issn.1008-973X.2025.08.008

机动导引律被广泛应用于空、陆及海洋环境的攻防对抗任务. 受海洋环境随机干扰的影响[1],光电、水声这些探测信息呈现不完全的特征[2]. 水下攻防,特别是浅水环境,须考虑不完全观测信息的机动导引律设计.

博弈论方法通过分析攻防各方的策略互动,生成最优决策方案,是制定机动导引律的重要手段. Choi等[3]综合考虑以距离、距离率、视距率和航向误差为输入的博弈导引问题,有效提升了机动决策的实时性. 赵慧瑾等[4]考虑双方离散化战略空间,根据可行攻击方向收益最大化的条件预估来袭方向,结合矩阵博弈与改进单纯形法,提供了防御与规避策略. 王钊等[5]针对水下潜航器的机动占位问题,以相对运动关系描述构建攻击占位的数学模型,提出参数自适应的机动决策方法.

微分博弈对策采用微分方程描述系统状态,可以求解多状态动态连续转变的最优对策[6]. 微分博弈最早由Isaacs[7]提出,并不断向随机微分博弈[8-9]、主从微分博弈[10]及合作微分博弈[11]等方向发展. 相比于其他博弈方法,微分博弈可以充分考虑各参与方的自主机动性能,使其更适合用于舰艇、航空制导这些对抗环境[12]. White等[13]基于线性二次型微分博弈问题,研究高速机动末端弹道的可拦截导引方法. 周俊峰[14]考虑航天器追逃对抗环境中系统状态不确定、对手目标函数或输入控制信息缺失的复杂状况,综合线性系统理论与微分对策设计自适应追逃博弈控制策略. Singh等[15]研究目标-攻击者-多防御者的微分博弈对策问题,建立参与各方在受限观测下的行为动态网络模型. Li等[16]在线性二次框架下,定义目标随机运动与逃逸综合的情况,计算集合随机项的防御方微分博弈策略. 当执行水下对抗拦截任务时,微分博弈理论可以应用于末端拦截导引、探测装置主被动工作模式下的动态对策导引及主动防御等多种情景[17].

本文针对包含目标、攻击者及防御者的三方攻防场景,基于随机微分博弈理论,设计适用于水下含噪、离散信息的博弈对策,形成不完全观测信息条件的机动导引律.

1. 完备信息条件下的微分对策设计

1.1. 运动方程关系

浅水环境中攻击方、目标、防御方运动可以简化为平面运动,在惯性坐标系内的基本运动学方程如下:

$ \frac{{\mathrm{d}}}{{{{\mathrm{d}}} t}}{\boldsymbol{x}} = {\boldsymbol{u}} , \frac{{\mathrm{d}}}{{{{\mathrm{d}}} t}}{\boldsymbol{u}} = {\boldsymbol{a}}.$

式中:x为惯性坐标系中的位置矢量,${\boldsymbol{x}} = [{x_1},{x_2}]$u为速度矢量,$ {\boldsymbol{u}} = [{u_1},{u_2}] $a为加速度矢量,${\boldsymbol{a}} = [{a_1},{a_2}]$. 将惯性坐标系转化为相对坐标系,如下所示:

$ \frac{{\mathrm{d}}}{{{{\mathrm{d}}} t}}{{\boldsymbol{x}}_{ij}} = {{\boldsymbol{u}}_i} - {{\boldsymbol{u}}_j} \text{,} \frac{{\mathrm{d}}}{{{{\mathrm{d}}} t}}{{\boldsymbol{u}}_{ij}} = {{\boldsymbol{a}}_i} - {{\boldsymbol{a}}_j} . $

以矩阵形式重新表述相对运动方程如下:

$ \frac{{\mathrm{d}}}{{{{\mathrm{d}}} t}}{{\boldsymbol{y}}_{ij}} = {\boldsymbol{F}}{{\boldsymbol{y}}_{ij}}+{\boldsymbol{G}}{{\boldsymbol{a}}_i} - {\boldsymbol{G}}{{\boldsymbol{a}}_j} . $

式中:${{\boldsymbol{y}}_{ij}}$为航行器$ i $相对于$ j $的相对状态矢量, ${{\boldsymbol{y}}_{ij}} = {[{{\boldsymbol{x}}_{ij}},{{\boldsymbol{u}}_{ij}}]^{\rm{T}}};$${\boldsymbol{F}}$为运动状态系数矩阵,${\boldsymbol{F}} = \left[ {\begin{array}{*{20}{c}} {\boldsymbol{0}}&{{\boldsymbol{I}}} \\ {\boldsymbol{0}}&{\boldsymbol{0}} \end{array}} \right]$${\boldsymbol{G}}$为控制输入的系数矩阵,${\boldsymbol{G}} = \left[ {\begin{array}{*{20}{c}} {\boldsymbol{0}} \\ {{\boldsymbol{I}}} \end{array}} \right]$.

三方攻防TAD(target-attacker-defender)对抗由攻击-目标、防御-攻击2组追逃博弈组合而成,目标通常为高价值航行器,攻击方追踪目标,防御方须完成拦截、诱骗、毁伤等防御任务. 目标(target)的任务是摆脱攻击者(attacker)的追捕,以加速度${{\boldsymbol{a}}_1}$逃离. 防御者(defender)追求抵近攻击者以实现最优的防御策略,以加速度${{\boldsymbol{a}}_2}$执行拦截任务. 攻击者以${{\boldsymbol{a}}_3}$追击目标,同时规避防御者.

采用攻击方加速度矢量分解的方式,将三方博弈问题转化为两对双方追逃问题,以实现博弈求解. 三方各自的加速度形式可以分别表示为

$ {\boldsymbol{a}}_{1}={\boldsymbol{a}}_{1}^{{\mathrm{e}}} , $

$ {\boldsymbol{a}}_{2}={\boldsymbol{a}}_{2}^{{\mathrm{p}}} , $

$ {\boldsymbol{a}}_{3}={\boldsymbol{a}}_{3}^{{\mathrm{p}}}+{\boldsymbol{a}}_{3}^{{\mathrm{e}}} . $

式中:${\boldsymbol{a}}_1^{\mathrm{e}}$为目标规避加速度,${\boldsymbol{a}}_2^{\mathrm{p}}$为防御者抵近拦截加速度,${\boldsymbol{a}}_3^{\mathrm{p}}$${\boldsymbol{a}}_3^{\mathrm{e}}$分别为攻击者追踪与逃逸的加速度分量.

1.2. 完备信息条件下的对抗博弈策略

完全信息条件指攻防各方时刻知道必要且准确的状态信息,不受观察、通信条件的限制,且系统的状态是确定性的,不考虑控制器在工作过程中产生的误差与延迟对运动状态的影响. 此外,认为博弈过程在有限且固定的时区$ [{t_0},{t_{\mathrm{f}}}] $内发生.

攻防博弈处于导引的末端过程,机动各方相对距离小,满足线性二次型的近似线性化处理条件[18]. 追踪方期望为以最小代价尽可能接近规避方,规避方则以最小代价远离. 博弈对策的性能指标设计为终端距离量,采用支付函数权重对加速度范围进行“软约束”,以惩罚项系数来表示博弈各方机动性能的差异. 构造有限时区的确定性微分博弈方程,支付函数如下所示:

$ \begin{split} \mathop {\min }\limits_{{\boldsymbol{a}}_i^{\mathrm{p}}} \mathop {\max }\limits_{{\boldsymbol{a}}_i^{\mathrm{e}}} J =& \frac{1}{2}{\left[ {\left( {{\boldsymbol{x}}_{ij}^{\rm{T}} {{\boldsymbol{S}}_1}{{\boldsymbol{x}}_{ij}}} \right) + 2\left( {{\boldsymbol{x}}_{ij}^{\rm{T}} {{\boldsymbol{S}}_2}{{\boldsymbol{u}}_{ij}}} \right) + \left( {{\boldsymbol{u}}_{ij}^{\rm{T}} {{\boldsymbol{S}}_3}{{\boldsymbol{u}}_{ij}}} \right)} \right]_{t = {t_{\mathrm{f}}}}}+ \\& \frac{1}{2}\int_{{t_0}}^{{t_{\mathrm{f}}}} {\left[ {\left( {{\boldsymbol{a}}_i^{{\mathrm{p}}\;{{\mathrm{T}}} }{{\boldsymbol{R}}^{\mathrm{p}}}{\boldsymbol{a}}_i^{\mathrm{p}}} \right) - \left( {{\boldsymbol{a}}_j^{{\mathrm{e}}\;{{\mathrm{T}}} }{{\boldsymbol{R}}^{\mathrm{e}}}{\boldsymbol{a}}_j^{\mathrm{e}}} \right)} \right]} {{\mathrm{d}}} t .\\[-1pt]\end{split}$

式中:$\left( {{{\boldsymbol{S}}_1},{{\boldsymbol{S}}_2},{{\boldsymbol{S}}_3}} \right) \succ 0$为权重矩阵,$\left( {{{\boldsymbol{R}}^{\mathrm{p}}},{{\boldsymbol{R}}^{\mathrm{e}}}} \right) \succ 0$为加速度加权惩罚矩阵,${{\boldsymbol{x}}_{ij}^{{\mathrm{T}}} {{\boldsymbol{S}}_1}{{\boldsymbol{x}}_{ij}}} $为追逃双方末态终端相对距离的加权平方,$ {{\boldsymbol{x}}_{ij}^{{\mathrm{T}}} {{\boldsymbol{S}}_2}{{\boldsymbol{u}}_{ij}}} $$ {{\boldsymbol{u}}_{ij}^{{\mathrm{T}}} {{\boldsymbol{S}}_3}{{\boldsymbol{u}}_{ij}}} $为态势函数,$ {{\boldsymbol{a}}_i^{{\rm{p}}{{\mathrm{T}}} }{{\boldsymbol{R}}^{\rm{p}}}{\boldsymbol{a}}_i^{\rm{p}}} $$ {{\boldsymbol{a}}_i^{{\rm{e}}{{\mathrm{T}}} }{{\boldsymbol{R}}^{\rm{e}}}{\boldsymbol{a}}_i^{\rm{e}}} $分别为加速度的加权平方项.

定义哈密尔顿函数,通过Hamilton-Jacobi-Isaacs理论,结合微分方程的边界条件,获得最优策略的解析表达. 所构造的构造哈密尔顿函数H如下所示:

$ \begin{split} H =& \frac{1}{2}\left[ {\left( {{\boldsymbol{a}}_i^{{\rm{p}}{{\mathrm{T}}} }{{\boldsymbol{R}}^{\rm{p}}}{\boldsymbol{a}}_i^{\rm{p}}} \right) - \left( {{\boldsymbol{a}}_j^{{\rm{e}}{{\mathrm{T}}} }{{\boldsymbol{R}}^{\rm{e}}}{\boldsymbol{a}}_j^{\rm{e}}} \right)} \right] + \\&\lambda \left[ {{\boldsymbol{F}}{{\boldsymbol{y}}_{ij}}+{\boldsymbol{Ga}}_i^{\rm{p}} - {\boldsymbol{Ga}}_j^{\rm{e}}} \right] .\end{split} $

式中:$ \lambda $为拉格朗日算子,最优性条件为一阶偏导为零以及终端条件,

$ \frac{\partial }{{\partial {\boldsymbol{a}}_i^{\rm{p}}}}H = 0 ,$

$ \frac{\partial }{{\partial {\boldsymbol{a}}_j^{\rm{e}}}}H = 0, $

$ \frac{\partial }{{\partial {{\boldsymbol{y}}_{ij}}}}H = - \dot \lambda, $

$ {\lambda _{{t_{\mathrm{f}}}}} = {\boldsymbol{S}}{{\boldsymbol{y}}_{ij}}({t_{\mathrm{f}}}). $

其中,

将式(9)、(10)代入哈密尔顿函数,并将控制项移至左侧,可得

$ \frac{\partial }{{\partial {\boldsymbol{a}}_i^{\rm{p}}}}H = {{\boldsymbol{R}}^{\rm{p}}}{\boldsymbol{a}}_i^{\rm{p}}+{{\boldsymbol{G}}^{{\mathrm{T}}} }\lambda = {\boldsymbol{0}}, $

$ \frac{\partial }{{\partial {\boldsymbol{a}}_j^{\rm{e}}}}H = {{\boldsymbol{R}}^{\rm{e}}}{\boldsymbol{a}}_j^{\rm{e}}+{{\boldsymbol{G}}^{{\mathrm{T}}} }\lambda = {\boldsymbol{0}}. $

$\lambda $设为$\lambda = {\boldsymbol{P}}{{\boldsymbol{y}}_{ij}}$,策略解析表达式如下:

$ {\boldsymbol{a}}_i^{\rm{p}} = - {({{\boldsymbol{R}}^{\rm{p}}})^{ - 1}}{{\boldsymbol{G}}^{{\mathrm{T}}} }{\boldsymbol{P}}{{\boldsymbol{y}}_{ij}} , $

$ {\boldsymbol{a}}_j^{\rm{e}} = - {({{\boldsymbol{R}}^{\rm{e}}})^{ - 1}}{{\boldsymbol{G}}^{{\mathrm{T}}} }{\boldsymbol{P}}{{\boldsymbol{y}}_{ij}} . $

为了求解P,将$\lambda = {\boldsymbol{P}}{{\boldsymbol{y}}_{ij}}$代入式(13)、(14),经过展开与代数化简,可得

$ \left\{ {{\boldsymbol{\dot P}}+{\boldsymbol{PF}}+{{\boldsymbol{F}}^{{\mathrm{T}}} }{\boldsymbol{P}} - {\boldsymbol{PG}}\left[ {{{\left( {{{\boldsymbol{R}}^{\rm{p}}}} \right)}^{ - 1}} - {{\left( {{{\boldsymbol{R}}^{\rm{e}}}} \right)}^{ - 1}}} \right]{{\boldsymbol{G}}^{{\mathrm{T}}} }{\boldsymbol{P}}} \right\}{{\boldsymbol{y}}_{ij}} = {\boldsymbol{0}} . $

式(17)要求对任何时刻的${{\boldsymbol{y}}_{ij}}$成立,P应为满足${\rm{Riccati}}$矩阵微分方程的对称阵,如下所示:

$ {\boldsymbol{\dot P}}+{\boldsymbol{PF}}+{{\boldsymbol{F}}^{\rm{T}} }{\boldsymbol{P}} - {\boldsymbol{PG}}\left[ {{{\left( {{{\boldsymbol{R}}^{\rm{p}}}} \right)}^{ - 1}} - {{\left( {{{\boldsymbol{R}}^{\rm{e}}}} \right)}^{ - 1}}} \right]{{\boldsymbol{G}}^{{\mathrm{T}}} }{\boldsymbol{P}} = {\boldsymbol{0}} . $

采用式(15)~(18),可以根据目标、攻击者和防御者三者之间的相对运动状态,构建反馈控制博弈对策. 式(4)~(6)对应的加速度计算方程如下:

$ {\boldsymbol{a}}_1^{\rm{e}} = - {\left( {{\boldsymbol{R}}_1^{\rm{e}}} \right)^{ - 1}}{{\boldsymbol{G}}^{\rm{T}} }{{\boldsymbol{P}}_1}{{\boldsymbol{y}}_{31}} ,$

$ {\boldsymbol{a}}_2^{\rm{p}} = - {\left( {{\boldsymbol{R}}_2^{\rm{p}}} \right)^{ - 1}}{{\boldsymbol{G}}^{\rm{T}} }{{\boldsymbol{P}}_2}{{\boldsymbol{y}}_{23}} ,$

$ {\boldsymbol{a}}_3^{\rm{p}} = - {\left( {{\boldsymbol{R}}_3^{\rm{p}}} \right)^{ - 1}}{{\boldsymbol{G}}^{\rm{T}} }{{\boldsymbol{P}}_1}{{\boldsymbol{y}}_{31}} ,$

$ {\boldsymbol{a}}_3^{\rm{e}} = - {\left( {{\boldsymbol{R}}_3^{\rm{e}}} \right)^{ - 1}}{{\boldsymbol{G}}^{\rm{T}} }{{\boldsymbol{P}}_2}{{\boldsymbol{y}}_{23}}. $

式(19)~(22)提供了完全信息条件的确定性攻防导引律,满足博弈纳什均衡式:

$ J({\boldsymbol{a}}{_i^{\rm{p}*}},{\boldsymbol{a}}_j^{\rm{e}}) \leqslant J({\boldsymbol{a}}{_i^{\rm{p}*}},{\boldsymbol{a}}{_j^{\rm{e}*}}) \leqslant J({\boldsymbol{a}}_i^{\rm{p}},{\boldsymbol{a}}{_j^{\rm{e}*}}). $

2. 不完全信息的随机微分对策设计

2.1. 不完全控制与观测偏差的对抗博弈策略

基于随机微分博弈理论,拓展对策形式,将随机过程引入状态方程中,实现对扰动的模拟. 在随机微分对策定义的追逃问题中,状态方程式为更一般的随机形式,如下所示:

$ \dot y = f(t,y,u,v,w) . $

式中:$u \in u(t) \in {E^{\rm{p}}}$$v \in v(t) \in {E^{\rm{q}}}$为控制变量;$w = w(t,\omega ) \in {E^{\rm{r}}}$为概率空间$(\varOmega ,A,\mu )$上的随机过程,且方程满足初始值与终端条件;把取值几乎处处满足$ U \in {E^{\rm{p}}} $$ V \in {E^{\rm{q}}} $的可测函数看作容许控制$ u(t) $$ v(t) $. 由于随机性的存在,状态方程将添加噪声项,且支付函数取期望形式[19]. 考虑追逃加速度${{\boldsymbol{a}}^{\rm{p}}}$${{\boldsymbol{a}}^{\rm{e}}}$,具备线性二次型形式的支付函数为

$ \mathop {\min }\limits_{{{\boldsymbol{a}}^{\rm{p}}}} \mathop {\max }\limits_{{{\boldsymbol{a}}^{\rm{e}}}} J = {E}\{ {{\boldsymbol{y}}_{{t_{\mathrm{f}}}}}^{\rm{T}} {\boldsymbol{S}}{{\boldsymbol{y}}_{{t_{\mathrm{f}}}}}+\int_{{t_0}}^{{t_{\mathrm{f}}}} {[{{\boldsymbol{a}}^{\rm{p}}}^{^{\rm{T}} }{{\boldsymbol{R}}^{\rm{p}}}{{\boldsymbol{a}}^{\rm{p}}} - {{\boldsymbol{a}}^{\rm{e}}}^{^{\rm{T}} }{{\boldsymbol{R}}^{\rm{e}}}{{\boldsymbol{a}}^{\rm{e}}}]{\mathrm{d}}t} \}. $

包含无规律运动过程的状态方程为

$ {\rm{d}}{\boldsymbol{y}} = [{\boldsymbol{Fy}}+{\boldsymbol{G}}{{\boldsymbol{a}}^{\rm{p}}} - {\boldsymbol{G}}{{\boldsymbol{a}}^{\rm{e}}}]{\rm{d}}t+{{\boldsymbol{Q}}_1}{\rm{d}}{{\boldsymbol{w}}_1} . $

追逃双方对状态的观测满足下式:

$ {\rm{d}}{{\boldsymbol{z}}_{\rm{e}}} = {\mathrm{d}}{{\boldsymbol{z}}_{\rm{p}}} = {\rm{d}}{\boldsymbol{z}} = {\boldsymbol{Hy}}{\rm{d}}t+{{\boldsymbol{Q}}_2}{\rm{d}}{{\boldsymbol{w}}_2} . $

式中:$ {{\boldsymbol{w}}_1} $$ {{\boldsymbol{w}}_2} $为独立标准化的随机维纳过程,$ {{\boldsymbol{Q}}_1} $$ {{\boldsymbol{Q}}_2} $满秩,$ {\boldsymbol{H}} $为观测偏差量. 状态方程初值$ {{\boldsymbol{y}}_0} $满足独立的正态分布$ {{\boldsymbol{y}}_0}\sim {\mathrm{N}}({{\boldsymbol{\bar y}}_0},{{\boldsymbol{M}}_0}) $.

采用伊藤积分变换,可得

$ {{{{E}}}}\left\{ \int_{{t_0}}^{{t_{\mathrm{f}}}} {{{\boldsymbol{y}}^{\rm{T}} }{\boldsymbol{P}}{{\boldsymbol{Q}}_1}{\rm{d}}{{\boldsymbol{w}}_1}} \right\} = 0 . $

根据式(26),展开式$ {\rm{d}}({{\boldsymbol{y}}^{\rm{T}}}{\boldsymbol{Py}}) $并将式(28)代入,可得

$ \begin{split} &{E}\left\{ \int_{{t_0}}^{{t_{\mathrm{f}}}} {[{{\boldsymbol{y}}^{\rm{T}} }{\boldsymbol{Py}}+2{{\boldsymbol{y}}^{\rm{T}}}{\boldsymbol{P}}({\boldsymbol{Fy}}+{\boldsymbol{G}}{{\boldsymbol{a}}^{\rm{p}}} - {\boldsymbol{G}}{{\boldsymbol{a}}^{\rm{e}}})]{\rm{d}}t} \right\}+ \\&{E}\left\{ \int_{{t_0}}^{{t_{\mathrm{f}}}} {{\mathrm{Tr}}\;[{\boldsymbol{P}}{{\boldsymbol{Q}}_1}{{\boldsymbol{Q}}_1}^{\rm{T}}]{\rm{d}}t}\right \} - {E}\left\{ {\rm{d}}({{\boldsymbol{y}}^{\rm{T}} }{\boldsymbol{Py}})|_{{t_0}}^{{t_{\mathrm{f}}}}\right\} = 0 .\end{split} $

定义$\left\| {\boldsymbol{\alpha}} \right\|_{\boldsymbol{\varLambda}} ^2 = {{\boldsymbol{\alpha}} ^{\rm{T}}}{\boldsymbol{\varLambda \alpha}}$,令$ {\boldsymbol{y}} = {\boldsymbol{\hat y}}+{\boldsymbol{\tilde y}} $,其中$ {\boldsymbol{\tilde y}} $为可测估计$ {\boldsymbol{\hat y}} $的残差且与$ {\boldsymbol{\hat y}} $不相关,结合式(29)代入支付函数,改写为

$ \begin{split} J =& {E}\left\{ \int_{{t_0}}^{{t_{\mathrm{f}}}} \left[\left\| {{{\boldsymbol{a}}^{\rm{p}}}+{{({{\boldsymbol{R}}^{\rm{p}}})}^{ - 1}}{{\boldsymbol{G}}^{\rm{T}} }{\boldsymbol{P\hat y}}} \right\|_{{{\boldsymbol{R}}^{\rm{p}}}}^2 -\right.\right.\\ &\left.\left. \left\| {{{\boldsymbol{a}}^{\rm{e}}}+{{({{\boldsymbol{R}}^{\rm{e}}})}^{ - 1}}{{\boldsymbol{G}}^{\rm{T}} }{\boldsymbol{P\hat y}}} \right\|_{{{\boldsymbol{R}}^{\rm{e}}}}^2\right]{\rm{d}}t \right\} + \\&\int_{{t_0}}^{{t_{\mathrm{f}}}} \{{{\rm{Tr}}\;[{\boldsymbol{P}}{{\boldsymbol{Q}}_1}{{\boldsymbol{Q}}_1^{\mathrm{T}}}+{\boldsymbol{PG}}(({{\boldsymbol{R}}^{\rm{p}}})^{{ - 1}} - ({{\boldsymbol{R}}^{\rm{e}}})^{{ - 1}}){{\boldsymbol{G}}^{\rm{T}} }){\boldsymbol{PK}}]\}{\mathrm{d}}t} +\\&{\rm{Tr}}\;({{\boldsymbol{P}}_{{t_0}}}{{\boldsymbol{M}}_0}).\end{split} $

其中物理系统的观测形式与卡尔曼滤波的估计形式相同,如下所示:

$ {\rm{d}}{\boldsymbol{\hat y}} = ({\boldsymbol{F\hat y}}+{\boldsymbol{G}}{{\boldsymbol{a}}^{\rm{p}}} - {\boldsymbol{G}}{{\boldsymbol{a}}^{\rm{e}}}){\rm{d}}t+{\boldsymbol{KH}}{{\boldsymbol{Q}}_2}^{\rm{T}} {{\boldsymbol{Q}}_2}[{\rm{d}}{\boldsymbol{z}} - {\boldsymbol{H\hat y}}{\rm{d}}t] . $

初值条件为$ {{\boldsymbol{\hat y}}_0} = {{\boldsymbol{y}}_0} $$ {\boldsymbol{K}} = {E}\{ ({\boldsymbol{y}} - {\boldsymbol{\hat y}}){({\boldsymbol{y}} - {\boldsymbol{\hat y}})^{\rm{T}}}\} $为协方差矩阵,且满足${\rm{Riccati}}$矩阵方程:

$ {\boldsymbol{\dot K = FK+K}}{{\boldsymbol{F}}^{\mathrm{T}}}{\boldsymbol{ - K}}{{\boldsymbol{H}}^{\mathrm{T}}}{({{\boldsymbol{Q}}_2}^{\rm{T}}{{\boldsymbol{Q}}_2})^{ - 1}}{\boldsymbol{HK+}}{{\boldsymbol{Q}}_{\boldsymbol{1}}}{{\boldsymbol{Q}}_{\boldsymbol{1}}}^{\rm{T}} .$

从式(30)~(32)可知,随机微分博弈策略的有效性取决于对于状态方程适用的预测模型. 在大多数情况下,需要获得合理的物理系统的预测感知策略,使预测模型达到接近最优的水平.

根据式(30),获得随机微分博弈的最优策略对为

$ {{\boldsymbol{a}}^{\mathrm{p}}}^* = - {({{\boldsymbol{R}}^{\mathrm{p}}})^{ - 1}}{{\boldsymbol{G}}^{\rm{T}} }{\boldsymbol{P\hat y}} , $

$ {{\boldsymbol{a}}^{\mathrm{e}}}^* = - {({{\boldsymbol{R}}^{\mathrm{e}}})^{ - 1}}{{\boldsymbol{G}}^{\rm{T}} }{\boldsymbol{P\hat y}} . $

从式(33)、(34)可知,随机条件下的最优策略对满足控制反馈过程,形式与完备条件近似.

2.2. 非完整间隔观测行为限制下的对抗博弈策略

考虑离散点化的序列观测估计场景,二次支付函数与运动状态方程满足式(25)、(26). 所获取的观测信息为

$ {\rm{d}}{{\boldsymbol{z}}_{\mathrm{p}}} = {\boldsymbol{Hy}}{\rm{d}}t+{\boldsymbol{Q}}_2^{\mathrm{p}}{\rm{d}}{\boldsymbol{w}}_2^{\mathrm{p}} , $

$ {\rm{d}}{{\boldsymbol{z}}_{\mathrm{e}}} = {\boldsymbol{Hy}}{\rm{d}}t+{\boldsymbol{Q}}_2^{\mathrm{e}}{\rm{d}}{\boldsymbol{w}}_2^{\mathrm{e}} . $

式中:$ {\boldsymbol{w}}_2^{\mathrm{p}} $$ {\boldsymbol{w}}_{2}^{{\mathrm{e}}} $为独立的维纳随机过程. 在有限的时间间隔$ [{t_0},{t_{\mathrm{f}}}] $中,追逃过程的参与者可以通过有限次观测$ {{{I}}^i}(t) = \{ {{\boldsymbol{z}}_i}({\tau _k})\} _{k = 1}^N $获取信息,其中${\tau _k} \in [0,{t_{\mathrm{f}}}]$. 从式(30)的推导过程可知,二次型成本函数总可以采用分离定理转化为$ J = {J_{{\mathrm{I}}}}+{J_{{\mathrm{d}}}} $. $ {J_{{\mathrm{I}}}} $表示不受决策方控制策略影响的独立项,$ {J_{\mathrm{d}}} $依赖于所选择的控制策略,如下所示:

$ {J_{{\mathrm{I}}}} = {E}\left\{ {{\boldsymbol{y}}_{{t_0}}}^{\mathrm{T}}{{\boldsymbol{P}}_{{t_0}}}{{\boldsymbol{y}}_{{t_0}}}+\int_{{t_0}}^{{t_{\mathrm{f}}}} {{\mathrm{Tr}}\,\,({\boldsymbol{PG}}{{\boldsymbol{G}}^{\rm{T}} }){\rm{d}}t} \right\} , $

$\begin{split} {J_{\rm{d}}} =& {E}\left\{ \int_{{t_0}}^{{t_{\mathrm{f}}}} \left[\left\| {{{\boldsymbol{a}}^{{\rm{p}}}}+{{({{\boldsymbol{R}}^{{\rm{p}}}})}^{ - 1}}{{\boldsymbol{G}}^{\rm{T}} }{\boldsymbol{Py}}} \right\|_{{{\boldsymbol{R}}^{{\rm{p}}}}}^2 -\right.\right. \\ & \left. \left. \left\| {{\boldsymbol{a}}^{{\rm{e}}}}+{{({{\boldsymbol{R}}^{{\rm{e}}}})}^{ - 1}}{{\boldsymbol{G}}^{\rm{T}} }{\boldsymbol{Py}} \right\|_{{{\boldsymbol{R}}^{\rm{e}}}}^2\right]{\rm{d}}t \right\} .\end{split} $

从式(37)、(38)可知,满足最优控制的条件为最优化${J_{\rm{d}}}$,反馈控制策略的形式如下所示:

$ {{\boldsymbol{a}}^{\mathrm{p}}}^* = - {({{\boldsymbol{R}}^{\mathrm{p}}})^{ - 1}}{{\boldsymbol{G}}^{\rm{T}} }{\boldsymbol{P}}{{\boldsymbol{\hat y}}_1}, $

$ {{\boldsymbol{a}}^{\mathrm{e}}}^* = - {({{\boldsymbol{R}}^{\mathrm{e}}})^{ - 1}}{{\boldsymbol{G}}^{\rm{T}} }{\boldsymbol{P}}{{\boldsymbol{\hat y}}_2}. $

式中:${{\boldsymbol{\hat y}}_1}$${{\boldsymbol{\hat y}}_2}$分别为对观测序列${{{I}}^{\rm{p}}}$${{{I}}^{\rm{e}}}$的可测函数,$ {{\boldsymbol{\hat y}}_i}(t) = f(t,{{I}^i}(t)) $.

${{\boldsymbol{\tilde R}}^{{\mathrm{p}}}} = {\boldsymbol{P}}{{\boldsymbol{G}}^{{\mathrm{p}}}}({{\boldsymbol{R}}^{{\mathrm{p}}}})^{ - 1}{{\boldsymbol{G}}^{{\mathrm{p}}}}^{\rm{T}} {\boldsymbol{P}}$${{\boldsymbol{\tilde R}}^{{\mathrm{e}}}} = {\boldsymbol{P}}{{\boldsymbol{G}}^{{\mathrm{e}}}}({{\boldsymbol{R}}^{{\mathrm{e}}}})^{ - 1}{{\boldsymbol{G}}^{{\mathrm{e}}}}^{\rm{T}} {\boldsymbol{P}}$,代入式(37)可得

$ {J_{{\mathrm{d}}}} = {{E}}\left\{ \int_{{t_0}}^{{t_{\mathrm{f}}}} {\left[\left\| {{\boldsymbol{y}} - {{{\boldsymbol{\hat y}}}_1}} \right\|_{{{{\boldsymbol{\tilde R}}}^{{\mathrm{p}}}}}^2 - \left\| {{\boldsymbol{y}} - {{{\boldsymbol{\hat y}}}_2}} \right\|_{{{{\boldsymbol{\tilde R}}}^{{\mathrm{e}}}}}^2\right]{\rm{d}}t} \right\} . $

系统的运动方程改写为

$ {\rm{d}}{\boldsymbol{y}} = [{\boldsymbol{Fy}} - {{\boldsymbol{P}}^{ - 1}}{{\boldsymbol{\tilde R}}^{{\mathrm{p}}}}{{\boldsymbol{\hat y}}_1} - {{\boldsymbol{P}}^{ - 1}}{{\boldsymbol{\tilde R}}^{{\mathrm{e}}}}{{\boldsymbol{\hat y}}_2}]{\rm{d}}t+{{\boldsymbol{Q}}_1}{\rm{d}}{{\boldsymbol{w}}_1} . $

对于任意某个观测间隔$ ({t_1},{t_2}] \subseteq [{t_0},{t_{\mathrm{f}}}] $,文献[19]中的证明过程给出对应受策略影响的支付项形式:

$ {\hat J_{{\mathrm{d}}}}^{{t_1},{t_2}} = {E}\left\{ \int_{{t_1}}^{{t_2}} {\left[\left\| {{\boldsymbol{\bar y}} - {{{\boldsymbol{\hat y}}}_1}} \right\|_{{{{\boldsymbol{\tilde R}}}^{{\mathrm{p}}}}}^2 - \left\| {{\boldsymbol{\bar y}} - {{{\boldsymbol{\hat y}}}_2}} \right\|_{{{{\boldsymbol{\tilde R}}}^{{\mathrm{e}}}}}^2\right]{\rm{d}}t} \right\} . $

获得某段离散观测间隔内的最优${{\boldsymbol{\hat y}}_1}$${{\boldsymbol{\hat y}}_2}$鞍点如下:

$ {{\boldsymbol{\dot {\hat y}}}_1} = ({\boldsymbol{F}} - {{\boldsymbol{P}}^{ - 1}}{{\boldsymbol{\tilde R}}^{{\mathrm{p}}}}+{{\boldsymbol{P}}^{ - 1}}{{\boldsymbol{\tilde R}}^{{\mathrm{e}}}}){{\boldsymbol{\hat y}}_1} , $

$ {{\boldsymbol{\dot {\hat y}}}_2} = ({\boldsymbol{F}} - {{\boldsymbol{P}}^{ - 1}}{{\boldsymbol{\tilde R}}^{{\mathrm{p}}}}+{{\boldsymbol{P}}^{ - 1}}{{\boldsymbol{\tilde R}}^{{\mathrm{e}}}}){{\boldsymbol{\hat y}}_2} . $

式中:${{\boldsymbol{\hat y}}_i}({t_0}) = {\boldsymbol{Q}}{{\boldsymbol{z}}_i}({t_0})$,且${\boldsymbol{QH}} = {\boldsymbol{I}}$.

由式(39)、(40)可得各段观测间隔内的最优博弈策略,整合获得连续策略. 通过离散间隔的估计转化,微分博弈的观测连续性重新得到满足,所得的策略对满足最优纳什均衡的特性.

3. 仿真实验

3.1. 仿真参数设置与数值方法

设定支付函数中的终端加权矩阵$ {{\boldsymbol{S}}_1} = {\boldsymbol{I}},\,\, {{\boldsymbol{S}}_2} = {{\boldsymbol{S}}_3} = {{\boldsymbol{0}}} $,加速度加权矩阵$ {{\boldsymbol{R}}_{{\mathrm{t}}}} = 2{\boldsymbol{I}},{{\boldsymbol{R}}_{{\mathrm{d}}}} = {\boldsymbol{I}},{\boldsymbol{R}}_{{\mathrm{a}}}^{{\mathrm{p}}} = {\boldsymbol{R}}_{{\mathrm{a}}}^{{\mathrm{e}}} = 0.5{\boldsymbol{I}} $与观测噪声偏差$ {{\boldsymbol{H}}^{{\mathrm{p}}}} = {{\boldsymbol{H}}^{{\mathrm{e}}}} = {\boldsymbol{I}} $. 运动系统的控制误差系数$ {{\boldsymbol{Q}}_1} = 0.1{\boldsymbol{I}} $,目标、防御者的观测误差系数$ {{\boldsymbol{Q}}_{{\mathrm{t}}}} = 0.1{\boldsymbol{I}} $$ {{\boldsymbol{Q}}_{\mathrm{d}}} = 0.1{\boldsymbol{I}}, $攻击者的观测误差系数$ {\boldsymbol{Q}}_{\mathrm{a}}^{\mathrm{p}} = {\boldsymbol{Q}}_{\mathrm{a}}^{\mathrm{e}} = 0.1{\boldsymbol{I}} $.

采用数值方法开展近似迭代求解,常微分方程采用4阶经典Runge-Kutta方法,如下所示:

$ \left. {\begin{array}{*{20}{l}} {{y_{i+1}} = {y_i}+\dfrac{h}{6}\left( {{k_1}+2{k_2}+2{k_3}+{k_4}} \right)} ,\\ {{k_1} = f({y_i},{t_i})} ,\\ {{k_2} = f\left({y_i}+\dfrac{h}{2}{k_1},{t_i}+\dfrac{h}{2}\right)} ,\\ {{k_3} = f\left({y_i}+\dfrac{h}{2}{k_2},{t_i}+\dfrac{h}{2}\right)} ,\\ {{k_4} = f({y_i}+h{k_3},{t_i}+h)} .\end{array}} \right\} $

式中:$\dot y = f(y,t)$$h = {t_{\mathrm{f}}}/N$. 通过选择合适的步长$h$获取近似精确解. 采用Maruyama改进的Euler方法求解ITO型随机微分方程,如下所示:

$ {y_{i+1}} = {y_i}+\alpha ({y_i})+\sigma ({y_i}) ({w_{i+1}} - {w_i}) . $

$ {w_{i+1}} - {w_i} $符合独立高斯过程$ \xi \sim \sqrt h N(0,1) $. 考虑状态方程的随机项存在,支付计算结果为多次仿真的平均值.

设置三方攻防博弈的仿真初始态势,如图1所示.

图 1

图 1   初始态势的模拟演示

Fig.1   Simulation demonstration of initial situation


3.2. 对策演示与性能对比

3.2.1. 博弈对策模拟

模拟长、短2组博弈时长,3种信息条件下三方攻防的运动轨迹如图23所示. 完全信息条件使用式(9)、(10)生成博弈策略. 不完全观测含噪信息条件采用式(33)、(34)生成博弈策略,离散间隔信息采用式(39)、(40)生成博弈策略.

图 2

图 2   短博弈时长下的三方攻防运动轨迹

Fig.2   Motion of three-party attack-defense with short game duration


图 3

图 3   长博弈时长下的三方攻防运动轨迹

Fig.3   Motion of three-party attack-defense with long game duration


在短博弈时长场景下,防守方可以抵近攻击方,完成防御任务. 在长博弈时长场景下,完全信息条件下的攻击方成功攻击,在不完全观测含噪信息与离散间隔信息条件下,目标完成了规避任务.

3.2.2. 与其他运动导引策略的性能对比

基于仿真结果,比较多类其他方法下的终端距离和总支付. 如图4所示为微分博弈导引方法与其他导引方法的运动轨迹对比.

图 4

图 4   各类导引对比方法的运动轨迹

Fig.4   Motion of various guidance comparison methods


在3种不同的信息条件下开展对比,每种条件运行10轮,结果取平均值,如表1所示. 微分博弈方法显著优于其他各类机动导引方法,突出了所提方法的性能优势. 在信息不完全场景下,各方自身的观测与控制随机特点使得机动控制的稳定性下降,微分博弈策略为各类方法最优,博弈方法的效益明显.

表 1   各类导引方法的博弈结果对比

Tab.1  Comparison of game result of various guidance methods

博弈条件微分博弈方法定加速度方法尾追方向方法环状-直航方法
终端距离总支付终端距离总支付终端距离总支付终端距离总支付
完全信息0.006174.99016.99045.83046.92
观测含噪信息2.548779.780.52320.380.114454.321.439046.82
离散间隔信息3.076376.120.000218.580.009142.001.235048.17

新窗口打开| 下载CSV


3.2.3. 信息场景对比和鲁棒性分析

为了证明微分博弈算法在不完全信息条件下的改进效果,开展总支付对比试验,结果运行10轮取平均值. 完全信息条件下的博弈总支付为−324,观测含噪信息条件下的博弈总支付为−188,离散间隔信息条件下的博弈总支付进一步上升至705,证明了算法改进的效果.

考虑策略鲁棒问题. 计算控制误差系数$ {{\boldsymbol{Q}}_1} $与观测误差系数$ {{\boldsymbol{Q}}_2} $对支付的影响. 令$ {{\boldsymbol{Q}}_1} = {q_1}{\boldsymbol{I}} $$ {{\boldsymbol{Q}}_2} = {q_2}{\boldsymbol{I}} $,计算10轮的平均支付值,结果如图5所示. 在一定程度的随机波动范围内,博弈策略的支付保持稳定,说明策略具备处理随机信息波动的能力.

图 5

图 5   控制与观测误差系数的鲁棒性分析

Fig.5   Robustness analysis of control and observation error coefficient


计算不同观测间隔下的10轮平均支付,如图6所示. 可知,当观测间隔tz小于12 s时,支付处于合理的性能偏差范围. 这表明策略具备有效处理观测信息间隔的能力.

图 6

图 6   离散观测的鲁棒性分析

Fig.6   Robustness analysis of intermittent observation


4. 结 语

针对水下环境三方TAD机动攻防的博弈问题,本文建立运动学模型,设计完全信息、不完全随机与非完整离散间隔观测3种场景下的水下攻防机动行为对策. 通过仿真实验,展示递进信息限制下双方及三方的运动控制效果,并进行结果对比,验证了导引律在复杂信息环境下的有效性与鲁棒性,表明所提方法对强鲁棒性的水下机动对抗策略设计具有指导意义.

参考文献

SARKAR M, NANDY S, VADALI S R K, et al

Modeling and simulation of a robust energy efficient auv controller

[J]. Mathematics and Computers in Simulation, 2016, 121 (3): 34- 47

[本文引用: 1]

FERRI G, MUNAFO A, LEPAGE K D. An autonomous underwater vehicle data driven control strategy for target tracking [J]. IEEE Journal of Oceanic Engineering, 2018, 43(2): 323-343.

[本文引用: 1]

CHOI H, TAHK M, BANG H

Neural network guidance based on pursuit-evasion games with enhanced performance

[J]. Control Engineering Practice, 2006, 14 (7): 735- 742

DOI:10.1016/j.conengprac.2005.03.001      [本文引用: 1]

赵慧瑾, 陈彧

基于矩阵博弈的智能水声对抗建模与仿真

[J]. 系统仿真学报, 2025, 37 (5): 1329- 1342

[本文引用: 1]

ZHAO Huijin, CHEN Yu

Modeling and simulation of intelligent underwater acoustic countermeasure based on the matrix game

[J]. Journal of System Simulation, 2025, 37 (5): 1329- 1342

[本文引用: 1]

王钊, 王宏健, 张宏瀚, 等

UUV攻防博弈的自适应攻击占位机动决策研究

[J]. 控制与决策, 2024, 39 (11): 3819- 3828

[本文引用: 1]

WANG Zhao, WANG Hongjian, ZHANG Honghan, et al

Adaptive attack occupancy maneuver decision of UUV attack-defense game

[J]. Control and Decision, 2024, 39 (11): 3819- 3828

[本文引用: 1]

邵剑

时间定量微分对策最优性的充分条件

[J]. 浙江大学学报, 1997, 31 (6): 6

[本文引用: 1]

SHAO Jian

The sufficient condition for the optimality of a quantitative differential games

[J]. Journal of Zhejiang University, 1997, 31 (6): 6

[本文引用: 1]

ISAACS R. Differential games [M]. New York: Wiley, 1965.

[本文引用: 1]

孙景瑞. 线性二次二人零和随机微分对策 [D]. 合肥: 中国科学技术大学, 2014.

[本文引用: 1]

SUN Jingrui. Linear quadratic two-person zero-sum stochastic differential games [D]. Hefei: University of Science and Technology of China, 2014.

[本文引用: 1]

SAID H, MU R

Discontinuous Nash equilibrium points for nonzero-sum stochastic differential games

[J]. Stochastic Processes and their Applications, 2020, 130 (11): 6901- 6929

DOI:10.1016/j.spa.2020.07.003      [本文引用: 1]

周健, 张玉华

传统零售商渠道选择策略微分博弈模型

[J]. 浙江大学学报: 工学版, 2019, 53 (9): 1720- 1727

[本文引用: 1]

ZHOU Jian, ZHANG Yuhua

Differential game model for channel selection strategies of traditional retailer

[J]. Journal of Zhejiang University: Engineering Science, 2019, 53 (9): 1720- 1727

[本文引用: 1]

段佳南, 谢俊, 邢单玺

风电-光伏-抽蓄-电制氢多主体能源系统增益的合作博弈分配策略

[J]. 上海交通大学学报, 2024, 58 (6): 872- 880

[本文引用: 1]

DUAN Jianan, XIE Jun, XING Shanxi

A cooperative game allocation strategy for wind-solar-pumped storage-hydrogen muti-stakeholder energy system

[J]. Journal of Shanghai Jiao Tong University, 2024, 58 (6): 872- 880

[本文引用: 1]

FARUQI F A. Differential game theory with applications to missiles and autonomous systems guidance [M]. Hoboken: Wiley, 2017.

[本文引用: 1]

WHITE B A, ZBIKOWSKI R, TSOURDOS A

Direct intercept guidance using differential geometry concepts

[J]. IEEE Transactions on Aerospace and Electronic Systems, 2007, 43 (3): 1- 5

DOI:10.1109/TAES.2007.4383574      [本文引用: 1]

周俊峰. 基于微分对策理论的航天器追逃控制方法研究 [D]. 哈尔滨: 哈尔滨工程大学, 2021.

[本文引用: 1]

ZHOU Junfeng. Research on control method for spacecraft pursuit-evasion based on differential game theory [D]. Harbin: Harbin Engineering University, 2021.

[本文引用: 1]

SINGH S K, REDDY P V

Dynamic network analysis of a target defense differential game with limited observations

[J]. IEEE Transactions on Control of Network Systems, 2022, 10 (1): 308- 320

[本文引用: 1]

LI D, CRUZ J B

Defending an asset: a linear quadratic game approach

[J]. IEEE Transactions on Aerospace and Electronic Systems, 2011, 47 (2): 1026- 1044

DOI:10.1109/TAES.2011.5751240      [本文引用: 1]

程瑞锋, 刘卫东, 高立娥, 等

多约束受扰追踪的微分对策滚动时域轨迹优化

[J]. 上海交通大学学报, 2017, 51 (12): 1473- 1479

[本文引用: 1]

CHENG Ruifeng, LIU Weidong, GAO Li’e, et al

Differential game trajectory optimization based on receding horizon control for multiple constraints tracking systems with additive disturbance

[J]. Journal of Shanghai Jiao Tong University, 2017, 51 (12): 1473- 1479

[本文引用: 1]

严卫生. 鱼雷航行力学 [M]. 西安: 西北工业大学出版社, 2005.

[本文引用: 1]

SUN F K, HO Y C

Role of information in the stochastic zero-sum differential game

[J]. Journal of Optimization Theory and Applications, 1976, 18 (1): 153- 163

DOI:10.1007/BF00933801      [本文引用: 2]

/