浙江大学学报(工学版), 2020, 54(10): 1883-1891 doi: 10.3785/j.issn.1008-973X.2020.10.003

信息工程

相控阵雷达搜索和跟踪资源博弈分配策略

刘一鸣,, 盛文,

Game strategy of resource allocation for phased array radar search and tracking

LIU Yi-ming,, SHENG Wen,

通讯作者: 盛文,男,教授. orcid.org/0000-0003-1373-9261. E-mail: shengwen@139.net

收稿日期: 2019-07-25  

Received: 2019-07-25  

作者简介 About authors

刘一鸣(1995—),男,硕士生,从事相控阵雷达资源管理技术研究.orcid.org/0000-0003-1041-0188.E-mail:ls.liu_yiming@whu.edu.cn , E-mail:ls.liu_yiming@whu.edu.cn

摘要

为了解决搜索和跟踪(SAT)资源分配(RA)实时性的问题,提出博弈论视角下的资源分配策略. 建立搜索与跟踪的系统模型,将SATRA建模为非合作博弈问题,将模型中搜索子空域和跟踪多目标间的资源分配问题看作合作博弈关系,利用Shapley值完成相应资源的分配,给出纳什均衡求解的双目标优化模型;为了快速找到符合决策者偏好的分配解,将双目标优化模型通过动态加权的理想点法转化为单目标优化问题,提出并行混合遗传粒子群优化(PHGAPSO)算法求解上述优化问题最优分配方案,仿真验证了博弈分配策略的有效性和先进性以及混合算法性能的优越性. 在相同的条件下,与帕累托双目标优化方法进行对比. 实验结果表明,博弈论的方法具有更高的灵活性,平均搜索信噪比提高了1.02%,平均跟踪目标误差降低了1.55%.

关键词: 相控阵雷达 ; 搜索与跟踪 ; 资源分配 ; 博弈策略 ; Shapley值 ; 纳什均衡 ; 混合遗传粒子群优化

Abstract

A resource allocation strategy based on game theory was proposed in order to solve the real-time problem of search and tracking (SAT) resource allocation (RA). The system model of search and tracking was established, and SATRA was modeled as a non-cooperative game problem. The resource allocation problem between the search subspace and the tracking multi-object in the model was regarded as the cooperative game relationship. The Shapley value was used to complete the corresponding problem, and the double objective optimization model of Nash equilibrium was given. The above double objective optimization model was transformed into a single objective optimization problem by using the dynamic weighted ideal point method in order to quickly find the distribution solution that meets the preference of decision maker. A parallel hybrid genetic particle swarm optimization (PHGAPSO) algorithm was proposed to solve the optimal allocation scheme of the above optimization problem. The simulation results verified the effectiveness and advancement of the game allocation strategy and the superiority of the performance of the hybrid algorithm. The method was compared with the Pareto bi-objective optimization method under the same conditions. The experimental results show that the game theory method has higher flexibility. The average search signal-to-noise ratio is increased by 1.02%, and the tracking target error is reduced by 1.55%.

Keywords: phased array radar ; search and tracking ; resource allocation ; game strategy ; Shapley value ; Nash equilibrium ; hybrid genetic particle swarm optimization

PDF (1441KB) 元数据 多维度评价 相关文章 导出 EndNote| Ris| Bibtex  收藏本文

本文引用格式

刘一鸣, 盛文. 相控阵雷达搜索和跟踪资源博弈分配策略. 浙江大学学报(工学版)[J], 2020, 54(10): 1883-1891 doi:10.3785/j.issn.1008-973X.2020.10.003

LIU Yi-ming, SHENG Wen. Game strategy of resource allocation for phased array radar search and tracking. Journal of Zhejiang University(Engineering Science)[J], 2020, 54(10): 1883-1891 doi:10.3785/j.issn.1008-973X.2020.10.003

随着战场环境的复杂化和多样化,相控阵雷达的探测任务逐渐加重,这会使得不同的雷达工作方式对系统资源有竞争的需求. 对于搜索和跟踪2种主要工作方式,若搜索资源缺乏,则低可观测目标可能不能及时被发现. 若不利用足够的资源跟踪已发现目标,则可能导致目标航迹缺失甚至失跟. 为了充分发挥雷达系统的性能,制定合理的资源分配策略是必不可少的.

近些年来,很多方法被应用到相控阵雷达SATRA策略中. 对于搜索问题,重点是利用尽量少的资源来扩大监视区域或提高目标检测能力,Hoffmann等[1-4]通过控制搜索参数,实现了搜索RA策略. 对于跟踪问题,重点是提高跟踪质量或跟踪目标数量,学者们利用协方差控制[5-7]和克拉美罗界(Cramer-Rao low bound, CRLB)控制[8-13]的方式,实现了对波束指向[8-11]、驻留时间[11]和发射功率[9,12-13]等参数的优化. 现有工作对SATRA问题的解决方案大多是基于优化规则的[14-16],问题被描述为一个最优控制过程,目标函数通常设置为搜索能力和跟踪质量的加权和,这些方法的缺点是权重的选定和非对称指标的无意义聚合,不能相对客观准确地反映问题的本质.

从上述分析可知,在有限的时间资源约束下最大化搜索能力和跟踪质量是2个相互冲突但必须同时考虑的问题. Charlish等[17]将雷达资源分配问题建模为连续双重拍卖问题,通过相应机制确定Karush-Kuhn-Tucker条件的竞争市场均衡,产生的最优解明显改善雷达的整体工作性能. Yan等[18]将SATRA问题制定在双目标约束优化的框架下,使用Pareto理论确定其多个最优解,以便在不同的场景下选择最优的分配策略. Shi等[19]在非合作博弈理论的框架下,在目标检测信噪比和最大干扰容限的约束下,实现了分布式雷达的功率分配. 目前,基于博弈论的资源分配策略在通信领域取得了很好的成果,有一定的借鉴意义. 王妍等[20-22]在合作博弈的理论指导下,完成了对链路信道及服务器容量的分配. Jiang等[23-24]将链路网络能量分配问题建模为非合作博弈模型,提高了网络的能量利用效率.

从上述研究可以看出,对相控阵雷达SATRA问题的研究还很缺乏. 事实上,相控阵雷达在不同情况下对SAT有不同的偏好,博弈论框架给RA策略提供了多角度的解决方案来满足决策者的需求,故博弈视角下SATRA策略具有更大的意义与优势. 本文在有限的时间资源约束下,将SATRA建模为非合作博弈问题,将其子资源的分配建模为合作博弈问题. 为了快速找到满足决策者偏好的解,将其转化为单目标优化问题,利用并行的混合遗传算法(genetic algorithm,GA)和粒子群算法(particle swarm optimization,PSO)求解上述问题的最优解,通过仿真验证了本文策略的有效性和先进性及寻优算法的优越性.

1. 相控阵雷达搜索和跟踪模型

相控阵雷达的任务是发现责任区内的未检测目标并更新已知目标的跟踪状态,责任区是根据外部环境和作战任务划定的雷达监视空域范围. 为了最大化雷达同时管理2类任务的能力,资源管理器必须动态地改变这2类任务之间有限资源的分配情况.

雷达部署在 $({x_0},{y_0})$位置,将资源分配周期设定为 ${T_0}$,考虑波束调度过程中的切换时间和决策时间的影响,定义时间利用率 $\eta $描述搜索和跟踪工作方式实际可利用资源,则实际利用资源 ${T_{{\rm{SAT}} }} = \eta {T_0}(0 < \eta < 1.0)$,通过预测下一周期的SAT性能制定合适的RA策略.

1.1. 搜索模型

假设在第 $k$个周期雷达须扫描 ${M_k}$个责任区,记为 ${{M}} = \{ 1,2, \cdots ,{M_k}\} $,故由雷达搜索方程[22]可得,第 $m$个责任区的信噪比 ${{\rm{SNR}} _{{\rm{S}} ,m,k}}$

${{\rm{SNR}} _{{\rm{S}} ,m,k}} = \frac{{{P_{{\rm{av}}}}{A_{\rm{e}}}\sigma {T_{{\rm{S}} ,m,k}}}}{{4{\text{π}} {k_{\rm{B}}}{T_{\rm{e}}}{L_{\rm{s}}}R_{m,k}^4{\varphi _{m,k}}}}.$

式中: ${P_{{\rm{av}} }}$为平均发射功率, ${A_{\rm{e}}}$为天线阵面面积, $\sigma $为目标散射截面积(RCS), ${k_{\rm{B}} }$为玻尔兹曼常数, ${T_{\rm{e}}}$为系统噪声温度, ${L_{\rm{s}}}$为系统损耗, ${R_{m,k}}$为探测距离, ${\varphi _{m,k}}$为水平搜索范围, ${T_{{\rm{S}} ,m,k}}$为波束扫描整个责任区的时间. 对于给定的雷达系统和责任区范围, ${T_{{\rm{S}} ,m,k}}$越大,检测信噪比越大,为了更好地反映关键参数间的制约关系,式(1)可以简化为

${{\rm{SN{R}}}_{{\rm{S}},m,k}} = \frac{{\rho {T_{{\rm{S}},m,k}}}}{{R_{m,k}^4{\varphi _{m,k}}}}{\rm{, }}\quad\quad\;\rho = \frac{{{P_{{\rm{av}} }}{A_{\rm{e}}}\sigma }}{{4{\text{π}} k{T_{\rm{e}}}{L_{\rm{s}}}}}.$

考虑到检测概率 ${P_{{\rm{d}} ,m,k}}$的约束,假设目标的起伏模型为SwerlingⅢ型[25],虚警概率为 ${P_{\rm{f}}}$,则有

${P_{{\rm{d}} ,m,k}} = \exp \;\left(\frac{{2\ln {P_{\rm{f}} }}}{{2 + {{{\rm{SNR}} }_{{\rm{S}} ,m,k}}}}\right) \cdot \left[1 - \frac{{2{{{\rm{SNR}} }_{{\rm{S}} ,m,k}} \ln {P_{\rm{f}} }}}{{{{(2 + {{{\rm{SNR}} }_{{\rm{S}} ,m,k}})}^2}}}\right].$

1.2. 跟踪模型

$k$个周期雷达需要跟踪 ${N_k}$个目标,设此时目标 $n$的状态矢量 ${{X}}_k^n = {[x_{{\rm{T}}k}^n,v_{x{\rm{T}}k}^n,y_{{\rm{T}}k}^n,v_{y{\rm{T}}k}^n]^{\rm{T}} }$,故状态转移方程为

${{X}}_k^n = {{{F}}_n}{{X}}_{k - 1}^n + {{\xi }}_{k - 1}^n.$

式中: ${{{F}}_n}$为状态转移矩阵; ${{\xi }}_{k - 1}^n$为零均值高斯过程噪声,协方差矩阵为 ${{Q}}_{k - 1}^n$.

当目标被照射后,可以从目标 $n$的回波中获取目标量测值 ${{Z}}_k^n$,则量测方程为

${{Z}}_k^n = {{H}} ({{X}}_k^n) + {{\omega }}_k^n.$

式中:

${{H}} ({{X}}_k^n) = {\left[ {{R_{n,k}},{\phi _{n,k}}} \right]^{\rm{T}} } = \left[ {\begin{array}{*{20}{c}} {\sqrt {{{(x_{Tk}^n - {x_0})}^2} + {{(y_{Tk}^n - {y_0})}^2}} } \\ {\arctan \left[ {(y_{Tk}^n - {y_0})/(x_{Tk}^n - {x_0})} \right]} \end{array}} \right];$

${{\omega }}_k^n$为零均值高斯量测过程噪声,协方差矩阵为 ${{R}}_k^n$,与跟踪时间资源的关系可以表示为

$\left.\begin{aligned}&{{R}}_k^n = {\rm{diag}} \;[\sigma _{{R_{n,k}}}^2,\sigma _{{\phi _{n,k}}}^2]; \\& \sigma _{{R_{n,k}}}^2 \propto {({{\rm{SNR}} _{{\rm{T}} ,n,k}}B_k^2)^{ - 1}}, \;\; \sigma _{{\phi _{n,k}}}^2 \propto {({{\rm{SNR}} _{{\rm{T}} ,n,k}}/{\beta _k})^{ - 1}} . \end{aligned} \right\} $

其中 $\sigma _{{R_{n,k}}}^2$$\sigma _{{\phi _{n,k}}}^2$分别为距离和角度测量均方误差, ${{\rm{SNR}} _{{\rm{T}} ,n,k}}$为第 $k$个周期目标 $n$的信噪比, ${B_k}$为信号的有效瞬时带宽, ${\beta _k}$为3 dB接收波束宽度. 由跟踪雷达方程可知,

${{\rm{SNR}} _{{\rm{T}} ,n,k}} \propto {T_{{\rm{T}} ,n,k}}/R_{n,k}^4.$

式中: ${T_{{\rm{T}} ,n,k}}$${R_{n,k}}$分别为第 $k$个周期目标 $n$消耗的时间资源和跟踪距离.

2. 博弈视角下SATRA问题建模

从上述模型可以看出,当搜索资源增加时,搜索信噪比提高;当跟踪资源增加时,跟踪误差降低,在有限的时间资源下,搜索和跟踪任务必然存在竞争关系,非合作博弈理论为其提供了很好的解决方案. 多空域搜索间和多目标跟踪过程中存在子资源分配问题,考虑其间是一种协同合作的关系,将上述问题分解为合作博弈的子空域(sub-airspace,SA)和多目标(multiple object,MO)间RA问题和非合作博弈的SATRA问题.

2.1. 非合作博弈的SATRA问题分析

非合作博弈模型 ${{\varGamma }}$的组成要素描述如下:

${{\varGamma }} = \left\langle {{{\varOmega }},{{\left\{ {{{{S}}_i}} \right\}}_{i \in {{\varOmega }}}},{{\left\{ {{U_i}} \right\}}_{i \in {{\varOmega }}}}} \right\rangle .$

式中: ${{\varOmega }} = \{ 1,2\} $表示博弈中的局中人,即搜索和跟踪; ${{{S}}_i}$表示局中人 $i$的策略集,其中 ${{{S}}_i} = \{0,{T_{{\rm{SAT}} }}\}$;各局中人选定一个策略 ${s_i} \in {{{S}}_i}$,形成了一个局势

${{s}} = ({s_1},{s_2}) \in \prod\limits_{i \in {{\varOmega }}} {{{{S}}_i}} ,$

则局中人 $i$在该局势下的效用函数记为 ${U_i}({{s}})$.

对于本文问题,搜索和跟踪作为局中人. 对于搜索,信噪比越大,检测概率越大,越容易发现远距低可探测目标,故搜索效用函数 ${U_1}({s_1})$定义为各责任区中信噪比的最小值,即

${U_1}({s_1}) = \min \;\left(\frac{{\rho {T_{{\rm{S}} ,m,k}}}}{{R_{m,k}^4{\varphi _{m,k}}}}\right);\;\;\sum\nolimits_{m \in {{M}}} {{T_{{\rm{S}} ,m,k}} = {s_1}} .$

对于跟踪,状态估计误差越小,目标的跟踪精度越高. 为了更好地体现目标跟踪误差,根据文献[26]可知,目标状态估计的CRLB为 ${{C}}({T_{{\rm{T}},n,k}})$,即

$\begin{split} {{J}}({T_{{\rm{T}} ,n,k}}|{{X}}_k^n) =& {\left[ {{{Q}}_{k - 1}^n + {{{F}}_n}{{{J}}^{ - 1}}({{X}}_{k - 1}^n){{F}}_n^{\rm{T}}} \right]^{ - 1}} + \\ & {{G}}_{n,k}^{\rm{T}}{({{R}}_k^n)^{ - 1}}{{{G}}_{n,k}}, \end{split} $

${{C}}({T_{{\rm{T}},n,k}}) = {\left( {{{J}}({T_{{\rm{T}},n,k}}|{{X}}_k^n)} \right)^{ - 1}}.$

式中: ${{J}}({T_{{\rm{T}},n,k}}|{{X}}_k^n)$为第 $k$个周期预测的Fisher信息矩阵(Fisher information matrix, FIM), ${{J}}({{X}}_{k - 1}^n)$为第 $k - 1$个周期实际的FIM,观测矩阵 ${{H}} ({{X}}_k^n)$的雅可比矩阵记为 ${{{G}}_{n,k}} = {\Delta _{{{X}}_k^n}}{{H}} ({{X}}_k^n)$. 将目标状态估计的矩阵的2范数作为跟踪质量的评价,故跟踪的效用函数 ${U_2}({s_2})$定义为各目标中估计误差的最大值,即

${U_2}({s_2}) = \mathop {\max }\limits_{n \in {{N}}} \;\left( {\sqrt {{\rm{Tr}}\; \left[ {{{\varLambda C}}({T_{{\rm{T}} ,n,k}}){{{\varLambda }}^{\rm{T}}}} \right]} } \right),$

式中:

$\sum\nolimits_{n \in {{N}}} {{T_{{\rm{T}} ,n,k}} = {s_2}} ,\quad {{\varLambda }} = {{{I}}_m} \otimes \left[ {\begin{array}{*{20}{c}} 1&0 \\ 0&{{T_0}} \end{array}} \right].$

其中 ${{N}} = \{ 1,2, \cdots ,{N_k}\}$为第 $k$个周期的目标集合, ${{{I}}_m}$为单位矩阵, $ \otimes $代表Kronecker运算.

2.2. 合作博弈的SARA和MORA问题分析

合作博弈中不存在统一的解,其中Shapley值是具有不同良好性质的解中最重要的一种,它将成本按照边际成本进行分摊,体现了分配的公平性和平等性. 利用Shapley值对SARA和MORA问题进行分析建模. 合作博弈 $({{A}},v)$由局中人集A和特征函数 $v$构成,在 $a$人合作博弈中, ${{S}} \subseteq {{A}}\backslash \left\{ i \right\}$,则称

$v({{S}} \cup \{ i\} ) - v({{S}})$

为局中人 $i$对联盟 ${{S}} \cup \left\{ i \right\}$的边际贡献,其中 ${{A}}\backslash \{ i\} $表示联盟中除去局中人 $i$后的联盟,可得局中人 $i$的Shapley值 ${\psi _i}(v)$,即

${\psi _i}(v) = \sum\limits_{{{S}} \subseteq {{A}}\backslash \{ i\} } {\frac{{|{{S}}|!\left( {a - |{{S}}| - 1} \right)!}}{{a!}}} \left[ {v({{S}} \cup \{ i\} ) - v({{S}})} \right].$

对于搜索区域,搜索空域越大,应分配到更多的资源,故定义搜索的特征函数为搜索空域的面积;对于跟踪目标,跟踪误差越大,下一周期应分配更多的资源,故定义跟踪的特征函数为跟踪目标的CRLB,即

$\left. \begin{split} & {v_{\rm{S}} }(m,k) = {\varphi _{m,k}}R_{m,k}^2{/2}, \\ & {v_{\rm{T}}}(n,k) = {\rm{Tr}} \;[{{C}}({T_{{\rm{T}} ,n,k - 1}})]. \end{split} \right\}$

式中: ${v_{\rm{S}} }(m,k)$${v_{\rm{T}}}(n,k)$分别为第 $k$个决策周期时搜索空域 $m$和跟踪目标 $n$的特征函数值;结合式(16) ~(18),可得搜索子空域和跟踪子目标的资源分配方案,将该分配方案作为求解2.1节问题的先验信息.

2.3. 联合优化模型建立

在非合作博弈中,每个局中人都是选择对自己最有利的策略,形成大家都不愿意去改变的稳定局势,即纳什均衡局势,数学描述如下:设 ${{{s}}^ * }$是博弈 ${{\varGamma }}$的一个局势,若

${U_i}\left( {{s_i},{{s}}_{ - i}^ * } \right) \leqslant {U_i}\left( {{{{s}}^ * }} \right),\;{\rm{ }} i \in \varOmega , {s_i} \in {{{S}}_i},$

则称 ${{{s}}^ * }$${{\varGamma }}$的一个纳什均衡局势,简称纳什均衡, ${s_i}$的第 $i$个分量称为局中人 $i$的均衡策略,其中 ${{s}}_{ - i}^ * $表示除去局中人 $i$后的纳什均衡. 式(19)的含义可以解释为:纳什均衡局势 ${{{s}}^ * }$下联盟的收益要高于任一子联盟在局势 ${{s}}_{ - i}^ * $下的收益.

综合上述分析可知,本文资源分配问题的纳什均衡解可以通过求解双目标优化问题得到,即最大化 ${U_1}({s_1})$的同时最小化 ${U_2}({s_2})$,优化模型为

$ \left.\begin{aligned} & \quad{\rm{ }}\mathop {\max }\limits_{{s_1},{s_2}} \left[ {{U_1}({s_1}),1/{U_2}({s_2})} \right]; \\ &{\rm{s.t.}} \;\;\sum\nolimits_{m \in {{M}}} {{T_{{\rm{S}} ,m,k}} = {s_1}} ,\;\sum\nolimits_{n \in {{N}}} {{T_{{\rm{T}} ,n,k}} = {s_2},} \\ & \quad\quad{T_{{\rm{S}} ,m,k}} = \frac{{{\psi _m}{{(v)}_{\rm s}}}}{{\displaystyle\sum\nolimits_{m \in {{M}}} {{\psi _m}{{(v)}_{\rm s}}} }}{s_1},\\&\quad\quad{T_{{\rm{T}} ,n,k}} = \frac{{{\psi _n}{{(v)}_{\rm t}}}}{{\displaystyle\sum\nolimits_{n \in {{N}}} {{\psi _n}{{(v)}_{\rm t}}} }}{s_2}, \\ &\quad\quad {s_1} + {s_2} = {T_{{\rm{SAT}} }}, \\ & \quad\quad {P_{{\rm{d}} ,m,k}} \geqslant {P_{{\rm{d}} \min }},\;{P_{{\rm{p}} ,n,k}} \leqslant {P_{{\rm{thr}}}}. \end{aligned}\right\}$

式中: ${\psi _m}{(v)_{\rm s}}$${\psi _n}{(v)_{\rm t}}$分别为搜索子空域 $m$和跟踪目标 $n$资源分配的Shapley值, ${P_{{\rm{d}} \min }}$为最低检测概率, ${P_{{\rm{p}} ,n,k}}$$k$周期目标 $n$的预测协方差, ${P_{{\rm{thr}} }}$为跟踪误差协方差门限.

上述双目标优化的非劣解集即为所求的纳什均衡点集,实际资源分配结果是解集中最能体现决策者偏好的某个解. 为了提高决策效率并兼顾决策偏好,利用理想点法将上述双目标优化问题转化为单目标优化问题,即使各目标值尽可能逼近理想值;由于 ${U_1}({s_1})$${U_2}({s_2})$的量纲和范围均不相同,须对上述效用函数进行归一化处理,具体表达式如下:

$\mathop {\min }\limits_{{s_1},{s_2}} \; {h = \gamma {D_1}({s_1},k) + (1 - \gamma ){D_2}({s_2},k)} .$

式中: $\gamma $为决策者对搜索的偏好系数;

$\left. \begin{aligned} & {D_1}({s_1},k) = {\left(\frac{{{U_1}({s_1}) - {{{\rm{SNR}} }_{\max }}(k)}}{{{{{\rm{SNR}} }_{\max }}(k) - {{{\rm{SNR}} }_{\min }}(k)}}\right)^2}, \\ &{D_2}({s_2},k) = {\left(\frac{{{U_2}({s_2}) - {C_{\min }}(k)}}{{{C_{\max }}(k) - {C_{\min }}(k)}}\right)^2}, \\ \end{aligned} \right\}$

其中, ${{\rm{SNR}} _{\min }}(k)$${{\rm{SNR}} _{\max }}(k)$分别为第 $k$个决策周期时预测的最大和最小检测信噪比, ${C_{\max }}(k)$${C_{\min }}(k)$分别为第 $k$个决策周期时预测的最大和最小CRLB. 随着决策时间的推移,各搜索区域的检测信噪比和各跟踪目标的CRLB均会发生变化,所以最值是动态变化的,在第 $k$个决策周期按照式(20)求得当前周期的最大、最小检测信噪比和CRLB.

为了实时反映决策者的偏好,须对系数 $\gamma $适时进行调整,定义决策者的偏好:当某个局中人的效益增加时,相应降低权重,即第 $k$周期的搜索偏好系数 ${\gamma ^{(k)}}$定义为

${\gamma ^{(k)}} = \left\{ \begin{aligned} & {\gamma ^{(k - 1)}} + \frac{{{s_1}^{(k - 1)}}}{{{T_0}}}[\gamma _{\max }^{(k)} - {\gamma ^{(k - 1)}}],\Delta U_1^{(k - 1)} < 0,\\&\quad\Delta U_2^{(k - 1)} < 0; \\ & {\gamma ^{(k - 1)}} - \frac{{{s_1}^{(k - 1)}}}{{{T_0}}}[{\gamma ^{(k - 1)}} - \gamma _{\min }^{(k)}],\Delta U_1^{(k - 1)} > 0,\\&\quad\Delta U_2^{(k - 1)} > 0; \\ & {\gamma ^{(k - 1)}},\;\Delta U_1^{(k - 1)}\Delta U_2^{(k - 1)} \leqslant 0. \\ \end{aligned} \right.$

式中: ${\gamma ^{(k - 1)}}$${s_1}^{(k - 1)}$分别为第 $k - 1$周期的偏好系数和搜索分配资源; $\Delta U_1^{(k - 1)}$$\Delta U_2^{(k - 1)}$分别为效用函数的变化值; $\gamma _{\min }^{(k)}$$\gamma _{\max }^{(k)}$分别为偏好系数的最小值和最大值,在 ${U_1}({s_1})$${U_2}({s_2})$达到临界值时按照式(20)预先计算得出.

3. 混合遗传粒子群算法

对于非合作博弈的SATRA模型问题中的跟踪博弈方,效用函数是通过迭代形式给出的隐式表达式,传统的求最优值的方法不适用,须采用智能优化算法来寻求最优解. 常用的 GA全局搜索能力强,PSO收敛速度快,而混合算法在雷达调度优化领域[27-29]有了一定程度的应用,因此提出并行的混合优化算法,对上述问题进行求解.

3.1. PSO算法

PSO将每个优化问题的潜在解作为搜索空间中的“粒子”,所有粒子都有一个被优化的函数决定的适应度,每个粒子还有一个速度决定它们飞翔的方向和距离;通过迭代寻优,每个粒子通过跟踪2个极值来更新自己在解空间中的位置和速度. 结合上述优化问题,对粒子群算法介绍如下.

假设在一个由 $L$个1维粒子组成的群体中,第 $i$个粒子位置为 ${s_{1i}}$,则所有粒子的位置向量 ${{{S}}_{\rm{P}}} = [{s_{11}},{s_{12}}, \cdots ,{s_{1L}}]$,飞行速度向量 ${{V}} = [{v_1},{v_2}, \cdots ,{v_L}]$,个体最优位置向量 ${{{p}}_{{\rm{best}}}} = [{p_1},{p_2}, \cdots ,{p_L}]$,全局最优位置向量 ${{{g}}_{{\rm{best}}}} = \max \;({{{p}}_{{\rm{best}}}})$. 粒子 ${\rm{ }}i$的速度和位置按照如下公式进行更新:

$\begin{aligned} \left.\begin{aligned} {v_i}(t + 1) =& \omega {v_i}(t) + {c_1}{r_1}[{p_i}(t) - {s_{1i}}(t)] + \\ & {c_2}{r_2}[{g_{{\rm{best}} }}(t) - {s_{1i}}(t)], \\ {\rm{ }}{s_{1i}}(t + 1) =& {s_{1i}}(t) + {v_i}(t + 1). \end{aligned}\right\} \end{aligned} $

式中: $\omega $为权重系数,用于平衡局部搜索与全局搜索; $t$为迭代次数; ${r_1}$${r_2}$$(0,1)$的随机数,用于保持种群的多样性; ${c_1}$${c_2}$为加速常数; ${v_i} \in [ - {v_{\max }},{v_{\max }}]$.

3.2. GA算法

GA通过对当前群体施加选择、交叉和变异等一系列遗传操作,从而产生新一代的群体,并逐步使群体进化到包含或接近最优解的状态. GA把可行解空间转换到其所能处理的搜索空间中的操作,称作编码. 常用的编码方式有二进制编码和实数编码,本文采用实数编码,该方式适合于精度较高的问题,同时降低了计算复杂度. 群体由 $L$个含有1个基因的染色体组成,个体 $j$记为 ${s_{1j}}$,则群体染色体向量 ${{{S}}_{\rm{G}}} = [{s_{11}},{s_{12}}, \cdots ,{s_{1L}}]$,对关键问题说明如下.

3.2.1. 适应度函数设计

适应度函数是度量个体适应度的函数,其值定义为非负,故通过目标函数 $h({s_1})$设计适应度函数 $H({s_1})$,即

$H({s_1}) = \left\{ \begin{array}{l} h({s_1}) - {c_{\min }},\;{\rm{ }}h({s_1}) > {c_{\min }}; \\ 0,\;{\rm{ }}h({s_1}) \leqslant {c_{\min }}. \\ \end{array} \right.$

式中: ${c_{\min }}$为常数,取 $h({s_1})$的最小值.

相控阵雷达搜索和跟踪过程的目标函数随资源变化是非线性的,为了提高算法的性能,须对适应度函数进行改进,借鉴文献[30],即

$\left.\begin{aligned} & {H'}({s_1}) = {(H({s_1}) + {c_{\max }})^k}, \\ & k = \sqrt[n]{t}/({H_{{\rm{avg}}}} + \xi ),\;n = 1 + \lg T. \end{aligned}\right\} $

式中: ${H'}({s_1})$为改进的适应度函数; ${c_{\max }}$$h({s_1})$的最大值; ${H_{{\rm{avg}}}}$为当代种群适应度的平均值; $T$为最大遗传代数; $\xi $为调节参数,取适当值.

3.2.2. 选择算子、交叉算子和变异算子

选择又称为复制,是在群体中选择生命力强的个体产生新的群体的过程. 利用比例选择方法,则个体i被选择的概率Pi

${P_i} = {H'}({s_{1i}})\bigg/\sum\limits_i^L {{H'}({s_{1i}})} .$

通过上述方式会破坏适应度较高的优良个体,使得问题收敛速度慢甚至陷入局部最优,故引入最优保存策略保护优秀个体. 基本思想概括如下:当前种群中适应度最高的个体不参与进化,而是用它替换掉本代种群中经过杂交、变异等遗传后所产生的适应度最低的个体.

交叉算子是个体间交配重组的过程,对于实数编码方式,常采用算术交叉方式开展. 假设在两个体 ${s_{1A}}(t)$${s_{1B}}(t)$之间交叉,则产生的2个新个体为

$\left. \begin{array}{l} {s_{1A}}(t + 1) = \alpha {s_{1B}}(t) + (1 - \alpha ){s_{1A}}(t); \\ {s_{1B}}(t + 1) = \alpha {s_{1A}}(t) + (1 - \alpha ){s_{1B}}(t). \\ \end{array} \right\}$

式中: $\alpha $为参数, $\alpha \in (0,1)$. 交叉操作的执行与否由交叉概率 ${P_{\rm{c}}}$决定.

变异算子是个体间染色体等位基因替换的过程,为了增加种群的多样性,采用均匀变异的方式. 上述操作过程描述如下:依次指定个体中每个基因座为变异点,对每个变异点,以变异概率 ${P_{\rm{m}}}$从对应基因的取值范围内取一随机数,代替原来的基因值.

3.3. PHGAPSO算法

为了整合PSO和GA在寻优时各自的优势,提出PHGAPSO. 该方法将个体(粒子)用混合概率 ${P_{\rm{H}}}(t)$分成2组,2组个体分别通过GA和PSO得到相应的子代;按照适应度对粒子进行筛选,将迭代得到的局部和全局最优解存到PSO中的2个极值向量中. 具体步骤流程如图1所示.

图 1

图 1   PHGAPSO算法实现流程图

Fig.1   Flow chart of PHGAPSO algorithm implementation


4. 仿真实验

为了说明博弈策略求解SATRA问题的有效性和先进性,揭示问题内在机制,在设定的场景下将博弈论(game theory,GT)方法与文献[18]的帕累托双目标优化(Pareto bi-objective optimization,PBO)方法进行对比分析.

4.1. 对比方法[18]介绍

该方法将相控阵雷达SATRA分配问题建模为双目标优化问题,从模型的帕累托解中寻求资源分配方案. 为了减少可行方案的数目,选取以最小检测信噪比和最大CRLB水平下的帕累托前沿面,求得搜索和跟踪所需的最少资源,在有限的资源约束下利用比例法寻求最优分配方案.

4.2. 仿真场景

假设雷达固定在坐标(0,0)位置,信号带宽Bk=1 MHz,3 dB波束宽度βk=1º,当目标σ=1 m2时,系统常数ρ=2.28×1026,决策周期设置为T0=1 s,时间利用率取η=0.9,仿真总时间为20T0;最小可检测概率Pdmin=0.9,虚警概率Pf=10-6,跟踪误差门限Pthr=500 m. 在实际情况下,雷达搜索空域和跟踪目标数目是变化的,具体场景如下:初始跟踪目标为5个,1~10周期内,搜索空域布置如表1所示,同时,在第6周期时,跟踪目标增加2个;在11~15周期,搜索空域布置情况的变化如表2所示,在第16周期时,跟踪目标增加1个. 目标飞行速度为10~12马赫,目标空间的分布情况如图2所示.

表 1   1~10周期搜索空域1布置参数

Tab.1  1-10 cycle search airspace 1 arrangement parameters

空域序号 Rm,k / (103 km) φm,k / (°)
1 2.5 10
2 2.5 12
3 2.7 10
4 2.8 8
5 3.0 10
6 2.9 6

新窗口打开| 下载CSV


表 2   11~20周期搜索空域2布置参数

Tab.2  11-20 cycle search airspace 2 arrangement parameters

空域序号 Rm,k / (103 km) φm,k / (°)
1 2.4 6
2 2.4 8
3 2.6 8
4 2.8 8
5 3.0 16
6 3.0 10
7 2.7 6
8 2.5 8

新窗口打开| 下载CSV


图 2

图 2   雷达责任区内的目标运动轨迹示意图

Fig.2   Schematic diagram of target motion trajectory in radar area of responsibility


对PHGAPSO算法的关键参数值进行设置,如表3所示. 表中,Pres为时间资源分配比例.

表 3   PHGAPSO算法参数设计

Tab.3  Parameter design of PHGAPSO algorithms

参数 数值 参数 数值
L 100 c1 2
Pc 0.4 c2 2
Pm 0.05 Pres 0~1.0
T 50 v 0.002~0.010
ω 0.7 PH(t) 0.5

新窗口打开| 下载CSV


4.3. 仿真结果分析

在上述场景下,博弈分配方法和帕累托双目标优化方法下的搜索和跟踪资源分配结果如图3所示. 可以看出,GT方法不仅可以在搜索空域和跟踪目标数变化时及时采取合适的资源分配方案,而且能够在系统状态发生变化时对资源分配方案进行调整,更具有灵活性. PBO方法仅仅是在搜索空域和跟踪目标数量发生变化时进行资源分配调整,在其他决策时刻时的资源分配方案基本保持不变.

图 3

图 3   GT和PBO方法的资源分配结果对比

Fig.3   Comparison of resource allocation results between GT and PBO methods


图3分配方案下得出的2种方法的搜索和跟踪效用函数值,如图45所示. 图中,SCRLB为克拉美罗下界. 在初始时刻,雷达资源较充足,目标的初始跟踪误差较小,GT方法相比PBO方法分配搜索工作方式更多资源;当第6周期跟踪目标增加时,GT方法相比PBO方法分配给跟踪工作方式更多资源;当第11周期搜索区域扩大时,GT方法相比PBO方法分配给搜索工作方式更多资源,如此往复. 经过计算可知,GT方法的平均搜索信噪比和跟踪CRLB分别为26.49 dB和172.56 m,PBO方法的平均搜索信噪比和跟踪CRLB分别为26.22 dB和175.21 m,平均搜索信噪比提高了1.02%,平均跟踪目标误差降低了1.55%.

图 4

图 4   GT和PBO方法的搜索效用对比

Fig.4   Comparison of search utility between GT and PBO methods


图 5

图 5   GT和PBO方法的跟踪效用对比

Fig.5   Comparison of track utility values between GT and PBO methods


从上述分析可以看出,GT方法能够根据搜索和跟踪系统的变化情况实时地调整资源分配情况,达到搜索和跟踪性能的最佳平衡. 这是因为GT方法将大部分资源流动分配给搜索和跟踪工作方式,提高了各个决策时刻资源的可利用率,PBO方法时刻保证2种工作方式具有一定的资源,这是限制PBO方法调度性能的根本原因.

为了反映GT方法子空域和多目标间资源分配的情况,选取搜索空域和跟踪目标变化的几个典型决策时刻进行分析,如图67所示. 在图3所示的分配情况下,当搜索空域增加时,按照各空域的搜索范围来分配总的搜索资源,分配比例与决策时间无明显关系;对于新发现的跟踪目标,按照跟踪精度需求来分配资源,分配比例随着时间的变化而变化. 可以看出,合作博弈的子资源分配思想与实际决策所寻求的解决方案十分贴近.

图 6

图 6   典型帧周期实际子空域资源分配图

Fig.6   Actual subspace resource allocation map at typical frame period


图 7

图 7   典型帧周期实际多目标资源分配图

Fig.7   Actual multi-target resource allocation map at typical frame period


给出PHGAPSO算法与GA和PSO寻优性能的对比曲线,如图8所示. 可以看出,在迭代次数相同的条件下,PHGAPSO的寻优精度更高;在适应度相同的条件下,所需的迭代次数更低. 为了反映算法寻优的实时性,各算法的寻优时间和性能指标如表4所示. 表中,Hmax为适应度最优值,tcom为算法运行时间. 实验平台为Windows1 064位操作系统,计算机配置为Intel Core i5-8250U CPU,主频为1.6 GHz,显示适配器为NVIDIA GeForce MX150;在相同的条件下,PHGAPSO的寻优精度较GA提高了4.26%,较PSO提高了7.30%,各算法的运行时间均满足资源分配的实时性.

表 4   各算法寻优性能指标统计表

Tab.4  Statistical performance index of each algorithm

算法 Hmax tcom/s
PHGAPSO 0.007 368 3.505 643
GA 0.007 682 1.842 562
PSO 0.007 906 1.822 971

新窗口打开| 下载CSV


图 8

图 8   各寻优算法性能曲线的对比图

Fig.8   Comparison curve of performance curves of various optimization algorithms


5. 结 论

(1)利用博弈视角下资源分配问题解的非唯一性,为相控阵雷达资源分配问题提供了有效的多解决方案.

(2)利用动态加权的理想点法将双目标优化模型转化为单目标优化模型,为快速获得满足决策者偏好解提供了解决思路.

(3)提出混合并行遗传粒子群算法,提高了模型求解的效率和精度.

(4)提出的解决问题的理论框架具有良好的拓展性,可以解决多功能相控阵雷达多工作方式下的资源分配问题.

参考文献

HOFFMANN F, CHARLISH A. A resource allocation model for the radar search function [C]// 2014 International Radar Conference. France: IEEE, 2014: 1-6.

[本文引用: 1]

卢建斌, 胡卫东, 郁文贤

相控阵雷达资源受限时最优搜索性能研究

[J]. 系统工程与电子技术, 2004, 26 (10): 1388- 1390

LU Jian-bin, HU Wei-dong, YU Wen-xian

Research on optimal search performance of phased array radar under resource constraints

[J]. Systems Engineering and Electronic Technology, 2004, 26 (10): 1388- 1390

JANGA D S, CHOIA H L, ROHB J E

Search optimization for minimum load under detection performance constraints in multi-function phased array radars

[J]. Aerospace Science and Technology, 2015, 40: 86- 95

DOI:10.1016/j.ast.2014.10.005     

ZHANG Z K, ZHU J H, LI H L. Optimal search algorithm for phased array radar without indication information [C]// 2014 6th International Conference on Intelligent Human-Machine Systems and Cybernetics. Hangzhou: IEEE, 2014: 322-325.

[本文引用: 1]

ZHANG H W, XIE J W, SHI J P, et al

Joint beam and waveform selection for the MIMO radar target tracking

[J]. Signal Processing, 2018, 156 (9): 31- 40

[本文引用: 1]

张贞凯, 汪飞, 周建江, 等

多目标跟踪中自适应时间资源调度

[J]. 航空学报, 2011, 32 (3): 522- 530

ZHANG Zhen-kai, WANG Fei, ZHOU Jian-jiang

Adaptive time resource scheduling in multi objective tracking

[J]. Journal of Aeronautics, 2011, 32 (3): 522- 530

SHI C G, ZHOU J J, WANG F

Adaptive resource management algorithm for target tracking in radar network based on low probability of intercept

[J]. Multidimensional System and Signal Processing, 2017, 29 (4): 1203- 1226

[本文引用: 1]

YAN T, HAN C Z. Sensor management for multi-target detection and tracking based on PCRLB [C]// 20th International Conference on Information Fusion. Xi'an: IEEE, 2017: 1–6.

[本文引用: 2]

YAN J K, LIU H W, JIU B, et al

Simultaneous multibeam resource allocation scheme for multiple target tracking

[J]. IEEE Transactions on Signal Processing, 2015, 63 (12): 3110- 3122

DOI:10.1109/TSP.2015.2417504      [本文引用: 1]

YUAN Y, YI W, KINBARAJAN T, et al

Scaled accuracy based power allocation for multi-target tracking with colocated MIMO radars

[J]. Signal Processing, 2019, 158: 227- 240

DOI:10.1016/j.sigpro.2019.01.014     

王祥丽, 易伟, 孔令讲

基于多目标跟踪的相控阵雷达波束和驻留时间联合分配方法

[J]. 雷达学报, 2017, 6 (6): 602- 610

[本文引用: 2]

WANG Xiang-li, YI Wei, KONG Ling-jiang

Phased array radar beam and dwell time joint allocation method based on multi-target tracking

[J]. Journal of Radar, 2017, 6 (6): 602- 610

[本文引用: 2]

XIE M C, YI W, KINBARAJAN T, et al

Joint node selection and power allocation strategy for multi-target tracking in decentralized radar networks

[J]. IEEE Transactions on Signal Processing, 2018, 66 (3): 729- 743

DOI:10.1109/TSP.2017.2777394      [本文引用: 1]

XIE M C, YI W, KONG L J, et al

Receive-beam resource allocation for multiple target tracking with distributed MIMO radars

[J]. IEEE Transactions on Aerospace and Electronic Systems, 2018, 54 (5): 2421- 2436

DOI:10.1109/TAES.2018.2818579      [本文引用: 2]

ROMERO R A, GOODMAN N A

Cognitive radar network: cooperative adaptive beamsteering for integrated search-and-track application

[J]. IEEE Transactions on Aerospace and Electronic Systems, 2013, 49 (2): 915- 931

DOI:10.1109/TAES.2013.6494389      [本文引用: 1]

BYRNE M, WHITE K, WILLIAMS J. Scheduling multifunction radar for search and tracking [C]//18th International Conference on Information Fusion. Washington, DC: IEEE, 2015: 945–952.

SEVERSON T, PALEY D

Distributed multi-target search and track assignment with consensus-based coordination

[J]. IEEE Sensors Journal, 2015, 15 (2): 864- 875

DOI:10.1109/JSEN.2014.2355200      [本文引用: 1]

CHARLISH A, WOODBRIDGE K, GRIFFITHS H

Phased array radar resource management using continuous double auction

[J]. IEEE Transactions on Aerospace and Electronic Systems, 2015, 51 (3): 2212- 2224

DOI:10.1109/TAES.2015.130558      [本文引用: 1]

YAN J K, PU W Q, LIU H W, et al

Resource allocation for search and track application in phased array radar based on pareto bi-objective optimization

[J]. IEEE Transactions on Vehicular Technology, 2019, 68 (4): 3487- 3499

DOI:10.1109/TVT.2019.2894960      [本文引用: 3]

SHI C G, WANG F, MATHINI SELLATHURAI, et al

Non-cooperative game theoretic power allocation strategy for distributed multiple-radar architecture in a spectrum sharing environment

[J]. IEEE Access, 2018, 6: 17787- 17800

DOI:10.1109/ACCESS.2018.2817625      [本文引用: 1]

王妍, 马秀荣, 单云龙

Shapley值的LTE系统下行QoS感知资源调度

[J]. 计算机工程与应用, 2020, (4): 76- 81

[本文引用: 1]

WANG Yan, MA Xiu-rong, SHAN Yun-long

Downlink QoS aware resource scheduling for LTE systems with Shapley values

[J]. Computer Engineering and Application, 2020, (4): 76- 81

[本文引用: 1]

YU X, ZHANG H B, YANG L, et al

Cooperative game based resource allocation in hybrid D2D cellular network

[J]. International Journal of Future Generation Communication and Networking, 2017, 10 (3): 71- 80

DOI:10.14257/ijfgcn.2017.10.3.08     

TIMMER J, SCHEINHARDT W

Cost sharing of cooperating queues in a Jackson network

[J]. Queueing System, 2013, 75: 1- 17

DOI:10.1007/s11134-012-9336-4      [本文引用: 2]

JIANG W H, FENG W J, ZHAO X C, et al

Resource allocation in energy constrained cooperative cognitive radio network

[J]. IEICE Transactions on Communication, 2017, 100 (2): 354- 363

[本文引用: 1]

JIA Y N, YUE D W

Energy-efficient uplink resource allocation based on game theory in cognitive small cell networks

[J]. Wireless Personal Communication, 2017, 95 (3): 2437- 2459

DOI:10.1007/s11277-016-3927-z      [本文引用: 1]

MAHAFZA B R, ELSHERBENI A. Simulations for radar systems design (MATLAB) [M]. Massachusetts: Chapman, 2004: 117-128.

[本文引用: 1]

TICHAVSKY P, MURAVCHIK C H, NEHORAI A

Posterior Cramér-Rao bounds for discrete-time nonlinear filtering

[J]. IEEE Transactions on Signal Processing, 1998, 46 (5): 1386- 1396

DOI:10.1109/78.668800      [本文引用: 1]

张浩为, 谢军伟, 张昭建, 等

基于混合遗传-粒子群算法的相控阵雷达调度方法

[J]. 系统工程与电子技术, 2017, 39 (9): 1985- 1991

[本文引用: 1]

ZHANG Hao-wei, XIE Jun-wei, ZHANG Zhao-jian, et al

Phased array radar scheduling method based on hybrid genetic-particle swarm optimization

[J]. Systems Engineering and Electronic Technology, 2017, 39 (9): 1985- 1991

[本文引用: 1]

JIANG H Q, ZHANG Y R, XU H Y

Optimal allocation of cooperative jamming resource based on hybrid quantum-behaved particle swarm optimisation and genetic algorithm

[J]. IET Radar, Sonar and Navigation, 2017, 11 (1): 185- 192

DOI:10.1049/iet-rsn.2016.0119     

ZHU M X, LI J C, CHANG D G, et al

Optimization of antenna array deployment for partial discharge localization in substations by hybrid particle swarm optimization and genetic algorithm method

[J]. Energies, 2018, 1813 (11): 1- 18

[本文引用: 1]

杨水清, 杨加明, 孙超

改进的乘幂适应度函数在遗传算法中的应用

[J]. 计算机工程与应用, 2014, 50 (17): 40- 43

[本文引用: 1]

YANG Shui-qing, YANG Jia-ming, SUN Chao

Application of improved power fitness function in genetic algorithm

[J]. Computer Engineering and Application, 2014, 50 (17): 40- 43

[本文引用: 1]

/