<img src="https://www.zjujournals.com/eng/images/1008-973X/images/logo.png" class="img-responsive">

图 1 传统电子干扰方法

Fig.1 Traditional electronic jamming methods

由于压制干扰在对抗过程中所发射的能量通常较大，很容易暴漏己方干扰源的相关辐射源信息，使己方在博弈对抗系统中处于劣势地位. 为了使博弈对抗系统中己方的收益更大，通常利用更加灵巧的电子欺骗干扰方式实现对目标更加自主与智能的干扰效果.

1.1. 电子干扰模型

在电子战对抗过程中，雷达对特定空域发射相应的探测信号 $S(t - \tau )$，电子干扰机经过时间 $\tau $后接收到该有效信号 $S(t)$，对该信号相应的载频、调制斜率以及带宽等参数进行估计，实现对对方信号的有效态势信息感知，从而更加针对性地对对方目标进行精准干扰.

如图2所示为电子对抗干扰模型的示意图.

图 2

图 2 电子对抗干扰模型

Fig.2 Electronic countermeasures jamming model

雷达的发射电压信号为

(1) $ S(t) = A \exp \;\left[ {{\rm{j}} 2 \text{π} \left( {{f_0}t + 0.5\mu {t^2}} \right)} \right]. $

式中： $ A $为电压信号的幅值， $ {f_0} $为信号载频， $ \mu $为信号调制率.

电子干扰机接收到的辐射源电压信号为

(2) $ {S_{{\text{rec}}}}(t) = S(t - \tau ) + n(t). $

式中： $ n(t) $为服从均值为0、方差为 $ {\sigma ^2} $的高斯白噪声.

电子干扰机接收到有源雷达发射的直达波信号后，对 $ {S_{{\text{rec}}}}(t) $信号中的相关参数进行参数估计，实现对对方雷达发射信号的有效态势信息感知. 接收到的 $ {S_{{\text{rec}}}}(t) $信号的参数估计流程如图3所示.

图 3

图 3 辐射源电磁参数侦察流程

Fig.3 Processing of electromagnetic parameters about radiation source

图3中的辐射源电子侦察包括对信号载波频率f_c、脉冲宽度w_p、脉冲重复频率f_PR及有效信号带宽B_w的参数估计. 基于时域能量包络法实现对接收雷达脉冲重复周期PRI的测量，f_PR为PRI的倒数，即 $ {f_{{\rm{PR}}}} = 1/{\rm{PRI}} $. 基于相位差分和傅里叶系数插值迭代单频测量算法，利用延时共轭和倒序共轭的算法来实现对载频f_c和脉冲调制斜率k的计算，B_w可由w_p与k共同计算得到，即 $ {B_{\rm{w}}} = k {w_{\rm{p}}} $，完成了对当前辐射源雷达脉冲描述字PDW的参数估计.

1.2. 基于动态态势感知的电子干扰策略

电子干扰机对被干扰目标的干扰策略是基于外部环境及电磁环境的变化而实时动态变化的. 传统的电子干扰方法是有限次模式的干扰策略，干扰策略是静态、非实时模式，不能适应动态的电磁环境. 在高动态电磁环境中，传统的电子干扰机不能适应复杂电磁环境，导致电子干扰机功能失效，可能暴露己方的位置、速度信息.

基于动态态势感知的电子干扰方法是基于环境交互的实时动态感知，可以实现对被干扰目标的实时动态电磁感知能力，从而实现更加智能的电子干扰策略.

如图4所示为基于环境交互的干扰机智能体观察与反馈示意图.

图 4

图 4 基于环境交互的动态电子干扰策略

Fig.4 Dynamic electronic jamming strategy based on environmental interaction

图4中，基于环境交互的动态电子干扰策略可以实时监测外部电磁环境，为更加精准的智能电子干扰提供先验信息. 其中，电子干扰机从外部电磁环境中实时感知电磁态势信息，包括频率、带宽、脉冲重复频率等相关信号参数. 通过与上一时刻的态势信息对比，实现对下一时刻电子干扰系统中相应参数的更新并将更新好的干扰信号作用于电磁环境中的被干扰目标. 干扰机从外部电磁环境中得到实时信息的反馈，为下一时刻的电子干扰决策提供精准的依据.

2. 基于信息共享的多智能体联合感知

将单个电子干扰机看作基于电磁环境下的单智能体，通常电子干扰机作为电磁信息感知与干扰决策处理的单元，对态势感知的要求更高. 输入至智能体的态势感知信息越充分，电子干扰机给出的干扰决策将更加精准、智能. 受限于电子干扰机对空域态势感知的有限性，单智能体只能对局部信息进行充分感知，对于自身感知能力之外的空域态势，则会无能为力. 基于多智能体的电子干扰组网系统^[13-15]，利用多智能体之间的信息共享特点，可以解决感知信息不充分的缺点，从而实现更充分的电磁环境态势感知能力. 基于分布式多智能体的联合态势感知框架如图5所示.

图 5

图 5 基于信息共享的多智能体联合态势感知

Fig.5 Multi-agent joint situational awareness based on information sharing

图5中，多智能体之间有专用的信息共享链路，可以实现相邻智能体之间的信息共享能力，同时各个智能体分别单独对被观测目标进行探测，实现对目标特征在各个维度态势信息的充分感知^[16-17]，为后续电子干扰机系统对被干扰目标的干扰策略及干扰参数提供更多依据.

2.1. 多智能体态势参数平衡问题

假设多智能体系统由N个单智能体电子干扰机节点组成，表示为 $ N = \left\{ {1,2, \cdots ,n} \right\} $. 假设单个电子干扰机智能体能够实现的态势信息可以表示为

(3) $ \begin{split} {X_i} = &{C_i}\left( {{{\left\{ {{\text{Information of Agent }}i} \right\}}_{i \in N}}} \right) \hfill {\text{ = }}\\&{C_i}:\left\{ {{f_{\rm{c}}},{w_{\rm{p}}},{f_{{\rm{PR}}}},{B_{\rm{w}}}} \right\}. \end{split} $

式中：C_i表示第i个智能体参数的集合.

整个多智能体系统能感知到的全部态势信息可以表示为

(4) $ C = {\rm{sum}}\;\left( {{X_i}|i \in {N}} \right). $

各个智能体中的参数主要包括f_c、w_p、f_PR及B_w，干扰信号的参数权重用 $\alpha = \left\{ {{\alpha _{{f_{\rm{c}}}}},{\alpha _{{w_{\rm{p}}}}},} \right. $ $ \left. {{\alpha _{{f_{{\rm{PR}}}}}},{\alpha _{{B_{\rm{w}}}}}} \right\}$表示，其中 $ \left\{ {{\alpha _{{f_{\rm{c}}}}},{\alpha _{{w_{\rm{p}}}}},{\alpha _{{f_{{\rm{PR}}}}}},{\alpha _{{B_{\rm{w}}}}}} \right\} $分别对应式(3)中f_c、w_p、f_PR、B_w侦察参数的权重. 在上述4个侦察参数中，假设每个参数的权重为 $ \gamma $，且满足

(5) $ \left. \begin{gathered} {\text{4}} \gamma {\text{ = 1,}} \hfill \\ {\alpha _{{f_{\rm{c}}}}} = {\alpha _{{w_{\rm{p}}}}} = {\alpha _{{f_{{\rm{PR}}}}}} = {\alpha _{{B_{\rm{w}}}}} = \gamma . \hfill \\ \end{gathered} \right\} $

式（5）中参数集合 $ f_{\rm{c}}、w_{\rm{p}}、f_{{\rm{PR}}}、B_{\rm{w}} $对于决定干扰信号具有同样的重要性，因此设定每个参数的权重均为 $ \gamma $，且所有参数的权重之和为1.

由于同一时刻不同干扰机智能体感知到的态势参数信息不完全相同，需要对不同智能体之间的侦察参数进行态势观察与平衡处理. 对相邻电子干扰机智能体内的侦察态势参数求偏导，表达式为

(6) $ \begin{split} \frac{{\partial \left( {{X_i} - {X_{i - 1}}} \right)}}{{\partial {f_{\rm{c}}}}} =& \frac{{\partial \left( {{C_i}:\left\{ {{f_{\rm{c}}},{w_{\rm{p}}},{f_{{\rm{PR}}}},{B_{\rm{w}}}} \right\}} \right)}}{{\partial {f_{\rm{c}}}}} \hfill {\text{ }} -\\& \frac{{\partial \left( {{C_{i - 1}}:\left\{ {{f_{\rm{c}}{\rm{}}},{w_{\rm{p}}},{f_{{\rm{PR}}}},{B_{\rm{w}}}} \right\}} \right)}}{{\partial {f_{\rm{c}}}}} \hfill {\text{ = }}\\& \frac{{\partial \left( {{C_i}|{f_{\rm{c}}} - {C_{i - 1}}|{f_{\rm{c}}}} \right)}}{{\partial {f_{\rm{c}}}}}. \end{split} $

以此类推，对相邻智能体之间的其他参数求偏导，如下所示：

(7) $ \left.\begin{aligned} & \frac{{\partial \left( {{X_i} - {X_{i - 1}}} \right)}}{{\partial {w_{\rm{p}}}}} = \frac{{\partial \left( {{C_i}|{w_{\rm{p}}} - {C_{i - 1}}|{w_{\rm{p}}}} \right)}}{{\partial {w_{\rm{p}}}}}, \hfill \\ & \frac{{\partial \left( {{X_i} - {X_{i - 1}}} \right)}}{{\partial {f_{{\rm{PR}}}}}} = \frac{{\partial \left( {{C_i}|{f_{{\rm{PR}}}} - {C_{i - 1}}|{f_{{\rm{PR}}}}} \right)}}{{\partial {f_{{\rm{PR}}}}}}, \hfill \\ & \frac{{\partial \left( {{X_i} - {X_{i - 1}}} \right)}}{{\partial {B_{\rm{w}}}}} = \frac{{\partial \left( {{C_i}|{B_{\rm{w}}} - {C_{i - 1}}|{B_{\rm{w}}}} \right)}}{{\partial {B_{\rm{w}}}}}. \end{aligned}\right\} $

若不同智能体之间的侦察参数信息不平衡，则各智能体的参数需要进行相应的调整.

各个智能体之间通过信息共享的方式，利用信息共享链路，实现不同智能体之间态势信息的平衡处理. 态势信息的传递表达式如下：

(8) $ \left. \begin{gathered} {C_i}|{f_{\rm{c}}} = \max \left( {\mathop \Pi \limits_{k \in {N}} \left( {{C_k}|{f_{\rm{c}}}} \right)} \right), \hfill \\ {C_i}|{w_{\rm{p}}} = \max \left( {\displaystyle\mathop \Pi \limits_{k \in {N}} \left( {{C_k}|{w_{\rm{p}}}} \right)} \right), \hfill \\ {C_i}|{f_{{\rm{PR}}}} = \max \left( {\mathop \Pi \limits_{k \in {N}} \left( {{C_k}|{f_{{\rm{PR}}}}} \right)} \right), \hfill \\ {C_i}|{B_{\rm{w}}} = \max \left( {\mathop \Pi \limits_{k \in {N}} \left( {{C_k}|{B_{\rm{w}}}} \right)} \right). \hfill \\ \end{gathered} \right\} $

式中： $ \max \left( {\mathop \Pi \limits_{k \in {N}} \left( \varXi \right)} \right) $函数表示集合 $ \varXi $中在 $\left[ {\rm{Mean}}(\varXi )-\epsilon ， $ $ {\rm{Mean}}(\varXi )+\epsilon \right]$内出现次数最多的参数元素， ${\rm{ Mean}}(\varXi ) $为集合 $ \varXi $的均值， $ \varepsilon $通常为 $ 0.1 \times {\rm{Mean}}(\varXi ) $.

信息共享后的多智能体态势参数 $ X' $可以表示为

(9) $ \mathop {X'}\limits_{i \in {N_i}} {\rm{ = }}{C_{{\rm{Balance}}}}:\left\{ {f_{\rm{c}}^{{'}},w_{\rm{p}}^{{'}},f_{\rm{PR}}^{{'}},B_{\rm{w}}^{{'}}} \right\}. $

式中： $ {C_{{\text{Balance}}}} $表示平衡后的智能体态势信息， $f_{\rm{c}}^{{'}}、 $ $ w_{\rm{p}}^{{'}}、f_{\rm{PR}}^{{'}}、B_{\rm{w}}^{{'}}$为平衡后的智能体态势参数.

基于多智能体参数信息共享的机制，可以实现各个智能体之间对外部电磁环境态势感知信息的平衡.

2.2. 智能体干扰参数自主决策

信息共享后的多智能体通过合作的方式实现全域空间电磁态势信息的协同感知，为了使电子干扰机的干扰信号能够不断适应新的态势环境，需要对干扰参数进行实时动态自主调控.

假设在 $ t $时刻智能体 $ i $的干扰参数为

(10) $ {\mathop {{\rm{Par}}}\limits_i }_{{\text{jam}}}^t = {K_i}^t: {\left\{ {\gamma _{\rm{s}}}{{\mu _{f_{\rm{c}}}},{\gamma _{\rm{s}}}{\mu _{w_{\rm{p}}}},{\gamma _{\rm{s}}}{\mu _{f_{\rm{PR}}}},{\gamma _{\rm{s}}}{\mu _{B_{\rm{w}}}}} \right\}}. $

式中： $ {K_i}^t $为 $ t $时刻智能体i的干扰参数总态势， $\;{\mu _{f_{\rm{c}}}}、 $ $ {\mu _{w_{\rm{p}}}}、{\mu _{f_{\rm{PR}}}}、{\mu _{B_{\rm{w}}}}$ 分别为 $ f_{\rm{c}}、w_{\rm{p}}、f_{{\rm{PR}}}、B_{\rm{w}} $ 对应的参数值， $ {\gamma _{\rm{s}}} $表示各干扰参数对干扰策略的影响程度.

在下一时刻 $ t + 1 $，通过对上一时刻侦察获得的态势信息求偏导，计算当前干扰参数对应的态势变化趋势并对其进行量化表征. 干扰参数 $ f_{\rm{c}}、 $ $ w_{\rm{p}}、f_{{\rm{PR}}}、B_{\rm{w}} $的表达式如下：

(11) $ \left. \begin{array}{l} {\partial ^{t,t + 1}}_{f_{_{\rm{c}}}} = \dfrac{{\partial \left( {{{\mathop {{\rm{Par}}}\limits_i }^{t}}_{{\rm{jam}}} - {{ X }^{t + 1}_i}} \right)}}{{\partial {f_{\rm{c}}}}} = \dfrac{{\partial \left( {{K_i}^{t}|{f_{\rm{c}}} - {C_i}^{t + 1}|{f_{\rm{c}}}} \right)}}{{\partial {f_{\rm{c}}}}},\\ {\partial ^{t,t + 1}}_{{w_{\rm{p}}}} = \dfrac{{\partial \left( {{{\mathop {{\rm{Par}}}\limits_i }^{t}}_{{\rm{jam}}} - {{ X }^{t + 1}_i}} \right)}}{{\partial {w_{\rm{p}}}}} = \dfrac{{\partial \left( {{K_i}^{t}|{w_{\rm{p}}} - {C_i}^{t + 1}|{w_{\rm{p}}}} \right)}}{{\partial {w_{\rm{p}}}}},\\ {\partial ^{t,t + 1}}_{{f_{_{{\rm{PR}}}}}} = \dfrac{{\partial \left( {{{\mathop {{\rm{Par}}}\limits_i }^{t}}_{{\rm{jam}}} - {{ X }^{t + 1}_i}} \right)}}{{\partial {f_{{\rm{PR}}}}}} = \dfrac{{\partial \left( {{K_i}^{t}|{f_{{\rm{PR}}}} - {C_i}^{t + 1}|{f_{{\rm{PR}}}}} \right)}}{{\partial {f_{{\rm{PR}}}}}},\\ {\partial ^{t,t + 1}}_{{B_{\rm{w}}}} = \dfrac{{\partial \left( {{{\mathop {{\rm{Par}}}\limits_i }^{t}}_{{\rm{jam}}} - {{ X }^{t + 1}_i}} \right)}}{{\partial {B_{\rm{w}}}}} = \dfrac{{\partial \left( {{K_i}^{t}|{B_{\rm{w}}} - {C_i}^{t + 1}|{B_{\rm{w}}}} \right)}}{{\partial {B_{\rm{w}}}}}. \end{array} \right\} $

式(11)对当前的态势参数与前一时刻的干扰参数求偏导，得到同一智能体在不同时刻的态势信息变化率. 利用这些态势信息，得到适应当前态势环境的电子干扰参数. 新的干扰参数变化过程如下：

(12) $ \left. \begin{gathered} {K_i}^{t + 1}|{f_{\rm{c}}}^{'} = {\mu _{{f_{\rm{c}}}}}{\text{ + }}\varepsilon {\partial ^{t,t + 1}}_{{f_{\rm{c}}}}, \hfill \\ {K_i}^{t + 1}|{w_{\rm{p}}}^{'} = {\mu _{{w_{\rm{p}}}}}{\text{ + }}\varepsilon {\partial ^{t,t + 1}}_{{w_{\rm{p}}}}, \hfill \\ {K_i}^{t + 1}|{f_{{\rm{PR}}}}^{'} = {\mu _{{f_{{\rm{PR}}}}}}{\text{ + }}\varepsilon {\partial ^{t,t + 1}}_{{f_{{\rm{PR}}}}}, \hfill \\ {K_i}^{t + 1}|{B_{\rm{w}}}^{'} = {\mu _{{B_{\rm{w}}}}}{\text{ + }}\varepsilon {\partial ^{t,t + 1}}_{{B_{\rm{w}}}}. \hfill \\ \end{gathered} \right\} $

式(12)为 $ t + 1 $时刻的新的电子干扰参数信息，可以表示为

(13) $ \begin{split} & { \mathop {{\rm{Par}}}\limits_i} _{{\rm{jam}}}^{t + 1} = {K_i}^{t{\text{ + 1}}}:\left\{ {{\mu }_{{f_{\rm{c}}}}^{'},\;{\mu }_{{w_{\rm{p}}}}^{'},\;{\mu }_{{f_{{\rm{PR}}}}}^{'},\;{\mu }_{{B_{\rm{w}}}}^{'}} \right\}. \end{split} $

由此，实现了智能体在不同时刻基于实时态势信息的电子干扰参数变化.

基于Q-learning的电子干扰策略^[18]表达式如下：

(14) $ \begin{split} {Q^*}(s,a) = Q(s,a) + \eta [r(s,a) + \xi \mathop {\max }\limits_{a'} Q(s',a') - Q(s,a)]. \end{split} $

式中： $ s $表示当前电子干扰机的干扰参数状态， $ a $表示当前所采取的动作， $ r(s,a) $表示采取动作后 $ a $的收益回报， $ \mathop {\max }_{a'}Q(s',a') $表示下一时刻智能体所要采取的最佳干扰参数调整动作， $ \xi $为调整状态的固定参数.

3. 仿真及分析

基于信息共享的分布式多智能体合作博弈电子干扰系统是在与外部电磁环境不断交互的过程中持续修正、试错的一个过程，变化是连续实时动态的. 电子对抗系统中的双方在彼此博弈的过程中不断学习、持续改进，实现“道高一尺魔高一丈”的效果. 为了验证该方法的有效性，通过仿真结果对实验进行分析.

如表1所示为各个阶段辐射源的电磁态势信息变化表. 表中，T0、T1、T2、T3、T4、T5分别表示第0分钟、第10分钟、第20分钟、第30分钟、第40分钟、第50分钟的辐射源变化时刻，相邻2个态势变化之间间隔10 min. 从表1可以看出，在不同阶段，电磁辐射源发射的信号参数都不同，可以有效地避免辐射源发射信号参数单一带来的被跟踪的问题. 发射不同参数的信号，可以在回波中感知异常信息，从而识别回波中的干扰信号，对干扰源进行定位与追踪，因此具有参差变化的辐射源特性具有一定的抗干扰功能. 电子干扰机需要在动态复杂的电磁环境中，实时感知辐射源态势信息的变化趋势，将这些信息作为电子干扰参数更新的先验信息与依据，使电子干扰系统成为自主系统，实现对目标态势信息的自主感知与动态认知干扰策略.

表 1 辐射源电磁态势变化表

Tab.1 Table of electromagnetic situation information

阶段	f_c/GHz	w_p/μs	f_PR/Hz	B_w/MHz
T0	3.25	22.5	5 000	10
T1	5	60	10 000	10
T2	4.375	40	5 000	20
T3	2.6	50	2 500	20
T4	5.45	20	10 000	15
T5	6.25	35	5 000	15

新窗口打开| 下载CSV

基于Q-Learning的动态认知电子干扰策略，可以实现基于环境电磁态势的实时感知；依据感知结果实时更新系统电子干扰参数，使电子干扰系统的干扰策略一直处于最佳状态. 系统流程如图6所示.

图 6

图 6 多智能体协同感知自主干扰的流程图

Fig.6 Flow chart of multi-agent cooperative sensing autonomous jamming

图6中，多智能体之间通过协同感知的方式，实现分布式电子干扰机对空间电磁态势信息的获取. 信息共享后的智能体态势信息表达为 $ X' $，将当前时刻的侦察态势信息与上一时刻的电子干扰参数输入系统，通过Q-Learning决策算法实现在下一时刻电子干扰机对当前电磁态势信息的最优化干扰策略.

3.1. 态势信息共享

基于表1中辐射源发射信号的参数态势信息，电子干扰机通过无源被动电子侦察系统，实现对辐射源电磁参数的估计与调制类型识别.

6个电子干扰机智能体等边距地分布在辐射源周边，实现对空间全域电磁态势信息的动态感知，示意图如图5所示. 假设辐射源所在环境的信噪比为0 dB，其中噪声为 $ \left( {0,{\sigma ^2}} \right) $分布的高斯白噪声. 在0 dB信噪比环境下，电子侦察机对被截获信号的侦察参数估计误差小于10%，在实验中，由于各个智能体间的态势参数信息不完全一致，对各个电子干扰机侦察得到的态势参数进行进一步的均衡处理. 根据2.1节的多智能体态势参数平衡方法，利用式（6）~（9），得到不同时刻辐射源电磁态势参数均衡化感知结果 $\mathop {X{'}}\limits_{i \in {N}} {\text{ = }}{C_{{\text{Balance}}}}: $ $ \left\{ {{f_{\rm{c}}}^{'},{w_{\rm{p}}}^{'},{f_{{\rm{PR}}}}^{'},{B_{\rm{w}}}^{'}} \right\}$. 受限于图7中信息展示的空间，分别在T0、T1、T2、T3、T4、T5时刻感知辐射源电磁特征，处理后的特征参数如图7所示.

图 7-1

图 7-1

Fig.7-1

图 7

图 7 多智能体电子干扰机测量不同时刻的电磁态势信息

Fig.7 Multi-agent electronic jammer measures electromagnetic situation information at different time

系统中6个电子干扰机分别在T0、T1、T2、T3、T4、T5时刻经过均衡化处理后感知到的辐射源不同特征参数（包括f_c、w_p、f_PR、B_w）的电磁态势信息如图7所示.

基于信息共享后的辐射源信号参数估计结果如表2所示. 表中，测量得到的辐射源信号参数包括 $ {f_{\rm{c}}}、{w_{\rm{p}}}、{\rm{PRI}}、k $，其中 $ {\rm{PRI}} $与 $ f_{\rm{PR}} $、 $ k $与 $ w_{\rm{p}} $、 $ {B_{\rm{w}}} $的关系如下：

表 2 信息共享后的辐射源信号参数估计

Tab.2 Parameter estimation of radiation source signal after information sharing

阶段	f_c/GHz	w_p/μs	PRI/μs	k / (10¹¹Hz · s⁻¹)
T0	3.2539	22.367	198.30	4.4920
T1	4.9758	59.76	102.760	1.6340
T2	4.3863	40.432	200.843	4.9317
T3	2.6036	50.372	399.346	3.9705
T4	5.4620	19.874	100.264	7.5475
T5	6.2510	35.006	201.149	4.2850

新窗口打开| 下载CSV

(15) $ \begin{split} {\rm{PRI}} = 1/{f_{{\rm{PR}}}},\; k = {B_{\rm{w}}}/w_{\rm{p}}. \end{split} $

分析表2的辐射源信号参数估计可知，基于多智能体的态势信息共享参数更能够表征当前的电磁态势，可以避免单智能体观测导致的信息参数不平衡问题.

3.2. 干扰参数自主更新

将均衡化处理后的辐射源信号特征参数作为环境感知信息 $ {X_i}' $输入至电子干扰机智能体中，利用Q-Learning方法实现对辐射源目标的实时智能动态干扰策略.

根据Q-Learning方法，通过对多参数估计结果的更新策略，实现干扰机中干扰参数的自主更新. 与传统的电子干扰方法相比，利用提出的基于多智能体协同感知电磁环境的动态电子干扰方法可以实现对全域电磁态势信息的实时感知与信息共享，为后续的智能化电子干扰方式提供决策依据；这些策略依据将指导电子干扰参数的精准连续变化，实现与外部电磁环境的“同频共振”.

基于共享后的电磁态势信息结果，在不同时间段T0~T5之间（其中T0、T1、T2、T3、T4、T5分别表示第0分钟、第10分钟、第20分钟、第30分钟、第40分钟、第50分钟的辐射源变化时刻，相邻2个态势变化之间间隔10 min），输入电子干扰机的电磁态势信息（包括 $ f_{\rm{c}}、w_{\rm{p}}、{\rm{PRI}}、k $等参数）随时间变化，信息共享后的辐射源态势参数如表2所示. 通过Q-Learning方法，对输入态势信息与前一时刻的电子干扰参数进行电子干扰策略的更新. 一个时间周期内基于Q-Learning方法的奖励回报R如图8所示，损失函数L如图9所示. 图中，E_p为训练轮次.

图 8

图 8 一个周期内的奖励回报曲线

Fig.8 Reward-return curve within one period

图 9

图 9 一个周期内的损失曲线

Fig.9 Loss curve in one period

如图8、9所示分别为T0部分时间段内的奖励回报曲线与损失函数曲线. 通过分析可知，在一个电磁态势动态范围内，电子干扰系统只需要极短的10个回合，损失函数值达到0.001 6，奖励值为0.9924，基本接近于1，实现了对下一时刻电子干扰参数的快速收敛，提高了系统的收敛速度，增加了系统决策的准确率，满足实时电子对抗的要求.

基于Q-Learning方法的电子干扰参数在与辐射源电磁环境交互的过程中快速得到更新，分布式电子干扰机基于更新后的干扰参数对下一动作时刻的信号干扰参数给出决策，将干扰信号发射至辐射源目标. 如图10所示为在表1中辐射源态势参数连续变化的情况下，干扰系统中6个电子干扰机的干扰态势参数 ${{\mathop {{\rm{Par}}}\limits_i} _{{\rm{jam}}}^{t + 1}}$基于Q-Learning反馈随时间变化的实时动态响应图.

图 10

图 10 干扰参数矩阵随时间的动态响应曲线图

Fig.10 Dynamic response curve of jamming parameter matrix with time

从图10可以看出，当辐射源发射的雷达信号发生变化时，电子干扰机能够快速对当前的电磁态势进行评估，利用Q-Learning方法实现对下一时刻干扰机的干扰参数进行调整，以适应当前的电磁环境，不被辐射源雷达发现干扰机信号.

3.3. 性能分析

基于分布式信息共享的多电子干扰机协同感知与快速响应高效智能决策的方法，提升了电子干扰机对外部电磁环境的高置信度认知能力. 为了对比基于信息共享的动态智能电子干扰方法与传统单电子干扰机在电磁信息感知能力方面的区别，设计如下仿真实验.

考虑到环境因素的影响，在多智能体存在的条件下，假设每个电子干扰机存在5%的参数侦察误差概率，在表1的基础上，分别利用不同数量的电子干扰机经过1 000次独立蒙特卡洛实验，对比不同电子干扰机对辐射源电磁态势信息的融合感知能力. 其中多个干扰机均匀分布在辐射源周围，信噪比(SNR)为0 dB. 不同数量智能体对辐射源态势信息的感知准确率如图11所示.

图 11

图 11 辐射源态势信息的感知准确率随智能体数量变化的曲线

Fig.11 Curve of perception accuracy of radiation source situation information with number of agent

如图11所示为不同数量的电子干扰机智能体对辐射源态势信息感知准确率A_cc的变化曲线图.

辐射源态势信息感知准确率的表达式为

$ P\left( {X{'}} \right){\text{ = }}{\left[ {P\left( {{f_{\rm{c}}}^{'}} \right) + P\left( {{w_{\rm{p}}}^{'}} \right) + P\left( {{f_{{\rm{PR}}}}^{'}} \right) + P\left( {{B_{\rm{w}}}^{'}} \right)} \right]}/4. $

参数集合中第i个智能体参数的感知概率可以表示为

$\begin{split} & P\left( {{{\mathop {{\rm{Par}}}\limits_{} }_i}} \right) =\\ &1\;{000^{ - 1}}\sum\limits_{n = 1}^{1\;000} {\left[ {{{\left( {{\rm{Par}}_{i\_{\rm{real}}}^n} \right)}^{ - 1}}\left| {{\rm{Par}}_{i\_{\rm{real}}}^n - {\rm{Par}}_{i\_{\rm{es}}}^n} \right|} \right]} \times 100{\text{%}} . \end{split}$

式中： ${\rm{Pa}}{{\rm{r}}_{{i\rm{\_real}}}^n}$、 ${\rm{Pa}}{{\rm{r}}_{{i\rm{\_es}}}^n}$分别为第n次实验中第i个智能体参数的理论值和实际测量值. 将1 000次蒙特卡洛实验的结果求均值，计算该参数信息共享后的参数估计准确率.

从图11可以看出，随着智能体数量的增加，系统对辐射源雷达态势信息的感知准确率越高. 相比于单个智能体对辐射源信息的感知，多智能体对辐射源态势信息的感知更加精准，当智能体数量达到7个时，识别率能够达到98.43%.

系统中的6个电子干扰机分布于辐射源电磁环境中. 为了验证基于Q-Learning方法的电子干扰参数动态响应效果，基于表1开展1 000次蒙特卡洛实验，分别计算在辐射源突变的情况下基于Q-Learning方法与传统^[19]静态电子干扰方法在达到稳态情况下的平均响应时间.

传统的电子干扰方法^[19]中的干扰参数不能实时连续动态更新，干扰参数是基于电子侦察结果进行相应参数的直接改变. 基于信息共享的分布式多智能体动态电子干扰系统能够实现对外部电磁环境实时立体式多维度感知，避免单一传感器参数测量带来的误差. 基于Q-Learning方法的电子干扰参数更新过程是渐变的过程，参数更新具有连续性，避免干扰信号参数突变带来暴露电子干扰机的弊端.

为了验证该方法的实时干扰效果，分别计算传统电子干扰方法与基于Q-Learning方法的干扰参数响应时间. 在一个周期内，传统的静态电子干扰方法干扰参数响应时间为12.372 μs，基于Q-Learning方法的干扰参数响应时间为7.843 μs. 通过对比分析可知，相比于传统的静态电子干扰方法，提出的动态自主电子干扰方法的平均响应时间提升了36.61%，可以实现更加自主与灵敏的动态干扰信号参数的快速响应与自主更新. 利用基于Q-Learning的动态电子干扰参数更新方法可以实现连续时间下的电磁态势动态反馈与精准电子干扰功能.

利用提出的分布式多智能体电子干扰方法可以实现对被干扰目标的协同感知与态势信息获取，利用当前的电磁态势信息与上一时刻的电子干扰参数，实现对目标干扰策略与干扰参数的实时动态更新.

4. 结　语

本文基于分布式智能体的思想，提出信息共享的多电子干扰机协同感知与高效电子干扰决策的方法. 空间中的电磁环境复杂且多变，电子对抗博弈系统更需要充分感知电磁态势信息，以实现对目标信息的动态感知与精准决策功能. 本文基于Q-Learning方法的快速电磁态势信息感知与电子干扰参数更新方法，可以实现电子干扰机对外部电磁环境的实时感知与下一时刻电子干扰参数的在线精准决策，摆脱了传统电子干扰系统中固定干扰模式的弊端，为后续的智能化电子干扰系统提供了实践意义，也为后续的认知电子对抗系统的研究奠定了坚实的基础.

参考文献

原文顺序

文献年度倒序

文中引用次数倒序

被引期刊影响因子

[1]

李振初

人工智能技术在电子战中的应用

[J]. 电子对抗技术, 1988, (2): 31- 43

LI Zhen-chu

Application of AI technology in EW

[J]. Electronic Warfare Technology, 1988, (2): 31- 43

[2]

MENG Xiang-ping, GAO Yan. Electric systems analysis [M]. Beijing: Higher Education Press, 2004: 3-21.

[3]

ZHENG X L, LIU J H, WANG B S

Analysis of range_doppler coherent jamming performance against radar with the RATR technique

[J]. Electronic Information Warfare Technology, 2017, 32 (5): 52- 56

[4]

ZHAO Y L, WANG X S, WANG G Y

Tracking technique for radar network in the presence of multi-range-false-target deception jamming

[J]. Acta Electronic Sinica, 2007, 3 (3): 454- 458

[本文引用: 2]

[5]

LOPATKA J, KULPA K, SZCZEPANKIEWICZ M, et al. Cognitive systems in electronic warfare[C]// XI Conference on Reconnaissance and Electronic Warfare Systems. Oltarzew: [s.n.], 2017: 1041802.

[6]

KINGSLEY N, GUERCI J R. Adaptive amplifier module technique to support cognitive RF architectures[C]// Radar Conference.[S.l.]: IEEE, 2014.

[7]

DARPA. Behavior learning for adaptive electronic warfare [EB/OL]. (2010-10-06). https://www.fbo.gov.

[8]

DARPA. Adaptive radar countermeasures [EB/OL]. (2012-08-27). https://www.fbo.gov.

DOI:10.3969/j.issn.1001-506X.2018.05.11 [本文引用: 1]

[9]

王沙飞, 鲍雁飞, 李岩

认知电子战体系结构与技术

[J]. 中国科学: 信息科学, 2018, 48 (12): 1603- 1613

DOI:10.1360/N112018-00153 [本文引用: 1]

WANG Sha-fei, BAO Yan-fei, LI Yan

The architecture and technology of cognitive electronic warfare

[J]. Scientia Sinica: Informationis, 2018, 48 (12): 1603- 1613

DOI:10.1360/N112018-00153 [本文引用: 1]

[10]

邢强, 贾鑫, 朱卫纲

基于Q-学习的智能雷达对抗

[J]. 系统工程与电子技术, 2018, 40 (5): 1031- 1035

XING Qiang, JIA Xin, ZHU Wei-gang

Intelligent radar countermeasure based on Q-learning

[J]. Systems Engineering and Electronics, 2018, 40 (5): 1031- 1035

DOI:10.3969/j.issn.1001-506X.2018.05.11 [本文引用: 1]

[11]

李云杰, 朱云鹏, 高梅国

基于Q-学习算法的认知雷达对抗过程设计

[J]. 北京理工大学学报, 2015, 35 (11): 1194- 1199

LI Yun-jie, ZHU Yun-peng, GAO Mei-guo

Design of cognitive radar jamming based on Q-learning algorithm

[J]. Transactions of Beijing Institute of Technology, 2015, 35 (11): 1194- 1199

[12]

HAO T, CUI C, GONG Y

Efficient low-PAR waveform design method for extended target estimation based on information theory in cognitive radar

[J]. Entropy, 2019, 21 (3): 261

DOI:10.3390/e21030261 [本文引用: 1]

[13]

SU H, CHEN M Z Q

Multi-agent containment control with input saturation on switching topologies

[J]. IET Control Theory and Applications, 2015, 9 (3): 399- 409

DOI:10.1049/iet-cta.2014.0393 [本文引用: 1]

[14]

FU J, WAN Y, WEN G, et al

Distributed robust global containment control of second-order multiagent systems with input saturation

[J]. IEEE Transactions on Control of Network Systems, 2019, 6 (4): 1- 10

DOI:10.1109/TCNS.2019.2956892

[15]

YAN Y, HUANG J

Cooperative output regulation of discrete-time linear time-delay multi-agent systems under switching network

[J]. Neurocomputing, 2017, 241 (7): 108- 114

[16]

YAN Y, HUANG J

Cooperative output regulation of discrete-time linear time-delay multi-agent systems

[J]. IET Control Theory Appliance, 2016, 10 (16): 2019- 2026

DOI:10.1049/iet-cta.2016.0106 [本文引用: 1]

[17]

LI Z, REN W, LIU X, et al

Distributed containment control of multi-agent systems with general linear dynamics in the presence of multiple leaders

[J]. International Journal of Robust and Nonlinear Control, 2013, 23 (5): 534- 547

DOI:10.1002/rnc.1847 [本文引用: 1]

[18]

BUI V H, NGUYEN T T, KIM H M. Distributed operation of wind farm for maximizing output power: a multi-agent deep reinforcement learning approach [J]. Access IEEE, 2020, 8: 173136-173146.