<img src="https://www.zjujournals.com/eng/images/1008-973X/images/logo.png" class="img-responsive">

图 1 无人机路径规划的环境模型

Fig.1 Environmental model for UAV path planning

环境中设置静态和动态2类障碍物. 静态障碍物为固定圆形区域，半径在$ \left[{r}_{\min },{r}_{\max }\right] $内随机生成. 动态障碍物的半径范围与静态障碍物相同，以$ \left[{v}_{\mathrm{o}1},{v}_{\mathrm{o}2}\right] $的随机速度沿随机方向运动.

为了模拟真实感知能力，设计局部感知系统. 1）感知距离受限，无人机仅能探测以自身当前位置为中心、半径为$ {r}_{\text{sen}} $范围内的障碍物. 2）感知角度受限，仅感知以当前航向为中心、视场角为$ {\theta }_{\text{fov}} $的前方扇形区域（相对航向角$ \theta \in (-{\theta }_{\text{fov}}/2,{\theta }_{\text{fov}}/2) $）. 3）计算资源受限，最多处理$ {N}_{\max } $个障碍物，并按距离排序选取最近的障碍物. 所有感知信息均以无人机当前位置和航向为基准的相对坐标表示.

1.3. 强化学习框架

强化学习框架包含观测空间、动作空间和多目标奖励函数3个核心组件.

1.3.1. 观测空间设计和动作空间定义

观测空间包括如下信息：1）自身状态（速度、航向角）；2）目标信息（相对距离、方位角）；3）静态障碍物信息（最近$ {n}_{\text{sta}} $个可观测障碍物的相对距离、方位角、半径）；4）动态障碍物信息（最近$ {n}_{\text{dyn}} $个可观测障碍物的相对距离、方位角、相对速度、半径）. 观测向量形成高维连续空间，全面描述无人机的局部环境状态.

强化学习策略采用连续动作空间，其输出被统一归一化到区间[−3,3]. 该归一化动作并不直接作为物理控制量，而是在环境交互过程中通过线性映射转换为实际控制输入：其中一维动作对应速度调节指令，用于生成每个时间步的速度增量，该增量按最大速度的一定比例进行缩放后与当前速度叠加，最终被限制在系统允许的速度上下界内；另一维动作对应角速度指令，经比例缩放后得到实际角速度，实际角速度被限制在预设的角速度上下界内.

1.3.2. 多目标奖励函数

设计多目标奖励函数，集成分层自适应的奖励塑形机制. 根据环境复杂度和任务进度自动调整权重，实现从宏观规划到微观避障的平滑过渡，在确保安全的同时优化导航效率. 该奖励函数包含以下5个主要类别.

1）目标导向奖励. 包括目标到达奖励和方向引导奖励.

a）目标到达奖励，当无人机到达目标时给予正奖励.

(5)$ {R}_{\mathrm{g}}=\begin{cases} {W}_{\mathrm{g}},&{到达目标};\\ 0,&{其他}.\\ \end{cases} $

式中：$ {W}_{\mathrm{g}} $为单次到达奖励值.

b）方向引导奖励，鼓励运动方向角$ {\theta }_{\text{vel}} $与目标方向角$ {\theta }_{\mathrm{g}} $相同.

(6)$ {R}_{\text{dir}}={W}_{\text{dir}}\left(1-\frac{\left| {\theta }_{\mathrm{g}}-{\theta }_{\text{vel}}\right| }{\text{π} }\right). $

式中：$ {W}_{\text{dir}} $为方向引导奖励系数.

2）安全性奖励，包括碰撞惩罚和静态障碍、动态障碍避让奖励.

a）碰撞惩罚，碰撞施加负奖励.

(7)$ {R}_{\text{col}}=\begin{cases} -{W}_{\text{col}},&{与障碍物碰撞};\\ -{W}_{\mathrm{b}\text{nd}},&{与边界碰撞};\\ 0,&{其他}.\\ \end{cases} $

式中：$ {W}_{\text{col}}\mathrm{、}{W}_{\mathrm{b}\text{nd}} $为单次碰撞惩罚值.

b）静态障碍避让奖励，当无人机与最近障碍物的距离$ {d}_{\min } $小于安全阈值$ {d}_{\text{saf}} $时施加负奖励.

(8)$ {R}_{\text{sta}}= \begin{cases} -{W}_{\text{sta}}\left(1-{\left(\dfrac{{d}_{\min }}{{d}_{\text{saf}}}\right)}^{2}\right),&{d}_{\min }< {d}_{\text{saf}};\\ 0,&{其他}.\\ \end{cases} $

式中：$ {W}_{\text{sta}} $为静态避障奖励系数.

c）动态障碍避让奖励，基于相对距离$ {d}_{\text{rel}} $、预测碰撞时间$ {t}_{\text{col}} $和相对速度$ {v}_{\text{rel}} $施加负奖励.

(9)$\begin{split} {R}_{\text{dyn}}=&-{W}_{\text{dyn}}\left[0.5\times \left(1-\frac{{d}_{\text{rel}}}{{d}_{\text{saf}}}\right)+ 0.3\times \left(1-\frac{{t}_{\text{col}}}{2}\right)+ \right.\\&\left.0.2\times \frac{{v}_{\text{rel}}}{{v}_{\max }}\right].\end{split} $

式中：$ {W}_{\text{dyn}} $为动态避障奖励系数.

3）路径优化奖励，包括路径偏差惩罚和速度激励奖励.

a）路径偏差惩罚，惩罚偏离最优直线路径的行为.

(10)$ {R}_{\text{dev}}=-{W}_{\text{dev}} \left(1-\frac{{d}_{\text{stg}}-{d}_{\text{ctg}}}{{l}_{\text{tot}}+\varepsilon }\right). $

式中：$ {W}_{\text{dev}} $为路径偏差奖励系数；$ {d}_{\text{stg}} $为该回合起始点到目标的欧几里得直线距离；$ {d}_{\text{ctg}} $为当前位置到目标的直线距离；$ {l}_{\text{tot}} $为累积走过的实际路径长度；$\varepsilon $为数值稳定常数，防止出现除零或导致奖励项数值爆炸的问题.

b）速度激励奖励，在安全前提下鼓励高速运动.

(11)$ {R}_{\text{spd}}={W}_{\text{sp}\mathrm{d}} \frac{{v}_{\text{cur}}}{{v}_{\max }}. $

式中：$ {W}_{\text{sp}\mathrm{d}} $为速度奖励系数，$ {v}_{\text{cur}} $为无人机速度.

4）能耗与平滑性奖励. 包括能耗、时间惩罚.

a）能耗惩罚，惩罚速度和航向的剧烈变化.

(12)$ {R}_{\text{eng}}={W}_{\text{eng}}\left(0.3\times \frac{\left| \Delta v\right| }{{v}_{\max }}+0.7\times \frac{\left| \Delta \theta \right| }{{\omega }_{\max }}\right). $

式中：$ {W}_{\text{eng}} $为能耗惩罚系数.

b）时间惩罚，每步给予负奖励，鼓励快速到达.

(13)$ {R}_{\text{tim}}=-{W}_{\text{tim}}. $

式中：$ {W}_{\text{tim}} $为单步时间惩罚值.

5）智能决策协调奖励，旨在促进RL与DWA、人工势场法与控制屏障函数（artificial potential field and control barrier function, APF-CBF）模块的协作. 系统根据当前环境的威胁等级（基于障碍物距离、相对速度和预测碰撞时间）和障碍物密度等级（基于视场内障碍物数量和面积占比），动态调整对不同模块建议的信任度. 威胁等级和障碍物密度等级都分为4个等级. 如表1所示，不同等级对应不同的权重系数$ {W}_{\text{thr}} $和$ {W}_{\text{den}} $.

表 1 不同等级下的威胁权重、障碍物密度权重

Tab.1 Threat and obstacle density weight under different level

等级	$ {W}_{\text{thr}} $		$ {W}_{\text{den}} $
等级	DWA	CBF	DWA	CBF
high	2.0	2.5	1.5	1.8
medium	1.5	1.8	1.0	1.0
low	1.0	1.2	0.7	0.9
none	0.5	0.8	0.5	0.7

通过动态调整权重，使智能体能够根据当前环境的威胁水平和复杂程度，通过奖励函数，合理分配对DWA和APF-CBF模块建议的信任度.

1）DWA对齐奖励，鼓励遵循DWA避障建议.

(14)$ {R}_{\text{DWA}}={W}_{\text{DWA}} {W}_{\text{thr}} {W}_{\text{den}} {\alpha }_{\text{DWA}}. $

式中：$ {W}_{\text{DWA}} $为DWA对齐奖励系数，

(15)$ {\alpha }_{\text{DWA}}=0.2\times \frac{{\boldsymbol{v}}_{\text{dwa}}\cdot{\boldsymbol{v}}_{\text{cur}}}{\left|\left|{\boldsymbol{v}}_{\text{dwa}}\right|\right|\left|\left|{\boldsymbol{v}}_{\text{cur}}\right|\right|}+ 0.1\times \frac{\min \left\{\left\|{{\boldsymbol{v}}}_{\text{dwa}}\right\|,\left\|{{\boldsymbol{v}}}_{\text{cur}}\right\|\right\}}{\max \left\{\left\|{{\boldsymbol{v}}}_{\text{dwa}}\right\|,\left\|{{\boldsymbol{v}}}_{\text{cur}}\right\|,0.1\right\}}. $

式中：${{\boldsymbol{v}}}_{\text{dwa}} $为DWA建议的速度向量，${{\boldsymbol{v}}}_{\text{cur}} $为智能体当前时刻的速度向量.

2）APF-CBF对齐奖励，鼓励遵循APF-CBF模块安全速度建议.

(16)$ {R}_{\text{AC}}={W}_{\text{AC}} {W}_{\text{thr}} {W}_{\text{den}} {\alpha }_{\text{CBF}}. $

式中：$ {W}_{\text{AC}} $为APF-CBF对齐奖励系数. $ {\alpha }_{\text{CBF}} $的计算分为2种情况，当APF-CBF模块建议减速时，

(17)$ {\alpha }_{\text{CBF}}= \begin{cases} 0.2\times \left(1-\dfrac{\left\|{{\boldsymbol{v}}}_{\text{cur}}\right\|}{0.5}\right),&\left\|{{\boldsymbol{v}}}_{\text{cur}}\right\|< 0.5;\\ -0.1,&{其他}.\\ \end{cases} $

当APF-CBF模块建议调整方向时，

(18)$ \begin{split} {\alpha }_{\text{CBF}}=\;&0.15 \times \frac{{\boldsymbol{v}}_{\text{cbf}}\cdot{\boldsymbol{v}}_{\text{cur}}}{\left|\left|{\boldsymbol{v}}_{\text{cbf}}\right|\right|\left|\left|{\boldsymbol{v}}_{\text{cur}}\right|\right|} + 0.1 \times \frac{\min \left\{\left\|{{\boldsymbol{v}}}_{\text{cbf}}\right\|,\left\|{{\boldsymbol{v}}}_{\text{cur}}\right\|\right\}}{\mathrm{m}{\text{ax}}\left\{\left\|{{\boldsymbol{v}}}_{\text{cbf}}\right\|,\left\|{{\boldsymbol{v}}}_{\text{cur}}\right\|,0.1\right\}}+\\ & 0.1\times \mathrm{min}\left\{ \frac{\left|\left|{\boldsymbol{v}}_{\text{cbf}}-{\boldsymbol{v}}_{\text{ref}}\right|\right|}{2.0},1.0\right\} .\end{split} $

1.3.3. 自适应奖励塑形机制

基于环境复杂度和任务进度实现分层自适应的奖励塑形机制，分为以下3层. 1）全局规划层：当障碍较少且距离目标较远时，侧重长期路径规划. 2）安全避障层：当障碍密度高时，优先考虑安全. 3）目标接近层：当障碍较少且距离目标较近时，专注精确到达. 为了实现层级间的自适应切换，根据障碍物密度等级及无人机当前到目标的距离$ {d}_{\mathrm{g}} $，定义层级$ {L}_{\text{lay}} $切换逻辑如下.

1）当障碍物密度等级为low或none时，

(19)$ {L}_{\text{lay}}=\begin{cases} \mathrm{Global},&{d}_{\mathrm{g}}\geqslant {d}_{\text{fa}\mathrm{r}};\\ \mathrm{Approach},&{其他}.\\ \end{cases} $

式中：$d_{\mathrm{far }}$为远距离阈值，用于在低障碍密度场景下触发Global和Approach层级间的切换.

2）当障碍物密度等级为high时，无论距离远近，均切换到安全避障层.

3）当障碍物密度等级为medium时，

(20)$ {L}_{\text{lay}}=\begin{cases} \mathrm{Approach},&{d}_{\mathrm{g}}\leqslant {d}_{\text{nar}};\\ \mathrm{Safety},&\text{其他}.\\ \end{cases} $

式中：$ {d}_{\text{nar}} $为近距离阈值，用于在中等障碍密度场景下触发Safety和Approach层级间的切换.

针对上述分层，设计如表2所示的差异化的奖励权重配置. 基于“分层专业化”原则，全局规划层（Global）侧重效率，安全避障层（Safety）强化安全保障，目标接近层（Approach）平衡精度与能耗.

表 2 自适应奖励塑形下的权重分配

Tab.2 Weight distribution under adaptive reward shaping

奖励组件	Global	Safety	Approach
Goal	1.0	1.0	1.0
Direction	1.8	0.8	2.2
Collision	1.0	1.0	1.0
Boundary	1.0	1.0	1.0
Static	0.5	1.8	1.2
Dynamic	0.6	2.2	1.0
Deviation	0.7	1.5	0.8
Speed	2.5	0.6	0.9
Energy	0.4	1.4	1.6
Time	0.6	1.2	1.6
DWA	0.6	2.8	1.8
CBF	0.8	2.0	1.6

通过智能化的权重动态调整，为无人机自主导航提供兼具灵活性与鲁棒性的解决方案. 在仿真过程中，这些权重与基础奖励函数进行加权融合，实现动态的行为调节.

1.3.4. 总体奖励函数

综合各奖励分项和自适应权重，构建总体奖励函数如下：

(21)$ {R}_{\mathrm{t}\text{ot}}={{\Sigma }}_{i}[{R}_{i} {\lambda }_{i}\left({L}_{\text{lay}}\right) ]. $

式中：$ {\lambda }_{i}\left({L}_{\text{lay}}\right) $为在当前层级$ {L}_{\text{lay}} $下的自适应权重系数，$ {R}_{i} $为1.3.3节中各奖励类别所包含的具体奖励分量（共11项）.

该多目标奖励函数实现了目标导向、安全性、路径优化、运动平滑性和智能决策协调的全面整合.

2. SHIELD算法框架设计

2.1. SHIELD安全分层强化学习架构

2.1.1. 整体架构设计

构建多层次智能安全导航架构，采用“分层决策+实时反馈+长期优化”的设计理念，通过动作传递和奖励反馈形成闭环控制，将强化学习的全局决策能力与专家系统的局部优化和安全保障能力有机结合. 整体架构如图2所示.

图 2

图 2 SHIELD的整体架构

Fig.2 Overall architecture of SHIELD

该架构包含以下4个核心层级. 1）强化学习决策层，基于SAC（soft actor-critic）算法，负责全局路径规划和高层决策制定. 2）DWA专家指导层，处理动态威胁的预测性规避和局部轨迹优化. 3）APF-CBF安全保障层，提供紧急安全约束. 4）原始-对偶优化（primal-dual optimization, PDO）柔性优化层，通过长期约束优化策略. 这种多维度协同机制使系统从传统的被动安全响应模式转变为主动安全预防模式，在确保高安全性的基础上，显著提升了导航效率和智能化水平.

2.1.2. 分层协同控制流程

系统通过以下6个步骤实现分层协同控制的完整执行过程. 1）强化学习原始决策. 输入当前环境状态观测，输出原始动作指令，并转换为期望速度$ {\boldsymbol{v}}_{\text{des}} $. 2）DWA专家指导. 输入期望速度和障碍物信息，通过自适应权重融合机制，输出指导后的速度$ {\boldsymbol{v}}_{\text{ref}} $. 3）APF-CBF安全保障. 输入$ {\boldsymbol{v}}_{\text{ref}} $，通过分层安全验证和约束优化，输出安全速度$ {\boldsymbol{v}}_{\text{saf}} $. 4）动作执行. 在环境中执行安全速度$ {\boldsymbol{v}}_{\text{saf}} $，反馈得到下一环境状态$ {{\boldsymbol{s}}}_{t+1} $、奖励$ {r}_{t} $和成本$ {c}_{t} $. 5）PDO柔性优化. 输入执行结果的奖励$ {r}_{t} $和成本$ {c}_{t} $，通过奖励塑形机制，输出优化后的修正奖励$ r_{t}{'} $. 6）策略更新. 利用奖励塑形后的$ r_{t}{'} $更新策略$ \pi $.

2.2. 强化学习决策层

强化学习决策层作为架构的核心决策单元，采用SAC算法. 该算法通过熵正则化实现探索与利用的平衡，采用双评论家网络应对Q值过估计的问题，并支持连续动作空间^[14].

2.2.1. 网络架构与参数设置

SAC采用演员-评论家结构. 1）策略网络采用3层全连接层（每层256个神经元，ReLU激活），输出动作均值和方差. 2）评论家网络采用相同的结构，输出Q值估计. 训练采用Adam优化器，主要超参数的设置如表3所示.

表 3 SAC算法的主要超参数

Tab.3 Main hyperparameter of SAC algorithm

超参数	数值	超参数	数值
折扣因子	0.99	经验回放缓冲区大小	100 000
学习率	0.000 5	批次大小	256
软更新系数	0.01	总训练步数	100 000

2.2.2. 改进的训练策略

为了提高训练效率和稳定性，提出以下改进. 1）基于连续成功阈值的伪随机训练机制. 仅当智能体在当前环境下连续成功一定次数后才重新生成环境，提高样本利用效率并避免频繁环境切换导致的学习不稳定问题. 2）基于最近表现的动态阈值调整机制. 成功率小于30%时降低阈值以增大环境变化频率，成功率大于80%时提高阈值以增强训练稳定性. 3）障碍物配置随机化. 当需要重新生成环境时有小概率生成为不同障碍物配置的组合，避免过拟合. 4）学习率衰减机制. 初期使用较大的学习率以加速收敛，后期减小学习率以实现精细调优.

2.3. DWA专家指导层

构建动态窗口专家指导模块，在传统的DWA^[15]基础上进行改进，实现与RL的协同融合.

2.3.1. 智能化改进策略

提出以下2个智能化优化机制.

1）自适应激活. 持续激活会导致不必要的计算开销并干扰强化学习策略. 提出仅在威胁条件满足时激活：在动态障碍情况下，当相对距离小于$ {d}_{\text{TH}} $，相对速度大于$ {v}_{\text{TH}} $，预测碰撞时间小于$ {t}_{\text{TH}} $时激活；在静态障碍情况下，当相对距离小于$ {d}_{\text{TH}}/2 $时激活.

2）多维度目标函数. 针对传统DWA静态权重和轨迹质量不足的问题，构建五维综合评估体系：

(22)$ \begin{split} G\left(v,\omega \right)=&\sigma \left(\alpha {J}_{\text{hed}}\left(v,\omega \right)+ {\beta }_{\text{DWA}} {J}_{\text{obs}}\left(v,\omega \right)+\right. \\&\left.\gamma {J}_{\text{vel}}\left(v,\omega \right)+ \delta {J}_{\text{smo}}\left(v,\omega \right)+ \varepsilon {J}_{\mathrm{g}}\left(v,\omega \right)\right).\end{split} $

式中：$ \sigma $为归一化因子，$ \alpha \mathrm{、}{\beta }_{\text{DWA}}\mathrm{、}\gamma \mathrm{、}\delta \mathrm{、}\varepsilon $为权重系数.

五维代价函数的具体计算如下：

(23)$ \left.\begin{array}{l}{J}_{\text{hed}}\left(v,\omega \right)={\left| {\theta }_{\mathrm{g}}-{\theta }_{\text{end}}\right| }/{\text{π} },\\ {J}_{\text{obs}}\left(v,\omega \right)={\min \left\{\dfrac{3.0}{{d}_{\min }+0.5},15.0\right\}}/{15},\\ {J}_{\text{vel}}\left(v,\omega \right)=1-{{v}_{\text{end}}}/{{v}_{\max }},\\ {J}_{\text{smo}}\left(v,\omega \right)={\left(\dfrac{1}{N-1}\displaystyle \sum \nolimits_{i=1}^{N-1}\,\left| {\theta }_{i+1}-{\theta }_{i}\right| \right)}/{\text{π} },\\ {J}_{\mathrm{g}}\left(v,\omega \right)={{d}_{\text{end}}}/{{d}_{\max }}.\end{array}\right\} $

式中：$ {\theta }_{\text{end}}、{v}_{\text{end}} $为预测轨迹末端的航向角和速度，$ N $为预测轨迹的离散点数量，$ {\theta }_{i} $为预测轨迹中离散点的航向角，$ {d}_{\text{end}}、{d}_{\max } $为预测轨迹末端到目标的直线距离及初始点到目标的直线距离.

2.3.2. RL协同机制

为了充分发挥DWA的局部规划优势和RL的全局学习能力，设计双重引导策略，实现DWA和RL的深度协同.

1）速度指导融合. 提出基于环境状态、威胁权重$ {W}_{\text{thr}} $和障碍物密度权重$ {W}_{\text{den}} $的自适应权重融合机制，通过动态调节2个模块的融合比例，充分发挥各自的优势. 融合权重$ {W}_{\text{dwa}} $计算为

(24)$ {W}_{\text{dwa}}={W}_{0} {W}_{\text{thr}} {W}_{\text{den}} {W}_{\text{cbf}}. $

式中：$ {W}_{0} $为基础权重；$ {W}_{\text{cbf}} $为APF-CBF激活状态的调节系数，避免多层安全机制间的冲突干扰.

在每个决策周期内，RL决策层根据当前状态输出连续动作，并映射得到原始期望速度$ {\boldsymbol{v}}_{\text{des}} $. 当满足激活条件时，DWA层以当前状态和RL期望为参考，计算安全可行的推荐速度$ {\boldsymbol{v}}_{\mathrm{d}\text{wa}} $. 根据式(24)计算的自适应融合权重，对2种速度按式(25)进行加权融合，生成用于实际控制的指导速度$ {\boldsymbol{v}}_{\text{ref}} $. 在保持RL全局决策一致性的同时，引入DWA的局部安全修正.

(25)$ {\boldsymbol{v}}_{\text{ref}}=\left(1-{W}_{\text{dwa}}\right){\boldsymbol{v}}_{\text{des}}+{W}_{\text{dwa}}{\boldsymbol{v}}_{\mathrm{d}\text{wa}}. $

系统能够在复杂环境中智能切换控制策略：在障碍密集区域更多依赖DWA的局部避障能力，在开阔区域更多发挥RL的全局优化优势.

2）奖励函数引导. 在RL奖励函数中引入DWA行为对齐项（式(14)），促进智能体学习协同策略.

该模块通过智能激活、多维目标优化和双重引导这三重改进，在保持RL全局优化能力的同时，充分利用DWA在局部动态避障方面的优势，在复杂动态环境下高效安全导航.

2.4. APF-CBF安全保护层

构建多层次安全保护模块，融合改进的APF和CBF，为智能体提供分层安全保障机制.

2.4.1. 改进APF算法

与传统的APF^[16]不同，本算法直接在速度空间操作，基于几何关系和动力学约束生成安全速度，主要包含以下3种力的设计.

1）目标导向力. 引导无人机朝目标移动，

(26)$ \left.\begin{array}{l} {\boldsymbol{d}}_{\mathrm{g}}=\dfrac{\left[{x}_{\mathrm{g}}-{x}_{\text{UAV}},{y}_{\mathrm{g}}-{y}_{\text{UAV}}\right]}{\left\| \left[{x}_{\mathrm{g}}-{x}_{\text{UAV}},{y}_{\mathrm{g}}-{y}_{\text{UAV}}\right]\right\| },\\ {\boldsymbol{v}}_{\text{des}}={v}_{\max }{\boldsymbol{d}}_{\mathrm{g}}.\end{array}\right\} $

2）分离式避障力. 为了解决局部最小值问题^[17]，将避障力分解为径向排斥力和切向引导力：

(27)$ {\boldsymbol{F}}_{\text{rad}}=-{S} _{\text{pen}} \left(1-{\alpha }_{\tan }\right)\frac{{\boldsymbol{d}}_{\text{obs}}}{\left|\left|{\boldsymbol{d}}_{\text{obs}}\right|\right|} , $

(28)$ {\boldsymbol{F}}_{\tan }={S} _{\text{pen}} {\alpha }_{\tan }\boldsymbol{t} . $

式中：$ {\boldsymbol{d}}_{\text{obs}} $为障碍物相对位置向量；$ {S}_{\text{pen}}=1/\Big[1+ {\mathrm{exp}}\;{\left(-6\left(p/{d}_{\text{saf}}\right)+3\right)}\Big] $为穿透强度，其中$ p $为穿透深度；$ \boldsymbol{t} $为障碍物表面的切向方向向量；$ {\alpha }_{\tan } $为切向偏好系数.

3）边界约束力. 为了避免强化学习初期的“乱飞”现象，提高训练效率，设计边界约束力：

(29)$ {\boldsymbol{F}}_{\text{bnd}}=\frac{\boldsymbol{n}}{{d}_{j}+\varepsilon }\times {\mathrm{exp}}\left(-{{d}_{j}}/{{d}_{\text{bnd}}}\right). $

式中：$ \boldsymbol{n} $为边界指向智能体的单位法向量，$ {d}_{j} $为无人机到边界$ j $的距离，$ {d}_{\text{bnd}} $为边界安全裕度.

通过多力合成，最终的避障调整方向为

(30)$ {\boldsymbol{D}}_{\text{tot}}={\boldsymbol{F}}_{\text{bnd}}+ \sum \limits_{i=1}^{N}\,\left(\boldsymbol{F}_{\text{rad}}^{i}+\boldsymbol{F}_{\tan }^{i}\right). $

最终的速度合成方向为

(31)$ {\boldsymbol{d}}_{\text{fnl}}=\left(1-{S}_{\max }\right){\boldsymbol{d}}_{\mathrm{g}}+{S}_{\max }{{\boldsymbol{D}}_{\text{tot}}}/{\left|\left|{\boldsymbol{D}}_{\text{tot}}\right|\right|}. $

式中：$ {S}_{\max } $为最大调整强度，取决于所有障碍物的穿透强度，$ {S}_{\max }=\max S_{\text{pen}}^{i} $. 最终的APF推荐速度为

(32)$ {\boldsymbol{v}}_{\text{apf}}=\frac{{\boldsymbol{d}}_{\text{fnl}}}{\left|\left|{\boldsymbol{d}}_{\text{fnl}}\right|\right|}\times \left|\left|{\boldsymbol{v}}_{\text{des}}\right|\right|. $

引入时序平滑机制避免速度突变：

(33)$ {\boldsymbol{v}}_{\text{smo}}=\left(1-{\lambda }_{\text{smo}}\right){\boldsymbol{v}}_{\text{apf}}+{\lambda }_{\text{smo}}{\boldsymbol{v}}_{\mathrm{lst}}. $

式中：$ {\lambda }_{\text{smo}} $为平滑系数，$ {\boldsymbol{v}}_{\mathrm{lst}} $为上一时刻的推荐速度.

2.4.2. 优化的控制屏障函数

采用离散时间CBF约束^[18]，设计包含障碍物屏障函数、边界屏障函数和自适应参数调节机制的优化CBF框架.

1）屏障函数设计. 定义障碍物屏障函数：

(34)$ {h}_{i}\left(x\right)={d}_{i}\left(x\right)-{d}_{\text{cbf}}. $

式中：${d}_{i} \left( x \right) $为欧几里得距离，

${d}_{i}\left(x\right)= \sqrt{\left(x-x_{\text{obs}}^{i}\right)^{2}+\left(y-y_{\text{obs}}^{i}\right)^{2}}；$

$ {d}_{\text{cbf}} $为CBF安全距离. 当屏障函数$ {h}_{i}\left(x\right)\geqslant 0 $时，表示无人机处于安全区域；反之，表示已进入危险区域，须采取紧急避障措施. 对于离散时间系统，CBF约束可以定义为

(35)$ {h}_{i}({x}_{t+1})-{h}_{i}({x}_{t})+{\gamma }_{i}\Delta t\cdot {h}_{i}({x}_{t}{)}^{\alpha }\geqslant 0. $

为了防止无人机越界，设计四边界约束：

(36)$ {h}_{\text{bnd}}=\left\{{h}_{{x}0},{h}_{{x}1},{h}_{{y}0},{h}_{{y}1}\right\}.$

相应的边界CBF约束为

(37)$ {\dot{h}}_{\text{bnd}}+{\gamma }_{\text{bnd}}h_{\text{bnd}}^{\alpha }\geqslant 0. $

2）安全性分析. 为了确保该模块在实际应用中的可靠性，从理论角度对算法的安全性进行严格分析.

定理1：离散时间CBF安全性. 考虑离散时间系统状态（式(2)）和障碍物屏障函数$ {h}_{i}\left(x\right) $（式(34)）. 若在初始时刻$ {t}_{0} $有$ {h}_{i}\left({x}_{{{t}_{0}}}\right)\geqslant 0 $，且在每个离散时间步$ t $，控制输入$ {\boldsymbol{u}}_{t} $满足离散时间CBF约束

(38)$ {h}_{i}({x}_{t+1})-{h}_{i}({x}_{t})+{\gamma }_{i}\Delta t\cdot {h}_{i}({x}_{t}{)}^{\alpha }\geqslant 0, $

则对所有$ t\geqslant {t}_{0} $都有$ {h}_{i}\left({x}_{t}\right)\geqslant 0 $，即保证安全集合$ \mathcal{C}= \{x|{h}_{i}(x)\geqslant 0,\forall i\} $的前向不变性.

证明：数学归纳法.

基础步骤：由假设可知，$ {h}_{i}\left({x}_{{{t}_{0}}}\right)\geqslant 0 $成立.

归纳假设：假设在时刻$ t $有$ {h}_{i}\left({x}_{t}\right)\geqslant 0 $.

归纳步骤：须证明$ {h}_{i}\left({x}_{t+1}\right)\geqslant 0 $.

由离散时间CBF约束（式(35)），可得

(39)$ {h}_{i}({x}_{t+1})\geqslant {h}_{i}({x}_{t})-{\gamma }_{i}\Delta t\cdot {h}_{i}({x}_{t}{)}^{\alpha }. $

由$ {h}_{i}\left({x}_{t}\right)\geqslant 0 $且$ {\gamma }_{i}> 0 $，$ \alpha \in \left(0,1.0\right) $，有$ {h}_{i}({x}_{t}{)}^{\alpha }\geqslant 0 $. 为了证明$ {h}_{i}\left({x}_{t+1}\right)\geqslant 0 $，须分析右侧项：

(40)$ {h}_{i}({x}_{t+1})\geqslant {h}_{i}({x}_{t})(1-{\gamma }_{i}\Delta t\cdot {h}_{i}({x}_{t}{)}^{\alpha -1}). $

当$ {h}_{i}\left({x}_{t}\right) $充分小时（即接近障碍物），由于$ \alpha \lt 1 $，有$ {h}_{i}({x}_{t}{)}^{\alpha -1}> 1 $，此时约束条件确保$ {h}_{i}\left({x}_{t+1}\right)\geqslant 0 $的充分条件为

(41)$ {\gamma }_{i}\Delta t\leqslant \frac{1}{{h}_{i}({x}_{t}{)}^{\alpha -1}}. $

这表明离散步长$ \Delta t $必须足够小，以保证约束有效性. 在实际中，通过选择适当的$ {\gamma }_{i} $和$ \Delta t $组合，确保上述条件成立. 具体而言，本文实验中取$ {\gamma }_{i}=1.2, \alpha =0.8,~\Delta t=0.1\;\mathrm{s} $，满足上述约束条件. 由数学归纳法可知，对所有$ t\geqslant {t}_{0} $都有$ {h}_{i}\left({x}_{t}\right)\geqslant 0 $.

2.4.3. 分层混合安全控制策略

采用“分层架构+分级备份”的双重设计理念. 与传统方法不同，本模块将APF重新定位为CBF约束求解的智能初值生成器，为CBF优化提供安全且目标导向的候选解.

1）分层架构. 第1层：APF导航层，对输入的速度进行初次安全性验证，输出具有物理直觉的安全方向，为CBF二次规划提供高质量初值$ {\boldsymbol{v}}_{\text{apf}} $. 第2层：CBF约束验证层，验证$ {\boldsymbol{v}}_{\text{apf}} $是否满足安全要求. 第3层：优化求解层，当$ {\boldsymbol{v}}_{\text{apf}} $不安全时，通过二次规划方法求解安全速度$ {\boldsymbol{v}}_{\text{saf}} $.

2）分级备份. 当优化求解失败时，按优先级提供备用策略. 优先级1（智能切向绕行）：基于障碍物几何关系生成2个正交切线方向的候选速度，选择与目标方向对齐度更高且更安全的最优切线方向. 对每个最优切向方向，生成多尺度候选速度，优先选择速度更大且满足约束的最优候选速度. 优先级2（保持方向、速度缩放）：保持APF推荐的运动方向，逐步降低速度幅值，选择满足CBF约束的最大速度. 优先级3（卡死检测与逃逸机制）：引入卡死检测与逃逸机制，通过最近时间窗口内的平均速度v_rec 和位置变化Δq双重指标检测卡死状态：当平均速度低于速度阈值v_stk且位置变化量小于位置阈值d_stk时，判定无人机陷入卡死状态。

(42)$ \mathrm{STUCK}=\mathrm{True};\; {\overline{v}}_{\text{rec}}< {v}_{\text{stk}},\left|\left|\Delta \boldsymbol{q}\right|\right|< {d}_{\text{stk}}. $

检测到卡死状态后触发逃逸机制，在8个均匀分布的方向上采样生成逃逸候选速度，选择满足CBF约束且违反度最小的方向. 优先级4（紧急停止）：当所有备用策略均失败时，执行紧急停止策略.

3）RL协同策略. 与DWA模块类似，RL协同策略是促进RL智能体学习与安全保护层协调的策略，在奖励函数中引入CBF对齐项（式(16)）.

2.5. PDO柔性优化层

为了解决DWA和APF-CBF模块缺乏长期优化能力的问题，构建基于PDO^[19]的柔性优化模块，通过动态调整拉格朗日乘数平衡任务奖励与安全约束. 该模块的整体执行流程如图3所示.

图 3

图 3 PDO算法的执行流程

Fig.3 Execution process of PDO algorithm

记无人机在时刻$ t $的状态为$ {{\boldsymbol{s}}}_{t} $，执行动作$ {a}_{t} $后获得奖励$ {r}_{t} $和成本$ {c}_{t} $. 引入“双重约束”机制，将安全约束分为单步成本和累积成本，分别约束瞬时安全状态和整体安全表现. 将优化问题表述为

(43)$ \underset{\pi }{\max }\,{{E}}_{\pi }\left[\sum \limits_{t=0}^{T}\,{\gamma }^{t}{r}_{t}\right]. $

约束条件为

(44)$ {{E}}_{\pi }\left[\displaystyle \sum \limits_{t=0}^{T}\,{c}_{t}\right]\leqslant {C}_{\text{ep}},\; {{E}}_{\pi }\left[{c}_{t}\right]\leqslant {C}_{\text{stp}}. $

式中：$ {C}_{\text{stp}}、{C}_{\text{ep}} $分别为单步和累积约束限制. 引入拉格朗日乘数$ {\lambda }_{\text{stp}} $和$ {\lambda }_{\text{ep}} $，构造拉格朗日函数：

(45)$ \begin{split} L\left(\pi ,{\lambda }_{\text{ep}},{\lambda }_{\text{stp}}\right) =&{{E}}_{\pi }\left[\sum \limits_{t=0}^{T}\,{\gamma }^{t}{r}_{t}\right] - {\lambda }_{\text{ep}}\left({{E}}_{\pi }\left[\sum \limits_{t=0}^{T}\,{c}_{t}\right] - {C}_{\text{ep}}\right) -\\ &{\lambda }_{\text{stp}}\sum \limits_{t=0}^{T}\,\left({{E}}_{\pi }\left[{c}_{t}\right]-{C}_{\text{stp}}\right).\end{split} $

根据原始-对偶优化理论，最优解可由以下原始问题与对偶问题刻画：1）原始问题$ {\max }_{\pi }\,L\left(\pi ,{\lambda }_{\text{ep}},{\lambda }_{\text{stp}}\right) $；2）对偶问题$ {\min }_{{\lambda }_{\text{ep}},{\lambda }_{\text{stp}}}\,L\left(\pi ,{\lambda }_{\text{ep}},{\lambda }_{\text{stp}}\right) $.

2.5.1. 约束健康度机制

为了精确地量化约束违规程度，引入约束健康度概念（值域为[0.05, 1]，值越小表示违规越严重）. 累积约束健康度基于最近$ n $个回合计算：

(46)$ {h}_{\text{ep}}=\max \left\{0.05, 1-\mathrm{min}\left\{1, 0.8r+0.5\mu +0.3{\mu }_{\max }\right\}\right\}.$

式中：$ r $为违规率，$ r={\left| V\right| }/{n} $，其中$ V $为违规集合数；$ \mu $为平均违规程度，

$ \mu ={\Bigg[{\displaystyle \sum \nolimits_{i\in V}\,\left(\displaystyle \sum \nolimits_{t=0}^{T}\,{c}_{t}-{C}_{\text{ep}}\right)}/{{C}_{\text{ep}}}\Bigg]}/{\left| V\right| } $；

$ {\mu }_{\max } $为最大违规程度，

${\mu }_{\max }={\max }_{i\in V}\,\left(\displaystyle \sum \nolimits_{t=0}^{T}\,{c}_{t}-{C}_{\text{ep}}\right)/{C}_{\text{ep}}.$

由式(46)可知，健康度函数随着违规率、平均违规程度和最大违规程度的增大而单调递减，即违规越严重，健康度越低. 单步约束健康度的计算类似，即关注最近$ m $个时间步的违规情况.

2.5.2. 奖励修正与乘数更新机制

　　1）拉格朗日乘数更新机制. 采用带动量的自适应梯度上升法更新拉格朗日乘数：

(47)$ \left.\begin{array}{l} \lambda _{\text{ep}}^{\left(k+1\right)}=\mathrm{clip}\left(\lambda _{\text{ep}}^{\left(k\right)}+{\alpha }_{\text{ep}}m_{\text{ep}}^{\left(k\right)},\;0.3,\;{\lambda }_{\max }\right),\\ \lambda _{\text{stp}}^{\left(k+1\right)}=\mathrm{clip}\left(\lambda _{\text{stp}}^{\left(k\right)}+{\alpha }_{\text{stp}}m_{\text{stp}}^{\left(k\right)},\;0.2{,}\;0.8{\lambda }_{\max }\right).\end{array}\right\} $

式中：clip为裁剪函数；${\lambda }_{\max } $为拉格朗日乘数的上限阈值，用于防止乘数数值过大导致训练不稳定和过度惩罚. 为了防止乘数波动过大，动量项定义为

(48)$ \left.\begin{array}{l} m_{\text{ep}}^{\left(k\right)}={\beta }_{\text{PDO}}m_{\text{ep}}^{\left(k-1\right)}+\left(1-{\beta }_{\text{PDO}}\right)s_{\text{ep}}^{\left(k\right)},\\ m_{\text{stp}}^{\left(k\right)}={\beta }_{\text{PDO}}m_{\text{stp}}^{\left(k-1\right)}+\left(1-{\beta }_{\text{PDO}}\right)s_{\text{stp}}^{\left(k\right)}.\end{array}\right\} $

式中：$ s_{\text{ep}}^{\left(k\right)}\mathrm{、}s_{\text{stp}}^{(k)} $为约束违规信号，由约束健康度决定；$ {\alpha }_{\text{ep}}\mathrm{、}{\alpha }_{\text{stp}} $为学习率；$ {\beta }_{\text{PDO}} $为动量衰减因子.

2）奖励修正机制. 基于拉格朗日函数的框架，将惩罚项转化为对原始奖励的动态调整：

(49)$ r'_{t}={r}_{t}+{\lambda }_{\text{ep}}\Delta {r}_{\text{ep}}+{\lambda }_{\text{stp}}\Delta {r}_{\text{stp}}. $

式中：$ \Delta {r}_{\text{ep}}、\Delta {r}_{\text{stp}} $分别为累积约束和单步约束调整项，均基于健康度动态调整.

2.5.3. 成本函数设计

采用连续梯度成本函数，确保处处可微.

1）静态障碍物成本$ {C}_{\text{sta}} $. 根据无人机与障碍物之间的距离$ {d}_{\min } $与阈值$ {D}_{\mathrm{s}} $的关系进行分区计算：

(50)$ C_{{\mathrm{sta}}}=\begin{cases} 5,& {d}_{\min }\leqslant 0;\\ 2.0 {\left(({D}_{\mathrm{s}}-{d}_{\min })/{D}_{\mathrm{s}}\right)}^{2},&0< {d}_{\min }< {D}_{\mathrm{s}};\\ 0.2{ \left(({2D}_{\mathrm{s}}-{d}_{\min })/{D}_{\mathrm{s}}\right)}^{2},&{{D}}_{\mathrm{s}}\leqslant {d}_{\min }< 2{D}_{\mathrm{s}};\\ 0,&{d}_{\min }\geqslant 2{D}_{\mathrm{s}}.\\ \end{cases} $

2）动态障碍物成本$ {C}_{\text{dyn}} $. 采用扩展的安全距离阈值$ {D}_{\text{ext}}=2{D}_{\mathrm{s}} $，利用类似的分区计算方法.

3）总成本函数. 总成本函数定义为各障碍物成本分量的和：

(51)$ {C}_{\text{tot}}=\sum \limits_{i}\,C_{\text{sta}}^{i}+\sum \limits_{j}\,C_{\text{dyn}}^{j}. $

3. 仿真实验

3.1. 实验平台与环境设置

仿真实验的实现基于Python 3.11.4和PyTorch 2.7.0. 硬件为AMD Ryzen 9 9900X CPU@4.4 GHz、32 GB RAM和NVIDIA GeForce GTX 1080 GPU.

实验环境基于Gymnasium构建，为100 m×100 m的二维矩形空间；无人机质心进入目标区域视为任务成功，若发生碰撞或超时，则判定为失败. 强化学习实验在包含10个静态障碍和4个动态障碍的场景下进行，总训练步数为1×$ {10}^{5} $步. 每组实验独立重复5次，每次包含1 000轮测试，最终的性能指标取5次实验结果的平均值. 相关的实验参数详见表4.

表 4 仿真实验中的主要控制参数与环境参数

Tab.4 Main control parameter and environmental parameter in simulation experiment

参数	数值	参数	数值	参数	数值	参数	数值
$ {r}_{\text{UAV}} $/m	1.0	$ {n}_{\text{dyn}} $	2	$ {W}_{\text{AC}} $	0.5	$ {W}_{\text{cbf}} $	0.3
$ {r}_{\mathrm{g}} $/m	3.0	$ {W}_{\mathrm{g}} $	200	$ \Delta t $/s	0.1	$ {W}_{0} $	0.3
$ {r}_{\min } $/m	2	$ {W}_{\text{dir}} $	1.8	$ {d}_{\text{fa}\mathrm{r}} $/m	70	$ {\alpha }_{\tan } $	0.8
$ {r}_{\max } $/m	6	$ {W}_{\text{col}} $	20	$ {d}_{\text{nar}} $/m	25	$ {d}_{\text{bnd}} $/m	0.8
$ {r}_{\text{sen}} $/m	10	$ {W}_{\text{bnd}} $	20	$ \alpha $	0.8	$ {\lambda }_{\text{smo}} $	0.3
$ {v}_{\max } $/(m·s⁻¹)	5.0	$ {W}_{\text{sta}} $	1.0	$ {\beta }_{\text{DWA}} $	1.2	$ {C}_{\text{stp}} $	2
$ {\omega }_{\max } $/(rad·s⁻¹)	$ \text{π} /2 $	$ {W}_{\text{dyn}} $	2.0	$ \gamma $	0.15	$ {C}_{\text{ep}} $	15
$ {v}_{\mathrm{o}1} $/(m·s⁻¹)	1.0	$ {W}_{\text{dev}} $	1.5	$ \delta $	0.02	$ {\alpha }_{\text{stp}} $	0.008
$ {v}_{\mathrm{o}2} $/(m·s⁻¹)	2.5	$ {W}_{\text{spd}} $	1.2	$ \varepsilon $	0.6	$ {\alpha }_{\text{ep}} $	0.01
$ {\theta }_{\text{fov}} $/(°)	120	$ {W}_{\text{eng}} $	1.8	$ {d}_{\text{TH}} $/m	20	$ {\beta }_{\text{PDO}} $	0.85
$ {N}_{\max } $	8	$ {W}_{\text{tim}} $	0.3	$ {v}_{\text{TH}} $/(m·s⁻¹)	0.3	$ {\lambda }_{\max } $	20
$ {n}_{\text{sta}} $	6	$ {W}_{\text{DWA}} $	1.5	$ {t}_{\text{TH}} $/s	6	$ {D}_{\mathrm{s}} $/m	3

3.2. 实验结果与分析

3.2.1. 基础性能测试

主要的评价指标为任务成功率和路径效率（路径效率指起始点到目标点的直线距离与实际路径长度的比值，接近1表明路线接近最优）.

如图4所示为训练过程中回合累积奖励的原始数据（细实线）和经指数移动平均处理后的平滑曲线（粗实线）. 其中，E_p为训练轮次，R为奖励值. 在初始阶段，奖励值迅速上升，表明智能体快速学习到基本避障策略. 约500个回合后，平滑曲线整体上趋于收敛.

图 4

图 4 奖励函数曲线

Fig.4 Reward function curve

如图5所示为累积成功率在早期训练中快速提升（约200个回合内从低成功率升至80%）. 其中，S_c为累积成功率. 从图5可知，智能体快速掌握了路径规划的核心技能.

图 5

图 5 累积成功率曲线

Fig.5 Cumulative success rate curve

如图6所示为典型回合中无人机的实际飞行路径（带箭头线）. 其中，起始点用符号“S”表示；目标点用符号“G”表示；静态障碍物和动态障碍物用圆圈表示，不带箭头的实线为动态障碍物运动轨迹. 从图6可知，在x = 50 m，y = 80 m处，无人机存在智能避障行为，即躲避并加速绕开动态障碍物.

图 6

图 6 完整框架实验中无人机的路径

Fig.6 Path of UAV in complete framework experiment

测试结果显示，提出的算法框架在复杂动态环境中的平均成功率达到95.7%，路径效率达到0.962，验证了算法的有效性和可行性.

3.2.2. 对比实验

为了进一步验证所提算法在复杂动态环境下的优越性，将该算法与APF、RRT、DWA 3种传统算法进行对比，仿真结果如表5所示. 其中，E为路径效率.

表 5 所提算法与传统算法在成功率和路径效率上的对比

Tab.5 Comparison of success rate and path efficiency between proposed algorithm and traditional algorithm

算法	S_c/%	E
APF	51.6	0.738
RRT	62.8	0.665
DWA	75.4	0.716
所提算法	95.7	0.962

从表5可知，采用所提算法取得的任务成功率显著高于传统算法，较APF提升85.5%，较RRT提升52.4%，较DWA提升26.9%. 路径效率同样领先：较APF提升30.4%，较RRT提升44.7%，较DWA提升33.0%，表明路径更接近最优直线. 这些优势源于所提算法的自适应学习能力，能够从经验中优化策略，而传统算法依赖固定规则，在复杂环境中易失效.

如图7所示为传统算法在复杂动态环境下的典型路径. APF的路径用实线表示，在x = 30 m，y = 35 m附近陷入局部极小值，显著抖动后碰撞障碍物失败. RRT的路径用虚线表示，可见其路径不光滑，特别是在x = 60 m，y = 45 m附近绕行过度，导致路径冗长. DWA的路径用点划线表示，可见其中段路径呈波浪形抖动. 相比之下，利用所提算法生成近直线路径，避免了上述典型问题.

图 7

图 7 3种传统算法的无人机路径对比

Fig.7 UAV path comparison of three traditional algorithms

3.2.3. 消融实验

为了理解所提算法框架各模块的贡献并验证设计的合理性和模块间的协同性，通过消融实验系统性地移除关键模块，分析各模块对整体性能的影响. 除成功率和路径效率2项指标外，引入平均转角和平均决策时间（本文中特指算法推演时间）2项指标，评估算法的轨迹平滑性与实时性能. 实验包括基线实验(0号)、单模块实验(1~3号)、双模块组合实验(4~6号)及完整框架(7号)，实验结果如表6所示. 其中，$ {\theta }_{\text{avg}} $为平均转角，$ {T}_{\text{avg}} $为平均决策时间.

表 6 消融实验中的成功率、路径效率、平均转角和平均决策时间的对比

Tab.6 Comparison of success rate, path efficiency, average turning angle, and average decision time in ablation study

序号	+DWA	+CBF	+PDO	S_c/%	E	$ {\theta }_{\text{avg}} $/(°)	$ {T}_{\text{avg}} $/ms
0	—	—	—	64.3	0.739	21.41	1.87
1	√	—	—	78.8	0.779	9.99	2.41
2	—	√	—	85.6	0.893	17.72	2.03
3	—	—	√	75.2	0.752	13.75	1.88
4	√	√	—	90.3	0.922	12.70	2.54
5	√	—	√	83.4	0.807	8.93	2.43
6	—	√	√	89.9	0.908	14.82	2.11
7	√	√	√	95.7	0.962	9.41	2.57

对比基线实验（0号）与完整框架（7号）可知，成功率从64.3%提升至95.7%（提升48.8%），路径效率从0.739提升至0.962（提升30.2%），平均转角从21.41°减小至9.41°（降幅为56.0%），决策时间从1.87 ms增至2.57 ms（增幅为37.4%）. 完整框架在适度增加计算时间的前提下，实现了安全性、效率性和平滑性的全面优化.

单模块实验(1~3号)证明了各模块的有效性，双模块组合实验(4~6号)展示了模块间的协同效应，完整框架的性能优于任何双模块组合，表明3个模块的协同作用不是简单的线性叠加，而是通过“局部平滑—即时安全—全局优化”形成立体化协同机制.

在决策时间方面，DWA的引入使决策时间增加28.9%，这是由于动态窗口法需要实时评估多条候选轨迹. APF-CBF的计算开销较小，仅增加8.6%，这得益于APF初值生成的高效性. PDO对实时决策几乎无影响. 完整框架的决策时间为2.57 ms，满足实时性的要求. 在平均转角方面，DWA使转角减小53.4%，提升了轨迹平滑性. 由于安全保障导致的路径保守，APF-CBF使转角增加至17.72°. PDO通过优化决策减少了不必要的转向，转角减小了35.8%. 完整框架的协同将平均转角优化至9.41°（减小了56.0%），生成了更适合无人机执行的路径.

3.2.4. 鲁棒性验证

通过改变障碍物复杂度（即静态和动态障碍的数量配置），验证算法的鲁棒性. 基线配置为10静态+4动态障碍，逐步增至15静态+6动态，仿真结果如表7所示.

表 7 不同障碍物配置下的成功率和路径效率对比

Tab.7 Comparison of success rate and path efficiency under different obstacle configuration

障碍物数量配置（静+动）	S_c/%	E
10+4	95.7	0.962
12+5	92.3	0.931
15+6	89.6	0.908

从表7可知，随着障碍复杂度的增加，成功率从95.7%降至89.6%，路径效率从0.962降至0.908，最高复杂度下的成功率仅降低6.1%，突显3个模块的协同缓冲作用.

3.2.5. 真实干扰实验

为了验证SHIELD算法的工程适用性，在仿真环境中引入以下3类典型真实干扰. 1）阵风干扰，采用“恒定基础风+周期性阵风”组合模型，风速为0~2.0 m/s. 2）激光雷达测距噪声，对视场内所有障碍物的距离观测添加零均值高斯白噪声（$ \sigma =0.1 $ m）. 3）GPS定位误差，在每时间步独立生成定位偏差，误差幅值服从[0, 1.5] m均匀分布，方向随机.

分别在无干扰、单干扰、多干扰的情况下测试，并在多干扰条件下与传统算法进行对比. 如表8所示，SHIELD算法的抗干扰特征明显：雷达噪声和GPS误差的影响轻微，阵风干扰导致成功率显著降至81.6%，表明动力学层面的扰动是主要挑战. 在多干扰条件下，决策时间仅从2.57 ms增至2.86 ms（增幅为11.3%），表明计算开销的增长可控. 虽然传统算法的决策时间更短，但成功率远低于SHIELD，证明了所提算法的工程价值.

表 8 不同干扰下的成功率、路径效率和平均决策时间对比

Tab.8 Comparison of success rate, path efficiency and average decision time under different interference

算法与条件	S_c/%	E	$ {T}_{\text{avg}} $/ms
无干扰	95.7	0.962	2.57
单阵风干扰	81.6	0.863	2.61
单雷达噪声	95.3	0.962	2.57
单GPS误差	95.6	0.961	2.57
多干扰APF	31.8	0.593	1.06
多干扰RRT	38.7	0.512	2.07
多干扰DWA	55.3	0.638	2.49
多干扰，本文方法	81.4	0.861	2.86

如图8所示为SHIELD在无干扰（实线）和多干扰（虚线）条件下的轨迹对比. 经测试可知，多干扰条件下的轨迹相对于无干扰轨迹平均偏移8.636 m，约为地图尺寸的8.6%，偏移量较小，验证了算法的鲁棒性.

图 8

图 8 多干扰条件下的无人机路径

Fig.8 UAV path under multiple disturbance condition

通过真实干扰实验，验证了SHIELD算法的工程可靠性，与传统算法相比，该算法在鲁棒性上展现出了显著优势，为实际无人机的部署提供了重要参考.

4. 结　语

提出SHIELD安全分层集成强化学习框架，有效解决了无人机在复杂动态环境中的导航和避障问题. 构建4层递进式安全保障架构：强化学习决策层负责全局路径规划，专家指导层优化局部路径，安全保障层“软硬”结合提供紧急安全约束，柔性优化层优化长期策略.

仿真结果表明，SHIELD算法框架在任务成功率和路径效率方面相对于传统算法均有大幅的提升，在不同环境复杂度及真实干扰条件下均表现稳定，展现出良好的泛化能力和鲁棒性. 虽然多层架构增加了计算负担，但性能提升显著，这是可接受的.

现有研究仅考虑单机导航场景，未来研究将把SHIELD框架扩展至多智能体强化学习框架，实现多架无人机在共享低空空域中的冲突避免与任务协同. 现有研究仅采用二维平面模型进行验证，未来将针对真实的飞行场景，将算法扩展至3D空间，设计相应的屏障函数约束和奖励塑形机制.

参考文献

原文顺序

文献年度倒序

文中引用次数倒序

被引期刊影响因子

[1]

LI Y, ZENG Q, SHAO C, et al

UAV localization method with keypoints on the edges of semantic objects for low-altitude economy

[J]. Drones, 2024, 9 (1): 14

DOI:10.3390/drones9010014 [本文引用: 1]

[2]

WANG Z, XIANG X. Improved Astar algorithm for path planning of marine robot [C]//Proceedings of the 37th Chinese Control Conference. Wuhan: IEEE, 2018: 5410-5414.

[3]

QI J, YANG H, SUN H

MOD-RRT*: a sampling-based algorithm for robot path planning in dynamic environment

[J]. IEEE Transactions on Industrial Electronics, 2021, 68 (8): 7244- 7251

DOI:10.1109/TIE.2020.2998740 [本文引用: 1]

[4]

YANG Y, CHEN Z

Optimization of dynamic obstacle avoidance path of multirotor UAV based on ant colony algorithm

[J]. Wireless Communications and Mobile Computing, 2022, (1): 1299434

[5]

SHORAKAEI H, VAHDANI M, IMANI B, et al

Optimal cooperative path planning of unmanned aerial vehicles by a parallel genetic algorithm

[J]. Robotica, 2016, 34 (4): 823- 836

DOI:10.1017/S0263574714001878 [本文引用: 1]

[6]

YU Z, SI Z, LI X, et al

A novel hybrid particle swarm optimization algorithm for path planning of UAVs

[J]. IEEE Internet of Things Journal, 2022, 9 (22): 22547- 22558

DOI:10.1109/JIOT.2022.3182798 [本文引用: 1]

[7]

AZAR A T, KOUBAA A, MOHAMED N A, et al

Drone deep reinforcement learning: a review

[J]. Electronics, 2021, 10 (9): 999

DOI:10.3390/electronics10090999 [本文引用: 1]

[8]

OUBBATI O S, ATIQUZZAMAN M, BAZ A, et al

Dispatch of UAVs for urban vehicular networks: a deep reinforcement learning approach

[J]. IEEE Transactions on Vehicular Technology, 2021, 70 (12): 13174- 13189

DOI:10.1109/TVT.2021.3119070 [本文引用: 1]

[9]

SONNY A, YEDURI S R, CENKERAMADDI L R

Q-learning-based unmanned aerial vehicle path planning with dynamic obstacle avoidance

[J]. Applied Soft Computing, 2023, 147: 110773

DOI:10.1016/j.asoc.2023.110773 [本文引用: 1]

[10]

LI D, YIN W, WONG W E, et al

Quality-oriented hybrid path planning based on A* and Q-learning for unmanned aerial vehicle

[J]. IEEE Access, 2021, 10: 7664- 7674

DOI:10.1109/access.2021.3139534 [本文引用: 1]

[11]

THOMAS P S, DA SILVA B C, BARTO A G, et al

Preventing undesirable behavior of intelligent machines

[J]. Science, 2019, 366 (6468): 999- 1004

DOI:10.1126/science.aag3311 [本文引用: 1]

[12]

HE Y, HOU T, WANG M

A new method for unmanned aerial vehicle path planning in complex environments

[J]. Scientific Reports, 2024, 14: 9257

DOI:10.1038/s41598-024-60051-4 [本文引用: 1]

[13]

XU L, XI M, GAO R, et al

Dynamic path planning of UAV with least inflection point based on adaptive neighborhood A* algorithm and multi-strategy fusion

[J]. Scientific Reports, 2025, 15: 8563

DOI:10.1038/s41598-025-92406-w [本文引用: 1]

[14]

HAARNOJA T, ZHOU A, ABBEEL P, et al. Soft actor-critic: off-policy maximum entropy deep reinforcement learning with a stochastic actor [EB/OL]. [2025-08-10]. https://arxiv.org/abs/1801.01290.

[15]

FOX D, BURGARD W, THRUN S

The dynamic window approach to collision avoidance

[J]. IEEE Robotics and Automation Magazine, 1997, 4 (1): 23- 33

DOI:10.1109/100.580977 [本文引用: 1]

[16]

KHATIB O. Real-time obstacle avoidance for manipulators and mobile robots [M]//Autonomous robot vehicles. New York: Springer, 1990: 396–404.

[17]

MATOUI F, BOUSSAID B, ABDELKRIM M N. Local minimum solution for the potential field method in multiple robot motion planning task [C]//Proceedings of the 16th International Conference on Sciences and Techniques of Automatic Control and Computer Engineering. Monastir: IEEE, 2016: 452–457.

[18]

ZENG J, ZHANG B, SREENATH K. Safety-critical model predictive control with discrete-time control barrier function [C]//Proceedings of the American Control Conference. New Orleans: IEEE, 2021: 3882–3889.