<img src="https://www.zjujournals.com/eng/images/1008-973X/images/logo.png" class="img-responsive">

图 1 三维水下地形和洋流仿真

Fig.1 3D underwater terrain and ocean current simulation

2.2. AUV六自由度模型

在三维环境中，AUV的六自由度模型如图2所示. AUV的位置向量$ \boldsymbol{p}=[x,y,z] $，姿态向量$ \boldsymbol{\theta }=[\phi ,\theta ,\psi ] $. 线速度矢量$ \boldsymbol{v}=[u,v,w] $，角速度矢量$ \boldsymbol{\omega }=[p,q,r] $. 假设AUV的重量和浮力相等，其中心垂直位于z轴上，忽略非线性流体动力阻尼项和横摇运动，角速度恒定，AUV动力学模型如下：

图 2

图 2 AUV六自由度模型

Fig.2 Six-degree-of-freedom model of AUV

(5)$ x = u\cos\; (\theta )\cos\; (\psi ) - v\cos\; (\phi )\sin\; (\psi ) +w\sin \;(\phi )\cos\; (\psi ), $

(6)$ y = u\cos\; (\theta )\sin\; (\psi )+v\cos\; (\phi )\cos \;(\psi )+w\sin\; (\phi )\sin \;(\psi ), $

(7)$ z = - u\sin \;(\theta )+v\sin \;(\phi )\cos\; (\theta )+w\cos\; (\phi )\cos \;(\theta ), $

(8)$ \phi = p+q\sin \;(\phi )\tan \;(\theta )+r\cos \;(\phi )\tan \;(\theta ), $

(9)$ \theta = q\cos \;(\phi ) - r\sin \;(\phi ), $

(10)$ \psi = \frac{{q\sin \;( \phi )}}{{\cos \;(\theta )}}+\frac{{r\cos \;(\phi )}}{{\cos \;(\theta )}}. $

式中：x、y、z为AUV在惯性坐标系中的位置坐标；u、v、w为AUV在惯性坐标系中的速度分量；θ、ϕ、ψ为AUV的欧拉角，描述了航行姿态；p、q、r为AUV的角速度分量，详细如表1所示. 式(5)~(7)为位置方程，式(8)~(10)为姿态方程.

表 1 AUV六自由度模型的参数

Tab.1 Parameters of AUV six-degree-of-freedom model

自由度	含义	参数
进退	沿x轴的位移x/m	线速度u/(m·s⁻¹)
侧移	沿y轴的位移y/m	线速度v/(m·s⁻¹)
升沉	沿z轴的位移z/m	线速度w/(m·s⁻¹)
横滚	绕x轴的旋转角度ϕ/(°)	角速度p/(rad·s⁻¹)
俯仰	绕y轴的旋转角度θ/(°)	角速度q/(rad·s⁻¹)
偏航	绕z轴的旋转角度ψ/(°)	角速度r/(rad·s⁻¹)

在路径规划中，控制AUV速度的大小和运动方向，使AUV以较小的转弯角度进行运动，实现路径更加平滑并且运行时间更短. 本研究不仅考虑AUV的速度和方向，还进行加速度控制，以进一步优化路径. 假设在同一平面上洋流速度大小固定，$ {\boldsymbol{v}}_{\mathrm{A}\mathrm{U}\mathrm{V}} $、$ {\boldsymbol{a}}_{\mathrm{A}\mathrm{U}\mathrm{V}} $分别为AUV的速度和加速度，$ {\boldsymbol{v}}_{\mathrm{o}\mathrm{c}\mathrm{e}} $为洋流的速度. 限定$ {\boldsymbol{v}}_{{\mathrm{max}}} $为AUV在直线上速度最大值，$ {\boldsymbol{v}}_{{\mathrm{tur}}} $为拐弯时速度最大值. 根据矢量合成定律，设定AUV初始速度为2 m/s，AUV的实际速度$ {{\boldsymbol{v}}} $计算式为

(11)$ {\boldsymbol{v}} = {{\boldsymbol{v}}_{{\text{AUV}}}}+{{\boldsymbol{v}}_{{\text{oce}}}} , $

(12)$ ||{\boldsymbol{v}}|| = \min\; (||{{\boldsymbol{v}}_{{\text{AUV}}}}||,{{\boldsymbol{v}}_{\max }}) . $

若AUV在加速中速度超过最大速度，则实际速度将被限制. 如图3所示为AUV在三维网格环境中的6个动作方向. AUV在运行过程中感知障碍物，并将障碍物信息作为输入状态的一部分，以便根据策略做出动作选择. 障碍物信息通常由部署在AUV上的传感器收集.

图 3

图 3 三维网格环境中AUV动作方向

Fig.3 AUV motion direction in 3D grid environment

3. 融合自适应势场法和深度强化学习的三维水下AUV路径规划方法

在复杂的水下环境中，深度强化学习在前期训练时须耗费大量时间和资源来收集数据进行模型训练和优化. 本研究提出自适应势场法辅助AUV的动作选择，确保在寻优过程中AUV能够有效躲避障碍物，从而提高任务执行的安全性和可靠性. 采用优先经验回放策略，以优化经验缓冲区中重要经验利用不足的问题，提高训练效率和样本利用率. 通过调整动态奖励函数，保证AUV快速生成最优路径. 其中IADQN将AUV附近的环境信息以及本身信息作为强化学习中神经网络的状态输入，准确总结海洋环境特征并指导网络更新. IADQN框架如图4所示.

图 4

图 4 融合自适应势场法和深度强化学习的三维水下AUV路径规划方法框架图

Fig.4 Framework diagram of 3D underwater AUV path planning method integrating adaptive potential field method and deep reinforcement learning

3.1. 自适应势场法

人工势场法具有计算量小，模型构建容易，动态避障效果显著等突出优点^[19]. 将人工势场法直接用于AUV的动作选择会导致AUV陷入局部最小值，无法到达目标点的情况；此外当目标点的势场不是整个势场中的最小值时，可能会产生目标点不可达的情况. 本研究提出自适应势场法来优化AUV的动作选择，通过引入距离修正函数解决不可达目标点问题，并根据AUV附近障碍物的数量自适应地采用不同的方法解决局部最小值问题.

3.1.1. 不可达目标点问题的改进方法

决定障碍物斥力势场的因素是AUV与障碍物间的距离，当AUV未进入障碍物的影响范围时，受到的势能值为零. 在AUV进入障碍物的影响范围后，两者的间距越大，AUV受到的斥力越小；反之，间距越小，受到的斥力越大，传统的斥力场势能函数为

(13)$ {U_{{\mathrm{rep}}}} = \left\{ {\begin{array}{*{20}{l}} {\dfrac{1}{2}{k_{{\mathrm{rep}}}}{{\left(\dfrac{1}{{d({\boldsymbol{X}},{{\boldsymbol{X}}_0})}} - \dfrac{1}{{{d_0}}}\right)}^2},}&{0 \leqslant d({\boldsymbol{X}},{{\boldsymbol{X}}_0}) \leqslant {d_0};} \\ {0,}&{d({\boldsymbol{X}},{{\boldsymbol{X}}_0}) \geqslant {d_0}.} \end{array}} \right. $

式中：$ \boldsymbol{X}=(x,y,z) $为AUV当前位置的坐标向量，$ {\boldsymbol{X}}_{0}=(x,y,z) $为障碍坐标向量，$ {k}_{{\mathrm{rep}}} $为斥力势场系数，$ {d}_{0} $为障碍最大影响距离，$ d(\boldsymbol{X},{\boldsymbol{X}}_{0})=\left|\right|\boldsymbol{X}-{\boldsymbol{X}}_{0}\left|\right| $. 目标点处的势场值不是总势场的最小值，这是不可达目标点问题的本质. 为了克服传统APF中目标点不可达的问题，在斥力场势能函数中加入距离修正函数，引力势场保持不变. 距离修正函数平衡斥力和引力的变化，特别是在斥力势场快速增加的情况下，当AUV接近目标点时，添加修正函数确保目标点处于总势场中的最小值. 改进的斥力场势能函数为

(14)$ {U_{{\mathrm{rep}}}} = \left\{ {\begin{array}{*{20}{l}} {{k_{{\mathrm{rep}}}}f(d({\boldsymbol{X}},{{\boldsymbol{X}}_0})){{\left(\dfrac{1}{{d({\boldsymbol{X}},{{\boldsymbol{X}}_0})}} - \dfrac{1}{{{d_0}}}\right)}^2}{d^e}({\boldsymbol{X}},{{\boldsymbol{X}}_g}),}\quad\\\qquad {0 \leqslant d({\boldsymbol{X}},{{\boldsymbol{X}}_0}) \leqslant {d_0};} \\ {0,}\quad\;{d({\boldsymbol{X}},{{\boldsymbol{X}}_0}) \geqslant {d_0}.} \end{array}} \right. $

式中：$ {\boldsymbol{X}}_{g}=(x,y,z) $为目标点坐标向量；e为常数，加入e是为了平衡距离的变化，使分子变化比分母更快；$ d(\boldsymbol{X},{\boldsymbol{X}}_{g})=\left|\right|\boldsymbol{X}-{\boldsymbol{X}}_{g}\left|\right| $，引入连续的、渐进减弱的函数$ f\left(x\right) $：

(15)$ f(d({\boldsymbol{X}},{{\boldsymbol{X}}_0})) = {{\mathrm{exp}}\;{( - a_{\mathrm{S}}{{(d({\boldsymbol{X}},{{\boldsymbol{X}}_0}))}^2})}}. $

式中：a_S为控制函数陡峭程度的参数. 式（15）能够使斥力在安全距离附近的变化更加平滑.

3.1.2. 局部最小值的改进方法

如图5所示，局部最小值的产生可能存在多种情况：AUV、障碍物和目标点共线，AUV在某点处受到的引力和斥力大小相等，方向相反；多个障碍物产生的斥力和目标点产生的引力共线，所受合力为0，这种情况下AUV停滞或在此处徘徊. 为了解决局部最小值问题，假设AUV装配声呐发射装置以确认其前进方向上有无障碍物并能识别障碍物的位置. 当障碍物较少时，引入虚拟子目标点概念；当前进方向障碍物较多时，引入“无障碍前进”规则.

图 5

图 5 障碍物的局部最小值问题

Fig.5 Local minimum problem for obstacles

虚拟子目标点以目标点为圆心，周围6个位置上（上、下、左、右、前、后）的随机一点被认为是虚拟子目标点. 如图6所示，浅色圆圈（小）代表实际目标点，深色圆圈（小）代表虚拟子目标点，深色圆圈（大）代表障碍物. 在局部最小值的情况下，目标点设置为虚拟子目标点，因此原始目标点施加的引力（表示为引力1）被虚拟子目标点（表示为引力2）施加的引力取代. 当AUV所在位置的势场合力不为0时，虚拟子目标点将被删除，并恢复原始目标点，以确保AUV路径的连续性.

图 6

图 6 虚拟目标点选择示意图

Fig.6 Schematic diagram of virtual target point selection

若障碍物较多，并且处于局部最小值位置，采用“无障碍前进”规则，即向没有探测到障碍物的方向前进. 如图7所示，点A为局部最小值位置，虚线为点A的位置探测范围，因此AUV选择向下的动作到达点B，实线为点B的位置探测范围.

图 7

图 7 “无障碍前进”规则的示意图

Fig.7 Schematic diagram of “no barriers to progress” rule

将自适应势场法应用于DQN的动作选择过程中. 通过结合APF与DQN，充分利用势场信息来引导AUV的决策过程，使其在动态环境中不仅能够避开障碍物，还能够有效地探索和利用路径信息，从而提升整体路径规划的效果. 如图8所示，AUV在行驶过程中受到人工势场的影响，合力决定了其下一步的行驶方向. 传统DQN方法在进行动作选择时，一般使用经典ε-贪婪算法在动作空间中随机选择动作，当概率$ n < \varepsilon $时，从动作空间中随机选择动作；当概率为$ n\geqslant \varepsilon $时，选择最大状态动作值函数arg max Q(s,a)对应的动作：

图 8

图 8 人工势场合力

Fig.8 Resultant force of artificial potential field

(16)$ a = \left\{ {\begin{array}{*{20}{l}} {{\mathrm{rac}},}&{n < \varepsilon ;} \\ {\arg \max Q(s,a),}&{n \geqslant \varepsilon .} \end{array}} \right. $

加入人工势场法后，动作选择为

(17)$ a = \left\{ {\begin{array}{*{20}{l}} {{\mathrm{rac}}}\;\;\;{或}\;\;\;{{\mathrm{apf}},} &{n < \varepsilon ;} \\ {\arg \max Q(s,a),}&{n \geqslant \varepsilon .} \end{array}} \right. $

式中：s为状态，rac为随机选择的动作，apf为势场作用下选择的动作，当$ n < \varepsilon $时，通过生成随机数，并根据该随机数落在由人工势场下的动作与随机动作的平分占比划定的范围内来选择相应的动作. 为了使AUV在充分利用现有知识的同时保持一定程度的探索，解决探索利用问题，使用衰减$ \varepsilon $算法进行调整：

(18)$ \varepsilon = \left\{ {\begin{array}{*{20}{l}} {\varepsilon \times {\varepsilon _{{\mathrm{dec}}}},}&{\varepsilon > {\varepsilon _{\min }};} \\ {{\varepsilon _{\min }},}&{\varepsilon = {\varepsilon _{\min }}.} \end{array}} \right. $

式中：$ {\varepsilon }_{{\mathrm{dec}}} $为$ \varepsilon $衰减值，$ {\varepsilon }_{{\mathrm{min}}} $为最小$ \varepsilon $值. 经典的$ \varepsilon $-贪婪算法以固定的$ \varepsilon $概率对环境进行随机搜索，若这个固定值设置较大，将导致AUV在充分了解环境后仍进行大量不必要的随机搜索；若这个值设置较小，则AUV将很难建立对环境的全面了解. 本研究的衰减$ \varepsilon $算法将$ \varepsilon $设置为随模型参数更新而减少的参数. 衰减$ \varepsilon $算法使智能体能够根据搜索调整探索概率，以减少不必要的探索行为.

3.2. 优先经验回放

模型训练时抽样的经验数据质量不均匀将导致学习效率低下的问题，为此在算法中使用优先经验回放机制. 该方法根据每个经验数据的重要性来确定其优先级，能够在采样时更多地选择更重要的经验，从而提高学习效率. TD-error为动作价值估计与实际回报之差，常被用来更新网络，作为估计值的修正，TD-error反映算法对经验真实价值的评估程度. TD-error值较大的样本被赋予更高的优先级，TD-error值较小的样本被赋予较低的优先级. 优先级计算式为

(19)$ {P_i} = |{\delta _i}|+\xi , $

(20)$ P\left( i \right) = \frac{{p_i^\partial }}{{\displaystyle\sum\nolimits_k {p_k^\partial } }}. $

式中：$ {P}_{i} $为第i个样本的优先级；$ {\delta }_{i} $为TD-error值；$ \xi $为大于0的常数；P(i)为第i个样本被选中的概率；∂为从0到1的超参数，影响优先级，当∂=0时为随机抽样；k为经验缓冲区的样本数. 频繁使用具有较高TD-error值的经验会导致偏差，为了避免偏差导致训练过程出现振荡甚至分散的问题，利用重要性抽样方法来适当降低高优先级的权重，使得在训练时候每个样本训练对于梯度下降的影响相同，从而确保结果的收敛性，样本i的采样权重：

(21)$ {w_i} = {\left(\frac{1}{k}.\frac{1}{{P(i)}}\right)^\eta }. $

其中$ \eta $为超参数，$\eta\in (0,1.0) $，作用是提高优先经验回放对收敛结果的影响. $ \eta $越大，低优先级样本的采样权重越大.

3.3. 动态奖励函数

奖励函数也称为即时奖励或增强信号. AUV执行动作后，环境会根据该动作做出反馈信息，用于评估该动作的表现. 奖励函数通常是标量，正值表示奖励，负值表示惩罚. 在AUV路径规划模型的训练和测试过程中，奖励函数的设计决定了神经网络训练的效果和效率. 奖励函数作为AUV行为决策有效性和安全性的评价指标，具有结果导向作用. 在传统的DQN算法中，只有当智能体碰到障碍物或者到达终点时才会有奖励，其他动作没有任何有效的反馈. 为了解决传统奖励函数收敛速度慢、训练周期长的问题，本研究对奖励函数进行优化，提出改进的奖励函数设计方法. 奖励函数rew被分解为2个部分：位置奖励函数（包括目标奖励函数r_dis和避障奖励函数r_obs）、方向奖励函数（包括洋流方向奖励函数r_dir和平滑度奖励函数r_smo）. 目标奖励函数引导AUV快速到达目标点，表示AUV和目标的距离；避障奖励函数使AUV与障碍物保持一定距离；洋流方向奖励函数定义为AUV当前的方向和当前位置洋流方向的夹角；平滑度奖励函数表示AUV在路径规划中转弯的频率.

(22)$ {\mathrm{rew}} = r_{{\mathrm{dis}}}+r_{{\mathrm{obs}}}+r_{{\mathrm{dir}}}+r_{{\mathrm{smo}}}. $

3.3.1. 目标奖励函数

每次动作后，根据AUV当前状态和环境设置动态奖励函数. $ {d}_{t}^{k-1} $为第k−1时刻AUV到目标点的距离，$ {d}_{t}^{k} $为k时刻AUV到目标点的距离，c为常数. 当$ {d}_{t}^{k-1} $>$ {d}_{t}^{k} $时，表示AUV执行当前动作后距离目标点更近，此时$ {r}_{{\mathrm{dis}}} $为正，说明环境给予AUV正的奖励. 正奖励值随着AUV到目标点距离的缩短呈指数变化，加速AUV接近目标点，起势能的作用. 当AUV在k时刻距离目标点更远时，将获得负奖励值.

(23)$ r_{{\mathrm{dis}}} = \frac{{d_{\mathrm{t}}^{k - 1} - d_{\mathrm{t}}^k}}{{|d_{\mathrm{t}}^{k - 1} - d_{\mathrm{t}}^k|}}{c^{|d_{\mathrm{t}}^{k - 1} - d_{\mathrm{t}}^k|}}. $

3.3.2. 避障奖励函数

为了帮助AUV快速脱离危险区域（AUV靠近障碍物，但尚未与障碍物发生碰撞），加大障碍物附近的惩罚力度. 为了避免AUV陷入局部情况，危险区域的惩罚不宜过于密集. 危险区域的惩罚与障碍物位置的惩罚应有一定差距，避障奖励函数为

(24)$ r_{{\mathrm{obs}}} = \left\{ {\begin{array}{*{20}{l}} {{r_1}},&{0 < d({X_{\text{g}}},X) \leqslant {d_{{\mathrm{mid}}}}}; \\ {{r_2}},&{{d_{{\mathrm{mid}}}} < d({X_{\text{g}}},X) \leqslant {d_0}} .\end{array}} \right. $

其中$ {d}_{{\mathrm{mid}}} $，$ {d}_{0} $为定值，用来判定AUV到障碍物的距离；r₁、r₂为奖励值，r₁绝对值大于r₂绝对值，并且，r₁、r₂都为负常数.

3.3.3. 洋流方向奖励函数

考虑洋流方向与AUV行驶方向的夹角，通过余弦相似度，确保AUV在洋流中行驶时以较大概率顺着洋流的方向运动，洋流方向奖励函数为

(25)$ \cos (\theta ) = \frac{{{{ {\boldsymbol{v}} }_{{\mathrm{auv}}}} \cdot {{{\boldsymbol{v}} }_{{\mathrm{oce}}}}}}{{||{{{\boldsymbol{v}} }_{{\mathrm{auv}}}}||\cdot ||{{{\boldsymbol{v}} }_{{\mathrm{oce}}}}||}}, $

(26)$ r_{{\mathrm{dir}}} = \tau \cos (\theta ). $

其中$ \theta $为洋流方向与AUV行驶方向的夹角，$ \tau $为常数.

3.3.4. 平滑度奖励函数

为了减少AUV拐弯次数，提高路径平滑度，每当AUV运动方向发生变化时，给予固定的负奖励. 平滑度奖励函数为

(27)$ r_{{\text{smo}}} = - \gamma . $

其中$ \gamma $为正常量，对路径中的运动方向变化进行惩罚，促进路径的平滑性. IADQN的伪代码如算法1所示.

算法1　　融合自适应势场法和深度强化学习的三维水下AUV路径规划方法

1. 输入：神经网络权重θ、小批量k、执行步数s、步长h、重放周期K和大小N、指数α

2. 初始化重放内存 ℌ = $ \varnothing $, $ \Delta $ = 0, p1=1

3. for s = 1 to T do

4. while s_t !=终点 do

5. 随机生成在(0, 1)之间的一个数prob

6. if prob < ε then

7. $ {A}_{t} $ = 随机动作或apf

8. else

9. $ {A}_{t} $ = $ {{\mathrm{max}}}_{a}Q({s}_{t},a) $

10. end if

11. 观察 $ {s}_{t},{R}_{t},{\gamma }_{t} $

12. 存储 $ ({s}_{t-1},{A}_{t-1},{R}_{t},{\gamma }_{t},{s}_{t}) $ 到 ℌ 并且具有最高的优先级 $ {p}_{t}={{\mathrm{max}}}_{i < t}{p}_{i} $

13. if t $ \equiv $0 mod K then

14. for j= 1 to k do

15. $ j\sim P\left(j\right)={p}_{j}^{\alpha }/{\displaystyle\sum }_{i}{p}_{j}^{\alpha } $

16. 计算重要性采样权重$ {w}_{j}={(N\cdot P(j\left)\right)}^{-\eta }/{{\mathrm{max}}}_{i}{\omega }_{i} $

17. 计算 TD-error $ {\delta }_{j}={R}_{j} $$ +{\gamma }_{j}{{\mathrm{max}}}_{a}Q({s}_{j},a))- Q({s}_{j-1}, {A}_{j-1}) $

18. 更新优先级 $ {p}_{j}\leftarrow \left|{\delta }_{j}\right| $

19. 累计权重变化 $ \Delta \leftarrow \Delta +{\omega }_{j}\cdot{\delta }_{j}\cdot{\nabla }_{\theta }Q({s}_{j-1},{A}_{j-1}) $

20. end for

21. 更新权重 $ \theta \leftarrow \theta +h \cdot\Delta $,reset $ \Delta =0 $

22. 复制到目标网络 $ {Q}_{{\mathrm{target}}}\leftarrow \theta $

23. end if

24. 选择动作 $ {A}_{t}\sim {\pi }_{\theta }\left({s}_{t}\right) $

25. end for

4. 实验及分析

4.1. 评价指标及实验参数

海底数据来自国家海洋数据中心西太平洋海域^[20]，使用Python语言开发，通过Anaconda管理实验环境，使用PyTorch框架构建和训练模型，实现IADQN. 为了客观评估不同路径规划方法在多种环境下的性能，在三维水下、海底局部、动态障碍物环境下，对IADQN、APF、A*、RRT、DQN、PPO等方法的路径平滑度、路径长度、AUV与洋流的最大夹角和AUV的运行时间等性能指标进行评价. 实验部分参数取值如表2所示.

表 2 AUV路径规划方法性能对比实验的参数取值

Tab.2 Parameter value for performance comparison experiments of AUV path planning methods

参数	数值	参数	数值
自由度	6	$ \varepsilon $	1
$ \mu $	0.25	经验回放缓冲区	10⁵
$ \omega $	10	取样数目	2⁶
$ t $	0	v_max/（m·s⁻¹）	3
$ {\varepsilon }_{{\mathrm{dec}}} $	0.999	a_auv/（m·s⁻²）	0.5
$ {\varepsilon }_{{\mathrm{min}}} $	0	—	—

4.2. 路径规划方法性能评价

4.2.1. 三维水下环境

在30 m×30 m×90 m的三维环境下对5种路径规划方法进行对比分析，三维水下环境如图9所示. 如图10所示，IADQN生成的路径平滑度最高，其路径转弯较少，路线更为流畅. 主要原因是IADQN奖励函数中的平滑度奖励机制通过惩罚转弯促使路径更加流畅. 相比之下，DQN方案的路径平滑度较低，原因是该方法侧重于找到可行路径，缺乏对平滑度的优化. A*、RRT和APF生成的路径中存在较多急转弯和不规则曲线，主要原因是这些方法对路径的平滑性关注较少. 如表3所示为不同方法的性能指标对比，其中l为路径长度，S_o为路径平滑度，γ_max为AUV与洋流最大夹角，t_r为运行时间. IADQN在多个关键指标上表现优异. 虽然IADQN的路径略长于DQN，但IADQN保证了AUV与洋流的最大夹角更小，降低了洋流对AUV行进的影响，使AUV能够更加快速地完成任务. 与其他经典方案相比，IADQN在路径长度和时间效率之间表现出更好的协调性. APF由于其自身特点，容易陷入局部最优，导致路径徘徊，生成路径和运行时间均过长；A*在路径长度上接近IADQN，但其运行时间稍长，且在应对洋流时表现不如IADQN；RRT在路径长度上表现良好，但在洋流环境中表现较差. 综上所述，IADQN在复杂三维环境中能够更好地平衡多个指标，提供更优的路径规划方案.

图 9

图 9 三维水下环境

Fig.9 3D underwater environment

图 10

图 10 三维水下环境中不同方法生成的路径对比图

Fig.10 Comparison of paths generated by different methods in 3D underwater environment

表 3 三维水下环境中不同路径规划方法的性能指标对比

Tab.3 Comparison of performance indicators of different path planning methods in 3D underwater environment

方法	l/m	S_o	γ_max/(°)	t_r/s
IADQN	63	17.28	71.12	95.45
APF	15000	647.95	131.47	13 580.69
A*	63	19	80.04	106.56
RRT	71.62	19.11	136.19	112.18
DQN	57	21.99	87.18	158.83

4.2.2. 局部海底环境

数据采自西太平洋海域136.75° E~136.77° E，22.55° N~22.57° N（局部海底环境1）和136.75° E~136.80° E，22.55° N~22.60° N（局部海底环境2）. 如图11所示，2个区域的三维环境包含如山峰侧面、洋流的复杂特征. 如图12所示，6种路径规划方案都可以在2种不同的未知环境中成功生成无碰撞路径. IADQN引入平滑度奖励机制，有效地避免了路径中的急转弯和不规则曲线，平滑度最高. 如表4所示，DQN在路径长度方面表现较好，由于与洋流的最大夹角较大，导致AUV的运行时间稍长. 在传统路径规划方法（APF、A*、RRT）中，APF虽然能够实时生成运动轨迹，但容易陷入局部最小值，导致未能顺利到达终点，并且路径中存在局部振荡和较长的路径长度；RRT生成的路径较长，且与洋流的夹角较大；A*在路径长度上表现良好，但运行时间较长. 相比之下，PPO在洋流环境下和运行时间上不如IADQN，并且需要与环境进行实时交互. 综合来看，IADQN在路径长度、洋流环境适应性和运行时间上表现出明显优势.

图 11

图 11 局部海底环境模拟图

Fig.11 Simulation diagram of local seabed environment

图 12

图 12 局部海底环境中不同方法生成的路径对比图

Fig.12 Comparison of paths generated by different methods in local seabed environment

表 4 局部海底环境中不同路径规划方法的性能指标对比

Tab.4 Comparison of performance indicators of different path planning methods in local seabed environment

方法	局部海底环境1				局部海底环境2
方法	l/m	S_o	γ_max/(°)	t_r/s	l/m	S_o	γ_max/(°)	t_r/s
IADQN	2 171.98	11.00	65.23	616.86	4 462.22	23.56	76.26	1 264.10
APF	2 380.88	29.85	90.00	815.17	26 184.47	782.26	90.00	9 142.90
A*	2 171.98	13.85	66.59	751.13	4 492.01	29.85	70.47	1 466.79
RRT	2 279.33	13.09	90.00	622.65	6 592.56	30.63	143.03	1 786.97
DQN	2 171.98	11.00	75.62	623.27	4 462.22	32.99	93.28	1 378.76
PPO	2 171.98	25.13	90.00	737.79	4 462.22	26.70	84.00	1 392.03

4.2.3. 动态障碍物环境

在环境中添加动态障碍物，深色和浅色方块表示动态障碍物不同时刻的位置，虚线箭头表示动态障碍物轨迹. 在IADQN作用下，AUV可以根据附近环境躲避障碍物，AUV的运行轨迹如图13所示. AUV从起点出发，运行到点A时，检测到附近障碍物较多，前进方向改变，随机选择动作前进. 在快到达目标点时，AUV检测到附近有少量障碍物，并且处于局部最小值点，因此选择虚拟子目标点法进行优化.

图 13

图 13 所提路径规划方法的动态避障

Fig.13 Dynamic obstacle avoidance of proposed path planning method

IADQN和DQN在动态海域环境下生成的路径如图14所示，虚线箭头是动态障碍物运动轨迹. 可以看出，IADQN路径较为平滑，AUV能够顺利避开动态障碍物，路径相对较短. 在接近终点时，IADQN能够很好地调整运动方向，避免与障碍物碰撞，并在洋流的影响下优化最终路径，使AUV快速到达目标.

图 14

图 14 动态环境中2种方法生成的路径对比图

Fig.14 Comparison of paths generated by two methods in dynamic environments

在动态障碍物环境下，IADQN和DQN的收敛情况如图15所示，其中epoch为训练的轮数，S为在每轮中完成任务所需的步数. 由图可知，DQN在训练初期步数多，且波动较大，随着训练的进行，步数逐渐减少，但仍有明显的波动，说明DQN在动态环境中的收敛过程不稳定. 大约在500轮之后，DQN逐渐趋于稳定，但在某些情况下仍有较大的步数波动. 相比之下，IADQN从训练初期开始就表现出较少的步数，且波动幅度显著小于DQN方案，说明IADQN在动态障碍物环境下能够更快速、更稳定地收敛. 该分析结果表明IADQN在处理动态障碍物环境时，能够更有效地找到最优路径，其鲁棒性和适应性均优于传统DQN.

图 15

图 15 动态环境中2种路径规划方法的收敛速度对比图

Fig.15 Comparison of convergence speeds of two path planning methods in dynamic environments

5. 结　语

针对未知水下环境中的AUV路径规划问题，本研究提出融合自适应势场法和深度强化学习的三维水下AUV路径规划方法. 构建真实海洋环境模型，海底地形数据从真实数据中获取，为研究提供了环境基础. 将自适应势场法用于辅助深度强化学习，所提路径规划方法综合考虑当前位置的洋流信息和位置特征，有效避免了碰撞，减少了洋流对AUV运动的影响. 设计动态奖励函数，在洋流影响下进行局部避障路径规划. 仿真实验和对比分析结果表明，与其他路径规划方法相比，所提方法不仅在路径长度、路径平滑度和运行时间上优势明显，而且具有更快的收敛速度和更高的成功率，能够更有效地学习环境的动态特性并做出更快速的决策. 未来的工作将致力于利用元强化学习来解决复杂动态洋流环境下的AUV路径规划问题.

参考文献

原文顺序

文献年度倒序

文中引用次数倒序

被引期刊影响因子

[1]

杨波, 刘烨瑶, 廖佳伟

载人潜水器: 面向深海科考和海洋资源开发利用的“国之重器”

[J]. 中国科学院院刊, 2021, 36 (5): 622- 631

YANG Bo, LIU Yeyao, LIAO Jiawei

Manned submersibles: deep-sea scientific research and exploitation of marine resources

[J]. Bulletin of Chinese Academy of Sciences, 2021, 36 (5): 622- 631

DOI:10.1016/j.oceaneng.2021.109355 [本文引用: 1]

[2]

CHENG C, SHA Q, HE B, et al

Path planning and obstacle avoidance for AUV: a review

[J]. Ocean Engineering, 2021, 235: 109355

[3]

刘晨霞, 朱大奇, 周蓓, 等

海流环境下多AUV多目标生物启发任务分配与路径规划算法

[J]. 控制理论与应用, 2022, 39 (11): 2100- 2107

DOI:10.7641/CTA.2022.11019 [本文引用: 1]

LIU Chenxia, ZHU Daqi, ZHOU Bei, et al

A novel algorithm of multi-AUVs task assignment and path planning based on biologically inspired neural network for ocean current environment

[J]. Control Theory and Applications, 2022, 39 (11): 2100- 2107

DOI:10.7641/CTA.2022.11019 [本文引用: 1]

[4]

MATSUO Y, LECUN Y, SAHANI M, et al

Deep learning, reinforcement learning, and world models

[J]. Neural Networks, 2022, 152: 267- 275

DOI:10.1016/j.neunet.2022.03.037 [本文引用: 1]

[5]

邢丽静, 李敏, 曾祥光, 等. 部分未知环境下基于行为克隆与改进DQN的AUV路径规划 [EB/OL]. (2024–11–06)[2025–06–20]. https://doi.org/10.16182/j.issn1004731x.joss.24-0678.

[6]

潘云伟, 李敏, 曾祥光, 等. 基于人工势场和改进强化学习的AUV避障和航迹规划 [EB/OL]. (2024–10–09)[2025–06–20]. https://link.cnki.net/urlid/11.2176.TJ.20241008.1329.002.

[7]

刘宇庭, 郭世杰, 唐术锋, 等

改进A*与ROA-DWA融合的机器人路径规划

[J]. 浙江大学学报: 工学版, 2024, 58 (2): 360- 369

LIU Yuting, GUO Shijie, TANG Shufeng, et al

Path planning based on fusion of improved A* and ROA-DWA for robot

[J]. Journal of Zhejiang University: Engineering Science, 2024, 58 (2): 360- 369

DOI:10.6041/j.issn.1000-1298.2024.01.039 [本文引用: 1]

[8]

万俊, 孙薇, 葛敏, 等

基于含避障角人工势场法的机器人路径规划

[J]. 农业机械学报, 2024, 55 (1): 409- 418

WAN Jun, SUN Wei, GE Min, et al

Robot path planning based on artificial potential field method with obstacle avoidance angles

[J]. Transactions of the Chinese Society for Agricultural Machinery, 2024, 55 (1): 409- 418

DOI:10.6041/j.issn.1000-1298.2024.01.039 [本文引用: 1]

[9]

ZHANG W, WANG N, WU W

A hybrid path planning algorithm considering AUV dynamic constraints based on improved A* algorithm and APF algorithm

[J]. Ocean Engineering, 2023, 285: 115333

DOI:10.1016/j.oceaneng.2023.115333 [本文引用: 1]

[10]

CHEN G, CHENG D, CHEN W, et al

Path planning for AUVs based on improved APF-AC algorithm

[J]. Computers, Materials and Continua, 2024, 78 (3): 3721- 3741

DOI:10.32604/cmc.2024.047325 [本文引用: 1]

[11]

YU F, SHANG H, ZHU Q, et al

An efficient RRT-based motion planning algorithm for autonomous underwater vehicles under cylindrical sampling constraints

[J]. Autonomous Robots, 2023, 47 (3): 281- 297

DOI:10.1007/s10514-023-10083-y [本文引用: 1]

[12]

QI C, WU C, LEI L, et al. UAV path planning based on the improved PPO algorithm [C]// Proceedings of the Asia Conference on Advanced Robotics, Automation, and Control Engineering. Qingdao: IEEE, 2022: 193–199.

[13]

YANG Y, LI J, PENG L

Multi-robot path planning based on a deep reinforcement learning DQN algorithm

[J]. CAAI Transactions on Intelligence Technology, 2020, 5 (3): 177- 183

DOI:10.1049/trit.2020.0024 [本文引用: 1]

[14]

WEN S, WEN Z, ZHANG D, et al

A multi-robot path-planning algorithm for autonomous navigation using meta-reinforcement learning based on transfer learning

[J]. Applied Soft Computing, 2021, 110: 107605

DOI:10.1016/j.asoc.2021.107605 [本文引用: 1]

[15]

祁璇, 周通, 王村松, 等

基于改进近端策略优化算法的AGV路径规划与任务调度

[J]. 计算机集成制造系统, 2025, 31 (3): 955- 964

QI Xuan, ZHOU Tong, WANG Cunsong, et al

AGV path planning and task scheduling based on improved proximal policy optimization algorithm

[J]. Computer Integrated Manufacturing Systems, 2025, 31 (3): 955- 964

DOI:10.11975/j.issn.1002-6819.202312211 [本文引用: 1]

[16]

YANG J, NI J, XI M, et al

Intelligent path planning of underwater robot based on reinforcement learning

[J]. IEEE Transactions on Automation Science and Engineering, 2023, 20 (3): 1983- 1996

DOI:10.1109/TASE.2022.3190901 [本文引用: 1]

[17]

XING B, WANG X, YANG L, et al

An algorithm of complete coverage path planning for unmanned surface vehicle based on reinforcement learning

[J]. Journal of Marine Science and Engineering, 2023, 11 (3): 645

DOI:10.3390/jmse11030645 [本文引用: 1]

[18]

YANG J, HUO J, XI M, et al

A time-saving path planning scheme for autonomous underwater vehicles with complex underwater conditions

[J]. IEEE Internet of Things Journal, 2023, 10 (2): 1001- 1013

DOI:10.1109/JIOT.2022.3205685 [本文引用: 1]

[19]

孙月平, 方正, 袁必康, 等

基于FIA^*-APF算法的蟹塘投饵船动态路径规划

[J]. 农业工程学报, 2024, 40 (9): 137- 145

SUN Yueping, FANG Zheng, YUAN Bikang, et al

Dynamic path planning for feeding boat in crab pond using FIA^*-APF algorithm

[J]. Transactions of the Chinese Society of Agricultural Engineering, 2024, 40 (9): 137- 145

DOI:10.11975/j.issn.1002-6819.202312211 [本文引用: 1]

[20]

国家海洋信息中心. 国家海洋科学数据中心[EB/OL]. [2024–06–20]. https://mds.nmdis.org.cn.