浙江大学学报(工学版), 2026, 60(5): 964-976 doi: 10.3785/j.issn.1008-973X.2026.05.006

交通工程

航线交换机制下多船避碰的策略学习与博弈决策

汪洋,, 刘红超, 田池, 吴兵, 张笛,

1. 武汉理工大学 水路交通控制全国重点实验室,湖北 武汉 430063

2. 武汉理工大学 智能交通系统研究中心,湖北 武汉 430063

3. 武汉理工大学 交通与物流工程学院,湖北 武汉 430063

4. 中船鹏力(南京)科技集团有限公司,江苏 南京 211106

Multi-ship collision avoidance via route exchange mechanism: strategy learning and game-theoretic decision making

WANG Yang,, LIU Hongchao, TIAN Chi, WU Bing, ZHANG Di,

1. State Key Laboratory of Maritime Technology and Safety, Wuhan University of Technology, Wuhan 430063, China

2. Intelligent Transportation Systems Research Center, Wuhan University of Technology, Wuhan 430063, China

3. School of Transportation and Logistics Engineering, Wuhan University of Technology, Wuhan 430063, China

4. CSSC Pride (Nanjing) Technology Group Co., Ltd, Nanjing 211106, China

通讯作者: 张笛,男,教授. orcid.org/0000-0001-8790-9206. E-mail:zhangdi@whut.edu.cn

收稿日期: 2025-05-29  

基金资助: 国家自然科学基金资助项目(52425210,52372320);国家重点研发计划资助项目(2023YFB4301800,2023YFC3010803).

Received: 2025-05-29  

Fund supported: 国家自然科学基金资助项目(52425210,52372320);国家重点研发计划资助项目(2023YFB4301800,2023YFC3010803).

作者简介 About authors

汪洋(1976—),男,研究员,从事水路交通安全研究.orcid.org/0000-0003-1997-3956.E-mail:wangyang.itsc@whut.edu.cn , E-mail:wangyang.itsc@whut.edu.cn

摘要

针对船舶智能化水平不断提升背景下面临的多船避碰问题,通过航线交换机制,构建基于多智能体强化学习的协同避碰博弈模型,以实现船舶间意向航线信息的实时共享与协商. 由于每艘船舶具备独立的决策与执行能力,在理性与经济性的联合驱动下,将多船避碰决策转化为多智能体协同博弈模型. 各船舶旨在优化航线便捷性、最小化碰撞风险并遵循避让规则,采用多智能体深度确定性策略梯度算法,通过集中训练-分布执行框架优化避碰策略,逐步逼近Pareto最优解. 仿真结果显示,通过合理调整航向得到的优化航线能够有效规避碰撞区域,兼顾安全性与合规性,提升航行效率. 融合多智能体强化学习与博弈论的避碰模型为E-航海条件下智能船舶避碰决策提供了较好可行性的实施方案.

关键词: 水路交通 ; 多船避碰 ; 航线交换 ; 多智能体强化学习 ; 博弈论

Abstract

To address the multi-ship collision avoidance problem in the context of growing onboard intelligence, a cooperative collision avoidance game model based on multi-agent reinforcement learning was developed using the route exchange mechanism. Real-time sharing and negotiation of intended route information among ships were enabled. The multi-ship collision avoidance decision was transformed into a multi-agent cooperative game model, with each ship possessing independent decision-making and execution capabilities and being driven by rationality and economic considerations. The objective is to optimize navigational efficiency, minimize collision risk, and comply with anti-collision rules. The multi-agent deep deterministic policy gradient algorithm was employed within a centralized training with decentralized execution framework to optimize collision avoidance strategies, enabling an approach to the Pareto optimal solution. Simulation results demonstrate that optimized routes obtained through reasonable heading adjustments effectively avoid collision zones, balancing safety, compliance, and navigational efficiency. The model that integrates multi-agent reinforcement learning and game theory provides a feasible solution for intelligent ship collision avoidance decisions under the E-navigation paradigm.

Keywords: waterway transportation ; multi-ship collision avoidance ; route exchange ; multi-agent reinforcement learning ; game theory

PDF (4113KB) 元数据 多维度评价 相关文章 导出 EndNote| Ris| Bibtex  收藏本文

本文引用格式

汪洋, 刘红超, 田池, 吴兵, 张笛. 航线交换机制下多船避碰的策略学习与博弈决策. 浙江大学学报(工学版)[J], 2026, 60(5): 964-976 doi:10.3785/j.issn.1008-973X.2026.05.006

WANG Yang, LIU Hongchao, TIAN Chi, WU Bing, ZHANG Di. Multi-ship collision avoidance via route exchange mechanism: strategy learning and game-theoretic decision making. Journal of Zhejiang University(Engineering Science)[J], 2026, 60(5): 964-976 doi:10.3785/j.issn.1008-973X.2026.05.006

船舶碰撞是威胁海上交通安全最突出的因素之一,往往是火灾、泄漏类型海事事故的直接原因. 2013—2023年以来,全球年均船舶碰撞事故约198起,发生频度在各类海事事故中居第二位[1]. 2009年以来,国际航标协会与国际海事组织联合推出E-航海计划[2],通过传感与通信技术的增强促进船-岸、船-船之间的协同工作,减少人为失误,提升应急响应能力. 航线交换(route exchange, RE)作为E-航海的核心功能之一,通过播发未来航行计划,为多船避碰提供了新思路[3]. 研究表明,80%以上的海事事故源于人为失误[4],尤其在多船会遇场景中,船舶难以准确判断彼此意图,导致碰撞风险加剧. RE机制通过提升航行意图的可知性,降低了误判带来的碰撞风险.

船舶避碰一直是海事研究领域的热点问题. 现有的船舶避碰方法可分为4类:1)几何关系分析,依据船舶相对位置与运动状态评估碰撞风险并制定策略. 吴建军等[5]结合最近会遇距离(distance closest point of approach, DCPA)与最近会遇时间(time closest point of approach, TCPA),提出基于钟形灰云模型的转向方法;Huang等[6]将速度障碍法(velocity obstacle, VO)应用于海上自主水面船舶(maritime autonomous surface ships, MASS),构建符合实际操控需求的避碰模型. 2)优化与启发式算法,利用群智能算法求解动态约束下的多目标问题. Wang等[7]融合人工势场法与船舶领域(ship domain, SD),在遵循《国际海上避碰规则》(international regulations for preventing collisions at sea, COLREGs)的基础上实现多船动态避碰;Ning等[8]基于遗传算法考虑碰撞风险、航行经济性与COLREGs约束,确保避碰决策的合理性. 3)博弈论与意图推断,通过推测船舶决策动机动态优化策略. Wang等[9]提出基于观测-推测-预测-决策(observation-inference-prediction-decision, OIPD)框架的分布式避碰方案,欧阳旭东等[10]建立多船非零和动态博弈模型,崔浩等[11]引入船员驾驶偏好优化策略. 4)数据驱动与人工智能方法,利用历史航行数据与实时信息,通过机器学习生成策略. Zhang等[12]基于COLREGs划分会遇场景,结合深度Q学习生成策略;黄仁贤等[13]采用多智能体框架实现多船协同避碰;Wang等[14]通过去中心化训练增强多船协同决策能力.

现有研究存在以下局限性:1)多依赖于单向观测和推断,未充分考虑船舶间的信息交互与协同,难以适应E-航海、船舶智能化的发展趋势;2)博弈框架多聚焦避碰场景中各个本船视角下的即时决策,缺乏对场景变迁的预见;3)多智能体系统在复杂场景中的交互行为在多船协同避碰中未能有效体现. 本研究提出基于多智能体深度确定性策略梯度(multi-agent deep deterministic policy gradient, MADDPG)算法的多船避碰博弈模型,通过RE机制实现船舶间的信息共享与协同决策. 具体内容包括:1)基于RE构建碰撞风险评估模型,采用三次样条插值生成连续时空航线,以最近时空距离(closest spatio-temporal distance, CSTD)量化碰撞风险;2)融合COLREGs构建基于航行意图的直航/让行关系(stand-on/give-way relationship, SGR)矩阵,明确避让责任;3)设计多船协同博弈模型,确保安全与合规的同时,最小化航线偏移;4)采用集中训练-分布执行(centralized training with decentralized execution, CTDE)框架优化联合策略,依据局部观测输出最优避碰决策.

1. 问题描述与建模

随着船舶智能化水平的提高,多船会遇场景日趋复杂,传统的单船独立决策难以有效化解多船航线在时空上的冲突. 在E-航海框架下,避碰模式正从单船独立决策转向多船协同机制. 2019年,液化天然气船Aseem与油轮Shinyo Ocean发生碰撞事故[15]. 尽管两船通过甚高频协调避让,但因第三艘船舶Silva驶入航道,迫使Shinyo Ocean改变航向,最终与Aseem相撞. 这一案例表明,船舶间缺乏协商机制是多船碰撞的重要致因. 因此,构建RE机制以支持协同决策,将为智能船舶避碰创造更有利条件.

1.1. 基于航线交换的碰撞风险评估

1.1.1. 航线表示与插值

通过RE克服船舶间单向决策与缺乏协同的问题,相关基本记号与方法如下. 设某水域内有$ N $艘船舶,记$ \mathit{\Omega }=\{{\text{ship}}_{\text{1}},{\text{ship}}_{\text{2}}, \cdots ,$ $ {\text{ship}}_{N}\} $,每艘船有若干航线调整方案. 船舶通过播发短程航线计划,实现信息交换与协同避碰. 船舶i的第j条航线包含M个航点,航点信息为

$ \text{route}_{j}^{i}=\{\text{WP}_{j}^{i}(t_{j}^{\lambda })\}_{\lambda =\text{1}}^{M},\;i\in \{\text{1,2,}\cdots \text{,}N\}. $

式中:$ \text{WP}_{j}^{i}(t_{j}^{\lambda })=(x_{j}^{i}(t_{j}^{\lambda }),y_{j}^{i}(t_{j}^{\lambda })),\lambda \in \{\text{1,2,}\cdots \text{,}M\} $为船舶ij条航线上的第$ \lambda $个航点,$ x_{j}^{i}(t_{j}^{\lambda }) $$ y_{j}^{i}(t_{j}^{\lambda }) $为航点的XY坐标;$ t_{j}^{\lambda } $为预计到达航点$ \lambda $的时间. 为了简化符号,将船舶i用于播发与交换的当前航线记为$ {\text{route}}^{i}= \{{\text{WP}}^{i}({t}^{\lambda })\}_{\lambda =\text{1}}^{M} $. 为了生成平滑的时空航线,采用三次样条插值法[16],对船舶播发的航点进行插值,得到船舶ij条航线的连续函数$ F_{j}^{i}(t) $

$ F_{j}^{i}(t)=(\tilde{x}_{j}^{i}(t),\tilde{y}_{j}^{i}(t))\text{,}\;t\in [t_{j}^{\text{1}},t_{j}^{M}]. $

式中:$ \tilde{x}_{j}^{i}(t) $$ \tilde{y}_{j}^{i}(t) $分别为t-X轴航线与t-Y轴航线,所有航点$ M $满足$ \tilde{x}_{j}^{i}(t_{j}^{\lambda })=x_{j}^{i}(t_{j}^{\lambda }),\;\tilde{y}_{j}^{i}(t_{j}^{\lambda })=y_{j}^{i}(t_{j}^{\lambda }) $.图1所示,$ \text{route}_{\text{nai}}^{p} $$ \text{route}_{\text{nai}}^{q} $分别为船舶$ p $$ q $的初始航线,$ \text{route}_{j}^{p} $$ \text{route}_{{j}^{\prime}}^{q} $分别为船舶pq在某次RE中提出的第$ j $条和第$ {j}^{\prime} $条航行计划.

图 1

图 1   航线交换原理

Fig.1   Principle of route exchange


1.1.2. 基于航线交换机制评估碰撞风险

每艘船舶通过三次样条插值将离散航点插值为连续航线函数. 任意2条船航线$ {\text{route}}^{p} $$ {\text{route}}^{q} $关于时间$ t $的航线函数分别为$ {F}^{p}(t) $$ {F}^{q}(t) $,距离函数为

$ \begin{split} D\;({\text{route}}^{p},& {\text{route}}^{q},\;t)= ||{F}^{p}(t)-{F}^{q}(t)||=\\& \sqrt{{({{\tilde{x}}^{p}}(t)-{{\tilde{x}}^{q}}(t))}^{2}+{({{\tilde{y}}^{p}}(t)-{{\tilde{y}}^{q}}(t))}^{2}}.\end{split} $

定义CSTD为两船在预测时间窗口内可能达到的最小距离,作为量化动态碰撞风险的核心指标,如图2所示.

图 2

图 2   船舶间最近时空距离

Fig.2   Closest spatio-temporal distance among ships


$ \text{CSTD}\;({\text{route}}^{p},{\text{route}}^{q})=\underset{t}{\min }D\; ({\text{route}}^{p},{\text{route}}^{q},t). $

安全会遇距离$ {{D}}_{\text{safe}} $作为碰撞风险判断依据. 若任意时刻两船之间的$ \text{CSTD}\;({\text{route}}^{p},{\text{route}}^{q}) \gt {{D}}_{\text{safe}} $,则认为碰撞风险可接受,航线安全;否则,认为不满足安全约束.

1.2. 多船会遇中的避让关系矩阵

COLREGs依据两船相对位置与航向划分避让责任. 在良好能见度的情况下,将会遇局面划分为追越、对遇和交叉共3个类别,并规定各类局面中让行船应采取的避让行动,如图3所示. 在多船会遇场景中,须系统描述每对船舶的责任关系. 为此,引入SGR矩阵量化船舶的避让角色[17],为协同避碰决策提供依据.

图 3

图 3   典型会遇场景的船舶避让行动

Fig.3   Avoidance actions of ships in typical encounter scenarios


图4所示,SGR有两层含义. 在即时意义下,两船的瞬时位置、航向和航速决定了彼此在当前时刻的SGR,可以由TCPA、DCPA以及在最近会遇点的船舶位置和航向定义[18]. 在航线意义下,SGR由两船到达航线空间交汇点的先后顺序定义. 本研究关注RE机制下的协同避碰算法,以航线意义下的SGR为基础. 事实上,航线意义下的SGR由船舶即时SGR积累而成. 如图4(b)所示,2条航线之间的虚线段AB为两船间的CSTD. 此时,船舶q已驶过两船航线的交汇点,而船舶p尚未到达,因此船舶p为让行船,船舶q为直航船. 在多船会遇中,SGR矩阵通过记录每对船舶的避让关系明确责任. 矩阵元素$ {\xi }_{pq} $取值为0、1或−1:当$ {\xi }_{pq}=0 $时,2条航线无避让关系;当$ {\xi }_{pq}= 1 $时,船舶p是相对于船舶q的让行船;当$ {\xi }_{pq}=-1 $时,船舶p是相对于船舶q的直航船. SGR矩阵表示为

图 4

图 4   船舶会遇直航/让行关系的解读

Fig.4   Interpretations of stand-on/give-way relationship in ship encounters


$ \begin{split} & {{\begin{matrix} {} & {} & \begin{matrix} {} & \begin{matrix} {} & \qquad\;\;\; {{\text{船舶}}{\text{1}}} & \text{ }\cdots \\\end{matrix} & \begin{matrix}{{\text{船舶}}{q}} & \cdots & \text{船舶}{N} \\\end{matrix} \\\end{matrix} \\\end{matrix}}} \\ & {\bf{SGR}}=\begin{matrix} {{\text{船舶}}{\text{1}}} \\ \begin{matrix} \vdots \\ {{\text{船舶}}{p}} \\ \vdots \\\end{matrix} \\ {{\text{船舶}}{N}} \\\end{matrix}{{\left[ \begin{matrix} {{\xi }_{\text{11}}} & \text{ }\cdots & \text{ }{{\xi }_{1q}} & \begin{matrix} \text{ }\cdots & {{\xi }_{\text{1}N}} \\\end{matrix} \\ \vdots & \text{ } & \vdots & \begin{matrix} & \text{ }\vdots \\\end{matrix} \\ {{\xi }_{p\text{1}}} & \text{ }\cdots & {{\xi }_{pq}} & \begin{matrix} \text{ }\cdots & {{\xi }_{{pN}}} \\\end{matrix} \\ \begin{matrix} \vdots \\ {{\xi }_{N1}} \\\end{matrix} & \begin{matrix} \text{ } \\ \text{ }\cdots \\\end{matrix} & \begin{matrix} \vdots \\ {{\xi }_{Nq}} \\\end{matrix} & \begin{matrix} \begin{matrix} \text{ } \\ \text{ }\cdots \\\end{matrix} & \begin{matrix} \vdots \\ {{\xi }_{NN}} \\\end{matrix} \\\end{matrix} \\\end{matrix} \right].}} \\ \end{split} $

1.3. 多船避碰博弈模型

为了解决多船避碰问题,构建多阶段重复博弈模型,采用MADDPG算法求解. 船舶通过RE机制播发航行计划,并按离散时隙$ \upsilon $同步更新策略. 在全局态势下,通过持续优化航线逼近Pareto最优解. 经多轮迭代协商,策略组合进行重复博弈优化决策,在最小化碰撞风险与航线偏移的同时满足规则约束,实现整体航行效益最大化.

动作空间生成遵循以下规则. 1)航点固定:船舶i播发的起始航点$ \text{WP}_{0}^{i}(t_{0}^{1}) $与终止航点$ \text{WP}_{0}^{i}(t_{\text{0}}^{M}) $位置固定,以满足复航需求. 2)中间航点调整:遵循COLREGs,航点调整限制于意向航向右侧,离两端航点越远,航点调整范围半径越大,关系式为

$ \rho (d)=\sigma d({D}_{\text{OD}}-d). $

式中:$ \rho $为航点调整半径,$ d $为中间航点到起始航点的平面距离,$ {D}_{\text{OD}} $为起止航点间的距离,$ \sigma $为先验参数,反映船舶接近程度对调整范围的影响. 3)时间更新:假设船舶在开阔水域保持恒速$ {v}_{i} $[19],新航点$ WP_{j}^{i}(t_{j}^{\lambda }) $的预计到达时间依据与上一航点$ WP_{j}^{i}(t_{j}^{\lambda -1}) $的距离计算,确保时序准确. 基于上述约束,每艘船可生成一系列调整航点,构成可行动作空间$ {A}_{i} $,如图5所示. 在博弈框架下,每艘船通过策略协作优化整体收益,即最大化船舶总奖励. 对于船舶i,其航线偏移收益函数$ {u}_{i} $定义为

图 5

图 5   面向航线修改的航点调整范围

Fig.5   Range of waypoint adjustment for route revision


$ {u}_{i}=-\displaystyle\int\nolimits_{{t}_{0}}^{{t}_{1}}||F_{\text{new}}^{i}(t)-F_{\text{nai}}^{i}(t)||{\mathrm{d}}t. $

式中:$ F_{\text{new}}^{i}(t) $为船舶i新航线$ \text{route}_{\text{new}}^{i} $的插值函数,$ F_{\text{nai}}^{{i}}(t) $为船舶i初始航线$ \text{route}_{\text{nai}}^{{i}} $的插值函数. 收益函数中的积分项表示航线在时空上的偏移成本,偏移越大,收益越低,因此以负号形式纳入.

1.4. 不利工况条件下的直观偏差分析
1.4.1. 数据交换报文丢失

考虑到海上通信环境的不稳定性,RE过程中可能出现报文丢失,导致船舶无法获取完整的航点信息,进而影响避碰航线规划的准确性. 进行3种不同曲率条件下的实验,分析偶发报文丢失对碰撞风险评估的影响. 在典型两船交叉会遇场景中,在典型两船交叉会遇场景中计算完整航点信息条件下的CSTD,即$ {\text{CSTD}}_{\text{ideal}} $. 在报文丢失情况下,假设船舶随机丢失$ m(0\leqslant m\leqslant 2) $个航点,其中初始航点由观测得到,不会丢失. 经插值重建后,计算航点信息丢失情况下的CSTD,即$ {\text{CSTD}}_{\text{WP loss}} $,求出不同丢包组合下$ {\text{CSTD}}_{\text{WP loss}} $$ {\text{CSTD}}_{\text{ideal}} $之间的偏差$ \eta $,计算式为

$ \eta =\dfrac{{\text{CSTD}}_{\text{ideal}}-{\text{CSTD}}_{\text{WP loss}}}{{\text{CSTD}}_{\text{ideal}}}\times 100{\text{%}}. $

$ \eta \gt 0 $,表示丢包导致CSTD较预期值偏小,会遇局面评估更悲观;若$ \eta \lt 0 $,则评估结果更乐观. 最终得出29×29偏差组合图($ \displaystyle\sum\nolimits_{m=0}^{2}\text{C}_{M-1}^{m}=29 $,假设每艘船广播8个航点),评估通信不稳定性对碰撞风险的影响. 实验结果如图6所示,不同曲率条件下的偏差存在明显差异,其中序号1~29对应不同的航点位置丢失组合. 当两船航线的平均曲率约为0.05时,绝大多数偏差接近零,最大偏差约7%,说明航点丢失对CSTD影响较小;当平均曲率约0.10时,偏差范围扩大至25%,尤其在转向段或CSTD邻近点发生丢包时偏差最大;当平均曲率约0.15时,出现系统性偏差,最大偏差约为16%. 结果表明,航线曲率大小直接影响系统对航点丢失的敏感性. 关键航段(如转向段或CSTD邻近点)发生航点丢失时,碰撞风险评估不确定性较高. 事实上,对偶然丢包现象引起的CSTD偏差进行严格解析非常困难,上述实验直观反映了通信不良条件下,RE因航点丢失导致的计算偏差. 在航点丢失率达到28.6%的极端情况下,$ \eta $=27%,表明须为CSTD预留安全裕度,以确保避碰稳定性. 值得注意的是,若采用面向连接的协议(如TCP)进行船-船数据传输,其传输层容错机制能够有效减少高丢包率带来的影响.

图 6

图 6   不同航线曲率下航点信息丢失对最近时空距离的影响

Fig.6   Impact of waypoint loss on closest spatio-temporal distance under different route curvature conditions


1.4.2. 船舶工况影响

为了刻画船舶操纵特性,采用经典的一阶Nomoto舵控模型,通过船舶偏航运动微分方程线性化得到

$ {T}_{\text{s}}\dfrac{{\mathrm{d}}\psi (t)}{{\mathrm{d}}t}+\psi (t)={K}_{\text{s}}\delta (t). $

式中:$ {T}_{\text{s}} $为时间常数,反映响应速度;$ {K}_{\text{s}} $为舵效增益;$ \psi (t) $为偏航角速度;$ \delta (t) $为舵角. 当$ \delta (t)={\delta }_{0} $保持恒定时,系统最终趋于$ {K}_{\text{s}}{\delta }_{0} $. 基于文献[20]的研究结论,将Nomoto模型扩展为改进的Norrbin模型,考虑非线性横流、风浪流荷载以及风速与潮流等随机扰动,通过蒙特卡洛仿真,计算不同海况下两船的CSTD,并构建偏差置信包络以评估模型稳定性,实验结果如图7所示. 在静水条件下,三次样条插值轨迹与Nomoto模型预测基本一致,CSTD差异小于0.01 nm,表明在低干扰环境下,三次样条插值可近似替代动力学模型,适用于快速避碰策略验证. 轨迹包络呈现的边界与参考轨迹几乎重合,体现了良好的轨迹保持能力. 引入风浪流扰动后,基于Norrbin模型的蒙特卡洛仿真表明,CSTD均值为0.897 nm,95%置信区间为[0.877,0.917],标准差约0.01 nm. 轨迹包络范围略有扩展,局部出现轻微漂移,尤其在交汇点附近,船舶轨迹分布更为分散,但整体偏移较小,包络对称性良好,未出现明显失稳.

图 7

图 7   风浪流工况对船舶轨迹的影响

Fig.7   Effect of wind, wave, and current on ship trajectory


2. 基于多智能体强化学习的多船避碰决策

2.1. 多船避碰强化学习算法

2.1.1. 船舶的状态空间与动作空间

在多船避碰深度强化学习框架中,采用马尔可夫决策过程将多船避碰问题建模为多智能体随机博弈模型[21]

其关键组成部分如下. 1)状态空间$ \boldsymbol{S} $:多船避碰场景中所有船舶可能状态. 每个状态由船舶位置和预计到达时间构成,表示为

$ {\boldsymbol{S}}_{\upsilon } $为RE系统在时隙$ \upsilon $的状态. 2)动作空间$ {A}_{i} $:船舶i在当前状态下可行的航线调整方案,由特定时刻$ t $的位置序列构成:

所有船舶的联合动作空间为$ \boldsymbol{A}={A}_{1}\times {A}_{2}\times \cdots \times {A}_{N} $,记$ {A}_{i,\upsilon } $为船舶i在时隙$ \upsilon $的动作. 3)状态转移函数$ P $:在当前状态$ {\boldsymbol{S}}_{\upsilon } $下,所有船舶采取联合动作$ {\boldsymbol{A}}_{\upsilon } $后,系统转移到下一状态$ {\boldsymbol{S}}_{\upsilon +1} $的概率. 其他船舶的策略影响联合动作分布,进而影响状态转移:

4)奖励函数$ {R}_{i} $:船舶i在当前状态$ {\boldsymbol{S}}_{\upsilon } $和动作$ {\boldsymbol{A}}_{i,\upsilon } $下获得的即时奖励,表示为

$ {R}_{i,\upsilon }={E}[{R}_{i,\upsilon +1}|{\boldsymbol{S}}_{\upsilon }=\boldsymbol{s},{A}_{i,\upsilon }={a}_{i},\boldsymbol{\pi }]. $

式中:$ \boldsymbol{s}\in \boldsymbol{S} $为所有船舶在时隙$ \upsilon $的联合状态;$ {a}_{i}\in {A}_{i} $为船舶i在时隙$ \upsilon $选择的动作;$ {R}_{i,\upsilon +1} $为船舶i在时隙$ \upsilon +1 $的即时奖励;$ \boldsymbol{\pi }=[{\pi }_{1},{\pi }_{2},\cdots ,{\pi }_{N}] $为联合策略,$ {\pi }_{i}={\pi }_{i}({a}_{i}|{\boldsymbol{s}}),i\in \{1,2,\cdots N\} $为船舶i在状态$ \boldsymbol{s}\in \boldsymbol{S} $下选择动作$ {a}_{i}\in {A}_{i} $的概率分布. 5)折扣因子$ \gamma $用于平衡即时奖励与长期收益. 在多智能体系统中,船舶通过学习联合策略$ \boldsymbol{\pi } $优化避碰航线. 状态值函数和状态-动作值函数的Bellman方程分别为

$ {V}_{i}(\boldsymbol{s})={{E}}_{i}[{R}_{i,\upsilon +1}+\gamma {V}_{i}({\boldsymbol{S}}_{\upsilon +1})|{\boldsymbol{S}}_{\upsilon }=\boldsymbol{s}], $

$ {Q}_{i}(\boldsymbol{s},\boldsymbol{a})={{E}}_{i}[{R}_{i,\upsilon +1}+\gamma {Q}_{i}({\boldsymbol{S}}_{\upsilon +1},{\boldsymbol{A}}_{\upsilon +1})|{\boldsymbol{S}}_{\upsilon }=\boldsymbol{s},{\boldsymbol{A}}_{\upsilon }=\boldsymbol{a}]. $

式中:$ {V}_{i}(\boldsymbol{s}) $为在状态$ {\boldsymbol{S}}_{\upsilon }=\boldsymbol{s} $下船舶i期望获得的长期累积奖励,$ {Q}_{i}(\boldsymbol{s},\boldsymbol{a}) $为考虑了当前策略带来的即时奖励和未来在状态$ {\boldsymbol{S}}_{\upsilon +1} $下采取下一个动作$ {\boldsymbol{A}}_{\upsilon +1} $时的长期累积奖励. 在协同型多智能体系统中,多智能体强化学习(multi-agent reinforcement learning, MARL)的目标是找到使全局$ {Q} $值最大化的策略组合,更新公式为

$ \begin{split} & {Q}_{\upsilon +1}({\boldsymbol{S}}_{\upsilon },{\boldsymbol{A}}_{\upsilon })={Q}_{\upsilon }({\boldsymbol{S}}_{\upsilon },{\boldsymbol{A}}_{\upsilon })+\alpha [{\boldsymbol{R}}_{\upsilon +1}+\\& \qquad \gamma \underset{{\boldsymbol{A}}_{\upsilon +1}}{\max }{Q}_{\upsilon +1}({\boldsymbol{S}}_{\upsilon +1},{\boldsymbol{A}}_{\upsilon +1})-{Q}_{\upsilon }({\boldsymbol{S}}_{\upsilon },{\boldsymbol{A}}_{\upsilon })].\end{split} $

式中:${Q}_{\upsilon } $为在时隙$\upsilon $下的状态-动作值函数的值,$ {Q}_{\upsilon +1}({\boldsymbol{S}}_{\upsilon },{\boldsymbol{A}}_{\upsilon }) $为通过实际观察到的即时奖励和在下一状态采取最优行动的未来$ Q $值来更新当前$ Q $值,$ \alpha $为学习率.

2.1.2. 多船避碰的奖励函数

奖励函数$ {R}_{i} $由3个部分组成:安全性奖励$ {R}_{\text{safe}} $、合规性奖励$ {R}_{\text{SGR}} $和航线偏移奖励$ {R}_{\text{dev}} $.

$ {R}_{i}=\begin{cases} {w}_{1}\cdot {R}_{\text{safe}}+{w}_{2}\cdot {R}_{\text{SGR}}+{w}_{3}\cdot {R}_{\text{dev}},\\\qquad \text{CSTD}\;({\text{route}}^{p},{\text{route}}^{q}) \gt {{D}}_{\text{safe}};\\{R}_{\text{col}},\\\qquad \text{CSTD}\;({\text{route}}^{p},{\text{route}}^{q})\leqslant {{D}}_{\text{safe}}.\end{cases} $

$ {R}_{\text{safe}} $用于鼓励船舶与他船保持安全距离;$ {R}_{\text{SGR}} $用于促进船舶采取符合避碰责任的航线调整方案;$ {R}_{\text{dev}}=-0.05{u}_{i} $用于减少航线偏移,降低额外航行成本. 在确保安全且合规的同时,偏移奖励激励船舶尽可能接近意向航线. $ {w}_{1}、{w}_{2}、{w}_{3} $为权重参数,满足$ {w}_{1}+{w}_{2}+{w}_{3}=1 $. 当船舶间$ \text{CSTD}\leqslant {{D}}_{\text{safe}} $时,施加负奖励$ {R}_{\text{col}} $以惩罚靠近危险区的行为,促使船舶及时调整航向恢复安全.

2.1.3. 多船避碰博弈的Pareto最优解表征

船舶i的状态值函数$ {V}_{{{\pi }_{i}},{{\pi }_{-i}}}(\boldsymbol{s}) $表示在状态$ \boldsymbol{s} $下,依据自身策略$ {\pi }_{i} $和其他船舶的联合策略$ {\pi }_{-i} $所获得的期望累积回报:

$ {V}_{{{\pi }_{i}},{{\pi }_{-i}}}(\boldsymbol{s})={{E}}_{i}[{R}_{i,\upsilon +1}+\gamma {V}_{{{\pi }_{i}},{{\pi }_{-i}}}({\boldsymbol{S}}_{\upsilon +1})|{\boldsymbol{S}}_{\upsilon }=\boldsymbol{s},{\pi }_{i}]. $

式中:$ {R}_{i,\upsilon +1} $为船舶i在时隙$ \upsilon +1 $获得的即时奖励;$ {{E}}_{i} $表示在当前联合状态$ \boldsymbol{s}\in \boldsymbol{S} $下,基于策略$ {\pi }_{i} $获得的期望累积回报,其概率分布依赖船舶的策略分布. 船舶i依据策略$ {\pi }_{i} $选择动作$ {a}_{i} $的概率分布为$ {\pi }_{i}({a}_{i}|\boldsymbol{s}) $,其他船舶的联合策略$ {\pi }_{-i} $共同形成联合动作概率分布$ {\pi }_{-i}({a}_{-i}|\boldsymbol{s}) $. 在多船避碰博弈中,Pareto最优解是指没有其他策略组合能够在不降低任何参与者收益的情况下,使得至少一个参与者的收益增加,表达式为

$ {V}_{{\pi _{i}^{*}},{\pi _{-i}^{*}}}(\boldsymbol{s})\geqslant {V}_{{{\pi }_{i}},{{\pi }_{-i}}}(\boldsymbol{s}),\; \boldsymbol{s}\in \boldsymbol{S}. $

式中:$ \pi _{i}^{*}、\pi _{-i}^{*} $分别为船舶i和其他船舶在Pareto最优时的策略组合.

2.2. 所提多船避碰算法框架

MADDPG算法基于MARL的CTDE框架,通过全局协同训练与局部自主决策,解决多船动态交互中的非稳定性与协同问题,算法框架如图8所示. MADDPG算法通过扩展深度确定性策略梯度算法,构建MARL联合策略优化范式. 船舶i的策略参数为高维向量$ {\boldsymbol{\theta }}_{i} $,其形状由策略网络结构决定. 策略函数$ {\pi }_{i}({\boldsymbol{\theta }}_{i})\colon $$ \boldsymbol{S}\times {A}_{i}\rightarrow [0,1] $将状态-动作值函数映射为确定性动作选择的概率分布. 联合策略为$ \boldsymbol{\pi }=[{\pi }_{1}({\boldsymbol{\theta }}_{1}),{\pi }_{2}({\boldsymbol{\theta }}_{2}),\cdots , $$ {\pi }_{N}({\boldsymbol{\theta }}_{N})] $,其中$ {\pi }_{i}({\boldsymbol{\theta }}_{i})= \pi ({a}_{i}|{\boldsymbol{s}},{\boldsymbol{\theta }}_{i}), i\in \{1,2, $ $ \cdots ,N\} $为船舶i的确定性策略函数. 借助CTDE框架,学习最优联合策略$ {\boldsymbol{\pi }}^{*}= [\pi _{1}^{*}({\boldsymbol{\theta }}_{1}),\pi _{2}^{*}({\boldsymbol{\theta }}_{2}), \cdots , $$ \pi _{N}^{\text{*}}({\boldsymbol{\theta }}_{N})] $,缓解MARL环境的非平稳性及经验回放失效问题.

图 8

图 8   多智能体深度确定性策略梯度算法框架

Fig.8   Framework of multi-agent deep deterministic policy gradient algorithm


MADDPG算法能有效应对环境不稳定性的原因:若所有智能体策略已知,即使个别策略变化,环境的稳定性不受影响. 多智能体系统动力学模型为

$ \begin{split} & P\;(\boldsymbol{s}'|\boldsymbol{s},{a}_{1},\cdots ,{a}_{N},{\pi }_{1},\cdots ,{\pi }_{N})= P\;(\boldsymbol{s}'|\boldsymbol{s},{a}_{1},\cdots ,{a}_{N})=\\&\qquad P\;(\boldsymbol{s}'|\boldsymbol{s},{a}_{1},\cdots ,{a}_{N},\pi _{1}^{\prime},\cdots ,\pi _{N}^{\prime}).\\[-1pt]\end{split} $

$ {\pi }_{i}\neq \pi _{i}^{\prime} $时,式(17)仍然成立,环境仍然稳定. 经验池$ D $设计为$ ({\boldsymbol{S}}_{\upsilon },{\boldsymbol{A}}_{\upsilon },{\boldsymbol{R}}_{\upsilon },{\boldsymbol{S}}_{\upsilon +1}) $,其中,$ {\boldsymbol{S}}_{\upsilon }=[o_{\upsilon }^{1},\cdots , $ $ o_{\upsilon }^{N}] $为时隙$ \upsilon $所有船舶的观测组合,即时隙$ \upsilon $所有船舶的航线调整状态集合,$ {o}^{i}={\mathrm{rout}}{{\mathrm{e}}}^{i},i\in \{1,2, $ $ \cdots ,N\} $$ {\boldsymbol{A}}_{\upsilon }=[{a}_{1,\upsilon },\cdots ,{a}_{N,\upsilon }] $为所有船舶的动作组合;$ {\boldsymbol{R}}_{\upsilon }= [{R}_{1,\upsilon },\cdots ,{R}_{N,\upsilon }] $为所有船舶的奖励组合. 训练时,Critic网络以所有船舶的状态和动作为输入,评估当前联合动作价值,损失函数为

$ L=\dfrac{1}{K}\displaystyle\sum\limits_{k=1}^{K}{({{y}_{\upsilon }}-Q({{\boldsymbol{S}}_{\upsilon }},{{a}_{1,\upsilon }},\cdots ,{{a}_{N,\upsilon }};{{\boldsymbol{\theta }}^{{Q}}}))}^{2}. $

式中:$ {y}_{\upsilon }={\boldsymbol{R}}_{\upsilon }+\gamma Q'({\boldsymbol{S}}_{\upsilon +1},{a}_{1,\upsilon +1},\cdots ,{a}_{\text{N},\upsilon +1};{\boldsymbol{\theta }}^{Q'}) $为目标值,$ {\boldsymbol{\theta }}^{Q}和{\boldsymbol{\theta }}^{Q'} $分别为Critic网络与目标Critic网络参数,$ K $为样本数. Critic网络的目标是最小化损失函数$ L $,通过梯度下降更新Critic参数:

$ {\boldsymbol{\theta }}^{Q}\colon ={\boldsymbol{\theta }}^{Q}+\alpha {\nabla }_{{{\boldsymbol{\theta }}^{Q}}}L. $

Actor网络基于局部观测进行决策,目标函数$ J({\boldsymbol{\theta }}^{\boldsymbol{\mu }}) $为给定策略下获得的期望累积奖励:

$ J({\boldsymbol{\theta }}^{\mu })=E\left[\displaystyle\sum\limits_{\upsilon =0}^{\mathrm{\infty }}{\gamma }^{\upsilon }{\boldsymbol{R}}_{\upsilon }\right]. $

式中:$ {\boldsymbol{\theta }}^{\mu } $为Actor网络的网络参数. 通过梯度上升更新参数$ {\boldsymbol{\theta }}^{\mu } $,以最大化目标函数:

$ {\nabla }_{{{\boldsymbol{\theta }}^{\mu }}}J({\boldsymbol{\theta }}^{\mu })=\dfrac{1}{K}\displaystyle\sum\limits_{\upsilon =1}^{K}{\nabla }_{{{\boldsymbol{\theta }}^{\mu }}}{\boldsymbol{\pi }}^{\mu }({\boldsymbol{S}}_{\upsilon },{\boldsymbol{\theta }}^{\mu }){\nabla }_{a}{Q}^{\mu }({\boldsymbol{S}}_{\upsilon },{\boldsymbol{A }}_{\upsilon };{\boldsymbol{\theta }}^{Q}), $

$ {\boldsymbol{\theta }}^{\mu }\colon ={\boldsymbol{\theta }}^{\mu }+\alpha {\nabla }_{{{\boldsymbol{\theta }}^{\mu }}}J({\boldsymbol{\theta }}^{\mu }). $

通过软更新对目标网络参数进行更新:

$\left.\begin{array}{l}\boldsymbol{\theta}^{Q^{\prime}} \leftarrow \tau \boldsymbol{\theta}^Q+(1-\tau) \boldsymbol{\theta}^{Q^{\prime}}, \\{\boldsymbol{\theta}}^{\mu^{\prime}} \leftarrow \tau \boldsymbol{\theta}^\mu+(1-\tau) \boldsymbol{\theta}^{\mu^{\prime}} .\end{array}\right\}$

式中:$ \tau $为软更新系数.

3. 仿真实验与分析

3.1. 实验环境与训练参数

船舶避碰决策仿真实验基于PyCharm开发,采用PyTorch框架与OpenAI Gym平台,运行硬件环境为i9-12900KS CPU、RTX4090 GPU.

3.1.1. 船舶避碰决策参数设置

为了保障多船避碰决策的有效性,须明确SD、安全会遇距离及航点调整范围等参数. 采用四元SD模型[22],通过前、后、左、右4个方向的半径综合反映船舶尺寸、航速与操纵特性:

$\left.\begin{array}{l} {R}_{\text{fore}}=\left(1+1.34\sqrt{k_{\text{AD}}^{2}+{({{k}_{\text{DT}}}/2)}^{2}}\right){L}_{\text{s}},\\{R}_{\text{aft}}=\left(1+0.67\sqrt{k_{\text{AD}}^{2}+{({{k}_{\text{DT}}}/2)}^{2}}\right){L}_{\text{s}},\\{R}_{\text{starb}}=(0.2+{k}_{\text{DT}}){L}_{\text{s}},\\{R}_{\text{port}}=(0.2+0.75{k}_{\text{DT}}){L}_{\text{s}}.\end{array}\right\} $

式中:$ {L}_{\text{s}} $为船长,$ v $为航速,

$ {k}_{\text{AD}}={10}^{0.3591\mathrm{\lg }v+0.0952},\;{k}_{\text{DT}}={10}^{0.5441\mathrm{\lg }v-0.0795}. $

文献[22]以船长175 m、航速15节进行模拟,得到$ {R}_{\text{fore}}= 0.571\;\text{n mile},{R}_{\text{aft}}=0.333\;\text{n mile},{R}_{\text{starb}}= $0.362 n mile,$ {R}_{\text{port}}=0.276\;\text{n mile} $. 综合考虑通信延迟与环境干扰的不确定性,将安全会遇距离设为$ {{D}}_{\text{safe}}= 0.8\;\text{n mile} $. 船舶通过AIS持续广播航线片段,实时发布8个航点[23],航点间距设为1.5 n mile. 结合安全通过距离与广播路径总长度,构建航点调整半径函数. 设定调整半径最大值为0.8 n mile,起点、中点、终点分别满足约束:$ (0,0),(5.25,0.8),(10.5,0) $,求得式(6)中$ \sigma =0.029,{D}_{\text{OD}}=10.5 $.

3.1.2. 奖励函数权重

为了确定奖励函数权重,在两船交叉会遇场景中进行敏感性分析. 基于CTDE框架,采用MADDPG算法训练不同权重组合的避碰策略. 固定其他参数,以步长0.1构建21组权重组合,并统计各组合的CSTD均值与平均航线偏移量$\overline{u} $,如图9(a)所示. 由于指标间存在权衡,进一步通过Pareto前沿分析每回合奖励值,识别出平衡安全性、合规性与经济性的最优权重组合,如图9(b)所示. 结果表明,权重组合$ ({w}_{1},{w}_{2},{w}_{3})=(0.5,0.3,0.2) $在CSTD上满足安全距离要求,且航线偏移最小,经济性最高. 其他组合往往偏重某一指标而牺牲另一项,难以兼顾安全与经济性. 因此,结合当前“避碰优先、兼顾合规与效率”的评价导向[24],将奖励权重设定为(0.5,0.3,0.2). 此设定在强化安全约束的同时,兼顾效率与合规性.

图 9

图 9   奖励权重组合对避碰决策关键参数的影响

Fig.9   Effect of reward weight combination on key parameters for collision avoidance decision-making


3.1.3. 所提多船避碰算法参数设置

MADDPG算法的训练超参数如表1所示,Actor与Critic网络结构如图10所示.

表 1   多智能体深度确定性策略梯度算法参数

Tab.1  Parameter of multi-agent deep deterministic policy gradient algorithm

参数数值参数数值
训练最大回合数104经验池大小$ D $106
最大时间步长Step500网络学习率$ \alpha $0.0005
采样样本数$ K $256奖励折扣系数$ \gamma $0.98
软更新系数$ \tau $0.0005

新窗口打开| 下载CSV


图 10

图 10   多智能体深度确定性策略梯度算法网络设计

Fig.10   Network design of multi-agent deep deterministic policy gradient algorithm


3.2. 实验结果与分析

为了评估MADDPG算法的多船避碰决策性能,在OpenAI Gym中搭建四船会遇仿真场景,通过奖励值与航线偏移量评估算法有效性与稳定性. 实验假设会遇场景位于开阔水域,所有船舶均配备AIS,可实时共享动态与航线信息.

3.2.1. 四船会遇初始场景设置

四船会遇初始环境如表2所示,四船的状态包括初始位置、航向、航速及意向航线信息,初始间距满足安全距离,无直接碰撞风险. 各船均保持恒定航速(船1:13.1节,船2:12.3节,船3:14.9节,船4:13.7节). 采用三次样条插值将离散航点插值为连续航线,计算船舶间的CSTD与SGR矩阵. 初始航线的CSTD与SGR矩阵如图11(a)所示,船1与船2、船1与船3、船2与船4间的CSTD均低于安全阈值,存在碰撞风险.

表 2   四船航点信息

Tab.2  Waypoint information for four ships

船1船2船3船4
$ \text{route}_{0}^{1} $时间位置$ \text{route}_{0}^{2} $时间位置$ \text{route}_{0}^{3} $时间位置$ \text{route}_{0}^{4} $时间位置
$ \text{WP}_{0}^{1}(t_{0}^{1}) $13:30:00(7.40,3.62)$ \text{WP}_{0}^{2}(t_{0}^{1}) $13:30:00(1.56,11.81)$ \text{WP}_{0}^{3}(t_{0}^{1}) $13:30:00(11.73,10.87)$ \text{WP}_{0}^{4}(t_{0}^{1}) $13:30:00(4.49,14.25)
$ \text{WP}_{0}^{1}(t_{0}^{2}) $13:36:52(7.40,5.12)$ \text{WP}_{0}^{2}(t_{0}^{2}) $13:37:19(2.93,11.21)$ \text{WP}_{0}^{3}(t_{0}^{2}) $13:36:03(10.57,9.92)$ \text{WP}_{0}^{4}(t_{0}^{2}) $13:36:34(4.79,12.78)
$ \text{WP}_{0}^{1}(t_{0}^{3}) $13:43:44(7.40,6.62)$ \text{WP}_{0}^{2}(t_{0}^{3}) $13:44:38(4.31,10.61)$ \text{WP}_{0}^{3}(t_{0}^{3}) $13:42:05(9.40,8.97)$ \text{WP}_{0}^{4}(t_{0}^{3}) $13:43:08(5.08,11.31)
$ \text{WP}_{0}^{1}(t_{0}^{4}) $13:50:37(7.40,8.12)$ \text{WP}_{0}^{2}(t_{0}^{4}) $13:51:57(5.68,10.01)$ \text{WP}_{0}^{3}(t_{0}^{4}) $13:48:07(8.24,8.03)$ \text{WP}_{0}^{4}(t_{0}^{4}) $13:49:43(5.38,9.84)
$ \text{WP}_{0}^{1}(t_{0}^{5}) $13:57:29(7.40,9.62)$ \text{WP}_{0}^{2}(t_{0}^{5}) $13:59:16(7.05,9.41)$ \text{WP}_{0}^{3}(t_{0}^{5}) $13:54:10(7.07,7.08)$ \text{WP}_{0}^{4}(t_{0}^{5}) $13:56:17(5.68,8.37)
$ \text{WP}_{0}^{1}(t_{0}^{6}) $14:04:21(7.40,11.12)$ \text{WP}_{0}^{2}(t_{0}^{6}) $14:06:35(8.43,8.81)$ \text{WP}_{0}^{3}(t_{0}^{6}) $14:00:12(5.91,6.14)$ \text{WP}_{0}^{4}(t_{0}^{6}) $14:02:51(5.98,6.90)
$ \text{WP}_{0}^{1}(t_{0}^{7}) $14:11:13(7.40,12.62)$ \text{WP}_{0}^{2}(t_{0}^{7}) $14:13:54(9.80,8.21)$ \text{WP}_{0}^{3}(t_{0}^{7}) $14:06:15(4.74,5.19)$ \text{WP}_{0}^{4}(t_{0}^{7}) $14:09:25(6.28,5.43)
$ \text{WP}_{0}^{1}(t_{0}^{8}) $14:18:05(7.40,14.12)$ \text{WP}_{0}^{2}(t_{0}^{8}) $14:21:13(11.18,7.60)$ \text{WP}_{0}^{3}(t_{0}^{8}) $14:12:17(3.58,4.25)$ \text{WP}_{0}^{4}(t_{0}^{8}) $14:15:58(6.57,3.96)

新窗口打开| 下载CSV


图 11

图 11   多智能体深度确定性策略梯度算法下不同时间步长的航线规划方案

Fig.11   Routing schemes at different time steps under multi-agent deep deterministic policy gradient algorithm


3.2.2. 避碰效果与航线优化效果分析

为了评估算法在船舶航线规划中的性能,对Pareto最优解下的航线调整与船舶间动态距离变化进行分析. 经MADDPG算法迭代优化后的航线及船舶间距离的时变关系如图11图12所示. 优化航线逐步趋于安全并兼顾经济性,同时符合SGR矩阵所规定的避让责任. 优化后的航线增大了船舶间的CSTD,有效规避碰撞风险,并通过协同调整减少了不必要的绕行,降低了避碰成本. 此外,四船间的动态距离始终高于安全阈值,表明船舶能在航行中持续保障安全.

图 12

图 12   船舶两两间距随时间的变化

Fig.12   Variation of distance between ship pairs over time


3.2.3. 所提多船避碰算法训练效果分析

通过观察奖励值的收敛趋势与航线偏移量的变化,分析MADDPG算法在多船协同避碰中的有效性与稳定性. 训练过程中总奖励Ra与平均航线偏移量$\bar{u} $随回合数NE的变化情况如图13所示,$\bar{u} $为所有船舶在各时隙偏移量之和的平均值. 训练初期,由于策略尚未优化,总奖励增长缓慢且平均航线偏移量较大;随着训练进行,船舶逐步掌握多船交互策略,总奖励持续上升,航线偏移量逐步减少,表明算法在多船避碰中具有良好的学习能力与有效性. 训练后期,因权重较低,平均航线偏移量未完全收敛并存在波动;与此同时,总奖励已趋于平稳,表明模型基本收敛,且整体表现稳定.

图 13

图 13   总奖励与平均航线偏移随训练回合的变化

Fig.13   Variation of total reward and average route deviation with training episodes


3.3. 算法性能评估
3.3.1. 观测-推测-预测-决策算法对比分析

基于文献[9]的场景1,在相同仿真条件下对比MADDPG与OIPD算法的避碰性能. 初始场景为4艘存在碰撞风险的船舶,会遇态势及插值所得CSTD如图14所示. 通过MADDPG算法求解Pareto最优航线,结果如图15所示. 优化后的航线使船舶间CSTD始终高于安全阈值;各船在距交汇点2~3 n mile处开始实施避碰,最大横向偏移不超过0.8 n mile;符合COLREGs对避碰较早觉察与干预的要求,也控制了成本.

图 14

图 14   多船会遇的初始场景

Fig.14   Initial scenario of multi-ship encounter


图 15

图 15   多智能体深度确定性策略梯度算法求解的Pareto最优航线

Fig.15   Pareto-optimal routes solved by multi-agent deep deterministic policy gradient algorithm


对比2种算法在额外航行距离、船舶对最近距离以及避碰响应时间的不同,结果如图16所示. 为了检验差异显著性,对额外航行距离进行配对t检验. 定义OIPD与MADDPG算法的观测向量分别为$ {{\Delta }}{\boldsymbol{d}}_{\text{O}}=[1.80,1.50,2.13,2.17] $$ {{\Delta }}{\boldsymbol{d}}_{\text{M}}=[0.81, $ $ 0.85,0.20,0.63] $,计算差值向量$ {{\Delta }}\boldsymbol{d}={{\Delta }}{\boldsymbol{d}}_{\text{O}}-\boldsymbol{\mathit{\Delta }}{\boldsymbol{d}}_{\text{M}} $. 经Shapiro-Wilk检验,差值近似服从正态分布. 检验统计量与自由度分别为

图 16

图 16   不同避碰算法的性能对比

Fig.16   Performance comparison of different collision avoidance algorithms


$ T=\dfrac{\overline{\Delta d}}{{s}_{\Delta d}/\sqrt{n}},\;{\mathrm{df}}=n-1. $

式中:$ \overline{\Delta d} $为差值均值,$ {s}_{\Delta d} $为差值标准差,$ n=4 $. 计算得$ T(\text{df}=3)=4.49 $$ {p}_{T}=0.020\;6 \lt 0.05 $,均值差$ \overline{\Delta d} $的95%置信区间为$ [0.37,2.18] $. 这表明MADDPG算法在减少额外航距方面具有显著优势. 此外,危险会遇时刻从OIPD下的1 484和1 603 s提前至1 029和977 s,说明MADDPG算法能更早启动避碰. 综上,MADDPG算法在保障安全的同时显著提升了航行效率.

3.3.2. 速度障碍算法对比分析

在3.2.1的四船会遇场景下,对比MADDPG算法与文献[6]的VO算法避碰性能. VO算法以速度空间为核心,通过构建可能导致碰撞的速度集合,为本船避碰提供决策依据. 如图17所示为VO算法原理图,设目标船以速度$ {{v}}_{\text{T}} $航行,VO算法在速度空间中构成锥形危险区,若本船当前速度$ {{v}}_{\text{O}} $落在此区域,则未来存在碰撞风险;反之,认为是安全速度.

图 17

图 17   速度障碍算法原理图

Fig.17   Principle of velocity obstacle algorithm


MADDPG算法(M算法)与VO算法(V算法)在避碰决策上生成航线的对比如图18所示. VO算法在静态场景下策略过于保守,致使航行成本较高. VO算法虽能应对静态条件,但在他船协同调整航线后,仍存在碰撞风险. 相比之下,MADDPG算法通过模拟多船动态交互,能同时保障安全、优化路径并减少成本.

图 18

图 18   不同避碰算法生成的航线对比

Fig.18   Comparison of routes generated by different collision avoidance algorithms


4. 结 语

本研究围绕RE机制下的多船避碰问题,构建并验证基于MADDPG算法的协同决策框架. 将多船避碰决策建模为多阶段重复博弈过程,借助RE机制共享航行计划,并结合三次样条插值构建连续航线函数,通过CSTD与SGR矩阵量化碰撞风险与避让责任. 在此基础上,构建兼顾安全、合规与经济的多目标奖励函数,采用CTDE架构训练Actor-Critic网络,驱动策略收敛至Pareto最优. 四船会遇场景的仿真结果表明,所提算法在确保CSTD高于安全阈值的同时,相比典型算法能够减少额外航程,并在当事船舶互知彼此避碰决策的过程中从容实现避碰. 尽管所提算法在原理上可行,但在实施过程中仍须考虑如下因素:1)航线交换需要周密的船间通信协议支持,需要在各个船舶之间达成共识;2)航线交换的尺度须根据当前的船舶交通流密度等交通态势特征进行优化,即在多大的时间和空间范围进行航线交换;3)需要有激励机制遏制船舶滥用航线交换,如船舶在航线设计上发生“出尔反尔”的现象. 这些问题将在后续研究中逐步涉及.

参考文献

中国船东互保协会. 2023船舶安全风险报告[EB/OL]. (2024−01−23)[2025−05−11]. https://www.chinapandi.com/index.php/cn/?option=com_attachments&task=download&id=590.

[本文引用: 1]

International Maritime Organization. Strategy for the development and implementation of e-navigation [EB/OL]. (2011−07−25)[2025−05−11]. https://wwwcdn.imo.org/localresources/en/OurWork/Safety/Documents/enavigation/MSC%2085%20-%20annex%2020%20-%20Strategy%20for%20the%20development%20and%20implementation%20of%20e-nav.pdf.

[本文引用: 1]

International Maritime Organization. E-navigation strategy implementation plan [EB/OL]. (2018−05−28)[2025−05−11]. https://wwwcdn.imo.org/localresources/en/OurWork/Safety/Documents/enavigation/MSC.1-Circ.1595%20-%20E-Navigation%20Strategy%20Implementation%20Plan%20-%20Update%201%20(Secretariat)%20(2).pdf.

[本文引用: 1]

贺益雄, 代永刚, 赵兴亚, 等

河口深槽可航宽度变化水域航行决策方法

[J]. 上海交通大学学报, 2025, 59 (4): 489- 502

DOI:10.16183/j.cnki.jsjtu.2023.356      [本文引用: 1]

HE Yixiong, DAI Yonggang, ZHAO Xingya, et al

Navigation decision method in estuary deep trough with varying width of navigable waters

[J]. Journal of Shanghai Jiaotong University, 2025, 59 (4): 489- 502

DOI:10.16183/j.cnki.jsjtu.2023.356      [本文引用: 1]

吴建军, 陈炎, 朱清华, 等

紧迫危险威胁下交叉相遇局面应急操船方法

[J]. 中国安全科学学报, 2024, 34 (5): 238- 246

DOI:10.16265/j.cnki.issn1003-3033.2024.05.0910      [本文引用: 1]

WU Jianjun, CHEN Yan, ZHU Qinghua, et al

Emergency ship maneuvering method for crossing encounter situation under immediate danger threat

[J]. China Safety Science Journal, 2024, 34 (5): 238- 246

DOI:10.16265/j.cnki.issn1003-3033.2024.05.0910      [本文引用: 1]

HUANG Y, VAN GELDER P, WEN Y

Velocity obstacle algorithms for collision prevention at sea

[J]. Ocean Engineering, 2018, 151: 308- 321

DOI:10.1016/j.oceaneng.2018.01.001      [本文引用: 2]

WANG T, YAN X, WANG Y, et al

Ship domain model for multi-ship collision avoidance decision-making with COLREGs based on artificial potential field

[J]. TransNav: International Journal on Marine Navigation and Safety of Sea Transportation, 2017, 11 (1): 85- 92

DOI:10.12716/1001.11.01.09      [本文引用: 1]

NING J, CHEN H, LI T, et al

COLREGs-compliant unmanned surface vehicles collision avoidance based on multi-objective genetic algorithm

[J]. IEEE Access, 2020, 8: 190367- 190377

DOI:10.1109/ACCESS.2020.3030262      [本文引用: 1]

WANG T, WU Q, ZHANG J, et al

Autonomous decision-making scheme for multi-ship collision avoidance with iterative observation and inference

[J]. Ocean Engineering, 2020, 197: 106873

DOI:10.1016/j.oceaneng.2019.106873      [本文引用: 2]

欧阳旭东, 支云翔, 王腾飞, 等

基于扩展式动态博弈的多船避碰决策模型

[J]. 中国安全科学学报, 2020, 30 (1): 128- 135

DOI:10.16265/j.cnki.issn1003-3033.2020.01.020      [本文引用: 1]

OUYANG Xudong, ZHI Yunxiang, WANG Tengfei, et al

Antensive form game theory based multi-ship collision avoidance scheme

[J]. China Safety Science Journal, 2020, 30 (1): 128- 135

DOI:10.16265/j.cnki.issn1003-3033.2020.01.020      [本文引用: 1]

崔浩, 张新宇, 王警, 等

自主船舶与有人驾驶船舶动态博弈避碰决策

[J]. 中国舰船研究, 2024, 19 (1): 238- 247

[本文引用: 1]

CUI Hao, ZHANG Xinyu, WANG Jing, et al

Dynamic game collision avoidance decision-making for autonomous and manned ships

[J]. Chinese Journal of Ship Research, 2024, 19 (1): 238- 247

[本文引用: 1]

ZHANG X, WANG C, LIU Y, et al

Decision-making for the autonomous navigation of maritime autonomous surface ships based on scene division and deep reinforcement learning

[J]. Sensor, 2019, 19 (18): 4055

DOI:10.3390/s19184055      [本文引用: 1]

黄仁贤, 罗亮

基于多智能体深度强化学习的多船协同避碰策略

[J]. 计算机集成制造系统, 2024, 30 (6): 1972- 1988

DOI:10.13196/j.cims.2023.0382      [本文引用: 1]

HUANG Renxian, LUO Liang

Multi-ship collaborative collision avoidance strategy based on multi-agent deep reinforcement learning

[J]. Computer Integrated Manufacturing Systems, 2024, 30 (6): 1972- 1988

DOI:10.13196/j.cims.2023.0382      [本文引用: 1]

WANG Z, CHEN P, CHEN L, et al

Collaborative collision avoidance approach for USVs based on multi-agent deep reinforcement learning

[J]. IEEE Transactions on Intelligent Transportation Systems, 2025, 26 (4): 4780- 4794

DOI:10.1109/TITS.2025.3547775      [本文引用: 1]

Marine Safety Investigation Unit. Marine safety investigation report [EB/OL]. (2020−03−18)[2025−05−11]. https://www.marfag.no/k52/media/mt-aseem-final-safety-investigation-report.pdf.

[本文引用: 1]

刘立群, 吴超仲, 褚端峰, 等

基于Vondrak滤波和三次样条插值的船舶轨迹修复研究

[J]. 交通信息与安全, 2015, 33 (4): 100- 105

DOI:10.3963/j.issn1674-4861.2015.04.016      [本文引用: 1]

LIU Liqun, WU Chaozhong, CHU Duanfeng, et al

A study of ship trajectory restoration based on Vondrak filtering and cubic spline interpolation

[J]. Journal of Transport Information and Safety, 2015, 33 (4): 100- 105

DOI:10.3963/j.issn1674-4861.2015.04.016      [本文引用: 1]

WANG Y, YE Q, LAU H, et al

Nash bargaining strategy in autonomous decision making for multi-ship collision avoidance based on route exchange

[J]. IET Intelligent Transport Systems, 2025, 19 (1): e70025

DOI:10.1049/itr2.70025      [本文引用: 1]

WANG Y, ZHANG J, CHEN X, et al

A spatial-temporal forensic analysis for inland-water ship collisions using AIS data

[J]. Safety Science, 2013, 57: 187- 202

[本文引用: 1]

ZHANG K, HUANG L, HE Y, et al

A real-time multi-ship collision avoidance decision-making system for autonomous ships considering ship motion uncertainty

[J]. Ocean Engineering, 2023, 278: 114205

DOI:10.1016/j.oceaneng.2023.114205      [本文引用: 1]

LI G, ZHANG X

Research on the influence of wind, waves, and tidal current on ship turning ability based on Norrbin model

[J]. Ocean Engineering, 2022, 259: 111875

DOI:10.1016/j.oceaneng.2022.111875      [本文引用: 1]

符小卫, 王辉, 徐哲

基于DE-MADDPG的多无人机协同追捕策略

[J]. 宇航学报, 2022, 43 (5): 325311

[本文引用: 1]

FU Xiaowei, WANG Hui, XU Ze

Cooperative pursuit strategy for multi-UAVs based on DE-MADDPG algorithm

[J]. Acta Aeronautica et Astronautica Sinica, 2022, 43 (5): 325311

[本文引用: 1]

WANG N

An intelligent spatial collision risk based on the quaternion ship domain

[J]. The Journal of Navigation, 2010, 63: 733- 749

DOI:10.1017/S0373463310000202      [本文引用: 2]

Sea Traffic Management. Route exchange ship-ship [EB/OL]. (2015−12−10)[2025−05−11]. https://stm-stmvalidation.s3.eu-west-1.amazonaws.com/uploads/20160420153149/Draft-description-of-test-bed-services-and-information-needs_2015-12-10.pdf.

[本文引用: 1]

PAN R, ZHANG W, WANG S, et al

Deep reinforcement learning model for multi-ship collision avoidance decision making design implementation and performance analysis

[J]. Scientific Reports, 2025, 15 (1): 21250

DOI:10.1038/s41598-025-05636-3      [本文引用: 1]

/