浙江大学学报(工学版), 2022, 56(12): 2392-2402 doi: 10.3785/j.issn.1008-973X.2022.12.008

计算机技术

基于多头自注意力的复杂背景船舶检测算法

于楠晶,, 范晓飚, 邓天民,, 冒国韬

1. 重庆交通大学 航运与船舶工程学院,重庆 400074

2. 重庆交通大学 交通运输学院,重庆 400074

Ship detection algorithm in complex backgrounds via multi-head self-attention

YU Nan-jing,, FAN Xiao-biao, DENG Tian-min,, MAO Guo-tao

1. School of Shipping and Naval Architecture, Chongqing Jiaotong University, Chongqing 400074, China

2. College of Traffic and Transportation, Chongqing Jiaotong University, Chongqing 400074, China

通讯作者: 邓天民,男,副教授. orcid.org/0000-0003-0511-0519. E-mail: dtianmin@cqjtu.edu.cn

收稿日期: 2022-01-11  

基金资助: 国家重点研发计划项目(SQ2020YFF0418521);重庆市技术创新与应用发展专项重点项目(cstc2020jscx-dxwtBX0019);川渝联合实施重点研发项目(cstc2020jscx-cylhX0005, cstc2020jscx-cylhX0007)

Received: 2022-01-11  

Fund supported: 国家重点研发计划项目(SQ2020YFF0418521);重庆市技术创新与应用发展专项重点项目(cstc2020jscx-dxwtBX0019);川渝联合实施重点研发项目(cstc2020jscx-cylhX0005,cstc2020jscx-cylhX0007)

作者简介 About authors

于楠晶(1998—),女,硕士生,从事目标检测研究.orcid.org/0000-0001-7617-4478.E-mail:yunanjing527@163.com , E-mail:yunanjing527@163.com

摘要

针对内河港口背景复杂、类间尺度差异大和小目标实例多的特点,提出基于多头自注意力机制(MHSA)和YOLO网络的船舶目标检测算法(MHSA-YOLO). 在特征提取过程中,基于MHSA设计并行的自注意力残差模块(PARM),以弱化复杂背景信息干扰并强化船舶目标特征信息;在特征融合过程中,开发简化的双向特征金字塔结构,以强化特征信息的融合与表征能力. 在Seaships数据集上的实验结果表明,与其他先进的目标检测方法相比,MHSA-YOLO拥有较好的学习能力,在检测精度方面取得97.59%的平均均值精度,MHSA-YOLO对复杂背景船舶目标和小尺寸目标的检测更有效. 基于自制数据集的实验结果表明,MHSA-YOLO的泛化能力强.

关键词: 智能航行 ; 目标检测 ; 复杂背景 ; 自注意力机制 ; 多尺度特征融合

Abstract

A ship object detection algorithm was proposed based on a multi-head self-attention (MHSA) mechanism and YOLO network (MHSA-YOLO), aiming at the characteristics of complex backgrounds, large differences in scale between classes and many small objects in inland rivers and ports. In the feature extraction process, a parallel self-attention residual module (PARM) based on MHSA was designed to weaken the interference of complex background information and strengthen the feature information of the ship objects. In the feature fusion process, a simplified two-way feature pyramid was developed so as to strengthen the feature fusion and representation ability. Experimental results on the Seaships dataset showed that the MHSA-YOLO method had a better learning ability, achieved 97.59% mean average precision in the aspect of object detection and was more effective compared with the state-of-the-art object detection methods. Experimental results based on a self-made dataset showed that MHSA-YOLO had strong generalization.

Keywords: intelligent navigation ; object detection ; complex background ; self-attention mechanism ; multi-scale fusion

PDF (1335KB) 元数据 多维度评价 相关文章 导出 EndNote| Ris| Bibtex  收藏本文

本文引用格式

于楠晶, 范晓飚, 邓天民, 冒国韬. 基于多头自注意力的复杂背景船舶检测算法. 浙江大学学报(工学版)[J], 2022, 56(12): 2392-2402 doi:10.3785/j.issn.1008-973X.2022.12.008

YU Nan-jing, FAN Xiao-biao, DENG Tian-min, MAO Guo-tao. Ship detection algorithm in complex backgrounds via multi-head self-attention. Journal of Zhejiang University(Engineering Science)[J], 2022, 56(12): 2392-2402 doi:10.3785/j.issn.1008-973X.2022.12.008

建立装备现代化、管理信息化、巡航搜救立体化的水上支持保障系统,特别是研发智能无人船舶,是我国迈向海运强国必然要求[1-2]. 船舶目标检测是无人船舶应用中的关键技术. 区别于传感器探测,船舶目标检测有针对性地进行目标检测,具有较广的探测范围和较好的实时性. 随着深度神经网络在计算机视觉中的深入应用,卷积神经网络(convolutional neural network, CNN)成为目标检测的有力工具[3-4]. 基于CNN的船舶目标检测算法具有自动学习船舶特征、挖掘图像信息的特点. 齐亮等[5]基于Faster R-CNN利用场景窄化和层级窄化网络减少目标搜索区域,在降低算法计算开销的同时,有效抑制了大部分背景区域的干扰. 汤丽丹[6]针对Faster R-CNN对小目标检测精度较低的问题,循环利用网络结构中的浅层多细节特征、深层强语义特征优化小目标检测效果. Shao等[7]提出的算法融合了显著性图、深度语义特征及海岸线信息,在保证良好实时性的同时获得了较高的检测精度,但该算法对小尺度及存在明显背景干扰的船舶目标检测效果不理想. Li等[8]针对大型船舶易受岸上建筑、复杂海浪和水面光线干扰的问题,在YOLOv3的基础上引入注意力模块CBAM,牺牲少量精度使算法的检测速度大幅提升,但该算法对于复杂背景下的船舶目标检测效果提升不明显,对于小尺度目标的检测效果依旧不理想. 甘兴旺等[9]针对船舶目标位置预测不精准的问题,结合雷达、船舶自动识别系统(automatic identification system, AIS)数据与YOLOv3算法提出船舶环境感知数据融合算法,减少天气对检测精度的干扰,但多种数据融合在一定程度上降低了算法的检测速度.

虽然上述算法可以实现基于可见光图像的船舶目标检测,但是对于内河中的船舶检测存在如下挑战. 1)船舶目标多样性. 不同于远海船舶,内河船舶具有类间尺寸差异较大、纵横比较大、目标尺寸较小的特征. 现有方法大多采用预设锚框结构,无法适应所有尺寸目标[10]. 不仅如此,现有算法对纵横比较大的目标还存在重检问题. 此外,卷积、池化操作带来的目标特征信息损失常常导致小目标的误检、漏检问题的出现[11-12]. 2)复杂背景. 相比海洋,内河的复杂背景会对船舶检测造成影响. 特别是当目标重叠、与复杂背景重叠和光线较暗、能见度较低造成的成像效果较差时,算法难以从背景中分离目标并提取目标特征信息[13].

本研究以YOLOv5s为基线算法,提出基于多头自注意力机制(multi-head self-attention , MHSA)的复杂背景船舶检测算法MHSA-YOLO,主要工作包括:基于MHSA提出并行的自注意力残差模块(parallel self-attention residual module, PARM)、增加跳跃连接及简化双向特征金字塔网络 (feature pyramid network, FPN). PARM在包含强语义信息的深层特征处建立输入输出特征空间之间的远程依赖关系,为不同特征分配权重以抑制背景干扰. 增加跳跃连接能够丰富算法特征融合多样性,实现浅层特征复用,优化小尺度目标检测效果. 删除对特征融合贡献较小的特征层,能够简化双向特征金字塔,减少算法参数量以提高实时检测速度. 基线算法使用的自适应锚框可以避免人为设置锚框尺寸带来的检测效果差异影响,有利于优化类间尺度差异较大时船舶的尺寸、位置预测效果.

1. MHSA-YOLO

YOLOv5s分为3个部分,分别为特征提取、特征融合和预测. 在特征提取时,基线算法通过下采样操作获得多尺度特征 $ {{\boldsymbol{C}}_i},i = 3,4,5 $. 在特征融合时,基线算法使用双向FPN结构融合多尺度特征. 双向FPN结构包含2个多尺度特征金字塔,分别为 $ {{\boldsymbol{P}}_i},i = 3,4,5 $$ {{\boldsymbol{N}}_i},i = 3,4,5 $. 本研究基于YOLOv5s提出MHSA-YOLO算法,整体结构如图1所示. 对YOLOv5s的改进主要包含3个部分,分别为 PARM、跳跃连接、简化的双向特征金字塔结构. 在获取 $ {{\boldsymbol{C}}_5} $特征层时,PARM用MHSA替换基线算法中原有的3×3卷积,根据特征信息分配权重,实现强化目标、弱化背景的目的. 在特征融合时,MHSA-YOLO在特征层 $ {{\boldsymbol{C}}_4} $与特征层 $ {{\boldsymbol{N}}_4} $间加入跳跃连接以弥补损失的目标特征信息,并删除对特征融合贡献较少的特征层 $ {{\boldsymbol{P}}_3} $$ {{\boldsymbol{P}}_5} $以减少参数量.

图 1

图 1   基于多头自注意力机制和YOLO网络的船舶目标检测算法整体结构图

Fig.1   Overall structure of ship object detection algorithm based on multi-head self-attention mechanism and YOLO network


1.1. MHSA

注意力机制主要根据上下文内容或像素间的相关性快速提取数据、图像中的重要特征. Lin等[14]提出自注意力机制,并将其应用于双向LSTM的隐层. 自注意力机制改进了注意力机制,减少了对外部信息的依赖,擅长捕捉数据或特征的内部相关性. 自Vaswani等[15]提出单头自注意力和MHSA后,自注意力成为研究热点.

YOLOv5的基础主干网络与特征融合部分均采用由卷积层与残差模块合并而成的模块C3,通过控制残差模块数量调整网络深度. 引入C3使网络轻量化,不仅降低了计算瓶颈和内存成本,也提高了网络特征提取与特征融合能力. 但C3对网络特征提取能力的提升有限,特别是在提取复杂背景或光线较暗的特征时,由于提取难度较大,存在漏检、误检现象. 考虑到特征层 $ {{\boldsymbol{C}}_5} $包含图像的强语义信息,减少此层复杂背景对待检测目标的干扰,能够减少算法参数并提升检测效果. 借鉴BoTNet (bottleneck transformer network)[16]结构,将基线算法中用于获取 $ {{\boldsymbol{C}}_5} $的3×3卷积替换为MHSA模块. MHSA由多个如图2所示的自注意力层并联而成,其中 $ {\boldsymbol{X}} $$ {{\boldsymbol{Z}}_i},i = 1,2,\cdots,n $分别为自注意力层输入和输出特征空间.

图 2

图 2   自注意力层结构图

Fig.2   Structure of self-attention layer


MHSA根据特征相关性为各特征分配权重,将网络注意力集中于待检目标,减少不相关背景的干扰,提高网络特征提取性能. 此外,引入MHSA还可以减少算法整体参数.

自注意力模块的输入通过线性变换得到5个矩阵,即查询(queries) $ {{\boldsymbol{W}}_{\text{Q}}} $、键(keys) $ {{\boldsymbol{W}}_{\text{K}}} $、值(values) $ {{\boldsymbol{W}}_{\text{V}}} $、高度 $ {{\boldsymbol{R}}_{\text{h}}} $、宽度 $ {{\boldsymbol{R}}_{\text{w}}} $. 模块的输出 $ {{\boldsymbol{Z}}_i} $为基于查询、键、高度、宽度的相似度与值的加权和,计算式为

$ {{\boldsymbol{Z}}_i} = {\text{Softmax}}({{\boldsymbol{W}}_{\text{K}}} \times {{\boldsymbol{W}}_{\text{Q}}}+{{\boldsymbol{W}}_{\text{Q}}} \times ({{\boldsymbol{R}}_{\text{h}}}+{{\boldsymbol{R}}_{\text{w}}})){{\boldsymbol{W}}_{\text{V}}}. $

式中: $ {\text{Softmax}} $函数为归一化指数函数,作用是将查询、键、高度、宽度的相似度以概率的形式展现出来. 为了保证数值非负, $ {\rm{Softmax}} $将相似度值转换至指数函数上;为了保证所有相似度值之和为1, $ {\rm{Softmax}} $输出结果为其指数在总数中的占比,表达式为

$ {\text{Softmax}}{(f_y}) = p(y|x) = \frac{{\exp \; {f_{{y}}}}}{{\displaystyle\sum\nolimits_{c = 1}^C {\exp \; {f_{{c}}} } }}. $

残差结构有利于提升算法的特征学习能力,本研究引入MHSA的同时保持了原有C3的残差结构,构成如图3所示的PARM结构. PARM根据特征相关性,为特征分配权重:较关键的目标特征分配较大权重,不相关背景特征分配较小权重. PARM能够强化目标、弱化背景,减少复杂背景对目标检测的干扰,特别是对小尺度目标及成像效果较差情况下的检测精度有提升效果[17]. PARM的计算式为

图 3

图 3   并行的自注意力残差模块结构图

Fig.3   Structure of parallel self-attention residual module


$ {{\boldsymbol{C}}_5} = {\text{Conv}}({{\boldsymbol{C}}_4})+{{\rm{Cat}}} ([{{\boldsymbol{C}}_4},{{\rm{Conv}}} ({\boldsymbol{Z'}})]). $

式中:Conv为卷积操作, $ {{\rm{Cat}}} ( \cdot ) $表示对所有特征图进行拼接操作, $ {\boldsymbol{Z'}} $为MHSA模块的输出.

1.2. 简化的双向特征金字塔结构

在传统自上而下的FPN结构中,信息只能单向传递,网络特征的融合能力较差. 针对背景较为复杂情况下的目标特征不突出、融合性能需求高的问题,基线算法的特征融合借鉴PANet[18] ,在FPN基础上增加特征金字塔结构,并加入自下而上的路径聚合网络(path aggregation network,PAN)结构,形成如图4所示的双向特征融合网络. 与FPN结构通过上采样操作实现强语义特征的传递与融合不同,加入自下而上特征金字塔的FPN结构通过下采样操作实现强定位特征的传递与融合. 双向特征金字塔聚合多层主干层的特征检测,提高了网络的特征提取能力. 特征融合部分的改进分为2步:1)删除YOLOv5中的 $ {{\boldsymbol{P}}_3} $$ {{\boldsymbol{P}}_5} $. 这些特征层只有1条输入边,对特征融合贡献较少. 2)在 $ {{\boldsymbol{N}}_4} $输入端与 $ {{\boldsymbol{C}}_4} $输出端间加入跳跃连接,形成三输入的特征融合结构. 相比单向特征传输的特征金字塔,PAN结构使基线算法成为拥有2个特征金字塔的双向特征传输网络,实现了特征的跨层融合. 加强各网络层间的特征融合,在一定程度上提升了算法精度[19]. 但是PAN和FPN增加了各网络层的联系,跨层融合使得网络参数与计算量增加. 如图5所示,为了减少计算量,MHSA-YOLO参考BiFPN[20]结构简化YOLOv5双向特征金字塔为

图 4

图 4   路径聚合网络结构图

Fig.4   Structure of path aggregation network


图 5

图 5   简化的双向特征金字塔结构图

Fig.5   Structure of simplified two-way feature pyramid


$ {{\boldsymbol{P}}_4} = {{\rm{Conv}}} ({{\boldsymbol{C}}_4}+{{\rm{Resize}}} ({{\boldsymbol{C}}_5})), $

$ {{\boldsymbol{N}}_5} = {{\rm{Conv}}} ({{\boldsymbol{C}}_5}+{{\rm{Maxpool}}} ({{\boldsymbol{N}}_4})), $

$ {{\boldsymbol{N}}_4} = {{\rm{Conv}}} ({{\boldsymbol{C}}_4}+{{\boldsymbol{P}}_4}+{{\rm{Maxpool}}} ({{\boldsymbol{N}}_3})), $

$ {{\boldsymbol{N}}_3} = {{\rm{Conv}}} ({{\boldsymbol{C}}_3}+{{\rm{Resize}}} ({{\boldsymbol{P}}_4})). $

式中:Resize为采样操作,Maxpool为最大池化操作. 对于复杂背景目标特征不突出、难融合的问题,跳跃连接1)增加算法的跨层融合能力和特征融合种类,实现了特征信息的复用,提升了模型对于复杂背景中的目标特征融合能力;2)利用 $ {{\boldsymbol{C}}_4} $丰富的特征信息弥补卷积、池化损失的特征,特别是对小目标特征信息的补充.

简化双向FPN结构保留基线算法的双向特征传递结构,增加跳跃连接以实现特征复用、提高网络特征融合性能,解决了复杂背景下目标特征不明显、难融合带来的检测效果不佳的问题. 此外,MHSA-YOLO通过删减特征融合贡献较小的特征层来简化网络结构、减少参数量. 对于背景较复杂(如房屋较多、复杂道路的背景)的内河船舶检测,简化的双向FPN结构提升了算法的特征融合能力,能够快速提取特征,减少漏检、误检情况的发生.

2. 实验与分析

2.1. 数据集介绍

采用武汉大学发布的新型大型船舶数据集Seaships[21]. Seaships有图片31 455张,以常见船舶类型为标签,分为1)矿石船(ore carrier,OC)、2)散货船(bulk cargo carrier, BCC)、3)普通货船(general cargo ship, GCS)、4)集装箱船(container ship, CS)、5)渔船(fishing boat, FB)、6)客船(passenger ship, PS). 每类标签的数量较平均,类间尺度相差较大. 选用公开的、主要表现内河航道与入海口中船舶的7 000张尺寸为1 920×1080的图片作为实验数据集. 实验数据集标签1)~6)的实例数分别为2 199、1 505、1 952、2 190、901、474个. 实验数据集被分为训练集、测试集、验证集,图片数分别为4 500、1 500、1 000. 将经过训练的模型在测试集中验证得到模型的平均均值精度pma、精度p、正确率a、召回率r和其他性能参数,并基于验证集验证模型的泛化能力. MHSA-YOLO使用自适应锚框,无需根据目标尺寸设置锚框尺度.

2.2. 实验平台及参数设置

实验用硬件配置为Intel(R) Core(TM) i7-8550U CPU @ 1.80 GHz 1.99 GHz、NIVIDIA GeForce MX 130显卡,CUDA10.1,软件环境为Windows10系统下的Pytorch深度学习框架. 训练采用随机梯度下降法(SGD),设置初始学习率为0.01,动量因子为0.937,正则化系数为0.000 5,输入图片大小为416×416,批量处理大小为14,迭代次数为100次.

为了评估本研究所提算法有效性,选取算法规模M和参数数量Par来评价算法的复杂程度,选取每秒传输速度Fps和每秒浮点运算次数(floating-point operations per second, FLOPS)作为模型检测速度的评价指标. 选取pma作为算法对多个目标类别综合检测性能的评价指标,采用平均精度pa评估算法对单类目标的检测性能. 评估分数F1综合考虑了模型的检测精度和召回率,被用于评估模型的整体质量,计算式为

$ {F_1} = \frac{{2pr }}{{p+r{\text{ }}}}. $

设置置信度阈值为0.001,置信度分数大于此阈值视为正样本,否则视为负样本,设置真实框与预测框的交并比(intersection over union,IoU)阈值为0.5.

2.3. 模型学习能力

损失函数反映预测值与真实值的差异,常作为衡量模型学习质量的重要指标,损失函数越小代表预测值与真实值差异越小,也就是模型学习更充分、学习能力更强. YOLOv5中包含3种损失函数:分类损失、定位损失、置信度损失,总损失为三者加权和. 定位损失主要有4种IoU系列损失函数,YOLOv5使用的Complete IoU (CIoU)[22]损失函数通过增加参数,多维度分析预测框和真实框的差异,解决了边界框宽高比的尺度问题,锚框预测效果较好. 如图6所示为YOLOv5s与MHSA-YOLO在学习过程中的总损失曲线. 图中,L为算法总损失值,N为迭代次数. 在训练前期,2种算法的总损失均急速下降,但YOLOv5s下降速度更快;相比之下,加入自注意力机制后,模型损失函数下降速度减缓,MHSA-YOLO的损失函数收敛较慢、学习速度较慢. 在训练中后期,MHSA-YOLO的总损失值较小,特别是在迭代次数大于90次时. 实验结束表明,与基线算法相比,MHSA-YOLO具有更好的学习能力,学习到的目标特征更多,达到的检测效果更好.

图 6

图 6   2种算法的总损失变化曲线

Fig.6   Total loss curves of two algorithms


2.4. 消融实验结果与分析

2.4.1. 消融实验性能对比

采用控制变量法在实验数据集中进行消融实验,分析不同模块对MHSA-YOLO性能的影响,结果如表1所示. 结果表明,虽然YOLOv5在检测精度上有大幅度提升,但小目标误检、漏检的问题依旧存在,复杂背景下的目标误检、重检、尺寸预测错误时常发生,夜间图像效果较差时易出现将如路灯、车辆的物体误判为船舶的情况. 在YOLOv5上加入PARM或简化的FPN结构可以小幅度提升网络的整体检测精度,但MHSA-YOLO的pma最大值为97.59%. 还可以看出,1)PARM通过为特征分配权重的方式将模型注意力集中于待检目标,一定程度上使算法参数量和模型规模减小,对检测速度有一定提升效果. 2)MHSA-YOLO通过删除2个特征层和增加跳跃连接的方式简化了FPN结构,简化的双向FPN结构通过复用小目标特征、强化目标特征的方式,弥补卷积、池化操作损失的目标特征信息. 特征的重复使用增加了算法参数量和模型规模,牺牲少量检测速度可以提升检测精度. 使用PARM的算法F1比仅使用简化FPN结构算法的稍高. 即在基线算法基础上引入MHSA将使整体检测性能优于基线算法. MHSA-YOLO的参数量、浮点运算次数和模型规模均稍高于基线算法,即MHSA-YOLO复杂度高于基准模型,pma比YOLOv5的提高0.012 9,F1提高0.08. 比较Fps可以看到,就本研究使用的运行环境而言,计算开销的增加对模型实时性能的影响不明显.

表 1   算法性能的消融实验结果对比

Tab.1  Comparison of ablation experimental results of algorithm performance

算法 pma/% F1 Fps/(帧·s−1) M/MB FLOPS/109 Par
YOLOv5 96.30 0.86 26 13.7 16.4 7 277 027
YOLOv5+简化的FPN 96.73 0.91 25 15.7 17.8 8 145 079
YOLOv5+PARM 96.51 0.93 27 13.1 16.1 6 760 099
MHSA-YOLO 97.59 0.94 25 15.1 17.5 7 828 151

新窗口打开| 下载CSV


2.4.2. 特征图可视化对比

为了测试PARM对背景抑制与小目标检测方面性能的提升效果,检测分别针对背景复杂、目标拥有大纵横比、暗环境情况下的目标,对比基线算法骨干网络输出的浅层特征图与使用PARM后输出的浅层特征图,如图7所示. 可以看出,虽然YOLOv5对图片中部河面部分的学习能力较好,但对于图片下方草地和上方山林这类复杂背景的处理结果较差,特别是在夜间成像效果较差时,待检目标特征提取效果较差的问题明显. YOLOv5对于背景特征和待测目标特征分配相同权重,若背景较复杂、特征与待测目标相似或待测目标互相重叠时,待检目标特征提取难度较大,检测效果较差. 此外,由于小尺度目标特征较少,易与航标、礁石、树枝等水面小物体混淆,表现为基线算法易将水面小物体误检为渔船,漏检近距离小尺度目标和距离较远的目标. 使用PARM后,模型根据相邻像素间的相关性进行语义分割,为不同特征分配权重:待测船舶分配较高权重,不相关背景分配较低权重. MHSA-YOLO特征提取优势具体表现如下. 1)抑制不相关背景特征. 背景特征(如山林、草地)被削弱,但待检船舶目标特征不受影响. 2)独立待检目标特征. 由于待检目标与背景交界处的像素间相关性较差,PARM提取的 $ {{\boldsymbol{C}}_5} $成功将待检目标特征从复杂背景中分割出来. 3)优化成像效果较差情况下的检测效果. 对于夜间成像效果较差的情况,虽然待测目标特征提取难度较大,但算法通过分配不同权重的方式强化待检目标特征,使检测效果优化.

图 7

图 7   引入并行自注意力残差模块(PARM)前后浅层特征提取图可视化对比

Fig.7   Feature visualization comparison before and after introducing parallel self-attention residual module (PARM)


2.4.3. 检测效果分析

图8所示,选取典型样本分析MHSA-YOLO对背景复杂及小尺度目标检测的性能. 可以看出,1) MHSA-YOLO减少了小目标的误检率,也减少了对远距离、小目标的漏检率. 此外,MHSA-YOLO对小目标的检测精度有整体提升. 2) YOLOv5s对纵横比较大目标的尺寸和位置预测效果较差,甚至存在重检的情况. MHSA-YOLO通过提升网络特征提取与融合性能,将待检目标从背景中分割出来,实现对纵横比较大目标尺寸及位置的准确预测. 3)内河水域,船舶密度较大,存在船舶影像互相遮挡、干扰的情况,此时的特征提取难度大,漏检、重检、误检等情况较多. MHSA-YOLO加强了网络的特征提取与融合性能,避免了特征信息相互干扰造成的检测精度较低的现象. 光学图像受环境光线、能见度的影响,相比YOLOv5s将背景中的路灯、车辆、房屋误检为船舶的情况,MHSA-YOLO优化了夜间图像的检测效果. 4)虽然6类待检船舶尺寸差异较大,MHSA-YOLO采用的自适应锚框根据目标尺寸自动调整锚框大小,避免了预设锚框尺寸给检测效果带来的人为影响.

图 8

图 8   不同算法的Seaships测试集检测效果对比图

Fig.8   Results of ships detection on Seaships with different algorithms


分析结果表明,引入MHSA和跳跃连接后的MHSA-YOLO分别在图片特征提取、特征融合方面提高了算法学习能力,并通过简化FPN的方式,实现了在检测速度无太大变化的情况下,有效提高小尺度目标与复杂背景下目标的检测精度.

2.5. 实验结果与分析
2.5.1. 多种模型性能对比

表2所示,基于Seaships实验数据集对比MHSA-YOLO与其他目标检测算法的pmapa. 基于Faster类算法对渔船的识别精度较低,说明对于卷积、池化操作损失大量信息后难以提取特征的小尺度目标来说,基于Faster类算法的检测效果不理想. 基于Faster类算法对矿石船、散货船的检测精度较低,说明复杂背景对算法的待检目标特征影响较大,船体易与背景中的房屋、道路、山林重叠,特征提取能力要求较高. 基于SSD类和YOLOv2类算法虽然比基于Faster类算法量级轻,但小尺度目标(渔船)与复杂背景下目标(矿石船、散货船)的检测精度依旧较差,且整体识别精度较低. YOLOv3、YOLOv4由于结构被改进,目标检测精度均超过87%,小目标及复杂背景下的目标识别问题得到优化,但这2种算法的整体精度逊于基于Faster类算法. 与表中其他算法相比,MHSA-YOLO的优化有以下2个特点. 1) PARM与跳跃连接结构有效加强了小目标的特征提取与特征融合. PARM通过为不同特征分配权重的方式抑制背景干扰,将网络注意力集中在目标上;跳跃连接结构通过连接小目标信息,使 $ {{\boldsymbol{C}}_4} $输出端与 $ {{\boldsymbol{N}}_4} $输入端的损失较少,不仅增强了网络的特征融合性能,还提升了小目标的检测精度. 2) MHSA-YOLO继承了YOLOv5轻量级、高速性的功能. PARM通过为不同特征分配权重的方式实现抑制背景、强化目标的效果. 简化FPN的同时加入跳跃连接,不仅减少了算法的模型参数,部分抵消了跳跃连接给模型带来的参数提升,还提高了模型的特征融合性能.

表 2   不同卷积神经网络的船舶检测结果对比

Tab.2  Comparison of ship detection results of different convolutional neural network

算法 pma/% pa/%
OC BCC GCS CS FB PS
Faster(VGG16)[21] 90.12 89.44 90.34 90.73 90.87 88.76 90.57
Faster(ResNet18)[21] 90.63 90.37 89.78 90.45 90.91 87.17 88.93
Faster(ResNet50)[21] 91.65 92.38 90.88 92.46 92.91 89.27 90.93
Faster(ResNet101)[21] 92.40 93.68 90.22 93.87 93.41 89.96 91.78
SSD300(MobileNet)[21] 77.66 64.77 76.69 87.43 90.77 71.00 75.32
SSD300(VGG16)[21] 79.37 75.03 76.66 87.66 90.71 71.79 74.35
SSD512(VGG16)[21] 86.73 83.99 83.00 87.08 90.81 85.85 89.65
YOLOv2 random=0[21] 77.51 83.01 79.36 80.60 88.90 62.70 70.48
YOLOv2 random=1[21] 79.06 83.16 82.07 83.21 88.31 64.74 72.89
YOLOv3[23] 87.00 86.00 86.20 87.10 87.10 88.00 90.00
YOLOv4[23] 90.70 90.80 90.70 90.80 90.90 90.60 90.50
MHSA-YOLO 97.59 98.73 98.42 96.41 96.53 98.51 96.94

新窗口打开| 下载CSV


实验数据表明,MHSA-YOLO在整体检测精度上大幅提升(pma=97.59%,比基于ResNet101网络的Faster提升0.051 9),解决了小目标(渔船的pa=98.51%,比YOLOv4提升0.079 1)与复杂背景下的目标(矿石船、散货船的pa>98%)检测精度较低的问题.

2.5.2. 泛化性验证

符合本研究复杂背景要求的公开船舶数据集较少,新加坡海事数据集(Singapore maritime dataset, SMD)是公开数据集,该数据集视频涵盖白天、傍晚、雨天、雾天等多种环境情况,目标影像相互遮挡情况较多,目标尺寸差异较大,因此本研究选择SMD验证MHSA-YOLO的泛化能力. 对SMD中的81段视频进行处理与标注:1)对视频进行隔帧抽取操作获取图片信息,2)参考Seaships的标签分类对图像中的船舶目标进行分类标注,获得自制数据集.

在该自制数据集中分别训练并测试YOLOv5s和MHSA-YOLO,检测效果如表3所示. 可以看出,MHSA-YOLO整体检测效果较好,pma=92.4%,比YOLOv5s提升0.063. 此外,MHSA-YOLO的F1=0.90,远高于YOLOv5s的0.79. 2种算法的检测速度差异不大,Fps均为25. SMD数据集船舶重叠遮挡问题较为明显,同时大量远距离小目标和近距离目标的情况突出,MHSA-YOLO检测6类船舶标签的效果均有提升,其中客船检测效果的提升最明显.

表 3   自制数据集检测精度对比

Tab.3  Comparison of detection accuracy of self-made dataset

算法 pma/% pa/%
OC BCC GCS CS FB PS
YOLOv5s 86.1 89.8 90.2 82.0 97.9 89.5 67.4
MHSA-YOLO 92.4 94.5 96.6 84.6 99.5 97.5 81.8

新窗口打开| 下载CSV


图9所示为YOLOv5s和MHSA-YOLO对SMD中选取的典型图片的检测效果对比. 可以看出,1)在船舶密度较大的水域,船舶影像多相互遮挡、特征间相互干扰,基线算法存在重检、目标尺寸、位置预测不准确的问题,MHSA-YOLO利用PARM获取特征相关性,利用跳跃连接实现特征复用,有效优化了检测效果. 2)在傍晚或能见度不足的雾天,特征不突出、难提取问题显著,YOLOv5s存在大量重检的情况,对目标尺寸、位置预测效果较差;MHSA-YOLO拥有较好的特征提取能力,弱化背景噪声的同时强化了目标信息,对于各类目标均有较好的检测效果. 3)在极端尺寸目标以及目标纵横比较大的情况下,虽然基线算法采用自适应锚框,改善了其他算法存在的重检、误检状况,但对尺寸的预测效果不理想,小目标的重检、误检依然存在. 相比之下,MHSA-YOLO更易提取目标特征,自适应锚框在极端尺寸目标检测方面的优势更明显,对目标尺寸、类别、位置的预测更精准.

图 9

图 9   基于新加坡海事数据集的自制数据集中不同算法的检测效果对比图

Fig.9   Results of ships detection with different algorithms on self-made dataset based on Singapore maritime dataset


验证结果表明,MHSA-YOLO不仅在Seaships数据集中拥有较好的检测效果,对其他存在目标特征难提取情况的数据集同样拥有较明显的性能提升和较强的目标检测能力.

3. 结 论

(1)提出基于多头自注意力机制的船舶目标检测方法MHSA-YOLO. 在特征提取方面,引入MHSA替换3×3卷积形成PARM,在含有丰富语义信息的深层特征中采用分配权重的方式,抑制不相关背景信息干扰、强化船舶特征信息的效果. 在特征融合方面,MHSA-YOLO在中间层加入跳跃连接以实现更高级的特征融合,删除对特征融合贡献较小的节点以减少参数、简化FPN,提高算法的特征融合性能.

(2)Seaships数据集的实验结果表明,MHSA-YOLO整体检测效果较好,pma=97.59%,比YOLOv5s提升0.012 9,对内河船舶的检测效果优于Faster类、SSD类和YOLO系列等常见的目标检测算法. MHSA-YOLO采用自适应锚框优化多尺度目标检测效果,对矿石船、散货船、渔船类的船舶图片识别精度提升较大. 自制数据集的实验结果表明,MHSA-YOLO能够在不同数据集中拥有较好的检测效果,泛化性较强. MHSA-YOLO有效解决了复杂背景下的目标检测困难和小目标检测精度较低的问题.

(3)本研究的重点是提升基于可见光图像的船舶检测精度. 一方面,对于智能无人船舶,遥感图像与海事地图是其环境感知的重要依据,单一的可见光图像检测并不全面[24-25]. 另一方面,检测障碍物(礁石、桥墩)和可航行区域对规划船舶行驶路线至关重要. 未来计划融合多种图像检测技术,通过多视角检测提高船舶检测的准确性和实时性[26-27],在单个网络中实现同时检测船舶、航标、障碍物和可行驶区域.

参考文献

ZHANG T W, ZHANG X L, SHI J, et al

Depthwise separable convolution neural network for high-speed SAR ship detection

[J]. Remote Sensing, 2019, 11 (21): 2483

DOI:10.3390/rs11212483      [本文引用: 1]

ZHANG T W, ZHANG X L

Injection of traditional hand-crafted features into modern CNN-based models for SAR ship classification: what, why, where, and how

[J]. Remote Sensing, 2021, 13 (11): 2091

DOI:10.3390/rs13112091      [本文引用: 1]

徐诚极, 王晓峰, 杨亚东

Attention-YOLO: 引入注意力机制的YOLO检测算法

[J]. 计算机工程与应用, 2019, 55 (6): 13- 23

[本文引用: 1]

XU Cheng-ji, WANG Xiao-feng, YANG Ya-dong

Attention-YOLO: YOLO detection algorithm that introduces attention mechanism

[J]. Computer Engineering and Applications, 2019, 55 (6): 13- 23

[本文引用: 1]

OKSUZ K, CAM B C, KALKAN S, et al

Imbalance problems in object detection: a review

[J]. IEEE Transactions on Pattern Analysis Machine Intelligence, 2021, 43 (10): 3388- 3415

DOI:10.1109/TPAMI.2020.2981890      [本文引用: 1]

齐亮, 李邦昱, 陈连凯

基于改进的Faster R-CNN船舶目标检测算法

[J]. 中国造船, 2020, 61 (Suppl.1): 40- 51

DOI:10.3969/j.issn.1000-4882.2020.z1.006      [本文引用: 1]

QI Liang, LI Bang-yu, CHEN Lian-kai

Ship target detection algorithm based on improved Fast R-CNN

[J]. Shipbuilding of China, 2020, 61 (Suppl.1): 40- 51

DOI:10.3969/j.issn.1000-4882.2020.z1.006      [本文引用: 1]

汤丽丹. 基于图像的无人船目标检测研究[D]. 哈尔滨: 哈尔滨工业大学, 2018.

[本文引用: 1]

TANG Li-dan. Research on object detection of USV based on images [D]. Harbin: Harbin Institute of Technology, 2018.

[本文引用: 1]

SHAO Z, WANG L, WANG Z, et al

Saliency-aware convolution neural network for ship detection in surveillance video

[J]. IEEE Transactions on Circuits and Systems for Video Technology, 2020, 30 (3): 781- 794

DOI:10.1109/TCSVT.2019.2897980      [本文引用: 1]

LI H, DENG L B, YANG C, et al

Enhanced YOLO v3 tiny network for real-time ship detection from visual image

[J]. IEEE Access, 2021, 9: 16692- 16706

DOI:10.1109/ACCESS.2021.3053956      [本文引用: 1]

甘兴旺, 魏汉迪, 肖龙飞, 等

基于视觉的船舶环境感知数据融合算法研究

[J]. 中国造船, 2021, 62 (2): 201- 210

DOI:10.3969/j.issn.1000-4882.2021.02.018      [本文引用: 1]

GAN Xing-wang, WEI Han-di, XIAO Long-fei, et al

Research on vision-based data fusion algorithm for environment perception of ships

[J]. Shipbuilding of China, 2021, 62 (2): 201- 210

DOI:10.3969/j.issn.1000-4882.2021.02.018      [本文引用: 1]

FENG Y C, DIAO W H, SUN X, et al

Towards automated ship detection and category recognition from high-resolution aerial images

[J]. Remote Sensing, 2019, 11 (16): 1901

DOI:10.3390/rs11161901      [本文引用: 1]

KIM M, JEONG J, KIM S

ECAP-YOLO: efficient channel attention pyramid YOLO for small object detection in aerial image

[J]. Remote Sensing, 2021, 13 (23): 4851

DOI:10.3390/rs13234851      [本文引用: 1]

CHEN L Q, SHI W X, DENG D X

Improved YOLOv3 based on attention mechanism for fast and accurate ship detection in optical remote sensing images

[J]. Remote Sensing, 2021, 13 (4): 660

DOI:10.3390/rs13040660      [本文引用: 1]

YU J M, ZHOU G Y, ZHOU S B, et al

A fast and lightweight detection network for multi-scale SAR ship detection under complex backgrounds

[J]. Remote Sensing, 2021, 14 (1): 31

DOI:10.3390/rs14010031      [本文引用: 1]

LIN Z H, FENG M W, NOGUEIRA C, et al. A structured self-attentive sentence embedding [EB/OL]. [2021-09-17]. https://arxiv.org/abs/1703.03130.pdf.

[本文引用: 1]

VASWANI A, SHAZEER N, PARMAR N, et al. Attention is all you need [C]// Proceedings of the 31st International Conference on Neural Information Processing Systems. Long Beach: NIPS, 2017: 5998-6008.

[本文引用: 1]

SRINIVAS A, LIN T Y, PARMAR N, et al. Bottleneck transformers for visual recognition [C]// 2021 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Nashville: IEEE, 2021: 16514-16524.

[本文引用: 1]

LIN T Y, DOLLÁR P, GIRSHICK R, et al. Feature pyramid networks for object detection [C]// 2017 IEEE Conference on Computer Vision and Pattern Recognition. Honolulu: IEEE, 2017: 937-944.

[本文引用: 1]

LIU S, QI L, QIN H, et al. Path aggregation network for instance segmentation [C]// 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Salt Lake City: IEEE, 2018: 8759-8768.

[本文引用: 1]

ZHANG Y, SHENG W, JIANG J, et al

Priority branches for ship detection in optical remote sensing images

[J]. Remote Sensing, 2020, 12 (7): 1196

[本文引用: 1]

TAN M, PANG R, LE Q V. EfficientDet: scalable and efficient object detection [C]// 2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Seattle: IEEE, 2020: 10781-10790.

[本文引用: 1]

SHAO Z F, WU W J, WANG Z Y, et al

SeaShips: a large-scale precisely annotated dataset for ship detection

[J]. IEEE Transactions on Multimedia, 2018, 20 (10): 2593- 2604

DOI:10.1109/TMM.2018.2865686      [本文引用: 10]

ZHENG Z H, WANG P, LIU W, et al. Distance-IoU loss: faster and better learning for bounding box regression [C]// Proceedings of the 34th AAAI Conference on Artificial Intelligence. New York: AAAI, 2020: 12993-13000.

[本文引用: 1]

赵玉蓉, 郭会明, 焦函, 等

融合混合域注意力的YOLOv4在船舶检测中的应用

[J]. 计算机与现代化, 2021, (9): 75- 82

DOI:10.3969/j.issn.1006-2475.2021.09.012      [本文引用: 2]

ZHAO Yu-rong, GUO Hui-ming, JIAO Han, et al

Application of YOLOv4 with mixed-domain attention in ship detection

[J]. Computer and Modernization, 2021, (9): 75- 82

DOI:10.3969/j.issn.1006-2475.2021.09.012      [本文引用: 2]

LEI S L, LU D D, QIU X L, et al

SRSDD-v1.0: a high-resolution SAR rotation ship detection dataset

[J]. Remote Sensing, 2021, 13 (24): 5104

DOI:10.3390/rs13245104      [本文引用: 1]

RODGER M, GUIDA R

Classification-aided SAR and AIS data fusion for space-based maritime surveillance

[J]. Remote Sensing, 2020, 13 (1): 104

DOI:10.3390/rs13010104      [本文引用: 1]

LIU J M, CHEN H, WANG Y

Multi-source remote sensing image fusion for ship target detection and recognition

[J]. Remote Sensing, 2021, 13 (23): 4852

DOI:10.3390/rs13234852      [本文引用: 1]

FAHIMEH F, HEIKKONEN J

Deep learning based multi-modal fusion architectures for maritime vessel detection

[J]. Remote Sensing, 2020, 12 (16): 2509

DOI:10.3390/rs12162509      [本文引用: 1]

/