基于YOLOv5s的无人机密集小目标检测算法

doi:10.3785/j.issn.1008-973X.2023.06.018

基于YOLOv5s的无人机密集小目标检测算法

韩俊^,, 袁小平^,, 王准, 陈烨

中国矿业大学信息与控制工程学院，江苏徐州 221116

UAV dense small target detection algorithm based on YOLOv5s

HAN Jun^,, YUAN Xiao-ping^,, WANG Zhun, CHEN Ye

School of Information and Control Engineering, China University of Mining and Technology, Xuzhou 221116, China

通讯作者: 袁小平，男，教授. orcid.org/0000-0002-7936-0070. E-mail： 1941@cumt.edu.cn

收稿日期: 2022-06-24

基金资助:

国家科技支撑计划资助项目（2013BAK06B08）；国家自然科学基金资助项目（32171241）

Received: 2022-06-24

Fund supported:

国家科技支撑计划资助项目（2013BAK06B08）；国家自然科学基金资助项目（32171241）

作者简介 About authors

韩俊（1998—）男，硕士生，从事目标检测研究.orcid.org/0000-0001-8088-6777.E-mail：m19816250697@163.com , E-mail：m19816250697@163.com

摘要

针对无人机图像中背景复杂、小目标数量多且分布密集的特点，提出基于YOLOv5s的无人机密集小目标检测算法LSA_YOLO. 构造多尺度特征提取模块LM-fem，增强网络的特征提取能力. 为了抑制复杂背景的干扰，使算法关注目标信息，提出依靠多尺度上下文信息的、新的混合域注意力模块S-ECA. 设计自适应权重动态融合结构AFF，为浅层特征和深层特征合理分配融合权重. 将S-ECA、AFF应用于PANet结构，提高算法在复杂背景下的密集小目标检测能力. 使用损失函数Focal-EIOU代替损失函数CIOU，增强模型检测性能. 在公开数据集VisDrone2021上的实验结果表明，当设置输入分辨率为1 504 $ \times $1 504时，对所有目标类别的平均检测精度从YOLOv5s的51.5%提高到LSA_YOLO的57.6%.

关键词： 无人机 ; 小目标检测 ; 多尺度特征 ; 注意力机制 ; 特征融合

Abstract

The dense small target detection algorithm LSA_YOLO based on YOLOv5s for UAVs with complex backgrounds and multiples of small targets with dense distribution was proposed for UAV images. A multi-scale feature extraction module LM-fem was constructed to enhance the feature extraction capability of the network. A new hybrid domain attention module S-ECA relying on multi-scale contextual information has been put forward and a algorithm focus on target information was established aiming to suppress the interference of complex backgrounds. The adaptive weight dynamic fusion structure AFF was designed to assign reasonable fusion weights to both shallow and deep features. The capability of algorithm in detecting dense small targets in complex backgrounds was improved given the application of S-ECA and AFF in the structure of PANet. The loss function Focal-EIOU was utilized instead of the loss function CIOU to accelerate model detection efficiency. Experimental results on the public dataset VisDrone2021 public dataset show that the average detection accuracy for all target classes improves from 51.5% for YOLOv5s to 57.6% for LSA_YOLO when the set input resolution is set to 1 504 × 1 504.

Keywords： UAV ; small target detection ; multi-scale features ; attention mechanism ; feature fusion

PDF (2789KB) 元数据多维度评价相关文章导出 EndNote| Ris| Bibtex 收藏本文

本文引用格式

韩俊, 袁小平, 王准, 陈烨. 基于YOLOv5s的无人机密集小目标检测算法. 浙江大学学报(工学版)[J], 2023, 57(6): 1224-1233 doi:10.3785/j.issn.1008-973X.2023.06.018

HAN Jun, YUAN Xiao-ping, WANG Zhun, CHEN Ye. UAV dense small target detection algorithm based on YOLOv5s. Journal of Zhejiang University(Engineering Science)[J], 2023, 57(6): 1224-1233 doi:10.3785/j.issn.1008-973X.2023.06.018

无人机具有成本低、灵活性高、操作简单、体积小等优点，可以弥补卫星和载人航空遥感技术的不足. 无人机与基于深度学习的目标检测技术的结合已在智慧农业、智慧城市、交通监控等领域发挥了重要作用^[1]. 目标检测任务主要面向自然场景图像，但无人机拍摄的图像与自然场景图像存在巨大差异. 1）无人机的飞行高度导致无人机拍摄的图像存在大量分辨率小于32×32 像素的小物体；小物体分布密集，可提取的特征少. 2）在无人机拍摄过程中存在图像背景复杂、目标相互遮挡、拍摄光线不足等问题. 因此，直接将现有算法应用于无人机领域效果较差，研究适用于无人机的目标检测算法有着重大意义.

基于深度学习的目标检测算法可以分为基于回归的单阶段（one-stage）目标检测算法和基于候选区域的两阶段（two-stage）目标检测算法. 两阶段检测算法分为2个阶段：1）生成目标的候选区域，2）对候选区域中的候选框大小和位置进行预测，生成预测框. 两阶段检测算法识别准确率和定位精度效果较好，但检测速度和实时性较低. 针对两阶段检测算法的缺点，提出基于单阶段检测器的YOLO（you only look once）系列算法^[2-5]和单激发多框探测器（single shot multibox detector，SSD）算法^[6]. 单阶段检测算法直接对目标的坐标和类别进行回归，这种端到端的检测方式使得检测精度高且检测速度达到45 帧/s^[7]. 2020年提出的YOLOv5是YOLO系列的第5个版本，该算法在保持较高检测速度的同时显著提高了检测精度，被广泛应用于无人机图像目标检测. Xie等^[8] 1)在YOLOv5的基础上增加针对小目标的检测头，2)在特征融合层为融合特征分配权重，3)优化损失函数；实验表明，改进后的算法对背景复杂、小目标密集的场景具有很好的检测性能. 但改进后的算法在不同层的特征融合依旧是简单的线性操作（串联或求和），不能根据特征所在场景的不同进行自适应特征权重分配. Yang^[9]在YOLOv5网络的颈部增加上采样，形成用于收集小目标特征的特征图，通过沿着通道维度的拼接（concat）形成新的特征提取层，增强了算法的小目标检测能力. 但改进后的算法提取到的小目标特征信息较少，且检测速度较慢，实时性不足以满足实际需求. 吴萌萌等^[10]在YOLOv5s的基础上融合特征融合因子，设计改进的自适应双向特征融合模块（M-BiFPN），使网络的特征表达能力提升. M-BiFPN的损失函数设计未考虑数据集长尾分布的特点，因此算法对大目标的检测性能提升不够明显.

针对无人机视角下的目标特点及小目标检测算法存在的问题，本研究改进YOLOv5s算法，提出LSA_YOLO算法：1）设计特征提取层增强模型的特征提取能力，2）设计混合域注意力机制区分目标信息与背景信息，3）设计自适应特征融合层为小目标分配更高融合权重.

1. LSA_YOLO算法

针对无人机图像分辨率大、背景复杂、小目标数量多且分布密集的特点，LSA_YOLO在保证检测器实时性的前提下，能够提高模型在复杂背景下的密集小目标检测精度，模型结构如图1所示. 图中，k为卷积核尺寸，s为卷积步长，Silu为激活函数，S-ECA、AFF分别为混合域注意力模块、自适应权重动态融合模块，n为多尺度特征提取模块（multiscale feature extraction module，LM-fem）的数量. 布尔变量为真时，C3使用LM-fem结构；布尔变量为假时，使用LM-fem False结构. LSA_YOLO由特征提取层（backbone)、特征融合层（neck)、检测层（head）组成.

图 1

新窗口打开| 下载原图ZIP| 生成PPT

图 1 LSA_YOLO算法的结构图

Fig.1 Architecture of LSA_YOLO algorithm

1.1. 特征提取层

1.1.1. 多尺度特征提取模块

设计LM-fem替代YOLOv5s中的瓶颈层（bottleneck），LM-fem和瓶颈层的结构对比如图2所示. LM-fem由4个并行分支组成，其中2个分支分别使用最大池化（MaxPooling）和平均池化（AvgPooling）同1×1卷积级联，保留图像的纹理特征和背景信息；另2个分支分别使用1×1卷积和3×3卷积, 保留局部范围的特征相关性，捕捉细节变化. 通过拼接操作融合具有不同感受野的分支信息，进一步获得丰富的多尺度信息，增强网络的特征提取能力. 使用浮点运算数(floating point operations，FLOPs）比较LM-fem和瓶颈层的计算复杂度：

图 2

新窗口打开| 下载原图ZIP| 生成PPT

图 2 LM-fem和瓶颈层的结构对比图

Fig.2 Structure comparison of LM-fem and bottleneck

(1) $ {O_{{\rm{FL}}}} = \sum\limits_{n = 1}^S {{H_n}} {{ \times }}{W_n}{{ \times }}{K_n}^2{{ \times }}{C_{n - 1}}{{ \times }}{C_n}. $

式中：S为卷积核的数量， $ {H}_{n} $、 $ {W}_{n} $分别为输出特征的高度和宽度， $ {{K}_{n}}^{2} $为卷积核的尺寸， $ {C}_{n-1} $、 $ {C}_{n} $分别为输入特征和输出特征的通道数量. LM-fem和瓶颈层的FLOPs计算式分别为

(2) $ \begin{split} {O_{{\rm{FL1}}}} =& (5 \times 5 \times C \times W \times H+1 \times 1 \times C \times {C \mathord{\left/{\vphantom {C 4}} \right.} 4} \times W \times H) \times \\ & 2+3 \times 3 \times C \times {C \mathord{\left/{\vphantom {C 4}} \right.} 4} \times W \times H+1 \times 1 \times C \times {C \mathord{\left/{\vphantom {C 4}} \right.} 4} \times \\ & W\times H = 3{C^2}WH+50CWH， \\[-8pt] \end{split} $

(2) $ \begin{split} {O_{{\rm{FL2}}}} =& 1 \times 1 \times C \times C \times W \times H+3 \times 3 \times C \times C \times W \times H+ \\ & 2 \times C \times W \times H = 10{C^2}WH+2CWH . \\[-8pt] \end{split} $

式中：C、W和H分别为输入特征图的通道数、宽度和高度. 卷积运算、最大池化运算和平均池化运算仅改变特征图的通道数，特征图的宽度和高度均未改变. 瓶颈层和LM-fem的FLOPs差值为(7C−48)CWH，由于7C远大于48，导致LM-fem的FLOPs在瓶颈层的1/4~1/3. 将LM-fem替代YOLOv5s网络中的瓶颈层，能够增强网络的特征提取能力，同时提高模型的检测精度和速度.

1.1.2. 混合域注意力机制

挤压激励模块 (squeeze-and-excitation module，SEM^[11])关注特征图通道之间的关系，通过生成维持通道间相关性的注意力权重图，让模型学习到不同通道的重要程度从而对其加权，显式建模不同通道之间的关系. SEM的网络结构图如图3所示. 图中，FC为全连接层，Relu、Sigmoid均为激活函数. SEM模块只考虑通道信息的编码，忽视了空间位置信息，由于空间位置信息的获取对检测无人机的拍摄图像至关重要，本研究提出更加关注空间位置信息的注意力模块（enhanced spatial location attention mechanism，ECAM）. ECAM能够从丰富的多尺度上下文信息中过滤无用信息，关注有用信息，其网络结构如图4所示.

图 3

新窗口打开| 下载原图ZIP| 生成PPT

图 3 挤压激励模块的结构图

Fig.3 Architecture of squeeze-and-excitation module

图 4

新窗口打开| 下载原图ZIP| 生成PPT

图 4 空间位置注意力模块的结构图

Fig.4 Architecture of spatial location attention module

给定输入X=[ $ {{{\boldsymbol{x}}}}_{1},{{{\boldsymbol{x}}}}_{2},\cdots , {{{\boldsymbol{x}}}}_{c} $] $ \in {\mathbf{R}}^{C\times H\times W} $， $ {\boldsymbol{x}}_{c} $为输入特征的第c个通道信息. 分别使用尺寸为(H,1)、(1,W)的平均池化核，沿着水平坐标方向和垂直坐标方向对每个通道进行编码，得到高度为h的第c个通道 $ {\boldsymbol{z}}_{c}^{h} $，计算式为

(4) $ {\boldsymbol{z}}_c^h(h) = \frac{1}{W}\sum\limits_{0 \leqslant i < W} {{{\boldsymbol{x}}_c}(h,i)} . $

同理，可以得到宽度为w的第c个通道 $ {{{\boldsymbol{z}}}}_{c}^{w} $，计算式为

(5) $ {\boldsymbol{z}}_c^w(w) = \frac{1}{H}\sum\limits_{0 \leqslant j < H} {{{\boldsymbol{x}}_c}(j,w)} . $

通过沿着水平方向和竖直方向的平均池化，将SEM中的二维特征编码降至沿着不同方向聚合特征的一维特征编码，分别沿着一个方向捕获C×H×1的长程依赖，沿着另一个方向保留C×1×W的精确位置信息. 再分别使用卷积大小为3×3，扩张系数为1、3、5的空洞卷积获取丰富的多尺度上下文信息. 采用分支融合层(branch fusion layer)融合来自不同并行分支的信息，避免引入额外的参数. 平均操作用于在训练期间平衡不同并行分支的表示，使得单个分支能够在测试期间实现推理，表达式为

(6) $ {{\boldsymbol{z}}_{\rm{p}}} = \frac{1}{B}\sum\limits_{i = 1}^B {{{\boldsymbol{z}}_i}} $

式中： ${\boldsymbol{z}}_{{\rm{p}}}$为分支融合层的输出， $ {\boldsymbol{z}}_{i} $为各个并行分支的特征信息，B为并行分支的数量，设置B=3. 使用批量归一化(batch normalization，BN)进行归一化处理，通过sigmoid激活操作分别获得沿着水平方向和垂直方向的注意力图，与输入X=[ $ {\boldsymbol{x}}_{1},{\boldsymbol{x}}_{2},\cdots, {\boldsymbol{x}}_{c} $] $ \in {\mathbf{R}}^{C\times H\times W} $进行特征加权，得到最终的输出特征空间Y=[ $ {\boldsymbol{y}}_{1} $, ${\boldsymbol{y}}_{2},\cdots$, $ {\boldsymbol{y}}_{c} $] $ \in {\mathbf{R}}^{C\times H\times W} $.

为了进一步提高模型对特征空间中有用信息的关注程度，弱化无关背景信息的干扰，本研究将ECAM和SEM结合，提出新的混合域注意力模块 (hybrid domain attention module，S-ECA). S-ECA网络结构如图5所示. S-ECA将SEM和ECAM以并行方式进行连接. 通过SEM沿着通道维度获取通道间的远程相互依赖关系，通过ECAM先获取丰富的多尺度上下文信息，再通过空间位置感兴趣区域进一步挖掘上下文信息. 为了进一步综合经过SEM和ECAM得到的特征信息，使之互补地应用于输入特征图，使用分支融合层融合来自SEM和ECAM的输出特征信息. 使用Sigmoid函数进行归一化处理，得到基于通道和空间位置注意力权重矩阵，权重的大小可以反映特征图中注意力分布情况，使得模型可以在注意力权重高的区域获得更多有效特征，弱化无关背景信息的干扰. 相比于级联连接的组合方式，S-ECA采用并行方式连接，无需考虑SEM和ECAM的先后排布，2种注意力机制同时对输入特征进行学习，再经过分支融合层进一步特征融合，避免了相互干扰，获得了更加稳定的混合域注意力效果. S-ECA是十分稳定高效的注意力模块，可以无缝嵌入到YOLOv5s网络中，进行端到端的训练.

图 5

新窗口打开| 下载原图ZIP| 生成PPT

图 5 混合域注意力模块的结构图

Fig.5 Architecture of mixed domain attention module

1.2. 特征融合层

针对小目标检测困难的问题，YOLOv5采用自顶向下的特征金字塔网络(feature pyramid network， FPN^[12])结构和自底向上的金字塔注意力网络(pixel aggregation network，PAN^[13])结构融合浅层信息和深层信息. 来自浅层和深层的特征信息在融合时往往会产生语义冲突，而且YOLOv5s采用的融合方式只是简单拼接或者相加，在融合过程中会赋予浅层特征和深层特征相同的权重. 浅层特征包含更多细节信息，深层特征包含更多语义特征，合理的分配浅层特征和深层特征的融合权重，有利于复杂背景下的密集小目标检测.

基于通道注意力机制，本研究提出自适应权重动态融合模块 (adaptive feature fusion，AFF). AFF网络结构如图6所示. 给定输入X=[ ${\boldsymbol{x}}_{1},\;{\boldsymbol{x}}_{2},\;\cdots, {\boldsymbol{x}}_{c}$] $ \in {\mathbf{R}}^{C\times H\times W} $、 Y=[ $ {\boldsymbol{y}}_{1} $, $ {\boldsymbol{y}}_{2}\cdots $, $ {\boldsymbol{y}}_{c} $] $ \in {\mathbf{R}}^{C\times H\times W} $, 使用拼接操作将二者在通道维度上进行拼接得到输出 $ {\boldsymbol{z}}_{0} $=[ $ {\boldsymbol{x}}_{1} $, ${\boldsymbol{x}}_{2}, \cdots$, $ {\boldsymbol{x}}_{c},\;{\boldsymbol{y}}_{1} $, ${\boldsymbol{y}}_{2},\cdots$, $ {\boldsymbol{y}}_{c} $] $ \in {\mathbf{R}}^{2C\times H\times W} $. 这种特征融合方式虽然完整保留了来自不同尺度的特征信息，但是默认分配的特征融合权重为1∶1，因此对于拥有更多小目标信息的浅层特征不利. 本研究借助通道注意力机制的思想，先对输入沿着通道维度进行拼接，再获取融合特征各个通道的注意力权重，根据注意力权重为各个通道分配不同的关注程度，实现特征的动态融合. 通过独立通道注意力模块(independent channel attention module, ICAM)获取各个通道的注意力权重. 先使用3×3卷积来增强不同通道的特征表达能力，再分别使用全局最大值池化和全局平均池化保留图像的纹理特征 $ {\boldsymbol{z}}_{1}\in {\mathbf{R}}^{2C\times 1\times 1} $和背景信息 $ {\boldsymbol{z}}_{2}\in {\mathbf{R}}^{2C\times 1\times 1} $，实现对输入 $ {\boldsymbol{z}}_{0}\in {\mathbf{R}}^{2C\times H\times W} $的空间维度信息的压缩. 使用分支融合层来平衡 $ {\boldsymbol{z}}_{1} $、 $ {\boldsymbol{z}}_{2} $的特征信息，使之互补应用于特征图. 分支融合层表达式为

图 6

新窗口打开| 下载原图ZIP| 生成PPT

图 6 自适应权重动态融合模块的结构图

Fig.6 Architecture of adaptive weight dynamic fusion module

(7) $ {{\boldsymbol{z}}_3} = \frac{1}{2}\sum\limits_{i = 1}^2 {{{\boldsymbol{z}}_i}} $

式中： $ {\boldsymbol{z}}_{i} $为输入特征信息, $ {\boldsymbol{z}}_{3}\in {\mathbf{R}}^{2C\times 1\times 1} $为分支融合层的输出. 使用2次1×1卷积分别进行降维和升维处理，实现跨通道的交互和信息整合，增强网络的非线性，同时减小运算量. 通过残差连接增强模型性能，加快收敛. 通过归一化处理，使用Sigmoid函数得到各个通道的注意力权重矩阵A $ \in {\mathbf{R}}^{2{C}\times 1\times 1} $. 最终输出Z的表达式为

(8) $ {\boldsymbol{Z}}={{\boldsymbol{z}}}_{0}·{\boldsymbol{A}} $

式中：Z $ \in {\mathbf{R}}^{2{C}\times{H}\times {W}} $ 为经过动态权重特征融合得到的输出. AFF模块先沿着通道维度将多尺度特征信息拼接在一起，再获取各个通道的注意力权重，为浅层特征和深层特征合理分配权重，抑制无关信息的干扰. 考虑到算法模型的轻量化，不使用其他复杂的注意力机制，通过轻量化结构ICAM即可实现权重特征的动态融合.

本研究将S-ECA模块和AFF模块应用到YOLOv5s的PANet^[14]结构中, 提出 $ \mathrm{S}\mathrm{A}\_\mathrm{P}\mathrm{A}\mathrm{N}\mathrm{e}\mathrm{t} $结构. 通过S-ECA模块在丰富的多尺度上下文信息中选择有用信息，抑制背景信息的干扰，从复杂背景中提取有效目标特征. 通过AFF模块实现不同尺度信息的动态融合，为浅层特征和深层特征合理分配权重，增强网络对密集小目标的检测能力. 改进后的PANet结构如图7所示.

图 7

新窗口打开| 下载原图ZIP| 生成PPT

图 7 改进后的PANet结构图

Fig.7 Architecture of improved PANet

2. 实验与分析

2.1. 实验环境及数据集

实验使用的硬件配置为NVIDIA GeForce RTX3070 (8 GB) GPU和AMD Ryzen75 800 H CPU，软件环境为Windows10系统下的Pytorch深度学习框架，CUDA为11.2. 训练初始学习率设置为0.01，循环学习率为0.01，训练轮数epoch=200，批大小为8，预热学习为3.0. 使用VisDrone2021数据集验证本研究所提算法的有效性. 该数据集由天津大学机器学习与数据挖掘实验室AISKYEYE团队负责，全部基准数据由无人机拍摄，包括288个视频片段，共261 908帧和10 209个静态图像，选取其中的6 471张作为训练集， 3 190张作为测试集和548张作为验证集. 图像种类包括行人（A）、人（B）、自行车（C）、汽车（D）、面包车（E）、卡车（F）、三轮车（G）、带篷三轮车（H）、公交车（I）以及摩托车（J）共10类，共2.6×10⁶个标注. 如图8所示为VisDrone2021数据集中的数据信息. 图中，N_I为类别数量，W_L为数据集中标签框的宽度，H_L为数据集中标签框的高度. 由图8可知，数据集中包含大量小目标，且目标分布密集.

图 8

新窗口打开| 下载原图ZIP| 生成PPT

图 8 VisDrone2021数据集中的数据信息

Fig.8 Data information in VisDrone2021 dataset

2.2. 评价指标

为了评估所提算法的有效性，选取模型的参数量N_P衡量计算内存资源的消耗、每秒1.0×10⁹次的浮点运算O衡量计算模型时的计算复杂度，每秒传输帧数F衡量模型的实时性. 选取mAP $ {}_{50} $和mAP $ {}_{50:95} $作为模型对多个目标类别综合检测性能的评价指标，mAP $ {}_{50} $代表IoU阈值为0.5时所有目标类别的平均检测精度，mAP $ {}_{50:95} $代表以步长为0.05，计算IoU阈值从0.50~0.95的所有10个IoU阈值下的检测精度的平均值. 选取平均精度AP来评价模型对单个目标类别的检测性能. 选取错检率E和漏检率M进一步评估模型的检测性能，错检率代表负样本被预测为正样本占总的负样本的比例，漏检率代表正样本被预测为负样本占总的正样本的比例.

2.3. 消融实验

以YOLOv5为基线算法，进行消融实验，训练图像分辨率设置为640×640，实验结果如表1和图9所示. 模型名称的下标表示相应结构在基线算法YOLOv5s中的添加位置，如模型3的CBAM增添在YOLOv5s的特征提取层. 模型2相对于基线算法YOLOv5s，mAP $ {}_{50} $、mAP $ {}_{50:95} $和F均增大，N_P、错检率、漏检率和O均减小. 表明LM-fem相对于YOLOv5s中的瓶颈层结构，特征提取能力更强，降低了模型的计算复杂度. 模型3、4的对比结果表明，S-ECA拥有更强的性能. 原因是S-ECA拥有较大感受野，能够在丰富的多尺度上下文信息中关注有用信息，且CBAM使用7×7卷积，为训练过程带来较大的计算开销. 模型5在YOLOv5s的PANet结构中加入动态权重特征融合模块AFF，为浅特征和深层特征合理分配权重，增强了小目标检测能力，相对基线算法YOLOv5s，mAP $ {}_{50} $、mAP $ {}_{50:95} $均增大，错检率、漏检率均减小. 模型6在模型5的基础上加入S-ECA ，与模型5相比，模型6虽然增大了计算量，但mAP $ {}_{50} $、mAP $ {}_{50:95} $均进一步增大，错检率、漏检率均减小，进一步证明S-ECA在深层特征的提取中依旧具有强大作用. 模型7引入Focal-EIOU损失函数代替CIOU损失函数，与基线算法YOLOv5s相比，mAP $ {}_{50} $、mAP $ {}_{50:95} $均增大，错检率、漏检率均减小，模型的检测精度增强.

表 1 消融实验中各模型的检测性能评价指标

Tab.1 Evaluation index of detection performance of each model in ablation experiment

编号	模型	mAP $ {}_{50} $/%	mAP $ {}_{50:95} $/%	N_P/10⁶	O	F/(帧·s⁻¹)	M/%	E/%
1	YOLOv5s	33.2	16.7	6.978	15.5	125	57.5	47.2
2	YOLOv5s+LM-fem	33.9	17.5	6.920	14.9	130	55.0	45.3
3	YOLOv5s+CBAM_backbone	34.7	18.5	7.556	17.5	98	54.2	42.8
4	YOLOv5s+S-ECA_backbone	35.9	20.4	7.540	17.2	105	52.5	39.5
5	YOLOv5s+AFF_neck	37.1	22.3	7.015	15.9	111	50.2	37.0
6	YOLOv5s+ $ \mathrm{S}\mathrm{A}\_\mathrm{P}\mathrm{A}\mathrm{N}\mathrm{e}\mathrm{t} $_neck	37.8	22.9	8.135	18.4	95	48.9	35.2
7	YOLOv5s+Focal-EIOU^[15]	33.5	17.2	7.322	16.1	120	56.6	45.8
8	LSA_YOLO	41.1	25.5	9.038	20.2	50	45.7	31.5

新窗口打开| 下载CSV

图 9

新窗口打开| 下载原图ZIP| 生成PPT

图 9 消融实验中各模型的平均精度均值

Fig.9 Mean average precision for each model in ablation experiment

综上所述，LSA_YOLO相较于基线算法YOLOv5s，mAP $ {}_{50} $、mAP $ {}_{50:95} $分别从33.2%、16.7%增大到41.1%、25.5%，错检率、漏检率分别从47.2%、57.5%减小到31.5%、45.7%，且保证了实时性，证明本研究所提算法可以很好地适用于无人机任务.

2.4. 训练阶段图像分辨率设置实验

为了验证训练阶段的图像分辨率设置对模型检测性能的影响，分别将训练图像分辨率设置为640 $ \times 640 $、1 024 $ \times 1\;024 $和1 504 $ \times 1\;504 $，在YOLOv5s和所提算法上进行实验，实验结果如表2所示. 由表可知，训练阶段的图像分辨率的增大有助于模型检测精度的提升，这是因为模型可以关注到更多的细节信息，提取更多小目标特征. 由于模型结构和规模并未改变，不会对模型参数量和检测速度产生影响，但会增大计算开销. 训练时合理设置图像分辨率，可以在精度和速度上取得平衡.

表 2 不同分辨率时模型的检测性能评价指标

Tab.2 Evaluation indicators for detection performance of models at different resolutions

模型	mAP ${}_{50}/\text{%}$	N_P/10⁶	O	F/(帧·s^{− 1})
$ \mathrm{Y}\mathrm{O}\mathrm{L}\mathrm{O}\mathrm{v}5\mathrm{s} $₆₄₀	33.2	6.978	15.5	125
$ \mathrm{Y}\mathrm{O}\mathrm{L}\mathrm{O}\mathrm{v}5\mathrm{s} $₁₀₂₄	47.0	6.978	41.0	125
$ \mathrm{Y}\mathrm{O}\mathrm{L}\mathrm{O}\mathrm{v}5\mathrm{s} $₁₅₀₄	51.5	6.978	88.2	125
LSA_YOLO₆₄₀	41.1	9.038	20.2	50
LSA_YOLO₁₀₂₄	49.7	9.038	51.7	50
LSA_YOLO₁₅₀₄	57.6	9.038	110.3	50

新窗口打开| 下载CSV

2.5. 对比实验

为了证明改进算法的优越性，设置训练图像分辨率为1 504 $ \times 1\;504 $，数据集VisDrone2021中10个类别的平均精度AP如表3所示，其中无平均精度值的3个算法的源码未公开. 如图10所示为不同算法的mAP $ {}_{50} $柱状对比图. 可以看出，相较于其他算法，改进算法的mAP $ {}_{50} $最大，达到57.6%，在行人、人、自行车、卡车、三轮车、公交汽车的图像检测中皆获得最优平均精度，小目标的检测精度显著提高，证明了本研究所提算法在无人机航空检测中的有效性. 如图11所示为本研究算法和部分算法的检测可视化对比，各分图右上方区域为图片的局部放大部分. 可以看出，CenterNet检测到YOLOv4未检测到的行人和部分摩托车，YOLOv5基本检测到所有的行人和摩托车，LSA_YOLO不仅成功检测到YOLOv5检测到的部分，还检测到远方的车辆和行人. 对比结果再次证明本研究所提算法在无人机密集小目标检测上的有效性.

表 3 不同算法在VisDrone2021数据集上的平均精度和平均精度均值

Tab.3 Average precision and mean average precision for different algorithms on VisDrone2021 dataset

算法	AP/%										mAP $ {}_{50} $/%
算法	A	B	C	D	E	F	G	H	I	J	mAP $ {}_{50} $/%
TridentNet^[16]	22.8	9.0	5.3	46.2	30.7	25.5	21.3	16.0	39.0	17.9	43.1
RRNet^[17]	30.5	14.8	14.1	51.5	35.8	35.2	28.8	19.0	45.0	26.0	55.0
CenterNet^[18]	28.0	12.0	8.9	51.2	35.9	27.5	21.0	19.8	37.7	20.9	48.5
YOLOv5+head	—	—	—	—	—	—	—	—	—	—	33.8
YOLOv5+upsampling	—	—	—	—	—	—	—	—	—	—	50.5
YOLOv5+ M-Bi	—	—	—	—	—	—	—	—	—	—	43.6
YOLOv4^[19]	25.0	13.1	8.5	64.2	22.5	22.6	11.5	8.0	44.5	22.0	43.0
YOLOv3-LITE^[20]	34.6	22.9	8.0	71.2	31.4	22.1	15.5	7.1	41.3	32.7	41.9
MSC-CenterNet^[21]	33.5	15.3	12.5	55.2	40.6	32.0	29.2	21.6	42.5	27.4	39.5
Faster R-CNN^[22]	21.0	14.7	7.5	51.0	30.2	19.6	15.7	9.5	31.6	20.3	33.2
LSA_YOLO	37.2	25.4	18.5	58.6	35.7	35.8	29.4	21.5	47.2	28.4	57.6

新窗口打开| 下载CSV

图 10

新窗口打开| 下载原图ZIP| 生成PPT

图 10 不同算法在VisDrone2021数据集上的平均精度均值柱状图

Fig.10 Bar chart of mean average precision for different algorithms on VisDrone2021 dataset

2.6. 算法有效性分析

为了验证本研究所提算法在实际场景中的目标检测效果，选取VisDrone2021数据集中一些复杂图像进行检测，检测效果如图12. 图12（a）中分布紧密的人群和自行车均被LSA_YOLO检测到，验证了所提算法在密集目标检测上的卓越性能. 图12(b)中存在大量遮挡，LSA_YOLO不仅能够准确检测到目标，还检测到图边缘处的车辆和行人. 图12(c)是高空拍摄下的效果检测图，图中的车辆小目标均被LSA_YOLO检测到，证明所提算法在小目标检测上具有优势. 图12(d)是暗夜检测结果，LSA_YOLO受光线影响较小，在昏暗环境下仍旧有很好的检测性能.

图 12

新窗口打开| 下载原图ZIP| 生成PPT

图 12 LSA_YOLO算法在复杂场景中的检测效果图

Fig.12 Detection effect of LSA_YOLO algorithm in complex scenes

为了评述本研究所提算法和基线算法在无人机目标检测任务上的性能差异，选取VisDrone2021数据集中白天场景和黑夜场景进行实验，并对对比区域进行放大，可视化对比如图13所示. 可以看出，与YOLOv5相比，LSA_YOLO在复杂背景中检测密集小目标的性能更好，漏检和误检较少.

图 11

新窗口打开| 下载原图ZIP| 生成PPT

图 11 不同算法的目标检测效果可视化对比图

Fig.11 Visual comparison of target detection results for different algorithms

图 13

新窗口打开| 下载原图ZIP| 生成PPT

图 13 LSA_YOLO算法和基线算法的检测效果对比图

Fig.13 Comparison of detection effects between LSA_YOLO algorithm and baseline algorithm

3. 结　论

（1）本研究改进YOLOv5s，提出LSA_YOLO算法. 针对无人机图像特征提取困难的问题，使用多尺度特征提取模块LM-fem，替代 YOLOv5s网络中的Bottleneck结构，获取了更加丰富的特征信息，降低了YOLOv5s的计算复杂度.

（2）针对无人机图像背景复杂的特点，提出新的混合域注意力机制S-ECA，替代YOLOv5s主干网络的2层C3结构，区分目标信息与背景信息，提高了模型在复杂背景下的目标检测能力. 针对无人机图像小目标数量多，缺乏有效特征信息的问题，在特征融合层使用自适应权重动态融合结构AFF，解决了YOLOv5s在浅层特征和深层特征融合过程中，产生的语义冲突和融合权重分配不合理问题. 将AFF与S-ECA应用于YOLOv5s的PANet结构得到的SA_PANet结构，提高了模型在复杂背景下的密集小目标检测能力. 引入收敛速度更快、定位效果更好的Focal-EIOU损失函数代替CIOU损失函数，进一步提高模型检测性能.

（3）在VisDrone2021数据集中的实验结果表明，相较于其他算法，LSA_YOLO的mAP $ {}_{50} $取得最大值，达到57.6%，LSA_YOLO检测行人、人、自行车、卡车、三轮车、公交汽车类别的AP最优，证明了所提算法在无人机航空检测中的有效性.

（4）SA_PANet结构虽然大幅提高了模型在复杂背景下的密集小目标检测能力，但也导致模型的参数量、计算量增加，未来计划继续开展对所提算法的模型轻量化研究.

参考文献

原文顺序

文献年度倒序

文中引用次数倒序

被引期刊影响因子

[1]

奉志强, 谢志军, 包正伟, 等

基于改进 YOLOv5的无人机实时密集小目标检测算法

[J]. 航空学报, 2023, 44 (3): 327106