浙江大学学报(工学版), 2025, 59(8): 1708-1717 doi: 10.3785/j.issn.1008-973X.2025.08.018

计算机技术、控制工程、通信技术

改进YOLOv8s的轻量级无人机航拍小目标检测算法

翟亚红,, 陈雅玲, 徐龙艳,, 龚玉

湖北汽车工业学院 电气与信息工程学院,湖北 十堰 442002

Improved YOLOv8s lightweight small target detection algorithm of UAV aerial image

ZHAI Yahong,, CHEN Yaling, XU Longyan,, GONG Yu

School of Electrical and Information Engineering, Hubei University of Automotive Technology, Shiyan 442002, China

通讯作者: 徐龙艳,男,高级实验师. orcid.org/0009-0006-4650-9138. E-mail: xuly_dy@huat.edu.cn

收稿日期: 2024-07-16  

基金资助: 湖北省教育厅科研计划资助项目(D202111802);湖北省科技厅重点研发计划资助项目(2022BEC008);中南民族大学信息物理融合智能计算国家民委重点实验室开放基金资助项目(CPFIC202402).

Received: 2024-07-16  

Fund supported: 湖北省教育厅科研计划资助项目(D202111802);湖北省科技厅重点研发计划资助项目(2022BEC008);中南民族大学信息物理融合智能计算国家民委重点实验室开放基金资助项目(CPFIC202402).

作者简介 About authors

翟亚红(1979—),女,教授,从事目标检测的研究.orcid.org/0009-0008-9334-3729.E-mail:zhaiyh_dy@huat.edu.cn , E-mail:zhaiyh_dy@huat.edu.cn

摘要

针对无人机航拍图像背景复杂、目标尺寸小及设备资源有限等问题,提出轻量化小目标检测算法RTA-YOLOv8s. 在主干网络引入RepVGG模块,增强特征提取能力. 应用三分支注意力机制,降低小目标的误检率和漏检率. 增加小目标专用检测头,提高对小目标的检测能力. 采用WIoUv3作为损失函数,提升模型的定位性能和鲁棒性. 实验结果表明,RTA-YOLOv8s算法在VisDrone数据集中的mAP50达到44.9%,检测速度达到88.5帧/s. 与基线算法YOLOv8s相比,mAP50提升了6.1%,检测准确率提高了4.7%,参数量减少了13.9%. 利用改进的算法,有效解决了复杂场景下检测效果不佳的问题,在精度和速度之间取得了很好的平衡. 设计人机界面,实现结果可视化,使检测任务更加直观且易操作,适合无人机航拍的目标检测.

关键词: 无人机(UAV) ; 小目标检测 ; YOLOv8s ; 轻量化方法 ; 注意力机制

Abstract

A lightweight small target detection algorithm called RTA-YOLOv8s was proposed in order to address the challenges of complex backgrounds, small target, and limited device resources in UAV images. The RepVGG module was introduced into the backbone network to enhance feature extraction capabilities. A tri-branch attention mechanism was applied to reduce false positive and false negative rates. A dedicated small target detection head was integrated to improve detection accuracy. The WIoUv3 loss function was adopted to improve localization and robustness. The experimental results showed that the RTA-YOLOv8s algorithm achieved a mAP50 of 44.9% and detection speed of 88.5 frame per second on the VisDrone dataset. mAP50 increased by 6.1%, detection accuracy increased by 4.7%, and params reduced by 13.9% compared with YOLOv8s. The improved algorithm effectively addresses the poor detection performance in complex UAV scenes, and balances accuracy and speed. The user-friendly interface design enables result visualization, making detection tasks more intuitive and easier to operate, and is suitable for UAV target detection.

Keywords: unmanned aerial vehicle (UAV) ; small target detection ; YOLOv8s ; lightweight approach ; attention mechanism

PDF (2456KB) 元数据 多维度评价 相关文章 导出 EndNote| Ris| Bibtex  收藏本文

本文引用格式

翟亚红, 陈雅玲, 徐龙艳, 龚玉. 改进YOLOv8s的轻量级无人机航拍小目标检测算法. 浙江大学学报(工学版)[J], 2025, 59(8): 1708-1717 doi:10.3785/j.issn.1008-973X.2025.08.018

ZHAI Yahong, CHEN Yaling, XU Longyan, GONG Yu. Improved YOLOv8s lightweight small target detection algorithm of UAV aerial image. Journal of Zhejiang University(Engineering Science)[J], 2025, 59(8): 1708-1717 doi:10.3785/j.issn.1008-973X.2025.08.018

随着无人机(unmanned aerial vehicle,UAV)技术的快速发展,其在军事侦察、灾难救援、农业监测和城市规划等领域的应用日益扩大[1-2]. 尤其在目标检测方面,无人机独特的高空视角能够快速、大范围地获取高分辨率图像. 由于无人机拍摄角度多变、目标遮挡、光照和天气变化等因素,小目标的特征常常不完整,易造成漏检和误检. 如何有效利用小目标的特征信息来提升检测性能,是无人机航拍图像目标检测的一大难点,具有重要的研究价值与广阔的应用前景.

目前,主流的目标检测算法主要基于深度学习模型,依据检测方式可以分为以下两大类. 1)两阶段算法,如R-CNN等算法. 这类算法的准确率较高,但因计算量大,导致检测速度慢,不适用于无人机快速运动和高速检测的环境. 2)单阶段算法,如RetinaNet、SSD、YOLO[3]系列等算法. 单阶段算法的检测精度略低于两阶段算法,但检测速度更快,便于部署到各项任务中,因此更适合使用单阶段算法进行研究.

针对无人机航拍图像中的小目标检测问题,国内外学者展开了大量研究. Zhu等[4]提出TPH-YOLOv5,通过集成Transformer编码器和CBAM模块,显著提升了目标检测性能. Wang等[5]提出UAV-YOLOv8检测模型,通过引入WIoU v3损失函数、BiFormer注意力机制和FFNB,提升了检测精度,但增加了计算资源消耗. Li等[6]改进了Bi-PAN-FPN特征融合,使用GhostblockV2减少参数,采用WiseIoU损失函数,在边缘设备上实现了高效检测,但在某些小类别上无法取得比其他模型更好的结果. Shao等[7]在骨干和头部引入CoordAtt和shuffle注意力机制,提高了检测的准确性,但尚未有效解决遮挡或模糊车辆的识别问题. Xu等[8]通过集成改进的卷积模块、多尺度检测头和优化的IoU机制,模型实现了显著的性能提升. Sui等[9]提出改进的小目标检测模型BDH-YOLO,通过引入BiFPN,采用动态检测头DyHead,显著提升了检测的精度. 刘树东等[10]在主干网络嵌入倒置残差注意力模块,改善了小目标漏检的问题. 潘玮等[11]引入感受野注意力卷积和CBAM注意力机制,增加具有小目标语义信息的特征层,利用较小的模型得到较高的精度. 邓天民等[12]通过降低通道维数,实现对冗余特征信息的高效复用.

尽管基于深度学习的小目标检测具备了很好的效果,但存在诸多不足. 本文以YOLOv8s为基线模型,提出轻量化RTA-YOLOv8s模型. 该模型在特征提取网络引入RepVGG重参数化模块,融合三分支注意力机制,添加小目标检测头,并将损失函数替换为WIoUv3,在提升小目标检测精度的同时降低了模型计算量,更加适合无人机航拍场景下的实时检测.

1. YOLOv8算法

YOLOv8是Ultralytics公司开源的单阶段目标检测算法,包含n、s、m、l、x共5个版本的模型,以适应不同的应用需求. 为了减少资源消耗,平衡实时性与精度,选取YOLOv8s作为实验的基准模型.

YOLOv8的整体结构分为4部分,分别为输入端(input)、主干网络(backbone)、颈部网络(neck)和检测头(head). 输入端采用Mosaic数据增强方法. 主干网络由Conv、C2f和SPPF模块组成. C2f模块借鉴了C3和ELAN的设计思想,通过并行级联获取丰富的梯度流信息,以轻量方式提升检测精度. 颈部网络采用PAN-FPN[13-14]结构,通过上采样和下采样路径,实现不同尺度特征图的融合. 检测头采用解耦头结构(decoupled-head),实现分类与检测任务的分离. 采用无锚框Anchor-free机制,精确地获取大、中、小尺寸目标物体的分类和位置信息.

2. 改进的RTA-YOLOv8s算法

面对无人机在高空飞行捕捉的图像出现严重的形变和遮挡,目标尺寸差异大,计算资源有限的问题,提出RTA-YOLOv8s算法,在保证精度的同时,具备较高的运行速度和较低的计算开销,以满足实时性的要求. 改进后的网络模型结构如图1所示.

图 1

图 1   改进的轻量化RTA-YOLOv8s网络结构

Fig.1   Structure of improved lightweight RTA-YOLOv8s network


主要的改进措施如下.

1) 使用RepVGG重参数化网络替换主干网络的标准Conv,提升网络对目标特征的提取能力.

2) 应用三分支注意力机制模块替换主干的C2f,捕获不同维度的交互信息,增强模型对关键信息的关注度.

3) 额外增加针对小目标的检测头,以获取更多的小目标特征信息,提高模型对小目标的检测能力.

4) 采用WIoUv3作为边界框回归的损失函数,减少距离、横纵比的惩罚项干扰,提高对遮挡重叠航拍目标检测的定位性能.

2.1. RepVGG重参数化网络

将YOLOv8主干网络中的卷积模块替换为RepVGG[15],能够更好地适应复杂的高空场景,满足无人机高精度、快速度的检测需求.

RepVGG是高效的网络结构,核心是3×3卷积后紧跟ReLU激活函数. 结构如图2所示. 在训练阶段,RepVGG的基本卷积块由多个分支组成,包括1个3×3卷积层、1个1×1卷积层和1个恒等映射,激活函数为ReLU. 在推断阶段,该结构会被重新参数化,这使得RepVGG仅包含3×3卷积和ReLU激活函数. 重参数化方法类似于ResNet,该模块通过残差方式来学习$f$,将信息流建模为${\boldsymbol{y}} = {\boldsymbol{x}}+f\left( {\boldsymbol{x}} \right)$. 当输入维度和输出维度不相等时,使用1×1卷积对分支的维度进行调整,网络输入变为${\boldsymbol{y}} = g\left( {\boldsymbol{x}} \right)+f\left( {\boldsymbol{x}} \right)$,其中$g\left( {\boldsymbol{x}} \right)$是1×1的卷积操作. 这种设计在保持高性能的同时,大大减少了推理阶段的计算量,使RepVGG特别适合于移动设备和实时应用中的高效推理任务.

图 2

图 2   RepVGG网络的结构

Fig.2   Structure of RepVGG network


2.2. Triplet注意力机制

传统注意力机制的缺点在于通道注意力和空间注意力相互独立,忽略二者之间的关系. 在骨干网络中嵌入Triplet Attention[16]模块,通过减少冗余信息,并抑制背景干扰,更关注小目标的关键区域. 该模块引入跨维度交互,通过旋转操作和残差变换建立维度间的依存关系,并以极低的计算开销,实现通道间和空间信息的有效编码,提高网络对重要特征的学习能力. 三分支注意力机制的结构如图3所示.

图 3

图 3   Triplet注意力机制的结构

Fig.3   Structure of Triplet attention mechanism


第1分支是HW之间的交互. 通过Z-Pool操作,将通道维度减少到2维. 经7×7卷积层、批量归一化层和Sigmoid激活函数,生成注意力权重. Z-Pool操作如下所示:

$ {{\text{Z-Pool}}}\left( {{\boldsymbol{x}}} \right){ = }\left[ {{{\mathrm{MaxPoo}}}{{{\mathrm{l}}}_{{{\mathrm{od}}}}}\left( {{\boldsymbol{x}}} \right){,\;}{{\mathrm{AvgPoo}}}{{{\mathrm{l}}}_{{{\mathrm{od}}}}}\left( {{\boldsymbol{x}}} \right)} \right] . $

式中:${\mathrm{MaxPoo}}{{\mathrm{l}}_{{\mathrm{od}}}}$为最大池化,${\mathrm{AvgPoo}}{{\mathrm{l}}_{{\mathrm{od}}}}$为平均池化,${{\boldsymbol{x}}}$为输入张量.

第2和第3分支分别捕获CWCH维度的交互,对输入张量通过permute操作,转化为对应维度. 执行与第1分支相同的处理流程,通过permute操作还原为原始维度.

对3个分支的所有输出特征进行加权,求得平均值.

2.3. P2小目标检测层

无人机拍摄的图像中小目标实例多,加上受限于无人机视角下的视觉模糊,当前网络难以捕捉网格内的目标特征信息,导致原模型对小目标的检测能力较弱,影响网络的训练效率. 原始的YOLOv8模型检测头主要集中在P3、P4和P5 3个尺度上,但经过多次卷积和下采样池化操作后,小目标的特征信息不够明显,甚至融入背景中,导致漏检和误检.

针对上述问题,在原有的P3、P4和P5层基础上增加小目标检测层P2,形成四尺度特征融合检测网络,如图4所示. 可知,在主干网络上对尺寸为80×80的第2层特征图进行上采样,得到160×160的特征图,并与浅层特征融合,增强了小目标的位置信息保留. 利用该方法,提高了小目标的检测精度和速度,不影响大目标的检测精度. 采用P2、P3、P4和P5 4个检测头,共同辅助模型完成最后的检测任务.

图 4

图 4   四尺度特征融合网络

Fig.4   Four-scale feature fusion network


2.4. WIoUv3损失函数

无人机图像大多是从高空拍摄,会出现大量小目标和部分目标遮挡的情况,这将对模型的检测性能产生不利的影响. YOLOv8默认使用CIoU函数作为边界框损失函数,主要考虑了3个因素:重叠面积、中心点和纵横比例. 计算如下所示.

$ {L_{{\mathrm{CIoU}}}} = {L_{{\mathrm{IoU}}}}+\frac{{{\rho ^2}\left( {{\boldsymbol{b}},{{\boldsymbol{b}}_{{\mathrm{gt}}}}} \right)}}{{{c^2}}}+\alpha \nu . $

$ {L_{{\mathrm{IoU}}}} = 1 - {\mathrm{IoU}}\text{,}{\mathrm{IoU}} = \frac{{\left| {A \cap B} \right|}}{{\left| {A \cup B} \right|}}. $

$ \nu = \frac{4}{{{\text{π} ^2}}}{\left( {\arctan \frac{{{w_{{\mathrm{gt}}}}}}{{{h_{{\mathrm{gt}}}}}} - \arctan \frac{{{w_{\mathrm{b}}}}}{{{h_{\mathrm{b}}}}}} \right)^2} . $

$ \alpha = \frac{\nu }{{\left( {1 - {\mathrm{IoU}}} \right)+\nu }}. $

式中:${\mathrm{IoU}}$为两框的交并比;${\boldsymbol{b}}$${{\boldsymbol{b}}_{{\mathrm{gt}}}}$分别为预测框和真实框的中心点;$\rho \left( {{\boldsymbol{b}},{{\boldsymbol{b}}_{{\mathrm{gt}}}}} \right)$为真实框和预测框中心点的欧氏距离;$c$为真实框和预测框的最小外接矩形的对角线长度;$\alpha \nu $为长宽比惩罚项,其中$\alpha $为权重系数,$\nu $为长宽相似比,$\nu $越小说明预测框和真实框的长宽比越接近;$ {w_{\mathrm{b}}} $${h_{\mathrm{b}}}$分别为预测框的宽和高;${w_{{\mathrm{gt}}}}$${h_{{\mathrm{gt}}}}$分别为真实框的宽和高.

CIoU解决训练过程中边框之间重叠区域宽度无法更新的问题. 如图5所示,当真实框和预测框的长宽比相同(即${w_{{\mathrm{gt}}}}/{h_{{\mathrm{gt}}}} = {w_{\mathrm{b}}}/{h_{\mathrm{b}}}$)时,$\nu = 0$,长宽比惩罚项失去作用,会对图像造成惩罚过重的结果.

图 5

图 5   CIoU与WIoU的示意图

Fig.5   Schematic diagram of CIoU and WIoU


为了削弱预测框和真实框重合时几何度量的惩罚,提高模型的泛化能力,引入具有动态非单调聚焦机制[17]的损失函数. 根据距离度量构建距离注意力,得到具有2层注意力机制的WIoUv1损失函数,计算公式如下.

$ {L_{{\mathrm{WIoUv1}}}} = {R_{{\mathrm{WIoU}}}}{L_{{\mathrm{IoU}}}}\text{;}{R_{{\mathrm{WIoU}}}} \in \left[ {1,{\mathrm{e}}} \right)\text{,}{L_{{\mathrm{IoU}}}} \in \left[ {0,1.0} \right]. $

$ {R_{{\mathrm{WIoU}}}} = \exp \left( {\frac{{{{\left( {x - {x_{{\mathrm{gt}}}}} \right)}^2}+{{\left( {y - {y_{{\mathrm{gt}}}}} \right)}^2}}}{{\left( {{W_{\mathrm{g}}}^2+{H_{\mathrm{g}}}^2} \right)^*}}} \right) . $

式中:${R_{{\mathrm{WIoU}}}}$为高质量锚框的损失;$x$$y$分别为预测框中心点的坐标;${x_{{\mathrm{gt}}}}$${y_{{\mathrm{gt}}}}$分别为真实框中心点的坐标;${W_{\mathrm{g}}}$${H_{\mathrm{g}}}$分别为真实框与预测框的最小外接矩形的宽和高. ${R_{{\mathrm{WIoU}}}}$用于放大普通质量锚框的${L_{{\mathrm{IoU}}}}$. ${L_{{\mathrm{IoU}}}}$用于降低高质量锚框的${R_{{\mathrm{WIoU}}}}$;上标$ * $是进行分离操作,将${W_{\mathrm{g}}}$${H_{\mathrm{g}}}$从计算中分离出来,能够防止${R_{{\mathrm{WIoU}}}}$阻碍收敛的梯度.

WIoUv3在WIoUv1的基础上,通过引入参数$\beta $,避免低质量图像产生的有害梯度. WIoUv3的计算公式如下.

$ {L_{{\mathrm{WIoUv3}}}} = r{L_{{\mathrm{WIoUv}}1}}\text{;} r = \frac{\beta }{{\delta {\alpha ^{\beta - \delta }}}} . $

$ \beta = \frac{{L_{{\mathrm{IoU}}}^ * }}{{\overline {{L_{{\mathrm{IoU}}}}} }} \in \left[ {0,+\infty } \right) . $

式中:$r$为非单调聚焦系数;$\beta $为离群度;$\alpha $$\delta $为超参数;$L_{{\mathrm{IoU}}}^ * $为两框交并比损失值,是动态变化的. 可见,使用的WIoUv3损失函数能够在训练时制定最优梯度增益分配策略,减小由低质量样本引起的不利梯度,并将注意力集中在普通质量的锚框上,提升无人机航拍图像的小目标检测精度和泛化能力.

3. 实验设计与结果分析

3.1. 数据集与实验设置

使用公开的无人机视觉目标检测数据集VisDrone2019[18]. 该数据集由天津大学AISKYEYE团队收集,涵盖城乡道路交通场景中的pedestrian、people、bicycle、car、van、truck、tricycle、awning-tricycle、bus、motor共10个类别. 将数据集中的8 629张标记图像按照7︰2︰1的比例随机划分,使用6 471张图像用于训练,548张图像用于验证,1 610张图像用于测试.

所有实验都是在深度学习框架Pytorch2.1.0、Python3.10和Cuda12.1的环境下进行. 实验所用的处理器为12th Gen Intel(R) Core(TM) i5-12400F 2.50 GHz,GPU型号为NVIDIA GeForce RTX 3090 24 GB. 本实验不采用预训练权重. 当模型指标在近50轮训练中不再提升时,将触发early-stopping策略停止训练.

训练过程的参数设置如下:采用SGD作为优化器,初始学习率为0.01,动量为0.937,输入图像大小为640×640,批量大小为8,训练轮数为300.

3.2. 模型评价指标

为了客观评估算法在无人机航拍场景中的检测性能,采用的主要指标有精确率P、召回率R、平均精度AP、平均精度均值mAP、检测速度v、网络参数量Np、每秒浮点运算次数(FLOPs). 计算如下所示:

$ P = \frac{{{{\mathrm{TP}}}}}{{{{\mathrm{TP}}+{\mathrm{FP}}}}} \text{,} $

$ R = \frac{{{{\mathrm{TP}}}}}{{{{\mathrm{TP}}+{\mathrm{FN}}}}}\text{,} $

$ {{\mathrm{AP}}} = \int_0^1 {P\left( R \right){{\mathrm{d}}}R} \text{,} $

$ {{\mathrm{mAP}}} = \frac{1}{n}\sum\limits_{i = 1}^n {{{\mathrm{A}}}{{{\mathrm{P}}}_i}} . $

式中:P为预测为正例的样本中预测正确的比例;R为在所有正类样本中模型正确判定为正类的比例;P(R)为精度和召回率曲线,每个IoU阈值对应一条曲线;AP为单个类别的精度;mAP为所有类别AP值的加权平均.

3.3. 消融实验

为了验证本文算法的检测性能,探究各个改进模块的提升效果,在YOLOv8s的基础上进行消融实验,分为10个不同的组,实验结果如表1所示. 表中,mAP50为阈值为0.5时的平均检测精度,mAP50:95为阈值为0.5~0.95时的平均检测精度.

表 1   改进模块的消融实验结果

Tab.1  Ablation experiment result on improved module

组别基线RepVGGTripletP2WIoUv3P/%R/%mAP50/%mAP50:95/%Np/106FLOPs/109v/(帧•s−1)
149.638.238.823.211.128.5128.2
250.138.844.223.811.328.9131.5
351.339.340.624.311.229.699.1
454.042.744.226.910.636.7139.8
550.539.240.324.211.128.5123.5
651.538.439.824.011.530.085.5
754.441.743.926.910.837.1125.0
853.442.844.126.810.837.890.9
954.442.744.427.010.938.290.9
1054.543.044.927.110.938.288.5

新窗口打开| 下载CSV


根据表1的消融实验结果可知,第2组引入RepVGG模块后,各项指标显著提升,R、mAP50、mAP50:95分别提升了0.6%、5.4%、0.6%,v提升了3.3帧/s,这表明了RepVGG增强特征提取能力的有效性. 第3组Triplet Attention的加入,检测精度达到51.3%,参数量下降了13.9%,证明利用该注意力机制,能够有效地捕捉重要特征. 第4组增加P2检测头后,小目标的检测能力显著增强,准确率达到54%,mAP50提升了5.4%,检测速度最快. 第5组实验中,单独使用WIoUv3损失函数的效果不显著,但与其他改进措施相结合时,可以进一步提高PR和mAP,这种提升主要得益于WIoUv3损失函数对普通质量锚框的有效关注.

第6~10组的消融实验表明,提出的RTA-YOLOv8s模型有明显的提升效果,综合性能最佳,精确度、召回率、mAP50最高,分别为54.5%、43.0%、44.9%,参数量降低了13.9%,检测速度达到88.5帧/s.

利用上述改进方法,不仅提高了模型的精度,而且大幅减少了参数量,实现了模型的轻量化,证明了所提改进策略的有效性和现实性,满足在保证一定检测速度的前提下提升检测精度的目标要求,适合无人机实时检测的任务.

3.4. 对比实验

为了验证WIoUv3损失函数的有效性,在相同的实验环境下与其他主流损失函数进行对比,对比结果如图6所示. 图中,Ni为迭代次数,Loss为损失. 从图6可见,损失函数WIoUv3的收敛速度更快,且收敛后损失值处于最低点,曲线下降幅度最大. 当采用WIoUv3损失函数时,预测框能够更好地向真实框拟合. 本文算法具有更优的训练效果.

图 6

图 6   不同损失函数曲线的对比

Fig.6   Comparison of loss function curves


为了更清晰地观测模型在小目标检测任务中的性能差异,将原模型和改进的模型放在同样的实验环境下进行对比实验,效果对比如图7所示.

图 7

图 7   YOLOv8s算法改进前、后的指标对比

Fig.7   Comparison of metrics before and after improvement of YOLOv8s algorithm


图7可以看出,改进模型和原模型都收敛,但改进模型收敛更平稳,收敛过程的波动范围逐步收窄,mAP曲线更平滑. 改进后的模型在检测过程中更稳定,整体性能更优.

为了证明提出的RTA-YOLOv8s算法在无人机航拍图像检测应用场景中的有效性,将改进后的算法与其他算法进行对比,实验结果见表2图8.

表 2   不同算法在VisDrone 2019数据集上的对比实验结果

Tab.2  Comparison of result of different algorithms on VisDrone 2019 dataset

模型AP/%mAP50/%
pedestrianpeoplebicyclecarvantrucktricycleawning-tricyclebusmotor
RetinaNet28.620.39.873.233.431.815.514.358.025.331.4
Faster R-CNN[19]22.214.87.654.631.521.614.88.634.921.423.2
YOLOv3-LITE[20]34.523.47.970.831.321.915.26.240.932.728.5
YOLOv5n32.626.16.969.028.123.715.58.936.432.127.9
YOLOv5s40.032.112.673.936.832.922.012.847.539.235.0
TPH-YOLOv5[4]29.016.715.768.949.845.127.324.761.830.936.9
YOLOv7-tiny[21]48.340.312.882.442.332.923.313.656.649.240.2
YOLOv8n39.538.528.59.243.334.131.726.047.140.533.8
YOLOv8s41.632.213.579.345.036.628.315.954.243.438.8
SPE_ YOLOv8s[22]43.331.518.982.746.943.125.623.862.342.542.1
PVswin-YOLOv8s[23]45.935.716.481.549.142.432.817.762.948.243.3
YOLOv9t36.222.010.971.744.144.621.218.460.833.336.2
YOLOv10s41.124.616.174.948.451.824.521.864.139.840.7
RTA-YOLOv8s52.142.519.084.548.939.031.219.758.653.244.9

新窗口打开| 下载CSV


图 8

图 8   不同模型的AP对比

Fig.8   AP comparison among different models


从所有参与比较的模型可知,本文算法在平均精度mAP50指标上取得了最优的结果,达到44.9%. 其中,行人、轿车、公共汽车、摩托车这4个较大物体的精度高于整个数据集的平均水平,在三轮车和自行车这2个较小物体上的表现超越其他算法,证明本文算法具有更强的提取特征信息能力和更高的准确性,这为无人机航拍领域的目标检测提供了有力的技术支持.

3.5. 模型特征的可视化

为了更直观地展示所提改进措施的有效性,采用Grad-CAM[24]技术进行可视化分析,确定网络各部分对特定类别预测的重要性. Grad-CAM通过反向传播得到梯度矩阵,进行全局平均池化后,生成特征层通道的加权激活热力图. 热力图颜色越深表示模型对区域的关注度越高,目标存在的概率越大. 如图9所示为YOLOv8s和RTA-YOLOv8s的热力图可视化结果对比.

图 9

图 9   热力图可视化结果

Fig.9   Heatmap visualization result


图9可以看出,与原模型相比,改进后的RTA-YOLOv8s模型对背景中的建筑物和树木的噪声信息抑制更好,能够更加准确地关注到车辆和行人的特征,pedestrian类别的热力值更高. 模型的注意力更集中于物体的中心点,预测的位置更加准确,更符合样本的真实情况,提高了模型的整体检测性能.

为了验证本文改进算法的优点,随机选取多种场景进行测试,包含稀疏与密集、强曝光与低可见光以及存在遮挡的图像. 检测结果如图10所示,左图为原模型检测结果,右图为改进的RTA-YOLOv8s检测结果.

图 10

图 10   不同环境下的检测结果

Fig.10   Detection result under different environment


图10表明,改进模型在各种场景下均能准确地标注大量的车辆和行人,置信度较高. 在密集目标环境(见图10(a))和低可见光环境(见图10(d))下,原模型存在漏检边缘区域人员的情况,利用改进的模型,有效减少了漏检现象. 这表明RTA-YOLOv8s模型具备更强的鲁棒性和泛化能力,具备执行无人机航拍图像目标检测任务的能力,在实际应用中具有显著的价值.

3.6. 系统测试

为了使得检测操作更加便捷,基于PyQt5设计无人机目标智能检测系统,系统的总体框架图如图11所示.

图 11

图 11   无人机目标智能检测系统的总体框架

Fig.11   General framework of intelligent UAV target detection system


利用RTA-YOLOv8s模型训练得到的best.pt权重文件,对航拍目标进行检测,检测可视化界面如图12所示.

图 12

图 12   系统检测界面

Fig.12   System detection interface


检测结果界面中显示目标标注框、标签和置信度. 可知,此幅图像的总目标数为32,检测用时为0.183 s,序号36的摩托车坐标位置为[1140, 927, 1179, 972],置信度为62.1%,检测效率远远超过人工处理,说明本文算法适合边缘部署. 待检测完成后,用户可以将结果保存至本地文件,便于后续的分析和处理.

通过上述检测系统的设计与实现,展示了RTA-YOLOv8s算法在实际应用中的强大性能. 通过图形用户界面,实现了结果的直观展示和易操作性,能够有效应对大面积场景的监控需求,提升目标监测的智能化水平,具有很强的实用价值.

4. 结 语

本文针对无人机航拍图像的目标检测进行优化,提出轻量级RTA-YOLOv8s算法. 该算法通过采用RepVGG重参数化模块,引入三分支注意力模块,增加小目标检测分支和利用WIoUv3损失函数,有效平衡检测精度和速度的问题. 与原算法相比,改进后的RTA-YOLOv8s模型的mAP50提升了6.1%,参数量减少了13.9%,模型的最终检测精度达到54.3%,较YOLOv8s模型高4.7%,检测速度达到88.5帧/s. 本文提出的RTA-YOLOv8s算法的模型参数量少,识别速度快,完全能够满足无人机航拍场景高精度实时检测的需求. 利用PyQt5对RTA-YOLOv8s模型进行封装、打包,开发了无人机目标智能检测系统,极大方便了工作人员对地面目标的检测和研究.

在未来的研究与工作中,将利用剪枝和知识蒸馏技术,优化模型的精确度和实时检测性能. 将网络模型部署在嵌入式设备上,扩展应用范围,推动无人机技术在各领域的广泛应用.

参考文献

ZRELLI I, REJEB A, ABUSULAIMAN R, et al

Drone applications in logistics and supply chain management: a systematic review using latent Dirichlet allocation

[J]. Arabian Journal for Science and Engineering, 2024, 49 (9): 12411- 12430

DOI:10.1007/s13369-023-08681-0      [本文引用: 1]

奉志强, 谢志军, 包正伟, 等

基于改进YOLOv5的无人机实时密集小目标检测算法

[J]. 航空学报, 2023, 44 (7): 251- 265

[本文引用: 1]

FENG Zhiqiang, XIE Zhijun, BAO Zhengwei, et al

Real-time dense small object detection algorithm for UAV based on improved YOLOv5

[J]. Acta Aeronautica et Astronautica Sinica, 2023, 44 (7): 251- 265

[本文引用: 1]

WANG C Y, BOCHKOVSKIY A, LIAO H Y M. YOLOv7: trainable bag-of-freebies sets new state-of-the-art for real-time object detectors [C]// Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. Vancouver: IEEE, 2023: 7464-7475.

[本文引用: 1]

ZHU X K, LYU S C, WANG X, et al. TPH-YOLOv5: improved YOLOv5 based on transformer prediction head for object detection on drone-captured scenarios [C]// Proceedings of the IEEE/CVF International Conference on Computer Vision Workshops. Montreal: IEEE, 2021: 2778-2788.

[本文引用: 2]

WANG G, CHEN Y F, AN P, et al

UAV-YOLOv8: a small-object-detection model based on improved YOLOv8 for UAV aerial photography scenarios

[J]. Sensors, 2023, 23 (16): 7190

DOI:10.3390/s23167190      [本文引用: 1]

LI Y T, FAN Q S, HUANG H S, et al

A modified YOLOv8 detection network for UAV aerial image recognition

[J]. Drones, 2023, 7 (5): 304

DOI:10.3390/drones7050304      [本文引用: 1]

SHAO Y F, YANG Z X, LI Z H, et al

Aero-YOLO: an efficient vehicle and pedestrian detection algorithm based on unmanned aerial imagery

[J]. Electronics, 2024, 13 (7): 1190

DOI:10.3390/electronics13071190      [本文引用: 1]

XU L Y, ZHAO Y F, ZHAI Y H, et al

Small object detection in UAV images based on YOLOv8n

[J]. International Journal of Computational Intelligence Systems, 2024, 17 (1): 1- 9

DOI:10.1007/s44196-023-00380-w      [本文引用: 1]

SUI J C, CHEN D K, ZHENG X, et al

A new algorithm for small target detection from the perspective of unmanned aerial vehicles

[J]. IEEE Access, 2024, 12 (99): 29690- 29697

[本文引用: 1]

刘树东, 刘业辉, 孙叶美, 等

基于倒置残差注意力的无人机航拍图像小目标检测

[J]. 北京航空航天大学学报, 2023, 49 (3): 514- 524

[本文引用: 1]

LIU Shudong, LIU Yehui, SUN Yemei, et al

Small object detection in UAV aerial images based on inverted residual attention

[J]. Journal of Beijing University of Aeronautics and Astronautics, 2023, 49 (3): 514- 524

[本文引用: 1]

潘玮, 韦超, 钱春雨, 等

面向无人机视角下小目标检测的YOLOv8s改进模型

[J]. 计算机工程与应用, 2024, 60 (9): 142- 150

DOI:10.3778/j.issn.1002-8331.2312-0043      [本文引用: 1]

PAN Wei, WEI Chao, QIAN Chunyu, et al

Improved YOLOv8s model for small object detection from perspective of drones

[J]. Computer Engineering and Applications, 2024, 60 (9): 142- 150

DOI:10.3778/j.issn.1002-8331.2312-0043      [本文引用: 1]

邓天民, 程鑫鑫, 刘金凤, 等

基于特征复用机制的航拍图像小目标检测算法

[J]. 浙江大学学报: 工学版, 2024, 58 (3): 437- 448

[本文引用: 1]

DENG Tianming, CHENG Xinxin, LIU Jinfeng, et al

Small target detection algorithm for aerial images based on feature reuse mechanism

[J]. Journal of Zhejiang University: Engineering Science, 2024, 58 (3): 437- 448

[本文引用: 1]

LIU S, QI L, QIN H F. et al. Path aggregation network for instance segmentation [C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Salt Lake City: IEEE, 2018: 8759-8768.

[本文引用: 1]

LIN T Y, DOLLAR P, CIRSHICK R, et al. Feature pyramid networks for object detection [C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Honolulu: IEEE, 2017: 936-944.

[本文引用: 1]

DING X H, ZHANG X Y, MA N N, et al. Repvgg: making VGG-style convnets great again [C]// Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. Nashville: IEEE, 2021: 13733-13742.

[本文引用: 1]

MISRA D, NALAMADA T, ARASANIPALAI A U, et al. Rotate to attend: convolutional triplet attention module [C]// Proceedings of the IEEE/CVF Winter Conference on Applications of Computer Vision. Waikoloa: IEEE, 2021: 3138-3147.

[本文引用: 1]

TONG Z J, CHEN Y H, XU Z W, et al. Wise-IoU: bounding box regression loss with dynamic focusing mechanism [EB/OL]. (2023-04-08) [2024-07-13]. https://arxiv.org/pdf/2301.10051.

[本文引用: 1]

DU D, ZHU P F, WEN L Y, et al. VisDrone-DET2019: the vision meets drone object detection in image challenge results [C]// Proceedings of the IEEE/CVF International Conference on Computer Vision Workshops. Seoul: IEEE, 2019: 213-226.

[本文引用: 1]

YU W P, YANG T, CHEN C. Towards resolving the challenge of long-tail distribution in UAV images for object detection [C]// Proceedings of the IEEE Winter Conference on Applications of Computer Vision. Waikoloa: IEEE, 2021: 3258-3267.

[本文引用: 1]

ZHAO H P, ZHOU Y, ZHANG L, et al

Mixed YOLOv3-LITE: a lightweight real-time object detection method

[J]. Sensors, 2020, 20 (7): 1861

DOI:10.3390/s20071861      [本文引用: 1]

杨永刚, 谢睿夫, 龚泽川

改进YOLOv7-tiny的无人机目标检测算法

[J]. 计算机工程与应用, 2024, 60 (6): 121- 129

DOI:10.3778/j.issn.1002-8331.2307-0316      [本文引用: 1]

YANG Yonggang, XIE Ruifu, GONG Zechuan

Improved YOLOv7-tiny UAV target detection algorithm

[J]. Computer Engineering and Applications, 2024, 60 (6): 121- 129

DOI:10.3778/j.issn.1002-8331.2307-0316      [本文引用: 1]

冯迎宾, 郭枭尊, 晏佳华. 基于多尺度注意力机制的无人机小目标检测算法[EB/OL]. (2024-08-02)[2024-08-11]. http://www.co-journal.com/CN/10.12382/bgxb.2023.1124.

[本文引用: 1]

FENG Yingbin, GUO Xiaozun, YAN Jiahua. UVA small target detection algorithm based on multi-scale attention mechanism [EB/OL]. (2024-08-02)[2024-08-11]. http://www.co-journal.com/ CN/10.12382/bgxb.2023.1124.

[本文引用: 1]

TAHIR N U A, LONG Z, ZHANG Z, et al

PVswin-YOLOv8s: UAV-based pedestrian and vehicle detection for traffic management in smart cities using improved YOLOv8

[J]. Drones, 2024, 8 (3): 84

DOI:10.3390/drones8030084      [本文引用: 1]

SELVARAJU R R, COGSWELL M, DAS A, et al. Grad-CAM: visual explanations from deep networks via gradient-based localization [C]// Proceedings of the IEEE International Conference on Computer Vision. Venice: IEEE, 2017: 618-626.

[本文引用: 1]

/