浙江大学学报(工学版), 2026, 60(1): 19-31 doi: 10.3785/j.issn.1008-973X.2026.01.002

计算机技术

基于多尺度特征增强的航拍小目标检测算法

肖剑,, 何昕泽, 程鸿亮, 杨小苑, 胡欣,

1. 长安大学 电子与控制工程学院,陕西 西安 710064

2. 长安大学 能源与电气工程学院,陕西 西安 710064

Aerial small target detection algorithm based on multi-scale feature enhancement

XIAO Jian,, HE Xinze, CHENG Hongliang, YANG Xiaoyuan, HU Xin,

1. School of Electronics and Control Engineering, Chang’an University, Xi’an 710064, China

2. School of Energy and Electrical Engineering, Chang’an University, Xi’an 710064, China

通讯作者: 胡欣,女,教授. orcid.org/0009-0006-2066-5490. E-mail:huxin@chd.edu.cn

收稿日期: 2024-11-25  

基金资助: 陕西省秦创原“科学家+工程师”队伍建设项目(2024QCY-KXJ-161);西安市人工智能重点产业链项目(23ZDCYJSGG0013-2023).

Received: 2024-11-25  

Fund supported: 陕西省秦创原“科学家+工程师”队伍建设项目(2024QCY-KXJ-161);西安市人工智能重点产业链项目(23ZDCYJSGG0013-2023).

作者简介 About authors

肖剑(1975—),男,副教授,博士,从事检测技术研究.orcid.org/0000-0003-0650-6099.E-mail:xiaojian@chd.edu.cn , E-mail:xiaojian@-chd.edu.cn

摘要

针对航拍图像小目标检测中存在的检测精度低和模型参数量大的问题,提出兼顾性能与资源消耗的航拍小目标检测算法. 以YOLOv8s为基准网络,通过降低通道维数和加强对高频特征的关注,提出自适应细节增强模块(ADEM),在减少冗余信息的同时加强对小目标细粒度特征的捕获;基于PAN-FPN 架构调整特征融合网络,增加对浅层特征的关注,同时引入多尺度卷积核增强对目标上下文信息的关注,以适应小目标检测场景;针对传统IoU灵活性、泛化性不强的问题,构建参数可调的Nin-IoU,通过引入可调参数,实现对IoU的针对性调整,以适应不同检测任务的需求;提出轻量化检测头,在增强多尺度特征信息交融的同时减少冗余信息的传递. 结果表明,在VisDrone2019数据集上,所提算法以8.08×106的参数量实现了mAP0.5=50.3%的检测精度;相较于基准算法YOLOv8s,参数量降低了27.4%,精度提升了11.5个百分点. 在DOTA与DIOR数据集上的实验结果表明,所提算法具有较强的泛化能力.

关键词: 目标检测 ; YOLOv8 ; 无人机图像 ; 特征融合 ; 损失函数

Abstract

An aerial small target detection algorithm that balanced performance and resource consumption was proposed to address the issues of low detection accuracy and large model parameter size in small target detection of aerial images. On the basis of YOLOv8s, an adaptive detail-enhanced module (ADEM) was proposed by reducing the channel dimension and enhancing the focus on the high-frequency features to capture the fine-grained features of small targets while discarding the redundant information. A feature fusion network was optimized based on the PAN-FPN architecture to enhance the attention on shallow features. Multi-scale convolutional kernels were introduced to enhance the focus on the target contextual information, thereby adapting to the small object detection scenario. A parameter-adjustable Nin-IoU was constructed to overcome the limitations of traditional IoU in flexibility and generalization, and this adjustment achieved by introducing adjustable parameters allowed the Nin-IoU to be tailored to different detection tasks. A lightweight detection head was proposed to enhance the integration of multi-scale feature information while reducing redundant information transmission. Experimental results on the VisDrone2019 dataset indicated that the proposed algorithm achieved an mAP0.5 of 50.3% with only 8.08×106 parameters, representing a 27.4% reduction in parameters and an improvement of 11.5 percentage points in accuracy compared to the YOLOv8s benchmark algorithm. Experimental results on the DOTA and DIOR datasets further demonstrated the strong generalization capabilities of the proposed algorithm.

Keywords: object detection ; YOLOv8 ; unmanned aerial vehicle image ; feature fusion ; loss function

PDF (5429KB) 元数据 多维度评价 相关文章 导出 EndNote| Ris| Bibtex  收藏本文

本文引用格式

肖剑, 何昕泽, 程鸿亮, 杨小苑, 胡欣. 基于多尺度特征增强的航拍小目标检测算法. 浙江大学学报(工学版)[J], 2026, 60(1): 19-31 doi:10.3785/j.issn.1008-973X.2026.01.002

XIAO Jian, HE Xinze, CHENG Hongliang, YANG Xiaoyuan, HU Xin. Aerial small target detection algorithm based on multi-scale feature enhancement. Journal of Zhejiang University(Engineering Science)[J], 2026, 60(1): 19-31 doi:10.3785/j.issn.1008-973X.2026.01.002

近年来,随着无人机技术的快速发展,无人机航拍图像以高分辨率、低成本的优势成为航拍研究领域的重要图像来源. 无人机航拍图像往往具有目标尺度小、特征信息量少和相邻物体间难以区分的特点,因此对无人机航拍图像进行实时检测具有相当的挑战性. 此外,受制于无人机有限的计算资源,如何实现模型轻量化以完成算法在无人机上的部署,同样成为了当前无人机航拍图像目标检测领域中亟待解决的问题.

针对航拍图像中密集小目标检测困难的问题,已有一些研究成果. Zhu等[1]提出TPH-YOLOv5算法,增加小目标检测头以应对目标尺度的剧烈变化,利用Transformer检测头(TPH)替换原检测头,以准确地在高密度场景中定位对象,同时融入卷积注意力模块(convolutional block attention module, CBAM),帮助网络在覆盖大范围区域的图像中找到感兴趣的区域. Luo等[2]对YOLOv5模型进行改进,采用不对称卷积增强骨干网络的特征提取能力,并加入改进后的高效通道注意力模块,使网络更好地关注特定的局部信息,最后提出EIoU-NMS方法,从而更有效地抑制冗余预测框. 宋耀莲等[3]基于YOLOv5模型提出FDB-YOLO算法,通过添加小目标检测层优化特征融合网络,提高了浅层特征的利用率,其次构建新的损失函数FPIoU,通过四点定位方式显著提升损失函数的收敛速度和定位精度,最后在特征提取网络中加入双向路由注意力机制,以提升模型对重点特征的关注度并有效过滤无关特征. 邓天民等[4]基于YOLOv8模型提出一种自适应复合卷积模块,摒弃背景信息,自适应调节有效特征的输出,并利用空间上下文金字塔(SCP)的子分支替换空间金字塔池化(SPPF)模块,减少冗余信息的生成,最后提出轻量化T型感知检测头,采用参数共享的方式,在保持对多尺度特征信息敏感的同时降低模型计算开销.

为了在无人机设备上进行部署,许多学者针对模型轻量化问题开展相应研究. Cao等[5]提出基于GhostConv模块的骨干网络,相较于YOLOv4的骨干网络CSP-Darknet53,可以在不损失检测精度的情况下将网络参数量减少一半,并添加了浅层特征融合层和小目标检测头以精确预测高密度小目标的位置,同时移除大目标检测头,进一步减少了网络参数量. Wang等[6]提出YOLOv8-QSD算法,通过在YOLOv8模型中引入Q-blocks模块,实现了更高效的轻量化设计. 具体而言,Q-blocks模块接收P2层的特征作为输入,通过生成查询(query)、键(key)和值(value)组进行查询操作,生成稀疏的特征图. P3和P4层的特征被转换为查询、键和值,与P2层的特征交互,最终生成的稀疏特征图被用于在适当的层和关键位置以适当的比例预测检测框. Feng[7]等通过将坐标注意力机制集成到主干网络的C2f模块中,设计C2f_CA模块,增强模型对关键信息的关注,并保证了更丰富的梯度信息流动,从而提高了模型效率;引入多尺度注意力特征融合模块,以合并浅层和深层特征;引入动态检测头策略,进一步统一模型对尺度、空间和任务的感知,增强了其对小目标的检测能力.

以YOLOv8网络为基础,设计自适应细节增强模块,对C2f模块进行改进,减少冗余信息的生成,同时实现大尺度特征图浅层特征的复用,提出平衡检测精度与计算开销的航拍图像小目标检测算法.

1. 多尺度特征增强小目标检测算法

受制于无人机应用场景中有限的计算资源,以及VisDrone 2019数据集所呈现的高检测难度,在采用YOLOv8n模型进行检测时,检测精度mAP0.5仅为0.329. 采用更大规模的模型虽然能够在一定程度上提升检测效果,但随之而来的是计算复杂度和参数量的大幅提升. 在综合考量模型性能与计算开销后,最终选定YOLOv8s作为基准模型.

现有的目标检测算法在目标小、排列密集、背景复杂等情况下缺乏足够的检测性能. 因此,以YOLOv8s为基准模型,做出以下4个方面的改进,并构建兼顾检测精度与资源消耗的航拍小目标检测算法. 1)提出自适应细节增强模块(adaptive detail-enhanced module, ADEM),替换C2f的Bottleneck部分,构成C2f-ADEM模块. 在ADEM中引入条件卷积(conditional convolution, CondConv),针对不同样本动态地生成卷积核,以提升模型容量,增强模型泛化性. 将特征通道分割为双支,其中一条分支通过细节增强卷积(detail-enhanced convolution, DEConv)加强对高频信息的关注,并利用逐点卷积增强各通道间的信息交流,另一分支保持原有特征的恒等映射,最后通过特征拼接及通道混洗实现跨通道的信息交流. 2)基于路径聚合-特征金字塔网络(path aggregation network with feature pyramid network, PAN-FPN)架构对特征融合网络进行改进,对B2与P3层进行融合,加强对浅层特征的关注. 使用空间到深度卷积(space-to-depth convolution, SPDConv)对B2层进行下采样,在匹配P3层输出特征图尺度的同时避免细粒度信息丢失. 加入多尺度特征提取模块,通过全局分支、大尺度分支以及局部分支在多个尺度上提取特征,加强对小目标上下文信息的关注. 3)构建Nin-IoU来替换传统IoU,通过引入可调参数解决传统IoU灵活性、泛化性不足的问题;利用Nin-IoU替换CIoU中的传统IoU,构建Nin-CIoU损失函数,通过调整参数以适应小目标检测任务的需求;同时针对航拍图像中目标密集、重叠的问题,引入Soft-NMS策略[8],利用Nin-CIoU算法筛选预选框,构建Nin-NMS算法,采用权值衰减策略优化漏检问题. 4)提出一种轻量化检测头,利用局部卷积(partial convolution,PConv)[9]并结合逐点卷积(pointwise convolution, PWconv)代替原检测头的标准卷积层,通过通道调制减少冗余特征图的生成,降低计算开销,同时引入细节增强卷积以保证语义及空间信息提取能力. 改进后算法的整体结构如图1所示. 其中,S为卷积移动的步长,K为卷积核大小,n为模块重复出现的次数.

图 1

图 1   多尺度特征增强小目标检测算法的整体网络结构

Fig.1   Overall network architecture of small object detection algorithm based on multi-scale feature enhancement


1.1. 自适应细节增强模块

标准卷积在推理阶段对每个样本应用相同的卷积核进行特征提取,这种标准化卷积操作难以捕捉不同样本中的细微特征和复杂关系. 增大卷积核尺寸或数量虽然可以提升特征提取能力,但是会显著增加参数量和计算开销. 另外,标准卷积实质上对输入特征所进行的加权平均操作不可避免地造成了高频细节特征的缺失,这对于航拍小目标检测任务而言是难以忍受的.

针对上述问题,提出自适应细节增强模块ADEM,其结构如图2所示. 条件卷积CondConv[10]通过为每个输入样本生成条件向量,并利用该向量动态地调整多个基础卷积核的权重组合,使卷积层能够适应不同样本对特征的需求,提升模型的灵活性和表达能力. 随后,输入特征映射被分割为2条分支,每条分支的通道数是原来的一半. 细节增强卷积DEConv[11]通过引入差分卷积捕捉像素之间的差异,提升对高频信息的关注,从而更好地提取图像细节和纹理特征. 为了降低细节增强卷积的参数量,采用深度卷积的思想,分别为标准卷积和差分卷积的每个通道应用不同的卷积核,以减少计算复杂度. 在通过逐点卷积融合各通道信息后,将2条分支合并,利用通道混洗增强各分支间的信息流动,进一步提升模块的特征学习能力和计算效率.

图 2

图 2   自适应细节增强模块结构

Fig.2   Structure of adaptive detail-enhanced module


1.1.1. 条件卷积模块

在深度学习网络中,特征图的学习对模型精度的提升至关重要. 然而,若在推理阶段对所有样本均使用相同的卷积核进行特征提取,则会限制模型的泛化性和灵活性,模型容量即模型所能捕捉的特征的复杂程度也会受到较大制约. 常规的通过增大卷积核尺寸或增加卷积核数量来提升模型容量的方式都不可避免地引入了更大的参数量与计算量. 鉴于此,条件卷积CondConv设置了多个基础卷积核,并计算每个输入样本的路由函数,以动态调整各卷积核的参数权重,具体计算方式为

$ r(\boldsymbol{x})=\operatorname{Sigmoid}\,\,(\operatorname{GAP}(\boldsymbol{x}) \boldsymbol{R}) . $

式中:Sigmoid为激活函数;GAP($ \cdot $)为全局平均池化操作;${\boldsymbol{R}}$作为学习到的路由权值矩阵,将汇集的输入映射到$n$个专家权值;输入特征${\boldsymbol{x}}$所在的特征空间为X=[x1,x2,···,xn]$ \in $RC×H×W,其中$C$为该输入特征的通道数,$H \times W$为输入特征的尺度大小. 首先通过全局平均池化(global average pooling, GAP)将特征图${\boldsymbol{x}}$转换成形状为(b, c, 1, 1)的输出,并展平成形状为(b, c)的二维矩阵,以便于后续处理. 其中b为输入的批大小,c为输入特征的通道数. 然后将该二维矩阵与形状为(cNk)的矩阵${\boldsymbol{R}}$相乘, Nk为基础卷积核的数量. 相乘后得到形状为(b, Nk)的矩阵,每行代表1个样本对应的基础卷积核的线性组合权重. 最后通过Sigmoid函数将矩阵中的元素映射到$[0,1.0]$,生成最终的路由权重. 利用该权重动态地组合多个卷积核,针对不同样本生成不同的卷积参数,以少量增加计算开销的代价有效提升模型容量. 条件卷积的具体计算过程如下:

$ \operatorname{Output}\,\,(\boldsymbol{x})=\sigma\left[\left(\boldsymbol{\alpha}_1 \boldsymbol{W}_1+\boldsymbol{\alpha}_2 \boldsymbol{W}_2+\cdots+\boldsymbol{\alpha}_n \boldsymbol{W}_n\right) * \boldsymbol{x}\right] . $

式中:$ {\boldsymbol{\alpha} _i} $为式(1)计算得到的路由,$ {\boldsymbol{\alpha} _i} = {r_i}(\boldsymbol{x}) $(i=1,2,···,n),n为设置的卷积核数量;$ \sigma $$ (\cdot) $表示ReLU激活函数;${\boldsymbol{x}}$为输入样本;${{\boldsymbol{W}}_i}$为不同卷积核的参数权重; $ * $表示卷积运算. 条件卷积结构如图3所示.

图 3

图 3   条件卷积结构

Fig.3   Conditional convolution structure


1.1.2. 细节增强卷积模块

标准卷积在训练初期的权重通过随机或某种特定的初始化方式产生,使得其需要更多的时间和数据学习如何提取高频特征. 因此,在训练初期,标准卷积可能会在卷积过程中丢失高频信息,从而使模型无法充分提取小目标的纹理特征. 细节增强卷积DEConv通过预先设定初始权重的差分卷积(difference convolution, DC)计算相邻像素间的差异以捕捉高频信息,进而加强特征的边缘信息. 将差分卷积和标准卷积经过训练得到的权重和偏置相融合,并将不同方向的高频特征集成到标准卷积中,弥补了标准卷积在处理高频信息方面的不足. 通过引入DEConv,模型能够有效提取小目标的边缘和纹理特征,从而提升小目标检测的精度和可靠性.

细节增强卷积DEConv包含2个主要步骤:1)通过差分卷积增强高频信息的捕获;2)通过标准卷积提取低频特征. 结构如图4所示. DEConv并行采用4个差分卷积来提取高频信息. 训练开始时,4种差分卷积设定的权重更新方式为

图 4

图 4   细节增强卷积结构

Fig.4   Detail-enhanced convolution structure


$ \begin{split} &W_{\mathrm{cd}}\left[k_1, k_2\right]=\\&\left\{\begin{array}{ll}W\left[k_1, k_2\right], & \left(k_1, k_2\right) \neq(1,1) ; \\ W\left[k_1, k_2\right]-\displaystyle \sum_{(i, j) \neq\left(k_1, k_2\right)} W[i, j], & \left(k_1, k_2\right)=(1,1) .\end{array}\right. \end{split}$

$ W_{\mathrm{hd}}\left[k_1, k_2\right]=\left\{\begin{array}{ll}W\left[k_2, k_1\right], & k_1=0,2; \\-W\left[k_2, k_1\right],& k_1=1.\end{array}\right. $

$ W_{\mathrm{vd}}\left[k_1, k_2\right]=\left\{\begin{array}{ll}W\left[k_1, k_2\right], & k_1=0,2; \\-W\left[k_1, k_2\right],& k_1=1.\end{array}\right. $

$ W_{\mathrm{ad}}\left[k_1, k_2\right]= \begin{cases}W\left[k_1, k_2\right], & \left(k_1, k_2\right)=(1,1) ; \\ W\left[k_1, k_2\right]-\theta \times W[1,1], & \left(k_1, k_2\right) \neq(1,1) .\end{cases} $

式中:以$3 \times 3$的差分卷积为例,${k_1}$${k_2}$分别表示卷积核的横坐标及纵坐标,取值为0、1、2;$ W[{k_1},{k_2}] $表示卷积核相应位置的权重,下标cd、hd、vd和ad表示4种不同的差分卷积. 中心差分卷积(central difference convolution, CDC)将卷积核中心的权重调整为该处权重值与其余位置权重总和的差值,从而突出边缘、轮廓等高频区域. 角差分卷积(angular difference convolution, ADC)通过减去以角度$ \theta $顺序排列的权重,增强特定角度或方向的特征检测能力. 水平差分卷积(horizontal difference convolution, HDC)和垂直差分卷积(vertical difference convolution, VDC)分别通过计算所选像素对的差值来计算水平与垂直梯度. 同时,标准卷积对图像的低频信息进行提取. 5个并行卷积层在反向传播阶段分别更新参数,随后利用重参数化技术将5个卷积层的权重和偏置重新组合成1个卷积核,以相同的计算成本实现更为丰富的特征提取能力. 计算过程为

$ \boldsymbol{F}_{\text {out }} = \operatorname{DEConv}\,\,\left(\boldsymbol{F}_{\text {in }}\right) = \sum_{i=1}^5 \boldsymbol{F}_{\text {in }} * \boldsymbol{K}_i = \boldsymbol{F}_{\text {in }} * \sum_{i=1}^5 \boldsymbol{K}_i = \boldsymbol{F}_{\text {in }} * \boldsymbol{K}_{\text {cvt}}.$

式中:$ {\boldsymbol{F}_{{\mathrm{in}}}} $为输入特征;$ {\boldsymbol{F}_{{\mathrm{out}}}} $为5个并行卷积层的输出特征;${\boldsymbol{K}_i}$$i \in \left\{ {1,2,3,4,5} \right\}$,分别表示VDC、CDC、ADC、HDC以及标准卷积的核;${\boldsymbol{K}_{{\text{cvt}}}}$表示将并行卷积组合在一起的转换核.

1.2. 多尺度特征融合网络

YOLOv8采用的PAN-FPN结构结合了特征金字塔网络(FPN)[12]和路径聚合网络(PANet)[13]的优势. FPN通过自顶向下的策略整合多层级的特征,增强了上下文信息捕捉能力,而PANet进一步引入自底向上的路径聚合机制,提升了浅层特征的利用效率,并加强了信息流动,使网络能够高效地捕获不同尺度的目标细节信息. 然而,PAN-FPN 结构在小目标检测任务中仍然存在一定的局限性. 一方面,在对航拍图像小目标和遮挡目标进行检测时,更加需要依赖于大尺度特征图包含的丰富的语义信息,而YOLOv8对大尺度特征图的关注不足;另一方面,YOLOv8中大量采用$3 \times 3$的卷积核进行特征提取,然而$3 \times 3$卷积核的感受野相对较小,难以有效获取小目标周围的上下文信息,从而导致关键信息的丢失. 针对上述问题,对PAN-FPN 结构进行针对性改进,设计多尺度特征融合网络,具体结构如图5所示.

图 5

图 5   多尺度特征融合网络

Fig.5   Multi-scale feature fusion network diagram


大尺度特征图具有更高的分辨率和更多的细节信息,但是PAN-FPN的结构设计可能导致这些特征在信息传递和融合过程中被压缩或忽略,导致小目标的细节信息丢失. 针对这个问题,对YOLOv8模型中B2和P3层级进行深度融合,以加强模型对大尺度特征图的利用. 为了统一B2与P3层的特征图尺度,实现B2-P3的融合,需要在B2层之后进行下采样处理. 采用步长为2的标准卷积进行下采样容易导致细粒度信息的丢失,从而影响特征表示. 为此,引入SPDConv模块[14],该模块由空间到深度(space-to-depth, SPD)层和非跨行卷积(non-strided convolution)层构成. 当下采样倍数为2时,SPDConv下采样过程如图6所示. 其中,C1C2分别为输入特征和输出特征的通道数,S为输入特征的尺度大小. SPD层将特征映射的空间维度信息重排并在通道维度相加,完整保留了通道维度中的所有信息,从而实现无损下采样.图中星号表示SPDConv在每个SPD层之后加入非跨行卷积,能够在不改变特征图分辨率的情况下,灵活调整通道数量,从而实现对特征的高效压缩或扩展. 这种设计不仅保留了特征的判别性信息,还在下采样过程中维持了特征的丰富性和多样性.

图 6

图 6   SPDConv模块结构图

Fig.6   Structure diagram of SPDConv module


$3 \times 3$卷积核的感受野相对较小,仅能够覆盖输入特征图的局部区域. 在小目标检测任务中,目标上下文信息对于准确定位和分类至关重要. 与之相比,Transformer模型通过全局或基于大窗口的自注意力机制实现了更大的感受野. 受此启发,Omni-Kernel 模块(OKM)[15]设计3条分支以实现高效的多尺度特征学习. 其中,全局分支通过双域通道注意力和频率门控机制实现全局感受野;大尺度分支使用大核深度卷积和并行的$1 \times K$$K \times 1$深度卷积捕获不同形状的感受野;局部分支使用点态深度卷积补充局部信息. 输入特征经过$1 \times 1$卷积处理后被送入3条分支,通过加法融合各分支结果,并利用另一个$1 \times 1$卷积进行调制,以实现高效的多尺度特征学习.

OKM通过3条分支实现了高效的多尺度特征学习,但其巨大的参数量以及高昂的计算开销同样不容忽视. 因此,在大尺寸深度卷积核的基础上引入空洞卷积,构成深度空洞卷积,在保证原接受域的同时,减少参数量及计算开销. 最后,基于跨阶段局部(cross stage partial, CSP)连接结构设计CSPOmni模块,将输入特征在通道维度上分割为2部分. 一条分支通过OKM进行处理,另一分支保持原特征的恒等映射. 将各分支的输出结果在通道维度上进行拼接,并通过标准卷积增强各通道之间的信息交流. CSPOmni的结构如图7所示,其中,dim为原始通道数,dim1和dim2为分割后的通道数.

图 7

图 7   CSPOmni模块结构图

Fig.7   Structure diagram of CSPOmni module


1.3. 参数可调的Nin-IoU

作为目标检测的基本任务之一,边框回归在近年来的研究中大多基于$ {\mathrm{IoU }}$展开,通过增加新的损失项来加速收敛. ${\mathrm{ IoU }}$主要用于衡量2个边界框(预测框和真实框)之间的重叠程度,其公式为

$ {\mathrm{IoU}} = \frac{{|B \cap {B^{{\text{gt}}}}|}}{{|B \cup {B^{{\text{gt}}}}|}}. $

式中:$|B \cap {B^{{\text{gt}}}}| $为预测框与真实框重叠部分的面积,$ |B \cup {B^{{\text{gt}}}}|$为预测框与真实框面积的并集.

上述改进在一定程度上提升了边界框的回归效果,但是并未考虑到$ {\rm{IoU}} $本身的局限性. 在实际应用中,$ {\rm{IoU}} $不能根据不同的检测任务进行调整,灵活性、泛化性不强. 因此,基于N-IoU与Inner-IoU提出参数可调的Nin-IoU,并结合CIoU的损失项构成参数可调的边框回归损失函数Nin-CIoU.

N-IoU[16]首次将$ {\mathrm{Dice}} $系数引入回归损失计算中,以替代原IoU损失的Jaccard相似系数. $ {\mathrm{Dice}} $系数是一种广泛应用于计算机视觉中、用于计算2幅图像相似度的度量. 将其扩展到边框回归领域,可以得到如下定义:

$ \text { Dice }=\frac{2\left|B \cap B^{\mathrm{gt}}\right|}{|B|+\left|B^{\mathrm{gt}}\right|}=\frac{2\left|B \cap B^{\mathrm{gt}}\right|}{\left|B \cup B^{\mathrm{gt}}\right|+\left|B \cap B^{\mathrm{gt}}\right|} , $

$ L_{\text {Diceloss }}=1-\frac{2\left|B \cap B^{\mathrm{gt}}\right|}{|B|+\left|B^{\mathrm{gt}}\right|} . $

式中:$ |B| $为预测框的面积,$ |{B^{{\text{gt}}}}| $为真实框的面积. 进一步扩展$ {\mathrm{Dice}} $系数,在$ {\mathrm{Dice}} $系数的分子和分母中加上$n$$ \left|B \cap B^{\mathrm{gt}}\right|$,提出N-IoU. N-IoU的计算方式为

$ \begin{split} \text { N-{\rm{IoU}} }= & \frac{\left|B \cap B^{\mathrm{gt}}\right|+n\left|B \cap B^{\mathrm{gt}}\right|}{|B|+\left|B^{\mathrm{gt}}\right|-\left|B \cap B^{\mathrm{gt}}\right|+n\left|B \cap B^{\mathrm{gt}}\right|}= \\& \frac{\left|B \cap B^{\mathrm{gt}}\right|+n\left|B \cap B^{\mathrm{gt}}\right|}{\left|B \cup B^{\mathrm{gt}}\right|+n\left|B \cap B^{\mathrm{gt}}\right|} .\end{split} $

作为可调参数, $n$值的调节可以改变反向传播时回归梯度损失$L$$ {\rm{IoU}} $之间的函数关系,如下:

$ L=1-\frac{\left|B \cap B^{\mathrm{gt}}\right|+n\left|B \cap B^{\mathrm{gt}}\right|}{\left|B \cup B^{\mathrm{gt}}\right|+n\left|B \cap B^{\mathrm{gt}}\right|}=1-\frac{(n+1) \mathrm{IoU}}{1+n \times \mathrm{IoU}} . $

通过改变$n$值,能够适当加快低${\mathrm{ IoU}} $样本的边界框收敛,并增加高$ {\mathrm{IoU}} $值样本边界框回归的细粒度,提高模型的鲁棒性和准确性. 不同$n$值对应的回归损失梯度$G$${\mathrm{ IoU}} $值之间的关系如图8所示.

图 8

图 8   回归损失梯度与${\mathrm{ IoU}} $的对应关系

Fig.8   Relationship between regression loss gradient and IoU


$ |G|=\left|\frac{\mathrm{d} L}{\mathrm{dIoU}}\right|=\left|\frac{\mathrm{d}[1-(n+1) \mathrm{IoU} /(1+n \times \mathrm{IoU})]}{\mathrm{dIoU}}\right| . $

$n$$ = $0时,N-IoU与原始$ {\mathrm{IoU}} $等同,对于不同${\mathrm{ IoU}} $值,其回归损失梯度均保持恒值. 当$n$$ > $1时,N-IoU加速了低${\mathrm{ IoU}} $样本边界框的回归,并在一定程度上提升了高${\mathrm{ IoU }}$值样本边界框回归的细粒度. 通过调节$n$值,极大地增强了${\mathrm{ IoU }}$的灵活性和泛化性,有效提高了样本的学习效率.

Inner-IoU[17]提出利用辅助边界框来计算$ {\rm{IoU}} $,通过引入可调参数尺度因子比${\text{ratio}}$,针对不同$ {\rm{IoU}} $的样本调节辅助边界框的尺寸从而提升泛化能力. 具体计算过程为

$b_1=x_{\mathrm{c}}-\frac{w \times \text {ratio}}{2},\;b_{\mathrm{r}}=x_{\mathrm{c}}+\frac{w \times \text { ratio }}{2}.$

$b_{\mathrm{t}}=y_{\mathrm{c}}-\frac{h \times \text { ratio }}{2},\;b_{\mathrm{b}}=y_{\mathrm{c}}+\frac{h \times \text { ratio }}{2}.$

$ \begin{split} J_{\text {inner }}= & \left(\min \left(b_{\mathrm{r}}^{\mathrm{gt}}, b_{\mathrm{r}}\right)-\max \left(b_{\mathrm{l}}^{\mathrm{gt}}, b_1\right)\right) \times \\& \left(\min \left(b_{\mathrm{b}}^{\mathrm{gt}}, b_{\mathrm{b}}\right)-\max \left(b_{\mathrm{t}}^{\mathrm{gt}}, b_{\mathrm{t}}\right)\right) .\end{split} $

$ Z_{\text {inner }}= w^{\mathrm{gt}} \times h^{\mathrm{gt}}\times\text {ratio}^2+ w \times h \times\text {ratio}^2-J_{\text {inner }} . $

$ \mathrm{IoU}^{\mathrm{inner}}=\frac{J_{\text {inner }}}{Z_{\text {inner }}}. $

式中:$ {b_{\mathrm{l}}} $$ {b_{\mathrm{r}}} $$ {b_{\mathrm{t}}} $$ {b_{\mathrm{b}}} $为辅助边界框的左侧、右侧、顶部和底部的边界坐标;$ b_{\mathrm{l}}^{{\text{gt}}} $$ b_{\mathrm{r}}^{{\text{gt}}} $$ b_{\mathrm{t}}^{{\text{gt}}} $$ b_{\mathrm{b}}^{{\text{gt}}} $分别为真实边界框的左侧、右侧、顶部和底部的边界坐标;wh分别为原预测框的宽度和高度;wgthgt分别为真实框的宽、高;Jinner为辅助边界框与真实框相重叠的面积;Zinner为辅助边界框与真实框面积的并集. 式 (14)、(15) 通过对检测框的中心点坐标$\left( {{x_{\text{c}}},\;{y_{\text{c}}}} \right)$进行变换,并利用尺度因子比$ {\text{ratio}} $进行缩放处理,得到辅助边界框的角点坐标. 式(16)~(18)用于计算辅助边界框之间的$ {\rm{IoU}} $值. Inner-IoU指出,对于高$ {\rm{IoU}} $样本,使用较小的辅助边界框来计算损失可以加速收敛,而对于低$ {\rm{IoU}} $样本,应使用较大的辅助边界框来计算损失. 小目标检测任务中的检测对象多为低$ {\rm{IoU}} $样本,故$ {\text{ratio}} $取值范围为$ (1.0,1.5]$.

借鉴N-IoU的思想,将Dice系数引入Inner-IoU,对$ {{\mathrm{IoU}}^{{\text{inner}}}} $的分子与分母同时加上$N$Jinner. Nin-IoU具体计算过程为

$ \text { Nin-{\rm{IoU}} }=\frac{J_{\text {inner }}+N \times J_{\text {inner }}}{Z_{\text {inner }}+N \times J_{\text {inner }}} . $

Nin-IoU结合N-IoU与Inner-IoU的优点,进一步优化了边界框回归过程中的梯度更新. 令L1L2分别表示使用$ {\rm{IoU}} $与Nin-IoU时的损失函数,参数更新过程为

$ h_1^{\prime}=h_1-\eta \nabla_{h_1} \sigma_1 , $

$ \sigma_1=L_1^{1^{\prime}}-L_1^1, $

$ h_1^{\prime \prime}=h_1-\eta \nabla_{h_1} \sigma_2, $

$ \sigma_2=L_2^{1^{\prime}}-L_2^1 . $

式中:${h_1}$为训练开始时的参数值,$h'_1$$h^{\prime\prime}_1 $分别为使用损失函数L1L2时在训练结束后更新的参数值,${\sigma _1}$${\sigma _2}$分别为损失函数L1L2在学习过程中的变化量,$L^1_1$$L^{1^{\prime}}_1 $$L^1_2$$L^{1^{\prime}}_2 $在学习前、后某个节点处的损失函数值,$\eta $为学习率,$ {\nabla _{{h_1}}}{\sigma _1} $$ {\nabla _{{h_1}}}{\sigma _2} $为损失函数L1L2作用过程中的参数更新梯度. 如图8所示,当面对低$ {\rm{IoU}} $样本时,显然$\nabla_{h_1} \sigma_2\gt \nabla_{h_1} \sigma_1 $,因此$ \left|h_1^{\prime \prime}-h_1\right| \gt \left|h_1^{\prime}-h_1\right|$,表明对于低$ {\rm{IoU}} $样本,参数${h_1}$的更新步长更大,加快了模型在高损失区域中学习的速度. 而在相同的条件下,高$ {\rm{IoU}} $样本表现为$ \left|L_1^{1^{\prime}}-L_1^1\right|>\left|L_2^{1^{\prime}}-L_2^1\right|$,Nin-IoU细化了高$ {\rm{IoU}} $样本的学习梯度. 辅助边界框的引入进一步区分了不同类型的回归样本,使损失函数的梯度在不同$ {\rm{IoU}} $区域更加平滑. 综上所述,Nin-IoU通过引入辅助边界框加快回归过程,进一步提升了不同$ {\rm{IoU}} $样本回归的细粒度. Nin-IoU可以通过$N$$ {\text{ratio}} $进行针对性的调整,以适应不同的检测任务. 进一步地,利用Nin-IoU替换CIoU中的$ {\rm{IoU}} $损失,构成Nin-CIoU.

YOLOv8使用传统的非极大值抑制(NMS)算法作为后处理步骤,在进行计算时,若待检测框与置信度最高的检测框之间的$ {\rm{IoU}} $大于设定的阈值,会将该待检测框的置信度设置为0,以消除同一目标的冗余检测框. 然而,航拍图像中目标往往排列密集,NMS算法容易误删存在遮挡或重叠情况的检测框. 为此,引入Soft-NMS算法代替原有的NMS算法,并利用Nin-CIoU计算两边界框之间的重叠程度,构成Nin-NMS,进一步增强算法的泛化性. Nin-NMS的计算过程为

$ {s_i}'=s_i \mathrm{exp}\; ({-\text {Nin-{\rm{CIoU}}}\left(\boldsymbol{M}, \boldsymbol{b}_i\right)^2 / \sigma} );\;\boldsymbol{b}_i \notin {{\boldsymbol{D}}}. $

式中:$ {s_i}' $为调整后的检测框评分,参数$\sigma $用于控制抑制强度,$ {\mathrm{Nin}} {\text{-}} {\mathrm{CIoU}} $用于计算2个边界框之间的相似程度,M为置信度最高的检测框,bi为第i个待检测框,D为经过计算后选择保留的检测框集合.

1.4. 轻量化T型感知检测头

YOLOv8检测头采用解耦头结构,将分类和回归任务分开处理,允许每个任务进行专门的特征学习和优化,从而提高模型的性能和准确性. 然而,小目标检测需要更细致的联合特征信息来准确地进行分类和定位. 此外,解耦检测头对分类和回归任务进行独立优化,不可避免地会带来更大的计算开销以及更高的参数量. 基于上述YOLOv8检测头的优缺点,改进的检测头在降低参数量与计算量的同时,进一步增强对小目标特征的提取能力,寻求性能与资源消耗上的相对平衡.

轻量化T型感知检测头(lightweight T-shaped perception detection head, LTDH)在接收P2~P4层级输入的特征后,首先通过T型感知域特征融合模块增强各通道之间的信息流动和交互效率,其结构如图9所示. T型感知域特征融合模块由局部卷积PConv和逐点卷积PWconv组成. PConv通过通道分割将输入特征划分为2条分支,对一条分支进行卷积操作,提取特征信息,并通过恒等映射保留另一分支的特征. 此举优化了计算冗余,有效降低了模型复杂度. 对于经过PConv整合的特征信息,再通过逐点卷积PWconv处理和整合不同通道的信息,帮助模型捕捉跨通道的复杂特征关系,从而提升模型的表达能力. Tian等[18]证明了组归一化(group normalization, GN)可以提升检测头定位和分类的能力,因此改进的检测头在卷积层中将原检测头使用的BN均替换为GN. 假定输入特征$ \boldsymbol{I}=[\boldsymbol{x}_1, \boldsymbol{x}_2, \cdots, \boldsymbol{x}_n] \in \mathbf{R}^{C \times H \times W}$,通过分割操作将输入通道分为2个部分,分割后$\boldsymbol{X}_1 \in \mathbf{R}^{C_{\mathrm{p}} \times H \times W}$$ \boldsymbol{X}_2 \in \mathbf{R}^{\left(C-C_{\mathrm{p}}\right) \times H \times W}$的通道数分别为CP和(CCP). 具体计算过程为

图 9

图 9   T型感知域特征融合模块结构

Fig.9   T-shaped perceptual field feature fusion module architecture


$ {{\boldsymbol{I}}^{'}} = {\mathrm{SiLU}}\left[ {{\mathrm{Con}}{{\mathrm{v}}_{1 \times 1}}\left( {{\mathrm{Concat}}\left( {{\mathrm{Con}}{{\mathrm{v}}_{3 \times 3}}\left( {{{\boldsymbol{X}}_1}} \right),{{\boldsymbol{X}}_2}} \right)} \right)} \right]. $

为了进一步整合各层级间丰富的空间及语义信息,在T型感知域特征融合模块后使用2个$3 \times 3$的细节增强卷积DEConv,聚合来自不同层级的特征图. 相较于标准卷积,DEConv能够提高模型对目标轮廓和边缘的敏感度. 为了减少计算开销,对2个细节增强卷积采用参数共享的设计方式. 将整合后的信息分别输入负责分类和回归的分支,同时为了应对各检测头负责的目标尺度不一致的问题,使用尺寸缩放层对回归检测头进行调整,以增强对多尺度特征的保持能力. 综上,改进后的检测头在降低参数量与计算开销的同时,保证了检测的准确性.

2. 实 验

2.1. 数据集

实验采用天津大学发布的VisDrone2019数据集[19],共计8629张无人机视角下的航拍图像,场景包括市区、街道以及交通繁忙地区等,充分反映了航拍图像的复杂性和多样性. 其中包括6471张训练集,548张验证集和1610张测试集. 数据集涵盖自行车、遮阳棚三轮车、三轮车、行人、人、汽车、面包车、巴士、卡车、摩托10个类别.

2.2. 实验环境及参数配置

硬件配置与实验环境如下:处理器为Inter core i7-14650HX,内存为16 G,显卡为NVIDIA GeForce RTX4060,显存为8 G,采用CUDA 11.6、CUDNN v8.0作为显卡加速库. 采用Pytorch深度学习框架,操作系统为Windows11. 为了保证实验结果的公平性,实验中涉及的模型均未使用预训练权重. 模型训练所设置的图片尺寸为$640 \times 640$,训练轮数为300,每轮批大小设置为8. 选用SGD优化器进行优化,当评价指标连续40轮未上升时提前关停训练.

2.3. 消融实验

为了检验Nin-IoU的不同参数设定对检测结果产生的影响,同时确定针对小目标检测任务最佳的参数组合,进行消融实验. 分别将式(19)中$N$设置为0、1、5、9、15,${\text{ratio}}$设置为1.1、1.2、1.3、1.4、1.5,相互组合后共进行25组对比实验. 实验采用准确率(P)、召回率(R)、mAP0.5、mAP0.5∶0.95作为评价指标. 其中,mAP0.5表示以IoU阈值0.5计算的平均精度均值,mAP0.5∶0.95表示在IoU阈值0.5~0.95(步长0.05)取平均的平均精度均值. 随着$N$值的增大,评价指标出现明显提升,说明通过调整$N$值可以对模型检测结果起到正向提升作用. 同样地,当固定$N$值、仅调整${\text{ratio}}$时,评价指标出现显著提升,证明了${\text{ratio}}$参数的有效性. 由表1中的实验结果可以看出,当$N$=5、${\text{ratio}}$=1.1时,在评价指标上取得了最优的效果.

表 1   Nin-IoU消融实验结果

Tab.1  Results of Nin-IoU ablation experiment

NratioPR mAP0.5mAP0.5∶0.95
01.10.6030.3750.4940.321
01.20.6070.3750.4950.322
01.30.6100.3750.4960.322
01.40.6130.3750.4970.323
01.50.6140.3750.4980.323
11.10.6280.3730.5020.325
11.20.6290.3720.5020.326
11.30.6300.3720.5020.326
11.40.6310.3720.5030.326
11.50.6320.3720.5030.326
51.10.6360.3690.5030.327
51.20.6370.3680.5030.326
51.30.6370.3670.5030.326
51.40.6370.3670.5020.326
51.50.6370.3660.5020.326
91.10.6370.3660.5020.326
91.20.6380.3650.5020.326
91.30.6380.3640.5010.326
91.40.6370.3620.5000.325
91.50.6380.3610.5000.325
151.10.6380.3630.5010.326
151.20.6380.3610.5000.325
151.30.6380.3590.4990.325
151.40.6390.3580.4980.324
151.50.6390.3560.4970.324

新窗口打开| 下载CSV


采取N=5、ratio=1.1,对IoU、N-IoU、Inner-IoU以及Nin-IoU进行横向对比. 由表2可知,N-IoU通过引入Dice系数有效提升了边框回归的细粒度. Inner-IoU利用辅助边界框加快了低IoU样本的回归速度,相较于IoU,检测精度有所提升. Nin-IoU通过结合N-IoU与Inner-IoU,进一步提升了检测精度,验证了Nin-IoU改进的有效性.

表 2   损失函数对比实验结果

Tab.2  Comparison of loss function experimental results

模型 P R mAP0.5 mAP0.5∶0.95
IoU0.5990.3760.4920.320
N-IoU0.6340.3700.5000.324
Inner-IoU0.6030.3750.4940.321
Nin-IoU0.6360.3690.5030.326

新窗口打开| 下载CSV


利用空洞卷积并结合原结构中的大尺寸深度卷积构成深度空洞卷积,初步降低了模块参数量和计算开销. 深度空洞卷积的卷积核$k = 7$,填充${\mathrm{padding}} = (k/2) \times {\mathrm{dilation}}$,空洞率${\mathrm{dilation}}=5 $. 利用CSP结构进一步构建CSPOmni,有效降低了Omni-Kernel的参数量与计算开销,实验结果如表3所示. 其中,$ P_{{\mathrm{ara}}}^1$为单个模块参数量,$P_{{\mathrm{ara}}}^2$为模块融入改进网络后的整体参数量,FLOPs为模块融入改进网络后的整体计算量.

表 3   CSPOmni消融实验结果

Tab.3  Results of CSPOmni ablation experiment

模块$ P_{{\mathrm{ara}}}^1$/106$ P_{{\mathrm{ara}}}^2$/106FLOPs/109
OKM2.119.5736.6
OKM+DC1.629.0830.3
OKM+CSP0.768.2125.4
CSPOmni0.648.0823.6

新窗口打开| 下载CSV


为了探究自适应细节增强模块、多尺度特征融合网络、轻量化T型感知检测头以及Nin-IoU对模型的贡献,在VisDrone2019数据集上进行各模块的消融实验. 表4中,(a)~(d)分别表示仅对YOLOv8s添加自适应细节增强模块(ADEM)、多尺度特征融合网络(MFFN)、轻量化T型感知检测头(LTDH)或Nin-IoU,(e)表示在(a)的基础上添加多尺度特征融合网络,(f)表示在(e)的基础上加入Nin-IoU,(g)表示完整的改进模型. Pre为检测精确度,Para为模型参数量,F为每秒钟可以检测的图片数. 由表4可知,各项改进均起到了前文说明的作用. 自适应细节增强模块通过通道调制,减少冗余特征图的生成,并利用DEConv增强模型对高频细节特征的关注,在保证精度的同时使参数量减少了3.28×106,说明加强模型对浅层特征的关注,有助于捕获检测小目标所需的细粒度信息. 多尺度特征融合网络在参数量增加0.94×106的代价下,实现了mAP0.5值5.0个百分点的提升,说明引入大尺度卷积核可以帮助模型更好地确定目标位置信息. 在前两者的基础上加入轻量化T型感知检测头后,mAP0.5提高了0.9个百分点,同时参数量减少了0.71×106. 加入Nin-IoU后mAP0.5提高了5.9个百分点,其中Nin-IoU的应用包括构建Nin-CIoU损失函数,利用Nin-CIoU改进Soft-NMS,以及构建Nin-NMS算法. 说明经过针对性参数调整后的Nin-CIoU损失函数能够更好地适应小目标检测任务,并且引入Soft-NMS策略有效缓解了预选框误删的问题,提升了遮挡重叠目标的检测效果. 此外,加入COCO指标中针对小目标的评价指标APsmall0.5∶0.95,用以直观体现各改进部分对小目标检测的作用.

表 4   多尺度特征增强小目标检测算法的总体消融实验结果

Tab.4  Overall ablation results of small target detection algorithm based on multi-scale feature enhancement

模型ADEMMFFNLTDHNin-IoUmAP0.5/%mAP0.5∶0.95/%APsmall0.5∶0.95/%Pre/%Para/106FLOPs/109F/(帧$ \cdot {{\mathrm{s}}^{ - 1}}$)
YOLOv8s38.823.212.449.911.1328.5117.3
(a)38.522.911.749.77.8519.2117.6
(b)43.826.614.553.112.0740.1102.1
(c)39.623.912.752.110.4121.2114.9
(d)44.929.113.758.411.1328.580.9
(e)43.526.113.852.88.7931.1105.7
(f)44.427.414.756.28.0823.693.5
(g)50.332.715.763.68.0823.657.3

新窗口打开| 下载CSV


2.4. 对比实验

为了进一步验证所提算法的优越性,在保证训练环境相同的条件下,在VisDrone 2019数据集上将其与其他检测算法进行比较,包括YOLO系列算法与当前较先进的小目标检测算法. 评价指标选用AP、mAP0.5FPara,兼顾模型的检测精度与复杂程度,其中AP为单个类别的平均精度. 结果如表5所示. 对比其他算法,所提模型在行人、自行车、三轮车等8类目标上的检测性能最佳,在汽车、卡车2类纵横比较大的类别中,同样取得了较高的检测精度,AP分别为81.3%、49.3%. YOLOv5s、YOLOv7-tiny虽然在参数量方面更具优势,然而过低的检测精度使其难以满足实际应用需求. 提出的模型以8.08×106的参数量在mAP0.5上超过了参数量为60.42×106的TPH-YOLOv5算法,证明其在检测精度与计算开销之间实现了良好的平衡,能够在航拍图像目标检测任务中取得较好的效果.

表 5   不同算法在VisDrone数据集上的平均精度和参数量对比

Tab.5  Comparative results of different algorithms in average precision and parameters on VisDrone 2019 dataset

模型AP/%mAP0.5/%F/(帧$ \cdot {{\mathrm{s}}^{ - 1}}$)Para/106
行人自行车汽车面包车卡车三轮车遮阳棚三轮车巴士摩托车
Faster R-CNN[20]20.914.87.351.029.719.514.08.830.521.221.814.4
YOLOv5s39.031.311.273.535.429.520.511.143.137.033.2118.07.03
TPH-YOLOv5[1]53.342.121.183.745.242.533.016.361.151.044.934.060.42
YOLOv7-tiny[21]37.934.69.476.136.329.820.110.643.241.834.089.06.03
YOLOv8s42.032.812.579.444.735.526.917.154.043.338.817.311.13
YOLOv8l51.139.821.982.949.345.438.120.467.052.346.859.043.69
YOLOv9-C[22]34.018.415.477.545.254.124.824.164.938.339.750.90
YOLOv11s41.631.811.279.545.435.526.115.555.143.338.5121.89.46
本研究模型53.9 48.327.581.353.649.340.024.571.952.850.357.38.08

新窗口打开| 下载CSV


2.5. 可视化分析

为了充分验证提出的算法在面对不同场景时的检测性能,选取VisDrone 2019数据集中遮挡情况、高空视野、夜间环境等不同场景的航拍图像,同时对YOLOv8s以及本研究算法进行测试,结果如图10所示. 对比可知,本研究算法在小目标识别方面展现出更为优越的性能. 通过计算准确率和召回率,进一步定量分析检测效果. 图10(a)中P=0.897、R=0.667,图10(d)中P=0.903、R=0.737;图10(b) 中P=0.739、R=1.000,图10(e) 中P=0.811、R=1.000;图10(c)中P=1.000、R=0.108,图10(f)中P=1.000、R=0.270. 实验结果表明,本研究算法在不同检测场景下具有更好的鲁棒性及实用价值.

图 10

图 10   复杂场景中YOLOv8s和所提算法的目标检测效果对比

Fig.10   Comparison of YOLOv8s and proposed algorithm on target detection performance in complex scenes


利用可视化技术Grad-CAM[23]为YOLOv8s和本研究模型生成热力图,从而更直观地分析模型在进行决策时所关注的区域. Grad-CAM利用网络最后一层卷积层的特征图及其对应目标类别输出的梯度信息进行加权,生成类别热图,如图11所示. 其中高亮区域为对目标分类结果贡献较大的区域. 图11(b)表明YOLOv8s过分关注繁杂的背景信息,对检测对象的关注较为分散;图11(e)中,YOLOv8s对目标的关注较为分散,影响了边界框预测的准确度;图11(h)显示YOLOv8s对远景小目标的关注度不足,难以对远景小目标起到有效的检测作用. 综合分析表明,本研究算法相较于YOLOv8s模型加强了对小目标的关注度,同时减少了复杂背景对检测的干扰,在复杂场景特别是远视距场景中检测性能有显著提升.

图 11

图 11   不同场景中YOLOv8s与所提算法的热力图可视化结果

Fig.11   Heatmap visualization results of YOLOv8s and proposed algorithm in different scenarios


2.6. 泛化性实验

为了验证所提模型的泛化能力,使用DOTA数据集[24]与DIOR遥感数据集[25]进行泛化性实验. DOTA数据集包含2 806张遥感图像,涵盖直升机、轮船、港口等15种不同类别的目标. DIOR数据集包含来自不同地区的23 000余张遥感图像,覆盖了城市、乡村、海港等多种复杂场景,共包含20个目标类别,如飞机、车辆、船舶等. 上述2个数据集包含多种成像条件及气候状况下的图像,适合进行对比实验以验证所提模型的泛化能力.

依据官方建议划分数据集. DOTA数据集中的训练集、验证集和测试集各包含1 411、458、937张图片,DIOR数据集共包含5 862张训练集图片、5 863张验证集图片以及11 738张测试集图片. 实验结果如表6图12所示,在DIOR与DOTA数据集上,所提模型相较于YOLOv8s模型,检测精度分别取得了3.4与12.7个百分点的提升,表明本研究算法在面对不同成像条件及场景时具有较强泛化能力.

表 6   不同场景下的泛化性实验结果

Tab.6  Generalization performance across diverse scenarios

模型DIORDOTA
P/%R/%mAP0.5/%P/%R/%mAP0.5/%
YOLOv8s81.571.973.771.640.844.0
本研究模型81.074.177.173.640.156.7

新窗口打开| 下载CSV


图 12

图 12   不同场景中YOLOv8s与所提算法的泛化性实验效果对比

Fig.12   Comparison of generalization performance between YOLOv8s and proposed algorithm in different scenarios


3. 结 语

针对航拍图像小目标检测中存在的检测精度低和模型参数量大的问题,提出兼顾性能与资源消耗的航拍小目标检测算法. 在特征提取方面,提出自适应细节增强模块,在调整输入特征通道的同时加强对高频信息的关注,并集成C2f模块以构建C2f-ADEM. 实验结果显示,该设计在保证特征提取效果的同时有效降低了参数量及计算复杂度. 在特征融合方面,基于PAN-FPN 架构对YOLOv8特征融合网络进行改进. 采用SPDConv对B2层进行下采样,将输出结果与P3层融合,以增强对浅层特征信息的关注. 引入多尺度卷积模块,增强模型对全局信息的捕获. 热力图结果显示,改进模型有效优化了目标上下文语义信息感知,使模型更加关注目标的中心位置,有效提高了航拍图像检测精度. 在损失函数方面,针对传统IoU灵活性、泛化性不足的问题,结合N-IoU与Inner-IoU提出参数可调的Nin-IoU,以适应不同检测任务的需求. 针对航拍小目标检测中密集重叠目标的检测难题,引入Soft-NMS策略,利用Nin-CIoU算法筛选预选框,并构建Nin-NMS算法. 由实验结果可知,相较于基准算法,引入Nin-NMS后的模型在整体上的漏检率更低,对高重叠的对象簇具有更好的检测效果. 此外,提出轻量化T型感知检测头,旨在减少计算开销并加强不同尺度信息之间的交融,以适应小目标检测任务的需求. 在VisDrone2019数据集上的实验结果表明,本研究模型的mAP0.5值由38.8%提升至50.3%,参数量由11.13×106降低至8.08×106,表明本研究算法对航拍图像有较好的检测效果.

提出的模型在提升检测精度与减少参数量方面取得了一定成果,但由于Soft-NMS策略的引入增加了模型的后处理时间,模型检测速度有所下降. 下一步计划通过模型剪枝或蒸馏技术提升模型的整体性能,或对Soft-NMS策略进行进一步的改进,以满足实际应用需求.

参考文献

ZHANG H, XU C, ZHANG S J. Inner-IoU: more effective intersection over union loss with auxiliary bounding box [EB/OL]. (2023−11−14) [2024−11−20]. https://arxiv.org/abs/2311.02877.

[本文引用: 1]

TIAN Z, SHEN C, CHEN H, et al

FCOS: a simple and strong anchor-free object detector

[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2022, 44 (4): 1922- 1933

[本文引用: 1]

DU D, ZHU P, WEN L, et al. VisDrone-DET2019: the vision meets drone object detection in image challenge results [C]// Proceedings of the IEEE/CVF International Conference on Computer Vision Workshop. Seoul: IEEE, 2019: 213−226.

[本文引用: 1]

YU W, YANG T, CHEN C. Towards resolving the challenge of long-tail distribution in UAV images for object detection [C]// Proceedings of the IEEE Winter Conference on Applications of Computer Vision. Waikoloa: IEEE, 2021: 3257−3266.

[本文引用: 1]

WANG C Y, BOCHKOVSKIY A, LIAO H M. YOLOv7: trainable bag-of-freebies sets new state-of-the-art for real-time object detectors [C]// Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. Vancouver: IEEE, 2023: 7464−7475.

[本文引用: 1]

WANG C Y, YEH I H, LIAO H Y M. YOLOv9: learning what you want to learn using programmable gradient information [C]// European Conference on Computer Vision. Milan: Springer, 2025: 1−21.

[本文引用: 1]

SELVARAJU R R, COGSWELL M, DAS A, et al

Grad-CAM: visual explanations from deep networks via gradient-based localization

[J]. International Journal of Computer Vision, 2020, 128 (2): 336- 359

DOI:10.1007/s11263-019-01228-7      [本文引用: 1]

XIA G S, BAI X, DING J, et al. DOTA: a large- scale dataset for object detection in aerial images [C]// Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. Salt Lake City: IEEE, 2018: 3974−3983.

[本文引用: 1]

ZHU X, LYU S, WANG X, et al. TPH-YOLOv5: improved YOLOv5 based on transformer prediction head for object detection on drone-captured scenarios [C]// Proceedings of the IEEE/CVF International Conference on Computer Vision Workshops. Montreal: IEEE, 2021: 2778−2788.

[本文引用: 2]

LUO X, WU Y, WANG F

Target detection method of UAV aerial imagery based on improved YOLOv5

[J]. Remote Sensing, 2022, 14 (19): 5063

DOI:10.3390/rs14195063      [本文引用: 1]

宋耀莲, 王粲, 李大焱, 等

基于改进YOLOv5s的无人机小目标检测算法

[J]. 浙江大学学报: 工学版, 2024, 58 (12): 2417- 2426

[本文引用: 1]

SONG Yaolian, WANG Can, LI Dayan, et al

UAV small target detection algorithm based on improved YOLOv5s

[J]. Journal of Zhejiang University: Engineering Science, 2024, 58 (12): 2417- 2426

[本文引用: 1]

LI K, WAN G, CHENG G, et al

Object detection in optical remote sensing images: a survey and a new benchmark

[J]. ISPRS Journal of Photogrammetry and Remote Sensing, 2020, 159: 296- 307

[本文引用: 1]

邓天民, 余洋, 陈月田, 等. 基于自适应复合卷积的航拍小目标检测算法[J/OL]. 北京航空航天大学学报, 2024: 1–14. (2024−06−19) [2024−11−19]. https://doi.org/10.13700/j.bh.100-5965.2024.0135.

[本文引用: 1]

DENG Tianmin, YU Yang, CHEN Yuetian, et al. Small object detection algorithm for aerial photography based on adaptive compound convolution [J/OL]. Journal of Beijing University of Aeronautics and Astronautics, 2024: 1–14. (2024−06−19) [2024−11−19]. https://doi.org/10.13700/j.bh.100-5965.2024.0135.

[本文引用: 1]

CAO J, BAO W, SHANG H, et al

GCL-YOLO: a GhostConv-based lightweight YOLO network for UAV small object detection

[J]. Remote Sensing, 2023, 15 (20): 4932

DOI:10.3390/rs15204932      [本文引用: 1]

WANG H, LIU C, CAI Y, et al

YOLOv8-QSD: an improved small object detection algorithm for autonomous vehicles based on YOLOv8

[J]. IEEE Transactions on Instrumentation and Measurement, 2024, 73: 2513916

[本文引用: 1]

FENG F, HU Y, LI W, et al

Improved YOLOv8 algorithms for small object detection in aerial imagery

[J]. Journal of King Saud University-Computer and Information Sciences, 2024, 36 (6): 102113

DOI:10.1016/j.jksuci.2024.102113      [本文引用: 1]

BODLA N, SINGH B, CHELLAPPA R, et al. Soft-NMS: improving object detection with one line of code [C]// Proceedings of the IEEE International Conference on Computer Vision. Venice: IEEE, 2017: 5562−5570.

[本文引用: 1]

CHEN J, KAO SH, HE H, et al. Run, don’t walk: chasing higher FLOPS for faster neural networks [C]// Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. Vancouver: IEEE, 2023: 12021−12031.

[本文引用: 1]

YANG B, BENDER G, LE Q V, et al. CondConv: conditionally parameterized convolutions for efficient inference [C]// Proceedings of the 33rd International Conference on Neural Information Processing Systems. Vancouver: NeurIPS Foundation, 2020: 1296−1307.

[本文引用: 1]

CHEN Z, HE Z, LU Z M

DEA-net: single image dehazing based on detail-enhanced convolution and content-guided attention

[J]. IEEE Transactions on Image Processing, 2024, 33: 1002- 1015

DOI:10.1109/TIP.2024.3354108      [本文引用: 1]

LIN T Y, DOLLÁR P, GIRSHICK R, et al. Feature pyramid networks for object detection [C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Honolulu: IEEE, 2017: 936−944.

[本文引用: 1]

LIU S, QI L, QIN H, et al. Path aggregation network for instance segmentation [C]// Proceedings of the IEEE CVF Conference on Computer Vision and Pattern Recognition. Salt Lake City: IEEE, 2018: 8759−8768.

[本文引用: 1]

SUNKARA R, LUO T. No more strided convolutions or pooling: a new CNN building block for low-resolution images and small objects [C]// Joint European Conference on Machine Learning and Knowledge Discovery in Databases. Grenoble: Springer, 2023: 443−459.

[本文引用: 1]

CUI Y, REN W, KNOLL A

Omni-kernel network for image restoration

[J]. Proceedings of the AAAI Conference on Artificial Intelligence, 2024, 38 (2): 1426- 1434

DOI:10.1609/aaai.v38i2.27907      [本文引用: 1]

SU K, CAO L, ZHAO B, et al

N-IoU: better IoU-based bounding box regression loss for object detection

[J]. Neural Computing and Applications, 2024, 36 (6): 3049- 3063

DOI:10.1007/s00521-023-09133-4      [本文引用: 1]

/