<img src="https://www.zjujournals.com/eng/images/1008-973X/images/logo.png" class="img-responsive">

图 1 YOLOv8n网络结构图

Fig.1 YOLOv8n network structure diagram

图 2

图 2 CF-YOLOn网络结构图

Fig.2 CF-YOLOn network structure diagram

1.1. Backbone网络改进

离散小波变换 (discrete wavelet transform，DWT)因在时频域中具备良好的局部性特征，近年来被广泛应用于深度学习中的特征压缩与细节保持任务. 如图3所示为小波池化层(wavelet pooling layer， WPL)结构图^[16]，其对输入特征图执行DWT分解，获得3个频域子带：Low–Low (${\mathrm{ LL}} $)、Low–High ($ {\mathrm{LH }}$)和High–Low ($ {\mathrm{HL}} $). 其中，$ {\mathrm{LL}} $表示低频分量，代表水平方向和垂直方向均为低通响应，主要保留图像的亮度分布与大尺度结构；$ {\mathrm{LH}} $和${\mathrm{ HL}} $均表示高频分量，前者对应水平方向高通、垂直方向低通，后者对应水平方向低通、垂直方向高通，分别用于捕捉垂直边缘与水平边缘细节特征. 该高低频划分基于小波分解的固有频率特性，无须额外阈值设定. 随后，WPL引入注意力机制对高频响应进行显式建模，在降采样的同时增强边缘与纹理特征的保留能力.

图 3

图 3 小波池化层结构图

Fig.3 Wavelet pooling layer structure diagram

然而，尽管WPL在高频信息保持方面具有一定优势，但其缺乏深入卷积建模能力，难以捕捉复杂场景中的目标细节特征. 为此，本研究提出RDWTConv，融合小波分解与可学习卷积结构，通过残差连接实现频域细节与主干语义的高效融合，显著增强了复杂环境下小目标的检测精度与鲁棒性，结构设计如图4所示.

图 4

图 4 RDWTConv结构图

Fig.4 RDWTConv structure diagram

首先，给定输入特征图$ {\boldsymbol{X}} \in {{\bf{R}}^{{C_{{\text{in}}}} \times H \times W}} $，利用DWT进行特征分解，生成4组频域子带特征，分别对应$ {\mathrm{LL}} $、${\mathrm{ LH}} $、$ {\mathrm{HL}} $与$ {\mathrm{HH}} $，分量大小均为${{\bf{R}}^{^{{C_{{\text{in}}}} \times \tfrac{H}{2} \times \tfrac{W}{2}}}}$. 区别WPL仅采用的$ {\mathrm{LL}} $、$ {\mathrm{LH}} $、$ {\mathrm{HL}} $，本研究进一步利用全部4个子带，特别是高频分量$ {\mathrm{HH}} $，主要响应图像中同时具有水平方向和垂直方向的高频特征区域，如斜向纹理及角点细节，以更全面挖掘图像的多方向高频细节信息，有效增强纹理与角点特征的表达能力，进而缓解因高频信息缺失导致的误检与漏检. 表达式如下：

(1)$ [{\mathrm{LL}},{\mathrm{LH}},{\mathrm{HL}},{\mathrm{HH}}] = {{\mathrm{DWT}}}\left( {\boldsymbol{X }}\right) . $

将4个子带在通道维度上拼接，得到融合后的频域特征$ {{\boldsymbol{X}}_{{\text{wave}}}} $，表达式如下：

(2)$ {{\boldsymbol{X}}_{{\text{wave}}}} = {\text{Concat}}({\mathrm{LL}},\;{\mathrm{LH}},\;{\mathrm{HL}},\;{\mathrm{HH}};\;\dim = 1) . $

式中：$ {\text{dim}} = 1 $表示按通道维度拼接.

进而通过$1 \times 1$卷积对$ {{\boldsymbol{X}}_{{\text{wave}}}} $实现高维特征的通道重构与非线性映射，输出小波域特征张量$ {{\boldsymbol{X}}_{{\text{dwt}}}} $，以增强复杂场景中小目标及边缘细节的高阶特征表达：

(3)$ {{\boldsymbol{X}}_{{\text{dwt}}}} = f_{{\text{Conv}}}^{1 \times 1}({{\boldsymbol{X}}_{{\text{wave}}}}) . $

作为并行路径，输入特征经过标准卷积模块CBS进行下采样操作，生成与DWT分支对齐的主干特征表示$ {{\boldsymbol{X}}_{\text{r}}} $，用于提取局部上下文信息并保留图像的空间结构特征:

(4)$ {{\boldsymbol{X}}_{\text{r}}} = \delta \left( {{f_{{\text{BN}}}}\left( {f_{{\text{Conv}}}^{3 \times 3}({\boldsymbol{X}})} \right)} \right) . $

式中：$\delta ( \cdot )$表示SiLU激活函数.

最终，为了发挥频域与空间域特征的互补优势，采用逐元素加法将对DWT 分支与卷积分支的输出进行残差融合，生成最终特征$ {\boldsymbol{Y}} $. 这样既保留卷积分支对全局结构的空间信息建模能力，又注入频域分支提供的细粒度方向特征，实现更丰富的特征互补，能够有效增强复杂场景下小目标的检测鲁棒性. 该过程表达式如下：

(5)$ {\boldsymbol{Y}} = {{\boldsymbol{X}}_{{\text{dwt}}}} \oplus {{\boldsymbol{X}}_{\text{r}}} . $

1.2. Neck网络改进

当前多尺度特征融合策略普遍通过上下采样实现高低层特征对齐与拼接，以增强特征表达的一致性与判别性. 如图5所示为Birectional Concatenate (BiC) ^[17]结构图，通过上下采样实现特征对齐后拼接融合，在一定程度上提升了空间一致性，但该结构在语义层次差异显著、尺度差异大的目标检测任务中适应性较差，易引发检测偏差. 如图6所示为Sandwich-fusion (SF)^[18]结构图，在BiC基础上引入深度可分离卷积压缩浅层特征后与上采样的语义特征拼接融合，虽能缓解冗余计算问题，但仍难以针对不同语义层次间的差异性进行动态调节，复杂场景下多尺度目标检测的鲁棒性受限.

图 5

图 5 Birectional Concatenate结构图

Fig.5 Birectional Concatenate structure diagram

图 6

图 6 Sandwich-fusion结构图

Fig.6 Sandwich-fusion structure diagram

针对上述不足，特别是复杂背景及密集场景下多尺度目标与小目标检测易受干扰的问题，提出RCDFM. 该模块以中层特征为核心，联合浅层细节信息以及高层语义上下文，通过注意力引导与动态加权机制实现自适应特征融合，结构如图7所示. 具体而言，RCDFM接收来自主干网络的三路特征：浅层特征$ {{\boldsymbol{X}}_1} \in {{\bf{R}}^{{C_1} \times H \times W}} $、中层特征$ {{\boldsymbol{X}}_2} \in {{\bf{R}}^{{C_2} \times H \times W}} $和高层语义特征$ {{\boldsymbol{X}}_3} \in {{\bf{R}}^{{C_3} \times \tfrac{H}{2} \times \tfrac{W}{2}}} $. 其中，浅层特征作为信息引导路径，通过2个$1 \times 1$卷积分支生成映射结果，分别作为高层与中层分支的特征融合引导项，以强化复杂背景下对多尺度目标与边缘细节的感知. 表达式如下：

图 7

图 7 RCDFM结构图

Fig.7 RCDFM structure diagram

(6)$ \overline {{{\boldsymbol{X}}_1}} = {f_{{\text{Identity}}}}\left( {{f_{{\text{BN}}}}\left( {f_{{\text{Conv}}}^{1 \times 1}\left( {{{\boldsymbol{X}}_1}} \right)} \right)} \right) \text{，} $

(7)$ \widetilde {{{\boldsymbol{X}}_1}} = {f_{{\text{Identity}}}}\left( {{f_{{\text{BN}}}}\left( {f_{{\text{Conv}}}^{1 \times 1}\left( {{{\boldsymbol{X}}_1}} \right)} \right)} \right) . $

为了提升中层特征在复杂场景中对多尺度目标细节的通道响应能力，模块首先对输入特征$ {{\boldsymbol{X}}_2} $使用通道注意力机制. 具体地，先通过全局平均池化提取通道级上下文表示，随后通道注意力路径依次使用$1 \times 1$的通道压缩卷积$ {{\boldsymbol{W}}_1} \in {{\bf{R}}^{\tfrac{C}{n} \times C}} $、ReLU激活函数 ($\delta ( \cdot )$)、$1 \times 1$的通道扩展卷积${{\boldsymbol{W}}_2} \in {{\bf{R}}^{C \times \tfrac{C}{n}}}$，以及Sigmoid激活函数 ($\sigma ( \cdot )$)，生成通道注意力权重向量$ \widehat {{{\boldsymbol{X}}_2}} $. 进而使用$\widehat {{{\boldsymbol{X}}_2}}$对$ {{\boldsymbol{X}}_2} $进行逐通道加权，形成增强后的表征特征$ \overline {{{\boldsymbol{X}}_2}} $. 最终，融合中层原始特征$ {{\boldsymbol{X}}_2} $、增强特征$ \overline {{{\boldsymbol{X}}_2}} $与浅层引导特征$ \overline {{{\boldsymbol{X}}_1}} $，得到融合输出特征$ \widetilde {{{\boldsymbol{X}}_2}} $. 表达式如下：

(8)$ \widehat {{{\boldsymbol{X}}_2}} = \sigma \left( {{{\boldsymbol{W}}_2} \cdot \delta \left( {{{\boldsymbol{W}}_1} \cdot {f_{{\text{AvgPool}}}}({{\boldsymbol{X}}_2})} \right)} \right) \text{，} $

(9)$ \overline {{{\boldsymbol{X}}_2}} = {{\boldsymbol{X}}_2} \otimes \widehat {{{\boldsymbol{X}}_2}} \text{，} $

(10)$ \widetilde {{{\boldsymbol{X}}_2}} = {{\boldsymbol{X}}_2} \oplus \overline {{{\boldsymbol{X}}_1}} \oplus \overline {{{\boldsymbol{X}}_2}} . $

为了提升融合表达的语义一致性，高层语义特征$ {{\boldsymbol{X}}_3} $通过上采样操作恢复至中层空间尺度，并经浅层引导特征$ \widetilde {{{\boldsymbol{X}}_1}} $生成语义补偿特征$ \widetilde {{{\boldsymbol{X}}_3}} $. 表达式如下：

(11)$ \widetilde {{{\boldsymbol{X}}_3}} = \widetilde {{{\boldsymbol{X}}_1}} \oplus {f_{{\text{UpSample}}}}\left( {{{\boldsymbol{X}}_3}} \right) .$

为了进一步提升融合表达的准确性，从而更好适应复杂环境下的多尺度与小目标检测需求，引入可学习的融合权重向量$ {\boldsymbol{w}} = [{w_1},{w_2}] $,用于调控$ \widetilde {{{\boldsymbol{X}}_2}} $和$ \widetilde {{{\boldsymbol{X}}_3}} $在最终输出表示中的相对贡献比例，融合特征表示记为$ {\boldsymbol{F}} $. 表达式如下：

(12)$ {\alpha _i} = \dfrac{{{w_i}}}{{\displaystyle\sum\limits_{j = 1}^2 {{w_j}} \sigma ({w_j})+\varepsilon }};\quad i = 1,2. $

(13)$ {\boldsymbol{F}} = {\text{Concat}}\left( {{\alpha _1} \widetilde {{{\boldsymbol{X}}_2}},{\alpha _2} \widetilde {{{\boldsymbol{X}}_3}};\;{\text{dim}} = 1} \right). $

式中： $ {\text{dim}} = 1 $表示按通道维度拼接，$ \varepsilon $为非0常数，$\sigma ( \cdot )$表示激活函数Sigmoid.

1.3. Head改进

YOLOv8的原始边界框损失函数为CIoU，其通过在IoU项外加入中心距离与长宽比惩罚来提升边界框回归精度，但其宽高约束以角度差形式呈现，在小目标或长宽比极端的情况下对实际几何差异不敏感，特别在复杂背景与遮挡场景中更易出现边缘模糊，导致梯度对尺度偏差响应较弱. EIoU^[19]在CIoU的基础上进一步将宽、高拆分并按外接框尺度归一化，使几何误差中心距、宽度差、高度差可独立回传梯度，从而缓解对小目标和长宽比失衡目标的收敛滞后. EIoU的表达式如下：

(14)$ {\mathrm{IoU}} = \dfrac{{\left| {{B_{{\text{pre}}}} \cap \left. {{B_{{\text{gt}}}}} \right|} \right.}}{{\left| {{B_{{\text{pre}}}} \cup \left. {{B_{{\text{gt}}}}} \right|} \right.}}, $

(15)$ {\rho ^2} = \dfrac{{{{({x_{{\text{p}}1}}+{x_{{\text{p}}2}} - {x_{{\text{g}}1}} - {x_{{\text{g}}2}})}^2}+{{({y_{{\text{p}}1}}+{y_{{\text{p}}2}} - {y_{{\text{g}}1}} - {y_{{\text{g}}2}})}^2}}}{4}, $

(16)$ \begin{split}{c^2} =& {\left[ {\max \;({x_{{\text{p}}2}},{x_{{\text{g}}2}}) - \min\; ({x_{{\text{p}}1}},{x_{{\text{g}}1}})} \right]^2} +\\ & {\left[ {\max\; ({y_{{\text{p}}2}},{y_{{\text{g}}2}}) - \min \;({y_{{\text{p}}1}},{y_{{\text{g}}1}})} \right]^2} ,\end{split} $

(17)$ c_{\text{w}}^2 = {\left[ {\max \;({x_{{\text{p}}2}},{x_{{\text{g}}2}}) - \min\; ({x_{{\text{p}}1}},{x_{{\text{g}}1}})} \right]^2}, $

(18)$ c_{\text{h}}^2 = {\left[ {\max\; ({y_{{\text{p}}2}},{y_{{\text{g}}2}}) - \min\; ({y_{{\text{p}}1}},{y_{{\text{g}}1}})} \right]^2}, $

(19)$ {{L}_{{\text{EIoU}}}} = 1 - {\text{IoU}}+\dfrac{{{\rho ^2}}}{{{c^2}}}+\dfrac{{{{(w - {w^{{\text{gt}}}})}^2}}}{{c_{\text{w}}^2}}+\dfrac{{{{(h - {h^{{\text{gt}}}})}^2}}}{{c_{\text{h}}^2}}. $

式中：${\mathrm{ IoU}} $为预测框$ {B_{{\text{pre}}}} = ({x_{{\text{p}}1}},{y_{{\text{p}}1}},{x_{{\text{p}}2}},{y_{{\text{p}}2}}) $和真实框$ {B_{{\text{gt}}}} = ({x_{{\text{g}}1}},{y_{{\text{g}}1}},{x_{{\text{g}}2}},{y_{{\text{g}}2}}) $的交并比，预测框的宽和高分别对应为$w = {x_{{\text{p}}2}} - {x_{{\text{p}}1}}$、$h = {y_{{\text{p}}2}} - {y_{{\text{p}}1}}$，真实框的宽和高对应为${w^{{\text{gt}}}} = {x_{{\text{g}}2}} - {x_{{\text{g}}1}}$、${h^{{\text{gt}}}} = {y_{{\text{g}}2}} - {y_{{\text{g}}1}}$. 通过上述公式，虽然EIoU使中心、宽度、高度3种几何误差在同一标准上传递梯度，收敛速度与定位精度均优于CIoU，但其表达式（式(19)）中的尺度惩罚权重固定，难以有效适应不同尺度误差. 特别是在复杂背景与遮挡条件下，图像中的多尺度目标及被遮挡目标几何特征更易受背景噪声干扰，这进一步降低了多尺度目标共存场景下的定位精度.

为了增强EIoU对多尺度目标的适应性，特别是在复杂背景、遮挡及视角变化显著的航拍场景下，提出TSSIoU损失函数. 该损失借鉴了Gaussian Wasserstein Distance (GWD)^[20]在旋转框检测中利用Wasserstein距离刻画几何尺度差异的思想，以充分发挥Wasserstein距离在度量边界框几何差异方面的优势.

首先，将边界框的宽高视作相互独立的随机变量，首先计算中心偏移误差以及宽高误差，以分别刻画位置与尺度的几何差异，为后续构造近似Wasserstein型尺度-形状距离提供基础度量：

(20)$ {p_1} = {({x_{{\text{p}}1}} - {x_{{\text{g}}1}})^2}+{({y_{{\text{p}}1}} - {y_{{\text{g}}1}})^2} \text{，} $

(21)$ {p_2} = \dfrac{{{{(w - {w^{{\text{gt}}}})}^2}+{{(h - {h^{{\text{gt}}}})}^2}}}{4} . $

将$ {p_1} $和$ {p_2} $归一化后，然后结合高阶差异与指数映射来调整分布的中心与尺度，进一步通过平滑映射形式构造SWD. 其可视为在Gaussian Wasserstein距离刻画分布几何差异的理论基础上摒弃了对协方差耦合结构的高维张量依赖，转而以显式建模中心与尺度的几何偏移差异，构造出兼具紧凑性与高效可微的近似度量形式，从而在统一表征边界框尺度与形状差异的同时，有效提升对中心位移及长宽比例异常目标的几何约束能力. 表达式如下：

(22)$ {\mathrm{gw}} = \exp\;\left({ - \dfrac{{\sqrt {{p_1}+{p_2}} }}{{2.5}}}\right). $

(23)$ {{L}_{{\text{SWD}}}} = 1 - \dfrac{1}{{\gamma +\sqrt {{\mathrm{gw}}} }};\;\gamma = 1.0. $

式中：gw为结合高阶差异与指数映射显式表征中心与尺度偏移的量， L_SWD表示通过平滑映射构造的损失函数。

最后，综合式 (19)、 (23)得到最终损失计算，在保持EIoU对边界框覆盖约束的同时，进一步强化对长宽及中心偏移的惩罚，从而提升高空视角下不同尺度与形状目标在复杂场景下的定位精度. 表达式如下：

(24)$ {{L}_{{\text{TSSIoU}}}} = \dfrac{{\gamma \left( {1 - {{L}_{{\text{EIoU}}}}} \right)+\left( {1 - \gamma } \right)\left( {1 - {{L}_{{\text{SWD}}}}} \right)}}{{\displaystyle\sum\limits_i {{s_i}} }}. $

式中：$ \gamma \in \left( {0,1.0} \right) $用于平衡2类损失的贡献，$ {s_i} $为前景样本置信权重.

2. 实验结果及分析

2.1. 实验环境与数据集

实验在Ubuntu 22.04环境下进行，硬件配置包括90 GB内存、NVIDIA RTX 4090显卡 (24210 MiB显存)和AMD EPYC 7T83 64核处理器 (22 线程). 软件环境采用Python 3.9.19编程语言，基于PyTorch 2.0.1深度学习框架，并通过CUDA 11.8实现模型训练与推理的加速. 所有实验均训练250轮，模型输入分辨率为 640×640，优化器采用 SGD (初始学习率为0.01，动量为0.93，权重衰减为0.0005)，batch size为 16，workers 数为8.

实验采用的大型公开数据集VisDrone^[21]和Drone-Vehicle^[22]均来源于真实无人机航拍场景，涵盖多种飞行高度与拍摄角度，包含遮挡、密集及夜间低光照等复杂场景，目标呈现明显的多尺度分布，且小尺度目标占比较高，充分体现了数据集的复杂性与多样性. Drone-Vehicle含训练集 17990 张、验证集 1465 张、测试集 8980 张图像. VisDrone则包含训练集 6 471张、验证集 548 张、测试集 1610 张图像. 整体数据规模充足，能有效支撑多场景、多尺度条件下的算法适应性与泛化性评估.

如图 8所示为数据分布图. 其中，$\bar h $、$\bar w$分别为目标边界框的归一化高度、宽度，$N_{\mathrm{L }}$为每个标签类别的数量. 由图8(a)、(b)可以看出，目标尺寸越小，其在图像中的分布越密集，颜色越深代表该尺寸范围内的目标数量越多，反映出2个数据集的小目标分布特征. 如图 8(c)、(d)所示分别展示了VisDrone与Drone-Vehicle中不同类别目标的数量分布，可以看出，car类别在两者中均占据主要比例，与本研究聚焦的车辆检测任务高度契合，验证了选用数据集在研究背景下的代表性与适用性.

图 8

图 8 VisDrone 和 Drone-Vehicle 数据集标签数量及大小分布情况

Fig.8 Target counts and size distributions in VisDrone and Drone-Vehicle datasets

2.2. 评价指标

模型的评价指标包括精确率P、召回率R和均值平均精确度mAP. 其中，P越高表示模型的误检率越低，R越高表示漏检率越低，mAP越高表明在各类目标上的整体检测性能越优. 此外，实时检测速度 FPS用于衡量模型的推理效率，参数量Params反映模型规模，浮点运算量GFLOPs用于量化计算开销.

2.3. RDWTConv模块性能分析

如表1所示比较了在YOLOv8 Backbone中替换原生下采样结构CBS后的检测性能. 所提RDWTConv由卷积分支CBS与离散小波分支DWT融合构成，其余对照模块均为经典下采样结构. 实验结果表明，RDWTConv仅增加0.17×10⁶参数量和0.4×10⁹的计算量，在mAP@0.5和mAP@0.5:0.95指标上均显著优于CBS、DWT及其他下采样方法，且模型的P和R分别达到45.1%和33.2%. 在检测精度提升的同时，该模块有效增强了复杂场景下对小目标与边缘纹理的感知能力，降低了背景干扰、遮挡及目标尺寸变化带来的漏检与误检，进一步验证了其在复杂环境下的检测鲁棒性.

表 1 不同下采样模块的性能比较 (VisDrone数据集)

Tab.1 Performance comparison of different downsampling modules (VisDrone Dataset)

Methods	P/%	R/%	mAP@ 0.5/%	mAP@ 0.5:0.95/%	Params/ 10⁶	GFLOPs/ 10⁹
CBS	44.5	32.3	32.4	18.7	3.01	8.1
DWT	43.4	32.3	32.3	18.7	2.79	7.6
RDWTConv	45.1	33.2	33.7	19.6	3.18	8.5
ADown^[23]	43.4	30.8	31.1	17.8	2.72	7.4
SCDown^[24]	44.6	33.1	33.0	19.0	2.66	7.6
DWConv^[25]	43.1	31.2	31.2	17.8	2.62	7.2
RepVGGBlock^[18]	43.7	32.6	32.7	18.9	3.05	8.2

2.4. RCDFM模块性能分析

如表2所示展示了在YOLOv8n的Neck中，使用BiC、SF和RCDFM替代原始Concat结构的检测性能. 三者均优于Concat，表明改进的特征融合机制可提升检测效果. 其中，RCDFM在仅增加0.6×10⁶参数量和0.3×10⁹计算量的条件下，使mAP@0.5和mAP@0.5:0.95分别提升1.9和1.2个百分点. 该结果表明，RCDFM能动态调节高层语义与浅层细节差异，提升在密集、遮挡和低光照等复杂背景下多尺度目标的检测精度，显著增强跨尺度信息交互的鲁棒性.

表 2 RCDFM的性能比较 (VisDrone数据集)

Tab.2 Performance comparison of RCDFM (VisDrone Dataset)

Methods	mAP@0.5/%	mAP@0.5:0.95/%	Params/10⁶	GFLOPs/10⁹
Concat	32.4	18.7	3.01	8.1
BiC^[17]	33.1	19.2	3.05	8.4
SF^[18]	32.8	19.0	3.02	8.3
RCDFM	34.3	19.9	3.07	8.4

2.5. 边界框损失函数分析

如表3所示比较了在YOLOv8n Head中引入不同边界框回归损失函数后的性能变化. 与基线CIoU相比，DIoU和SIoU的引入导致P指标明显下降，表明模型控制误检的能力降低. 采用GIoU或EIoU，mAP@0.5与mAP@0.5:0.95略有提升，定位精度有所改善，但整体检测性能提升有限. 相比之下，使用提出的TSSIoU损失，P、R、mAP@0.5与mAP@0.5:0.95指标均取得最佳结果，表明该损失通过引入尺度和形状适应项，能够更准确地约束边界框几何关系，提升召回能力并有效控制误检，从而增强复杂环境下多尺度车辆检测的精度与鲁棒性.

表 3 不同边界框损失函数的性能比较 (VisDrone数据集)

Tab.3 Performance comparison of different bounding box loss functions (VisDrone Dataset)

Methods	P/%	R/%	mAP@0.5/%	mAP@0.5:0.95/%
CIoU	44.5	32.3	32.4	18.7
DIoU	42.8	32.4	31.9	18.5
SIoU	42.5	32.8	32.2	18.5
GIoU	44.3	32.2	32.8	18.9
EIoU	43.2	32.8	32.5	18.8
TSSIoU	44.7	32.9	33.2	19.2

如图9(a)所示展示了不同取值下$ \gamma $的回归损失曲线，如图9(b)所示给出了对应的检测性能指标. 可以看出，随着$ \gamma $的增大，训练中损失下降更快，收敛速度更高. 这主要由于 TSSIoU 中 EIoU 项对重叠区域的加权提升了预测框与真实框匹配的置信度，从而加速收敛. 但从图9(b)可见，虽然$ \gamma $超过一定阈值，使得模型的收敛速度更快，但过度依赖 EIoU 易忽视目标框的几何属性，导致对多尺度或非规则小目标检测的回归精度显著下降.

图 9

图 9 超参数$ \gamma $分析

Fig.9 Study on hyperparameter$ \gamma $

相比之下，当$ \gamma = 0.5 $时，EIoU与SWD两项之间实现了更合理的权重分配，兼顾重叠精度与几何一致性，回归损失下降过程平稳，整体训练稳定收敛，且无明显波动. 最终模型在 mAP@0.5 上取得最佳性能，体现了优化效率与泛化能力之间的良好权衡.

2.6. 消融实验

如表4所示为模型消融研究，验证了RDWTConv、RCDFM与TSSIoU在CF-YOLO中的性能贡献. 引入RDWTConv后，M1的P、mAP@0.5与mAP@0.5:0.95分别提升0.6、1.3和0.9个百分点，验证了其结构的有效性. M2在替换Concat结构的同时，为了引入更多浅层信息，将RCDFM扩展为3层 (未引入小目标检测头)，显著提升了模型的P、R及精度指标，mAP@0.5和mAP@0.5:0.95分别提高4.0和2.9个百分点，表明跨尺度残差融合结构有助于抑制误检与漏检. M3引入TSSIoU后，R提升至32.9%，mAP@0.5和mAP@0.5:0.95分别提升了0.8与0.5个百分点，表明尺度-形状适应机制可优化复杂场景下的边界框定位. M4同时融合了RDWTConv以及RCDFM模块，mAP@0.5和mAP@0.5:0.95分别达到37.6%和22.4%，但参数和计算量增至3.35×10⁶与11.5×10⁹. M5在此基础上引入TSSIoU，精度进一步提升，mAP@0.5和mAP@0.5:0.95分别达到38.3%和22.9%，推理速度为168.5帧/s. 进一步对M5的Neck进行参数优化（见图2），得到CF-YOLOn，其参数与计算量较M5的分别减少约31.3%和14.0%，且P、R、mAP@0.5和mAP@0.5:0.95仍较基线提升4.8、4.6、5.5和4.0个百分点，推理速度达169.1帧/s，验证3组件协同在复杂环境下实现精度、效率与鲁棒性的最优平衡.

表 4 模型消融研究 (VisDrone数据集)

Tab.4 Model ablation studies (VisDrone Dataset)

Models	RDWTConv	RCDFM	TSSIoU	P/%	R/%	mAP@0.5/%	mAP@0.5:0.95/%	Params/10⁶	GFLOPs/10⁹	FPS/(帧·s⁻¹)
YOLOv8n	—	—	—	44.5	32.3	32.4	18.7	3.01	8.1	209.9
M1	√	—	—	45.1	33.2	33.7	19.6	3.18	8.5	181.3
M2	—	√	—	46.9	35.7	36.4	21.6	3.18	11.1	178.4
M3	—	—	√	44.7	32.9	33.2	19.2	3.01	8.1	209.9
M4	√	√	—	48.8	36.9	37.6	22.4	3.35	11.5	168.5
M5	√	√	√	49.2	37.5	38.3	22.9	3.35	11.5	168.5
CF-YOLOn	√	√	√	49.3	36.9	37.9	22.7	2.30	9.9	169.1

2.7. 基于VisDrone数据集的模型对比实验

如图10所示为模型对比实验，图10(a)、(b)从推理速度 (FPS)与检测精度 (mAP@0.5与mAP@0.5:0.95)2个角度进行对比. 可见，在相近甚至略高的FPS下，CF-YOLO的整体检测精度显著优于YOLOv5、YOLOv12与Drone-YOLO等对照模型的，同尺寸的n/s/m模型均取得更优性能. 图10(c)分析参数量与mAP@0.5关系，表明在相近甚至更小的参数规模下，CF-YOLO的检测精度显著提升，曲线整体上移，显示更高的参数效率. 图10 (d)展示GFLOPs与mAP@0.5关系，虽然CF-YOLO计算量略高于部分对照模型，但检测精度提升更为明显，曲线斜率更大，说明额外计算被高效转化为检测性能增益. 上述实验结果表明，相较于YOLOv5~YOLOv12和Drone-YOLO在复杂场景下难以兼顾检测精度与实时性的局限，所提CF-YOLO在推理速度、参数量与计算开销3方面实现更优的精度-成本平衡，有效验证了其在复杂环境下多尺度目标检测任务中的实用价值与鲁棒性.

图 10

图 10 模型对比实验 (VisDrone数据集)

Fig.10 Model comparison experiments (VisDrone Dataset)

2.8. 基于Drone-Vehicle数据集的模型泛化实验

如表5所示展示了各轻量级模型在Drone-Vehicle的检测性能对比. YOLOv12n虽在检测精度 (mAP)上较YOLOv8n有所提升，但其为提升精度而牺牲了推理速度，实际帧率仅有75.9帧/s，从而严重限制其在实际场景中的应用潜力. 相比之下，CF-YOLOn在保持与IV-YOLO和FBRT-YOLOn相近推理速度的前提下，检测精度仍具显著优势，进一步验证了其在精度与实时性之间的良好平衡. 相较于YOLO系列的最新版本YOLOv12，CF-YOLOn在精度与推理速度方面均表现更优，更适用于对检测精度与响应速度要求较高的无人机目标检测任务.

表 5 模型泛化实验 (Drone-Vehicle数据集)

Tab.5 Model generalization experiments  (Drone-Vehicle Dataset)

Models	mAP@0.5/%	mAP@0.5:0.95/%	Params/10⁶	FPS/(帧·s⁻¹)
Drone-YOLO	74.5	50.1	2.97	172.1
FBRT-YOLOn^[26]	74.6	50.2	0.90	165.3
IV-YOLO^[27]	74.9	49.6	4.31	184.7
YOLOv8n	75.7	50.5	3.01	205.4
YOLOv9t	77.2	52.2	1.97	103.2
YOLOv10n	76.2	50.6	2.70	136.8
YOLO11n	75.4	50.3	2.58	187.5
YOLO12n	76.3	51.4	2.51	75.9
CF-YOLOn	77.8	53.5	2.30	164.7

2.9. 可视化展示

如图11所示展示了YOLOv8n与CF-YOLOn在不同场景下的检测可视化结果. 图11(a)为密集遮挡场景，CF-YOLOn较YOLOv8n漏检更少，覆盖更多真实目标，整体检测精度更高. 图11 (b)为稀疏场景，CF-YOLOn在小目标检测上表现更优，漏检率更低，而YOLOv8n存在误检. 对于黑暗场景，图11 (c)中YOLOv8n未能检测到红色圆圈标注目标，图11 (d)中将高楼玻璃误判为车辆，显示其在低光照环境下检测精度下降. 相比之下，CF-YOLOn在该类场景中检测精度更高，误检与漏检更少. 此外，从图11 (a)、(b)的白天场景可见，CF-YOLO在处理与车辆外观相似的背景目标时仍存在一定误检，表明其在应对背景干扰方面的鲁棒性尚有待提升，这将是后续研究的重要方向.

图 11

图 11 检测结果可视化 (VisDrone数据集)

Fig.11 Visualization of results (VisDrone Dataset)

3. 结　语

在复杂场景下，RDWTConv较其他下采样结构更能缓解细节丢失问题. 但其DWT操作须将原始特征拆分为多个子特征，导致增加了额外的计算开销，推理帧率下降约28帧/s. 与其他特征融合机制相比，RCDFM更有助于提升复杂场景下多尺度目标的特征表达能力，但多分支结构会产生一定的推理开销. 与其他边界框损失相比，TSSIoU更能适应高空多变视角下目标尺度与形状差异，显著提升复杂场景中边界框的定位精度. 构建的CF-YOLO系列在检测精度与实时性之间实现了更优平衡，并在Drone-Vehicle数据集上展现出良好的泛化能力，为复杂场景下无人机航拍车辆检测提供了有效解决方案.

本研究的不足之处在于，CF-YOLO在处理与车辆外观相似的背景目标时仍存在一定的误检. 针对这一问题，下一步研究将探索引入更精细的特征表示与多模态信息融合方法，以提升模型的判别能力并有效降低误检率.

参考文献

原文顺序

文献年度倒序

文中引用次数倒序

被引期刊影响因子

[1]

HEARST M A, DUMAIS S T, OSUNA E, et al

Support vector machines

[J]. IEEE Intelligent Systems and Their Applications, 1998, 13 (4): 18- 28

DOI:10.1109/5254.708428 [本文引用: 1]

[2]

BEJA-BATTAIS P. Overview of AdaBoost : reconciling its views to better understand its dynamics [EB/OL]. (2023-10-06)[2025-04-18]. https://arxiv.org/abs/2310.18323

[3]

REN S, HE K, GIRSHICK R, et al

Faster R-CNN: towards real-time object detection with region proposal networks

[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2017, 39 (6): 1137- 1149

DOI:10.1109/TPAMI.2016.2577031 [本文引用: 1]

[4]

REDMON J, DIVVALA S, GIRSHICK R, et al. You only look once: unified, real-time object detection [C]// IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas: IEEE, 2016: 779–788.

[5]

LIU W, ANGUELOV D, ERHAN D, et al. SSD: single shot MultiBox detector [C]// European Conference on Computer Vision (ECCV) 2016. Cham: Springer International Publishing, 2016: 21–37.

DOI:10.3778/j.issn.1002-8331.2312-0291 [本文引用: 1]

[6]

GUPTA P, PAREEK B, SINGAL G, et al

Edge device based military vehicle detection and classification from UAV

[J]. Multimedia Tools and Applications, 2022, 81 (14): 19813- 19834

DOI:10.1007/s11042-021-11242-y [本文引用: 1]

[7]

史涛, 崔杰, 李松

优化改进YOLOv8实现实时无人机车辆检测的算法

[J]. 计算机工程与应用, 2024, 60 (9): 79- 89

SHI Tao, CUI Jie, LI Song

Algorithm for real-time vehicle detection from UAVs based on optimizing and improving YOLOv8

[J]. Computer Engineering and Applications, 2024, 60 (9): 79- 89

DOI:10.3778/j.issn.1002-8331.2312-0291 [本文引用: 1]

[8]

SUN Y, SHAO Z, CHENG G, et al

Road and car extraction using UAV images via efficient dual contextual parsing network

[J]. IEEE Transactions on Geoscience and Remote Sensing, 2022, 60: 5632113

DOI:10.1016/j.measurement.2023.113936 [本文引用: 1]

[9]

HAMZENEJADI M H, MOHSENI H

Fine-tuned YOLOv5 for real-time vehicle detection in UAV imagery: architectural improvements and performance boost

[J]. Expert Systems with Applications, 2023, 231: 120845

DOI:10.1016/j.eswa.2023.120845 [本文引用: 1]

[10]

YING Z, ZHOU J, ZHAI Y, et al

Large-scale high-altitude UAV-based vehicle detection via pyramid dual pooling attention path aggregation network

[J]. IEEE Transactions on Intelligent Transportation Systems, 2024, 25 (10): 14426- 14444

DOI:10.1109/TITS.2024.3396915 [本文引用: 1]

[11]

HUI Y, WANG J, LI B

STF-YOLO: a small target detection algorithm for UAV remote sensing images based on improved SwinTransformer and class weighted classification decoupling head

[J]. Measurement, 2024, 224: 113936

[12]

姜贸翔, 司占军, 王晓喆

改进RT-DETR的无人机图像目标检测算法

[J]. 计算机工程与应用, 2025, 61 (1): 98- 108

DOI:10.3778/j.issn.1002-8331.2405-0331 [本文引用: 1]

JIANG Maoxiang, SI Zhanjun, WANG Xiaozhe

Improved target detection algorithm for UAV images with RT-DETR

[J]. Computer Engineering and Applications, 2025, 61 (1): 98- 108

DOI:10.3778/j.issn.1002-8331.2405-0331 [本文引用: 1]

[13]

李彬, 李生林

改进YOLOv11n的无人机小目标检测算法

[J]. 计算机工程与应用, 2025, 61 (7): 96- 104

DOI:10.3778/j.issn.1002-8331.2411-0072 [本文引用: 1]

LI Bin, LI Shenglin

Improved YOLOv11n small object detection algorithm in UAV view

[J]. Computer Engineering and Applications, 2025, 61 (7): 96- 104

DOI:10.3778/j.issn.1002-8331.2411-0072 [本文引用: 1]

[14]

梁燕, 何孝武, 邵凯, 等

改进YOLOv8的无人机航拍图像目标检测算法

[J]. 计算机工程与应用, 2025, 61 (1): 121- 130

DOI:10.3778/j.issn.1002-8331.2405-0459 [本文引用: 1]

LIANG Yan, HE Xiaowu, SHAO Kai, et al

Target detection algorithm for UAV images based on improved YOLOv8

[J]. Computer Engineering and Applications, 2025, 61 (1): 121- 130

DOI:10.3778/j.issn.1002-8331.2405-0459 [本文引用: 1]

[15]

JOCHER G, CHAURASIA A, QIU J. Ultralytics YOLOv8 [EB/OL]. (2023-01-28)[2025-04-18]. https://github.com/ultralytics/ultralytics.

[16]

XUE Y, JIN G, SHEN T, et al

SmallTrack: wavelet pooling and graph enhanced classification for UAV small object tracking

[J]. IEEE Transactions on Geoscience and Remote Sensing, 2023, 61: 5618815

DOI:10.1016/j.neucom.2022.07.042 [本文引用: 1]

[17]

LI C, LI L, GENG Y, et al. YOLOv6 v3. 0: a full-scale reloading [EB/OL]. (2023-01-13)[2025-04-18]. https://arxiv.org/abs/2301.05586.

[本文引用: 2]

[18]

ZHANG Z

Drone-YOLO: an efficient neural network method for target detection in drone images

[J]. Drones, 2023, 7 (8): 526

DOI:10.3390/drones7080526 [本文引用: 3]

[19]

ZHANG Y F, REN W, ZHANG Z, et al

Focal and efficient IOU loss for accurate bounding box regression

[J]. Neurocomputing, 2022, 506: 146- 157

[20]

YANG X, YAN J, MING Q, et al. Rethinking rotated object detection with Gaussian Wasserstein distance loss [C]// International Conference on Machine Learning (ICML). Virtual Event: PMLR, 2021: 11830–11841.

[21]

DU D, ZHU P, WEN L, et al. VisDrone-DET2019: the Vision Meets Drone Object Detection in Image Challenge Results [C]// 2019 IEEE/CVF International Conference on Computer Vision Workshop (ICCVW). Seoul: IEEE, 2019: 213–226.

[22]

SUN Y, CAO B, ZHU P, et al

Drone-based RGB-infrared cross-modality vehicle detection via uncertainty-aware learning

[J]. IEEE Transactions on Circuits and Systems for Video Technology, 2022, 32 (10): 6700- 6713

DOI:10.1109/TCSVT.2022.3168279 [本文引用: 1]

[23]

WANG C-Y, YEH I-H, LIAO H. YOLOv9: learning what you want to learn using programmable gradient information [EB/OL]. (2024-02-21)[2025-04-18]. https://arxiv.org/abs/2402.13616.

[24]

WANG A, CHEN H, LIU L, et al. YOLOv10: real-time end-to-end object detection [EB/OL]. (2023-05-23)[2025-04-18]. https://arxiv.org/abs/2405.14458.

[25]

CHOLLET F. Xception: deep learning with depthwise separable convolutions [C]// IEEE Conference on Computer Vision and Pattern Recognition. Honolulu: IEEE, 2017: 1800–1807.

[26]

XIAO Y, XU T, XIN Y, et al. FBRT-YOLO: faster and better for real-time aerial image detection [EB/OL]. (2025-04-29)[2025-04-18]. https://arxiv.org/abs/2504.20670.