浙江大学学报(工学版), 2026, 60(7): 1599-1610 doi: 10.3785/j.issn.1008-973X.2026.07.021

交通工程

基于无人机航拍图像的实时车辆检测算法

孟昱煜,, 马银宝, 火久元,

兰州交通大学 电子与信息工程学院,甘肃 兰州 730070

Real-time vehicle detection algorithm based on UAV aerial images

MENG Yuyu,, MA Yinbao, HUO Jiuyuan,

School of Electronics and Information Engineering, Lanzhou Jiaotong University, Lanzhou 730070, China

通讯作者: 火久元,男,教授,博导. orcid.org/0000-0003-2395-4133. E-mail:huojy@mail.lzjtu.cn

收稿日期: 2025-05-29  

基金资助: 国家自然科学基金资助项目(62262038);甘肃省技术创新指导计划-科技专家资助项目(25CXGA030);甘肃省重点研发计划-工业资助项目(25YFGA045).

Received: 2025-05-29  

Fund supported: 国家自然科学基金资助项目(62262038);甘肃省技术创新指导计划-科技专家资助项目(25CXGA030);甘肃省重点研发计划-工业资助项目(25YFGA045).

作者简介 About authors

孟昱煜(1975—),女,副教授,硕导,从事数据挖掘研究.orcid.org/0009-0003-1310-7755.E-mail:mengyuyu@mail.lzjtu.cn , E-mail:mengyuyu@mail.lzjtu.cn

摘要

针对无人机(UAV)航拍图像中多尺度目标,尤其是小目标,在密集、遮挡及低光照等复杂场景下检测精度较低的问题,提出卷积-小波双域下采样器RDWTConv,以保留小目标细节;设计3层跨尺度残差融合模块RCDFM,以增强多尺度特征交互;提出尺度-形状损失TSSIoU,以提升航拍视角下目标尺度与形状的边界框定位精度. 在此基础上,基于YOLOv8构建适配不同算力需求的CF-YOLOn、CF-YOLOs与CF-YOLOm模型. 实验结果显示,在VisDrone数据集上,CF-YOLOn在参数量减少23.7%、计算量仅增加22.5%的情况下,mAP@0.5和mAP@0.5:0.95较基线YOLOv8n分别提高5.5和4.0个百分点,帧率保持169.1帧/s,且在相同帧率区间内,s、m版本取得最高精度;在Drone-Vehicle数据集上重新训练后,CF-YOLOn的mAP@0.5:0.95较基线YOLOv8n提升3.0个百分点. 通过上述协同改进,所提方法不仅在轻量计算开销下保持实时检测,而且有效提升了复杂场景下的多尺度目标检测性能,达到同类方法的先进水平.

关键词: 车辆检测 ; 多尺度目标 ; 复杂场景 ; YOLOv8 ; 下采样

Abstract

Multi-scale targets in unmanned aerial vehicle (UAV) aerial images, especially small targets, have low detection accuracy in complex scenarios such as dense scenes, occlusions, and low illumination. Thus, a convolution-wavelet dual-domain downsampling module (RDWTConv) was proposed to preserve fine details of small targets. Additionally, a three-layer cross-scale residual fusion module (RCDFM) was designed to enhance multi-scale feature interactions. Furthermore, a scale-shape loss function (TSSIoU) was introduced to improve bounding box localization accuracy for varying object scales and shapes under aerial perspectives. On this basis, a series of CF-YOLO models, namely CF-YOLOn, CF-YOLOs, and CF-YOLOm, were constructed based on YOLOv8 to meet diverse computational requirements. Experimental results demonstrated that on the VisDrone dataset, CF-YOLOn achieved a 23.7% reduction in parameters and only a 22.5% increase in computational cost, while improving mAP@0.5 and mAP@0.5:0.95 by 5.5 and 4.0 percentage points, respectively, compared with the baseline YOLOv8n, as well as maintaining a frame rate of 169.1 frames per second. The s and m variants also achieved the highest accuracy within the same frame rate range. After retraining on the Drone-Vehicle dataset, CF-YOLOn’s mAP@0.5:0.95 improved by 3.0 percentage points compared to the baseline. Through the above synergistic improvements, the proposed method not only maintains real-time detection under lightweight computational costs but also effectively enhances multi-scale target detection performance in complex scenarios, achieving state-of-the-art results among comparable methods.

Keywords: vehicle detection ; multi-scale target ; complex scenario ; YOLOv8 ; downsampling

PDF (4247KB) 元数据 多维度评价 相关文章 导出 EndNote| Ris| Bibtex  收藏本文

本文引用格式

孟昱煜, 马银宝, 火久元. 基于无人机航拍图像的实时车辆检测算法. 浙江大学学报(工学版)[J], 2026, 60(7): 1599-1610 doi:10.3785/j.issn.1008-973X.2026.07.021

MENG Yuyu, MA Yinbao, HUO Jiuyuan. Real-time vehicle detection algorithm based on UAV aerial images. Journal of Zhejiang University(Engineering Science)[J], 2026, 60(7): 1599-1610 doi:10.3785/j.issn.1008-973X.2026.07.021

无人机因其低成本、广视野和高机动性,在交通监管中展现出重要应用价值. 通过其搭载的高清摄像设备能够实现对地面道路的巡航监控,采集大范围交通流数据,支撑事故检测、流量统计与态势感知等智能交通管理任务. 然而,受限于航拍图像中小目标特征不足、复杂光照干扰以及车辆尺度变化较大等因素,车辆的实时精确检测仍面临较大挑战.

目前,基于无人机航拍图像的车辆检测方法主要包括传统图像处理与深度学习2类. 前者通常通过人工提取车辆的外观特征(如形状、纹理、颜色),结合支持向量机 (SVM)[1]与AdaBoost[2]等分类器进行识别,但特征表达能力有限,难以适应小目标与复杂背景,检测精度和泛化性能均受限制. 随着深度学习的发展,卷积神经网络在目标检测中取得显著突破,逐步主导无人机图像检测研究. 此类方法主要分为二阶段与单阶段检测器:前者如Faster R-CNN[3]通过先生成候选区域再进行精细分类与定位,具备较高检测精度,但计算开销较大,难以满足实时性要求;后者如You Only Look Once (YOLO)[4]系列与Single Shot MultiBox Detector[5]将定位与分类融合为统一回归任务,具备更快的推理速度和较高的部署灵活性. 因此,在无人机航拍车辆检测中,研究者主要对一阶段检测器进行改进,以提升实时性与检测精度. 主要方法如下.

1)提升实时检测性能. 针对无人机航拍场景下计算资源有限、处理需快速的特点,部分研究通过轻量化设计、优化卷积结构或削减冗余特征以提升检测速度并满足实时性要求. Gupta等[6]构建了6772张军民融合的航拍图像数据集,并在边缘平台对SSD-Mobilenet v2与Tiny-YOLOv3进行量化对比,结果显示后者在实时性与准确率方面表现良好,但由于模型结构较旧且样本规模有限,在复杂遮挡条件下的鲁棒性仍显不足. 史涛等[7]提出YOLOv8-CX,结合C2f-DCN、SPPF-LSKA与CF-FPN等模块,在提升多尺度特征表达能力的同时,将推理速度提升至112.6帧/s,满足实时检测需求,但在密集小目标或强遮挡场景中,鲁棒性仍存在瓶颈.

2)增强检测精度. 为了应对无人机航拍图像中多尺度、密集小目标及复杂背景干扰,研究常引入Transformer结构、上下文信息、注意力机制或跨尺度融合,以提升检测精度与适应性,但往往带来计算开销增加与推理速度下降. Sun等[8]提出双重上下文解析网络以增强城市道路环境中的上下文感知能力,从而提升小目标和遮挡场景下的检测精度,但未考虑模型的推理效率. Hamzenejadi等[9]在YOLOv5中引入注意力机制与轻量卷积,以提升多视角下的小目标检测能力,但融合结构导致延迟增加. Ying等[10]提出融合空间与语义注意力的信息增强网络,以提升250~400 m视角下检测鲁棒性,但在复杂场景下的推理速度有所下降. Hui等[11]提出的STF-YOLO模型结合Transformer与CNN,在VisDrone数据集上表现优异,但计算开销显著增加,难以满足实时性要求. 姜贸翔等[12]在RT-DETR的基础上引入SimAM注意力、细粒度残差与多分支交互机制,显著增强了空间感知与全局建模能力,但其DETR架构限制了推理速度. 李彬等[13]将RFCBAMConv、DFPC金字塔卷积与DyHead集成至YOLOv11n,检测精度提升至mAP@0.5=77.1%,但多分支与全局增强机制显著增加计算负担. 梁艳等[14]提出TS-YOLO算法,其结合了EFEM、DCWF与PSDH模块,精度提升至mAP@0.5=71.9%,但整体复杂度高、推理速度下降.

即便在理想场景下,尽管Jocher等[15]提出的的YOLOv8n 在精度、速度与轻量化之间实现较好平衡,但在密集遮挡、低光照及复杂背景等场景下,仍面临小目标与多尺度目标检测精度明显下降的问题,难以兼顾精度与实时检测,进一步反映出当前方法在复杂环境下的适应性不足. 因此,为了提升复杂场景下无人机航拍图像的多尺度车辆检测性能,本研究以YOLOv8n为基线模型,提出面向复杂场景下的实时多尺度车辆检测算法. 主要贡献如下. 1)为了增强复杂场景下小目标在纹理、边缘与尺度变化下的感知能力,针对下采样阶段易导致高频信息损失的问题,首次提出残差连接离散小波变换卷积 (residual connected discrete wavelet transform Conv, RDWTConv),可在降采样同时保留高频细节,提升小目标的细粒度特征表征能力. 2)为了引导复杂场景下多尺度目标的语义与细节协同表征能力,针对不同语义特征之间缺乏有效的耦合问题,首次提出残差感知跨尺度动态融合模块 (residual-aware cross-scale dynamic fusion module, RCDFM),通过分支残差路径引导高层语义与浅层细节的融合,增强Head阶段的空间信息表达能力,从而提升多尺度目标检测性能. 3)为了强化复杂场景下对多尺度目标的边界框几何适应能力,针对高空航拍中目标尺度与形状变化显著引发的定位偏差问题,首次提出TSSIoU损失,有效提升对多尺度目标的鲁棒定位精度. 4)为了提升复杂场景下多尺度车辆检测性能,提出具备扩展性与计算效率的CF-YOLO框架,在保持实时性的同时兼顾高精度检测.

1. 改进方法

图1所示为YOLOv8n网络结构图. YOLOv8n 对大目标检测具备较高精度,但在处理无人机航拍图像中的小尺寸、低分辨率目标时检测性能退化,且对高空视角下形状与尺度变化适应性较弱. 为了提升其在该场景下的检测性能,基于YOLOv8n提出改进框架CF-YOLOn ,其网络结构如图2所示. 在Backbone中,本研究提出RDWTConv用于替代传统的下采样模块CBS,以保留高频细节、缓解小目标特征退化,增强空间表征能力;在Neck中提出RCDFM替代原Concat结构,实现高层语义与浅层细节特征的深度融合,进一步提升目标表征效果. 此外,提出TSSIoU损失函数替代CIoU,以提升边界框回归的几何适应性和定位精度.

图 1

图 1   YOLOv8n网络结构图

Fig.1   YOLOv8n network structure diagram


图 2

图 2   CF-YOLOn网络结构图

Fig.2   CF-YOLOn network structure diagram


1.1. Backbone网络改进

离散小波变换 (discrete wavelet transform,DWT)因在时频域中具备良好的局部性特征,近年来被广泛应用于深度学习中的特征压缩与细节保持任务. 如图3所示为小波池化层(wavelet pooling layer, WPL)结构图[16],其对输入特征图执行DWT分解,获得3个频域子带:Low–Low (${\mathrm{ LL}} $)、Low–High ($ {\mathrm{LH }}$)和High–Low ($ {\mathrm{HL}} $). 其中,$ {\mathrm{LL}} $表示低频分量,代表水平方向和垂直方向均为低通响应,主要保留图像的亮度分布与大尺度结构;$ {\mathrm{LH}} $${\mathrm{ HL}} $均表示高频分量,前者对应水平方向高通、垂直方向低通,后者对应水平方向低通、垂直方向高通,分别用于捕捉垂直边缘与水平边缘细节特征. 该高低频划分基于小波分解的固有频率特性,无须额外阈值设定. 随后,WPL引入注意力机制对高频响应进行显式建模,在降采样的同时增强边缘与纹理特征的保留能力.

图 3

图 3   小波池化层结构图

Fig.3   Wavelet pooling layer structure diagram


然而,尽管WPL在高频信息保持方面具有一定优势,但其缺乏深入卷积建模能力,难以捕捉复杂场景中的目标细节特征. 为此,本研究提出RDWTConv,融合小波分解与可学习卷积结构,通过残差连接实现频域细节与主干语义的高效融合,显著增强了复杂环境下小目标的检测精度与鲁棒性,结构设计如图4所示.

图 4

图 4   RDWTConv结构图

Fig.4   RDWTConv structure diagram


首先,给定输入特征图$ {\boldsymbol{X}} \in {{\bf{R}}^{{C_{{\text{in}}}} \times H \times W}} $,利用DWT进行特征分解,生成4组频域子带特征,分别对应$ {\mathrm{LL}} $${\mathrm{ LH}} $$ {\mathrm{HL}} $$ {\mathrm{HH}} $,分量大小均为${{\bf{R}}^{^{{C_{{\text{in}}}} \times \tfrac{H}{2} \times \tfrac{W}{2}}}}$. 区别WPL仅采用的$ {\mathrm{LL}} $$ {\mathrm{LH}} $$ {\mathrm{HL}} $,本研究进一步利用全部4个子带,特别是高频分量$ {\mathrm{HH}} $,主要响应图像中同时具有水平方向和垂直方向的高频特征区域,如斜向纹理及角点细节,以更全面挖掘图像的多方向高频细节信息,有效增强纹理与角点特征的表达能力,进而缓解因高频信息缺失导致的误检与漏检. 表达式如下:

$ [{\mathrm{LL}},{\mathrm{LH}},{\mathrm{HL}},{\mathrm{HH}}] = {{\mathrm{DWT}}}\left( {\boldsymbol{X }}\right) . $

将4个子带在通道维度上拼接,得到融合后的频域特征$ {{\boldsymbol{X}}_{{\text{wave}}}} $,表达式如下:

$ {{\boldsymbol{X}}_{{\text{wave}}}} = {\text{Concat}}({\mathrm{LL}},\;{\mathrm{LH}},\;{\mathrm{HL}},\;{\mathrm{HH}};\;\dim = 1) . $

式中:$ {\text{dim}} = 1 $表示按通道维度拼接.

进而通过$1 \times 1$卷积对$ {{\boldsymbol{X}}_{{\text{wave}}}} $实现高维特征的通道重构与非线性映射,输出小波域特征张量$ {{\boldsymbol{X}}_{{\text{dwt}}}} $,以增强复杂场景中小目标及边缘细节的高阶特征表达:

$ {{\boldsymbol{X}}_{{\text{dwt}}}} = f_{{\text{Conv}}}^{1 \times 1}({{\boldsymbol{X}}_{{\text{wave}}}}) . $

作为并行路径,输入特征经过标准卷积模块CBS进行下采样操作,生成与DWT分支对齐的主干特征表示$ {{\boldsymbol{X}}_{\text{r}}} $,用于提取局部上下文信息并保留图像的空间结构特征:

$ {{\boldsymbol{X}}_{\text{r}}} = \delta \left( {{f_{{\text{BN}}}}\left( {f_{{\text{Conv}}}^{3 \times 3}({\boldsymbol{X}})} \right)} \right) . $

式中:$\delta ( \cdot )$表示SiLU激活函数.

最终,为了发挥频域与空间域特征的互补优势,采用逐元素加法将对DWT 分支与卷积分支的输出进行残差融合,生成最终特征$ {\boldsymbol{Y}} $. 这样既保留卷积分支对全局结构的空间信息建模能力,又注入频域分支提供的细粒度方向特征,实现更丰富的特征互补,能够有效增强复杂场景下小目标的检测鲁棒性. 该过程表达式如下:

$ {\boldsymbol{Y}} = {{\boldsymbol{X}}_{{\text{dwt}}}} \oplus {{\boldsymbol{X}}_{\text{r}}} . $

1.2. Neck网络改进

当前多尺度特征融合策略普遍通过上下采样实现高低层特征对齐与拼接,以增强特征表达的一致性与判别性. 如图5所示为Birectional Concatenate (BiC) [17]结构图,通过上下采样实现特征对齐后拼接融合,在一定程度上提升了空间一致性,但该结构在语义层次差异显著、尺度差异大的目标检测任务中适应性较差,易引发检测偏差. 如图6所示为Sandwich-fusion (SF)[18]结构图,在BiC基础上引入深度可分离卷积压缩浅层特征后与上采样的语义特征拼接融合,虽能缓解冗余计算问题,但仍难以针对不同语义层次间的差异性进行动态调节,复杂场景下多尺度目标检测的鲁棒性受限.

图 5

图 5   Birectional Concatenate结构图

Fig.5   Birectional Concatenate structure diagram


图 6

图 6   Sandwich-fusion结构图

Fig.6   Sandwich-fusion structure diagram


针对上述不足,特别是复杂背景及密集场景下多尺度目标与小目标检测易受干扰的问题,提出RCDFM. 该模块以中层特征为核心,联合浅层细节信息以及高层语义上下文,通过注意力引导与动态加权机制实现自适应特征融合,结构如图7所示. 具体而言,RCDFM接收来自主干网络的三路特征:浅层特征$ {{\boldsymbol{X}}_1} \in {{\bf{R}}^{{C_1} \times H \times W}} $、中层特征$ {{\boldsymbol{X}}_2} \in {{\bf{R}}^{{C_2} \times H \times W}} $和高层语义特征$ {{\boldsymbol{X}}_3} \in {{\bf{R}}^{{C_3} \times \tfrac{H}{2} \times \tfrac{W}{2}}} $. 其中,浅层特征作为信息引导路径,通过2个$1 \times 1$卷积分支生成映射结果,分别作为高层与中层分支的特征融合引导项,以强化复杂背景下对多尺度目标与边缘细节的感知. 表达式如下:

图 7

图 7   RCDFM结构图

Fig.7   RCDFM structure diagram


$ \overline {{{\boldsymbol{X}}_1}} = {f_{{\text{Identity}}}}\left( {{f_{{\text{BN}}}}\left( {f_{{\text{Conv}}}^{1 \times 1}\left( {{{\boldsymbol{X}}_1}} \right)} \right)} \right) \text{,} $

$ \widetilde {{{\boldsymbol{X}}_1}} = {f_{{\text{Identity}}}}\left( {{f_{{\text{BN}}}}\left( {f_{{\text{Conv}}}^{1 \times 1}\left( {{{\boldsymbol{X}}_1}} \right)} \right)} \right) . $

为了提升中层特征在复杂场景中对多尺度目标细节的通道响应能力,模块首先对输入特征$ {{\boldsymbol{X}}_2} $使用通道注意力机制. 具体地,先通过全局平均池化提取通道级上下文表示,随后通道注意力路径依次使用$1 \times 1$的通道压缩卷积$ {{\boldsymbol{W}}_1} \in {{\bf{R}}^{\tfrac{C}{n} \times C}} $、ReLU激活函数 ($\delta ( \cdot )$)$1 \times 1$的通道扩展卷积${{\boldsymbol{W}}_2} \in {{\bf{R}}^{C \times \tfrac{C}{n}}}$,以及Sigmoid激活函数 ($\sigma ( \cdot )$),生成通道注意力权重向量$ \widehat {{{\boldsymbol{X}}_2}} $. 进而使用$\widehat {{{\boldsymbol{X}}_2}}$$ {{\boldsymbol{X}}_2} $进行逐通道加权,形成增强后的表征特征$ \overline {{{\boldsymbol{X}}_2}} $. 最终,融合中层原始特征$ {{\boldsymbol{X}}_2} $、增强特征$ \overline {{{\boldsymbol{X}}_2}} $与浅层引导特征$ \overline {{{\boldsymbol{X}}_1}} $,得到融合输出特征$ \widetilde {{{\boldsymbol{X}}_2}} $. 表达式如下:

$ \widehat {{{\boldsymbol{X}}_2}} = \sigma \left( {{{\boldsymbol{W}}_2} \cdot \delta \left( {{{\boldsymbol{W}}_1} \cdot {f_{{\text{AvgPool}}}}({{\boldsymbol{X}}_2})} \right)} \right) \text{,} $

$ \overline {{{\boldsymbol{X}}_2}} = {{\boldsymbol{X}}_2} \otimes \widehat {{{\boldsymbol{X}}_2}} \text{,} $

$ \widetilde {{{\boldsymbol{X}}_2}} = {{\boldsymbol{X}}_2} \oplus \overline {{{\boldsymbol{X}}_1}} \oplus \overline {{{\boldsymbol{X}}_2}} . $

为了提升融合表达的语义一致性,高层语义特征$ {{\boldsymbol{X}}_3} $通过上采样操作恢复至中层空间尺度,并经浅层引导特征$ \widetilde {{{\boldsymbol{X}}_1}} $生成语义补偿特征$ \widetilde {{{\boldsymbol{X}}_3}} $. 表达式如下:

$ \widetilde {{{\boldsymbol{X}}_3}} = \widetilde {{{\boldsymbol{X}}_1}} \oplus {f_{{\text{UpSample}}}}\left( {{{\boldsymbol{X}}_3}} \right) .$

为了进一步提升融合表达的准确性,从而更好适应复杂环境下的多尺度与小目标检测需求,引入可学习的融合权重向量$ {\boldsymbol{w}} = [{w_1},{w_2}] $,用于调控$ \widetilde {{{\boldsymbol{X}}_2}} $$ \widetilde {{{\boldsymbol{X}}_3}} $在最终输出表示中的相对贡献比例,融合特征表示记为$ {\boldsymbol{F}} $. 表达式如下:

$ {\alpha _i} = \dfrac{{{w_i}}}{{\displaystyle\sum\limits_{j = 1}^2 {{w_j}} \sigma ({w_j})+\varepsilon }};\quad i = 1,2. $

$ {\boldsymbol{F}} = {\text{Concat}}\left( {{\alpha _1} \widetilde {{{\boldsymbol{X}}_2}},{\alpha _2} \widetilde {{{\boldsymbol{X}}_3}};\;{\text{dim}} = 1} \right). $

式中: $ {\text{dim}} = 1 $表示按通道维度拼接,$ \varepsilon $为非0常数,$\sigma ( \cdot )$表示激活函数Sigmoid.

1.3. Head改进

YOLOv8的原始边界框损失函数为CIoU,其通过在IoU项外加入中心距离与长宽比惩罚来提升边界框回归精度,但其宽高约束以角度差形式呈现,在小目标或长宽比极端的情况下对实际几何差异不敏感,特别在复杂背景与遮挡场景中更易出现边缘模糊,导致梯度对尺度偏差响应较弱. EIoU[19]在CIoU的基础上进一步将宽、高拆分并按外接框尺度归一化,使几何误差中心距、宽度差、高度差可独立回传梯度,从而缓解对小目标和长宽比失衡目标的收敛滞后. EIoU的表达式如下:

$ {\mathrm{IoU}} = \dfrac{{\left| {{B_{{\text{pre}}}} \cap \left. {{B_{{\text{gt}}}}} \right|} \right.}}{{\left| {{B_{{\text{pre}}}} \cup \left. {{B_{{\text{gt}}}}} \right|} \right.}}, $

$ {\rho ^2} = \dfrac{{{{({x_{{\text{p}}1}}+{x_{{\text{p}}2}} - {x_{{\text{g}}1}} - {x_{{\text{g}}2}})}^2}+{{({y_{{\text{p}}1}}+{y_{{\text{p}}2}} - {y_{{\text{g}}1}} - {y_{{\text{g}}2}})}^2}}}{4}, $

$ \begin{split}{c^2} =& {\left[ {\max \;({x_{{\text{p}}2}},{x_{{\text{g}}2}}) - \min\; ({x_{{\text{p}}1}},{x_{{\text{g}}1}})} \right]^2} +\\ & {\left[ {\max\; ({y_{{\text{p}}2}},{y_{{\text{g}}2}}) - \min \;({y_{{\text{p}}1}},{y_{{\text{g}}1}})} \right]^2} ,\end{split} $

$ c_{\text{w}}^2 = {\left[ {\max \;({x_{{\text{p}}2}},{x_{{\text{g}}2}}) - \min\; ({x_{{\text{p}}1}},{x_{{\text{g}}1}})} \right]^2}, $

$ c_{\text{h}}^2 = {\left[ {\max\; ({y_{{\text{p}}2}},{y_{{\text{g}}2}}) - \min\; ({y_{{\text{p}}1}},{y_{{\text{g}}1}})} \right]^2}, $

$ {{L}_{{\text{EIoU}}}} = 1 - {\text{IoU}}+\dfrac{{{\rho ^2}}}{{{c^2}}}+\dfrac{{{{(w - {w^{{\text{gt}}}})}^2}}}{{c_{\text{w}}^2}}+\dfrac{{{{(h - {h^{{\text{gt}}}})}^2}}}{{c_{\text{h}}^2}}. $

式中:${\mathrm{ IoU}} $为预测框$ {B_{{\text{pre}}}} = ({x_{{\text{p}}1}},{y_{{\text{p}}1}},{x_{{\text{p}}2}},{y_{{\text{p}}2}}) $和真实框$ {B_{{\text{gt}}}} = ({x_{{\text{g}}1}},{y_{{\text{g}}1}},{x_{{\text{g}}2}},{y_{{\text{g}}2}}) $的交并比,预测框的宽和高分别对应为$w = {x_{{\text{p}}2}} - {x_{{\text{p}}1}}$$h = {y_{{\text{p}}2}} - {y_{{\text{p}}1}}$,真实框的宽和高对应为${w^{{\text{gt}}}} = {x_{{\text{g}}2}} - {x_{{\text{g}}1}}$${h^{{\text{gt}}}} = {y_{{\text{g}}2}} - {y_{{\text{g}}1}}$. 通过上述公式,虽然EIoU使中心、宽度、高度3种几何误差在同一标准上传递梯度,收敛速度与定位精度均优于CIoU,但其表达式(式(19))中的尺度惩罚权重固定,难以有效适应不同尺度误差. 特别是在复杂背景与遮挡条件下,图像中的多尺度目标及被遮挡目标几何特征更易受背景噪声干扰,这进一步降低了多尺度目标共存场景下的定位精度.

为了增强EIoU对多尺度目标的适应性,特别是在复杂背景、遮挡及视角变化显著的航拍场景下,提出TSSIoU损失函数. 该损失借鉴了Gaussian Wasserstein Distance (GWD)[20]在旋转框检测中利用Wasserstein距离刻画几何尺度差异的思想,以充分发挥Wasserstein距离在度量边界框几何差异方面的优势.

首先,将边界框的宽高视作相互独立的随机变量,首先计算中心偏移误差以及宽高误差,以分别刻画位置与尺度的几何差异,为后续构造近似Wasserstein型尺度-形状距离提供基础度量:

$ {p_1} = {({x_{{\text{p}}1}} - {x_{{\text{g}}1}})^2}+{({y_{{\text{p}}1}} - {y_{{\text{g}}1}})^2} \text{,} $

$ {p_2} = \dfrac{{{{(w - {w^{{\text{gt}}}})}^2}+{{(h - {h^{{\text{gt}}}})}^2}}}{4} . $

$ {p_1} $$ {p_2} $归一化后,然后结合高阶差异与指数映射来调整分布的中心与尺度,进一步通过平滑映射形式构造SWD. 其可视为在Gaussian Wasserstein距离刻画分布几何差异的理论基础上摒弃了对协方差耦合结构的高维张量依赖,转而以显式建模中心与尺度的几何偏移差异,构造出兼具紧凑性与高效可微的近似度量形式,从而在统一表征边界框尺度与形状差异的同时,有效提升对中心位移及长宽比例异常目标的几何约束能力. 表达式如下:

$ {\mathrm{gw}} = \exp\;\left({ - \dfrac{{\sqrt {{p_1}+{p_2}} }}{{2.5}}}\right). $

$ {{L}_{{\text{SWD}}}} = 1 - \dfrac{1}{{\gamma +\sqrt {{\mathrm{gw}}} }};\;\gamma = 1.0. $

式中:gw为结合高阶差异与指数映射显式表征中心与尺度偏移的量, LSWD表示通过平滑映射构造的损失函数。

最后,综合式 (19)、 (23)得到最终损失计算,在保持EIoU对边界框覆盖约束的同时,进一步强化对长宽及中心偏移的惩罚,从而提升高空视角下不同尺度与形状目标在复杂场景下的定位精度. 表达式如下:

$ {{L}_{{\text{TSSIoU}}}} = \dfrac{{\gamma \left( {1 - {{L}_{{\text{EIoU}}}}} \right)+\left( {1 - \gamma } \right)\left( {1 - {{L}_{{\text{SWD}}}}} \right)}}{{\displaystyle\sum\limits_i {{s_i}} }}. $

式中:$ \gamma \in \left( {0,1.0} \right) $用于平衡2类损失的贡献,$ {s_i} $为前景样本置信权重.

2. 实验结果及分析

2.1. 实验环境与数据集

实验在Ubuntu 22.04环境下进行,硬件配置包括90 GB内存、NVIDIA RTX 4090显卡 (24210 MiB显存)和AMD EPYC 7T83 64核处理器 (22 线程). 软件环境采用Python 3.9.19编程语言,基于PyTorch 2.0.1深度学习框架,并通过CUDA 11.8实现模型训练与推理的加速. 所有实验均训练250轮,模型输入分辨率为 640×640,优化器采用 SGD (初始学习率为0.01,动量为0.93,权重衰减为0.0005),batch size为 16,workers 数为8.

实验采用的大型公开数据集VisDrone[21]和Drone-Vehicle[22]均来源于真实无人机航拍场景,涵盖多种飞行高度与拍摄角度,包含遮挡、密集及夜间低光照等复杂场景,目标呈现明显的多尺度分布,且小尺度目标占比较高,充分体现了数据集的复杂性与多样性. Drone-Vehicle含训练集 17990 张、验证集 1465 张、测试集 8980 张图像. VisDrone则包含训练集 6 471张、验证集 548 张、测试集 1610 张图像. 整体数据规模充足,能有效支撑多场景、多尺度条件下的算法适应性与泛化性评估.

图 8所示为数据分布图. 其中,$\bar h $$\bar w$分别为目标边界框的归一化高度、宽度,$N_{\mathrm{L }}$为每个标签类别的数量. 由图8(a)、(b)可以看出,目标尺寸越小,其在图像中的分布越密集,颜色越深代表该尺寸范围内的目标数量越多,反映出2个数据集的小目标分布特征. 如图 8(c)、(d)所示分别展示了VisDrone与Drone-Vehicle中不同类别目标的数量分布,可以看出,car类别在两者中均占据主要比例,与本研究聚焦的车辆检测任务高度契合,验证了选用数据集在研究背景下的代表性与适用性.

图 8

图 8   VisDrone 和 Drone-Vehicle 数据集标签数量及大小分布情况

Fig.8   Target counts and size distributions in VisDrone and Drone-Vehicle datasets


2.2. 评价指标

模型的评价指标包括精确率P、召回率R和均值平均精确度mAP. 其中,P越高表示模型的误检率越低,R越高表示漏检率越低,mAP越高表明在各类目标上的整体检测性能越优. 此外,实时检测速度 FPS用于衡量模型的推理效率,参数量Params反映模型规模,浮点运算量GFLOPs用于量化计算开销.

2.3. RDWTConv模块性能分析

表1所示比较了在YOLOv8 Backbone中替换原生下采样结构CBS后的检测性能. 所提RDWTConv由卷积分支CBS与离散小波分支DWT融合构成,其余对照模块均为经典下采样结构. 实验结果表明,RDWTConv仅增加0.17×106参数量和0.4×109的计算量,在mAP@0.5和mAP@0.5:0.95指标上均显著优于CBS、DWT及其他下采样方法,且模型的PR分别达到45.1%和33.2%. 在检测精度提升的同时,该模块有效增强了复杂场景下对小目标与边缘纹理的感知能力,降低了背景干扰、遮挡及目标尺寸变化带来的漏检与误检,进一步验证了其在复杂环境下的检测鲁棒性.

表 1   不同下采样模块的性能比较 (VisDrone数据集)

Tab.1  Performance comparison of different downsampling modules (VisDrone Dataset)

MethodsP/%R/%mAP@
0.5/%
mAP@
0.5:0.95/%
Params/
106
GFLOPs/
109
CBS44.532.332.418.73.018.1
DWT43.432.332.318.72.797.6
RDWTConv45.133.233.719.63.188.5
ADown[23]43.430.831.117.82.727.4
SCDown[24]44.633.133.019.02.667.6
DWConv[25]43.131.231.217.82.627.2
RepVGGBlock[18]43.732.632.718.93.058.2

新窗口打开| 下载CSV


2.4. RCDFM模块性能分析

表2所示展示了在YOLOv8n的Neck中,使用BiC、SF和RCDFM替代原始Concat结构的检测性能. 三者均优于Concat,表明改进的特征融合机制可提升检测效果. 其中,RCDFM在仅增加0.6×106参数量和0.3×109计算量的条件下,使mAP@0.5和mAP@0.5:0.95分别提升1.9和1.2个百分点. 该结果表明,RCDFM能动态调节高层语义与浅层细节差异,提升在密集、遮挡和低光照等复杂背景下多尺度目标的检测精度,显著增强跨尺度信息交互的鲁棒性.

表 2   RCDFM的性能比较 (VisDrone数据集)

Tab.2  Performance comparison of RCDFM (VisDrone Dataset)

MethodsmAP@0.5/%mAP@0.5:0.95/%Params/106GFLOPs/109
Concat32.418.73.018.1
BiC[17]33.119.23.058.4
SF[18]32.819.03.028.3
RCDFM34.319.93.078.4

新窗口打开| 下载CSV


2.5. 边界框损失函数分析

表3所示比较了在YOLOv8n Head中引入不同边界框回归损失函数后的性能变化. 与基线CIoU相比,DIoU和SIoU的引入导致P指标明显下降,表明模型控制误检的能力降低. 采用GIoU或EIoU,mAP@0.5与mAP@0.5:0.95略有提升,定位精度有所改善,但整体检测性能提升有限. 相比之下,使用提出的TSSIoU损失,PR、mAP@0.5与mAP@0.5:0.95指标均取得最佳结果,表明该损失通过引入尺度和形状适应项,能够更准确地约束边界框几何关系,提升召回能力并有效控制误检,从而增强复杂环境下多尺度车辆检测的精度与鲁棒性.

表 3   不同边界框损失函数的性能比较 (VisDrone数据集)

Tab.3  Performance comparison of different bounding box loss functions (VisDrone Dataset)

MethodsP/%R/%mAP@0.5/%mAP@0.5:0.95/%
CIoU44.532.332.418.7
DIoU42.832.431.918.5
SIoU42.532.832.218.5
GIoU44.332.232.818.9
EIoU43.232.832.518.8
TSSIoU44.732.933.219.2

新窗口打开| 下载CSV


图9(a)所示展示了不同取值下$ \gamma $的回归损失曲线,如图9(b)所示给出了对应的检测性能指标. 可以看出,随着$ \gamma $的增大,训练中损失下降更快,收敛速度更高. 这主要由于 TSSIoU 中 EIoU 项对重叠区域的加权提升了预测框与真实框匹配的置信度,从而加速收敛. 但从图9(b)可见,虽然$ \gamma $超过一定阈值,使得模型的收敛速度更快,但过度依赖 EIoU 易忽视目标框的几何属性,导致对多尺度或非规则小目标检测的回归精度显著下降.

图 9

图 9   超参数$ \gamma $分析

Fig.9   Study on hyperparameter$ \gamma $


相比之下,当$ \gamma = 0.5 $时,EIoU与SWD两项之间实现了更合理的权重分配,兼顾重叠精度与几何一致性,回归损失下降过程平稳,整体训练稳定收敛,且无明显波动. 最终模型在 mAP@0.5 上取得最佳性能,体现了优化效率与泛化能力之间的良好权衡.

2.6. 消融实验

表4所示为模型消融研究,验证了RDWTConv、RCDFM与TSSIoU在CF-YOLO中的性能贡献. 引入RDWTConv后,M1的P、mAP@0.5与mAP@0.5:0.95分别提升0.6、1.3和0.9个百分点,验证了其结构的有效性. M2在替换Concat结构的同时,为了引入更多浅层信息,将RCDFM扩展为3层 (未引入小目标检测头),显著提升了模型的PR及精度指标,mAP@0.5和mAP@0.5:0.95分别提高4.0和2.9个百分点,表明跨尺度残差融合结构有助于抑制误检与漏检. M3引入TSSIoU后,R提升至32.9%,mAP@0.5和mAP@0.5:0.95分别提升了0.8与0.5个百分点,表明尺度-形状适应机制可优化复杂场景下的边界框定位. M4同时融合了RDWTConv以及RCDFM模块,mAP@0.5和mAP@0.5:0.95分别达到37.6%和22.4%,但参数和计算量增至3.35×106与11.5×109. M5在此基础上引入TSSIoU,精度进一步提升,mAP@0.5和mAP@0.5:0.95分别达到38.3%和22.9%,推理速度为168.5帧/s. 进一步对M5的Neck进行参数优化(见图2),得到CF-YOLOn,其参数与计算量较M5的分别减少约31.3%和14.0%,且PR、mAP@0.5和mAP@0.5:0.95仍较基线提升4.8、4.6、5.5和4.0个百分点,推理速度达169.1帧/s,验证3组件协同在复杂环境下实现精度、效率与鲁棒性的最优平衡.

表 4   模型消融研究 (VisDrone数据集)

Tab.4  Model ablation studies (VisDrone Dataset)

ModelsRDWTConvRCDFMTSSIoUP/%R/%mAP@0.5/%mAP@0.5:0.95/%Params/106GFLOPs/109FPS/(帧·s−1)
YOLOv8n44.532.332.418.73.018.1209.9
M145.133.233.719.63.188.5181.3
M246.935.736.421.63.1811.1178.4
M344.732.933.219.23.018.1209.9
M448.836.937.622.43.3511.5168.5
M549.237.538.322.93.3511.5168.5
CF-YOLOn49.336.937.922.72.309.9169.1

新窗口打开| 下载CSV


2.7. 基于VisDrone数据集的模型对比实验

图10所示为模型对比实验,图10(a)、(b)从推理速度 (FPS)与检测精度 (mAP@0.5与mAP@0.5:0.95)2个角度进行对比. 可见,在相近甚至略高的FPS下,CF-YOLO的整体检测精度显著优于YOLOv5、YOLOv12与Drone-YOLO等对照模型的,同尺寸的n/s/m模型均取得更优性能. 图10(c)分析参数量与mAP@0.5关系,表明在相近甚至更小的参数规模下,CF-YOLO的检测精度显著提升,曲线整体上移,显示更高的参数效率. 图10 (d)展示GFLOPs与mAP@0.5关系,虽然CF-YOLO计算量略高于部分对照模型,但检测精度提升更为明显,曲线斜率更大,说明额外计算被高效转化为检测性能增益. 上述实验结果表明,相较于YOLOv5~YOLOv12和Drone-YOLO在复杂场景下难以兼顾检测精度与实时性的局限,所提CF-YOLO在推理速度、参数量与计算开销3方面实现更优的精度-成本平衡,有效验证了其在复杂环境下多尺度目标检测任务中的实用价值与鲁棒性.

图 10

图 10   模型对比实验 (VisDrone数据集)

Fig.10   Model comparison experiments (VisDrone Dataset)


2.8. 基于Drone-Vehicle数据集的模型泛化实验

表5所示展示了各轻量级模型在Drone-Vehicle的检测性能对比. YOLOv12n虽在检测精度 (mAP)上较YOLOv8n有所提升,但其为提升精度而牺牲了推理速度,实际帧率仅有75.9帧/s,从而严重限制其在实际场景中的应用潜力. 相比之下,CF-YOLOn在保持与IV-YOLO和FBRT-YOLOn相近推理速度的前提下,检测精度仍具显著优势,进一步验证了其在精度与实时性之间的良好平衡. 相较于YOLO系列的最新版本YOLOv12,CF-YOLOn在精度与推理速度方面均表现更优,更适用于对检测精度与响应速度要求较高的无人机目标检测任务.

表 5   模型泛化实验 (Drone-Vehicle数据集)

Tab.5  Model generalization experiments  (Drone-Vehicle Dataset)

ModelsmAP@0.5/%mAP@0.5:0.95/%Params/106FPS/(帧·s−1)
Drone-YOLO74.550.12.97172.1
FBRT-YOLOn[26]74.650.20.90165.3
IV-YOLO[27]74.949.64.31184.7
YOLOv8n75.750.53.01205.4
YOLOv9t77.252.21.97103.2
YOLOv10n76.250.62.70136.8
YOLO11n75.450.32.58187.5
YOLO12n76.351.42.5175.9
CF-YOLOn77.853.52.30164.7

新窗口打开| 下载CSV


2.9. 可视化展示

图11所示展示了YOLOv8n与CF-YOLOn在不同场景下的检测可视化结果. 图11(a)为密集遮挡场景,CF-YOLOn较YOLOv8n漏检更少,覆盖更多真实目标,整体检测精度更高. 图11 (b)为稀疏场景,CF-YOLOn在小目标检测上表现更优,漏检率更低,而YOLOv8n存在误检. 对于黑暗场景,图11 (c)中YOLOv8n未能检测到红色圆圈标注目标,图11 (d)中将高楼玻璃误判为车辆,显示其在低光照环境下检测精度下降. 相比之下,CF-YOLOn在该类场景中检测精度更高,误检与漏检更少. 此外,从图11 (a)、(b)的白天场景可见,CF-YOLO在处理与车辆外观相似的背景目标时仍存在一定误检,表明其在应对背景干扰方面的鲁棒性尚有待提升,这将是后续研究的重要方向.

图 11

图 11   检测结果可视化 (VisDrone数据集)

Fig.11   Visualization of results (VisDrone Dataset)


3. 结 语

在复杂场景下,RDWTConv较其他下采样结构更能缓解细节丢失问题. 但其DWT操作须将原始特征拆分为多个子特征,导致增加了额外的计算开销,推理帧率下降约28帧/s. 与其他特征融合机制相比,RCDFM更有助于提升复杂场景下多尺度目标的特征表达能力,但多分支结构会产生一定的推理开销. 与其他边界框损失相比,TSSIoU更能适应高空多变视角下目标尺度与形状差异,显著提升复杂场景中边界框的定位精度. 构建的CF-YOLO系列在检测精度与实时性之间实现了更优平衡,并在Drone-Vehicle数据集上展现出良好的泛化能力,为复杂场景下无人机航拍车辆检测提供了有效解决方案.

本研究的不足之处在于,CF-YOLO在处理与车辆外观相似的背景目标时仍存在一定的误检. 针对这一问题,下一步研究将探索引入更精细的特征表示与多模态信息融合方法,以提升模型的判别能力并有效降低误检率.

参考文献

HEARST M A, DUMAIS S T, OSUNA E, et al

Support vector machines

[J]. IEEE Intelligent Systems and Their Applications, 1998, 13 (4): 18- 28

DOI:10.1109/5254.708428      [本文引用: 1]

BEJA-BATTAIS P. Overview of AdaBoost : reconciling its views to better understand its dynamics [EB/OL]. (2023-10-06)[2025-04-18]. https://arxiv.org/abs/2310.18323

[本文引用: 1]

REN S, HE K, GIRSHICK R, et al

Faster R-CNN: towards real-time object detection with region proposal networks

[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2017, 39 (6): 1137- 1149

DOI:10.1109/TPAMI.2016.2577031      [本文引用: 1]

REDMON J, DIVVALA S, GIRSHICK R, et al. You only look once: unified, real-time object detection [C]// IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas: IEEE, 2016: 779–788.

[本文引用: 1]

LIU W, ANGUELOV D, ERHAN D, et al. SSD: single shot MultiBox detector [C]// European Conference on Computer Vision (ECCV) 2016. Cham: Springer International Publishing, 2016: 21–37.

[本文引用: 1]

GUPTA P, PAREEK B, SINGAL G, et al

Edge device based military vehicle detection and classification from UAV

[J]. Multimedia Tools and Applications, 2022, 81 (14): 19813- 19834

DOI:10.1007/s11042-021-11242-y      [本文引用: 1]

史涛, 崔杰, 李松

优化改进YOLOv8实现实时无人机车辆检测的算法

[J]. 计算机工程与应用, 2024, 60 (9): 79- 89

DOI:10.3778/j.issn.1002-8331.2312-0291      [本文引用: 1]

SHI Tao, CUI Jie, LI Song

Algorithm for real-time vehicle detection from UAVs based on optimizing and improving YOLOv8

[J]. Computer Engineering and Applications, 2024, 60 (9): 79- 89

DOI:10.3778/j.issn.1002-8331.2312-0291      [本文引用: 1]

SUN Y, SHAO Z, CHENG G, et al

Road and car extraction using UAV images via efficient dual contextual parsing network

[J]. IEEE Transactions on Geoscience and Remote Sensing, 2022, 60: 5632113

[本文引用: 1]

HAMZENEJADI M H, MOHSENI H

Fine-tuned YOLOv5 for real-time vehicle detection in UAV imagery: architectural improvements and performance boost

[J]. Expert Systems with Applications, 2023, 231: 120845

DOI:10.1016/j.eswa.2023.120845      [本文引用: 1]

YING Z, ZHOU J, ZHAI Y, et al

Large-scale high-altitude UAV-based vehicle detection via pyramid dual pooling attention path aggregation network

[J]. IEEE Transactions on Intelligent Transportation Systems, 2024, 25 (10): 14426- 14444

DOI:10.1109/TITS.2024.3396915      [本文引用: 1]

HUI Y, WANG J, LI B

STF-YOLO: a small target detection algorithm for UAV remote sensing images based on improved SwinTransformer and class weighted classification decoupling head

[J]. Measurement, 2024, 224: 113936

DOI:10.1016/j.measurement.2023.113936      [本文引用: 1]

姜贸翔, 司占军, 王晓喆

改进RT-DETR的无人机图像目标检测算法

[J]. 计算机工程与应用, 2025, 61 (1): 98- 108

DOI:10.3778/j.issn.1002-8331.2405-0331      [本文引用: 1]

JIANG Maoxiang, SI Zhanjun, WANG Xiaozhe

Improved target detection algorithm for UAV images with RT-DETR

[J]. Computer Engineering and Applications, 2025, 61 (1): 98- 108

DOI:10.3778/j.issn.1002-8331.2405-0331      [本文引用: 1]

李彬, 李生林

改进YOLOv11n的无人机小目标检测算法

[J]. 计算机工程与应用, 2025, 61 (7): 96- 104

DOI:10.3778/j.issn.1002-8331.2411-0072      [本文引用: 1]

LI Bin, LI Shenglin

Improved YOLOv11n small object detection algorithm in UAV view

[J]. Computer Engineering and Applications, 2025, 61 (7): 96- 104

DOI:10.3778/j.issn.1002-8331.2411-0072      [本文引用: 1]

梁燕, 何孝武, 邵凯, 等

改进YOLOv8的无人机航拍图像目标检测算法

[J]. 计算机工程与应用, 2025, 61 (1): 121- 130

DOI:10.3778/j.issn.1002-8331.2405-0459      [本文引用: 1]

LIANG Yan, HE Xiaowu, SHAO Kai, et al

Target detection algorithm for UAV images based on improved YOLOv8

[J]. Computer Engineering and Applications, 2025, 61 (1): 121- 130

DOI:10.3778/j.issn.1002-8331.2405-0459      [本文引用: 1]

JOCHER G, CHAURASIA A, QIU J. Ultralytics YOLOv8 [EB/OL]. (2023-01-28)[2025-04-18]. https://github.com/ultralytics/ultralytics.

[本文引用: 1]

XUE Y, JIN G, SHEN T, et al

SmallTrack: wavelet pooling and graph enhanced classification for UAV small object tracking

[J]. IEEE Transactions on Geoscience and Remote Sensing, 2023, 61: 5618815

[本文引用: 1]

LI C, LI L, GENG Y, et al. YOLOv6 v3. 0: a full-scale reloading [EB/OL]. (2023-01-13)[2025-04-18]. https://arxiv.org/abs/2301.05586.

[本文引用: 2]

ZHANG Z

Drone-YOLO: an efficient neural network method for target detection in drone images

[J]. Drones, 2023, 7 (8): 526

DOI:10.3390/drones7080526      [本文引用: 3]

ZHANG Y F, REN W, ZHANG Z, et al

Focal and efficient IOU loss for accurate bounding box regression

[J]. Neurocomputing, 2022, 506: 146- 157

DOI:10.1016/j.neucom.2022.07.042      [本文引用: 1]

YANG X, YAN J, MING Q, et al. Rethinking rotated object detection with Gaussian Wasserstein distance loss [C]// International Conference on Machine Learning (ICML). Virtual Event: PMLR, 2021: 11830–11841.

[本文引用: 1]

DU D, ZHU P, WEN L, et al. VisDrone-DET2019: the Vision Meets Drone Object Detection in Image Challenge Results [C]// 2019 IEEE/CVF International Conference on Computer Vision Workshop (ICCVW). Seoul: IEEE, 2019: 213–226.

[本文引用: 1]

SUN Y, CAO B, ZHU P, et al

Drone-based RGB-infrared cross-modality vehicle detection via uncertainty-aware learning

[J]. IEEE Transactions on Circuits and Systems for Video Technology, 2022, 32 (10): 6700- 6713

DOI:10.1109/TCSVT.2022.3168279      [本文引用: 1]

WANG C-Y, YEH I-H, LIAO H. YOLOv9: learning what you want to learn using programmable gradient information [EB/OL]. (2024-02-21)[2025-04-18]. https://arxiv.org/abs/2402.13616.

[本文引用: 1]

WANG A, CHEN H, LIU L, et al. YOLOv10: real-time end-to-end object detection [EB/OL]. (2023-05-23)[2025-04-18]. https://arxiv.org/abs/2405.14458.

[本文引用: 1]

CHOLLET F. Xception: deep learning with depthwise separable convolutions [C]// IEEE Conference on Computer Vision and Pattern Recognition. Honolulu: IEEE, 2017: 1800–1807.

[本文引用: 1]

XIAO Y, XU T, XIN Y, et al. FBRT-YOLO: faster and better for real-time aerial image detection [EB/OL]. (2025-04-29)[2025-04-18]. https://arxiv.org/abs/2504.20670.

[本文引用: 1]

TIAN D, YAN X, ZHOU D, et al

IV-YOLO: a lightweight dual-branch object detection network

[J]. Sensors, 2024, 24 (19): 6181

DOI:10.3390/s24196181      [本文引用: 1]

/