浙江大学学报(工学版), 2026, 60(1): 32-42 doi: 10.3785/j.issn.1008-973X.2026.01.003

计算机技术

基于多方位感知深度融合检测头的目标检测算法

包晓安,, 彭书友, 张娜, 涂小妹, 张庆琪, 吴彪,

1. 浙江理工大学 计算机科学与技术学院,浙江 杭州 310018

2. 浙江广厦建设职业技术大学 建筑工程学院,浙江 东阳 322100

3. 山口大学 大学院东亚研究科,日本 山口 753-8514

4. 浙江理工大学 理学院,浙江 杭州 310018

Object detection algorithm based on multi-azimuth perception deep fusion detection head

BAO Xiao’an,, PENG Shuyou, ZHANG Na, TU Xiaomei, ZHANG Qingqi, WU Biao,

1. School of Computer Science and Technology, Zhejiang Sci-Tech University, Hangzhou 310018, China

2. School of Civil Engineering and Architecture, Zhejiang Guangsha Vocational and Technical University of Construction, Dongyang 322100, China

3. Graduate School of East Asian Studies, Yamaguchi University, Yamaguchi 753-8514, Japan

4. School of Science, Zhejiang Sci-Tech University, Hangzhou 310018, China

通讯作者: 吴彪,男,讲师. orcid.org/0009-0005-5112-1835. E-mail:biaowuzg@zstu.edu.cn

收稿日期: 2024-12-11  

基金资助: 国家自然科学基金资助项目(6207050141);浙江省重点研发计划资助项目(2020C03094);浙江省教育厅一般科研项目(Y202147659);浙江省教育厅项目(Y202250706, Y202250677);浙江省基础公益研究计划资助项目(QY19E050003).

Received: 2024-12-11  

Fund supported: 国家自然科学基金资助项目(6207050141);浙江省重点研发计划资助项目(2020C03094);浙江省教育厅一般科研项目(Y202147659);浙江省教育厅项目(Y202250706,Y202250677);浙江省基础公益研究计划资助项目(QY19E050003).

作者简介 About authors

包晓安(1973—),男,教授,从事机器视觉研究.orcid.org/0000-0001-8305-0369.E-mail:baoxiaoan@zstu.edu.cn , E-mail:baoxiaoan@zstu.edu.cn

摘要

针对传统目标检测头难以有效捕捉全局信息的问题,提出基于多方位感知深度融合检测头的目标检测算法. 通过在检测头部分设计高效双轴窗口注意力编码器(EDWE)模块,使网络能够深度融合捕获到的全局信息与局部信息;在特征金字塔结构之后使用重参化大核卷积(RLK)模块,减小来自主干网络的特征空间差异,增强网络对中小型数据集的适应性;引入编码器选择保留模块(ESM),选择性地累积来自EDWE模块的输出,优化反向传播. 实验结果表明,在规模较大的MS-COCO2017数据集上,所提算法应用于常见模型RetinaNet、FCOS、ATSS时使AP分别提升了2.9、2.6、3.4个百分点;在规模较小的PASCAL VOC2007数据集上,所提算法使3种模型的AP分别实现了1.3、1.0和1.1个百分点的提升. 通过EDWE、RLK和ESM模块的协同作用,所提算法有效提升了目标检测精度,在不同规模的数据集上均展现了显著的性能优势.

关键词: 检测头 ; 目标检测 ; Transformer编码器 ; 深度融合 ; 大核卷积

Abstract

An object detection algorithm based on multi-azimuth perception deep fusion detection head was proposed to address the challenge that traditional object detection heads struggled to effectively capture global information. An efficient dual-axial-window attention encoder (EDWE) module was designed to enable the network to deeply fuse the captured global information and local information. A reparameterized large kernel convolution (RLK) module was employed after the feature pyramid structure to alleviate feature space discrepancies from the backbone network and enhance the network’s adaptability to small and medium-sized datasets. An encoder selective-save module (ESM) was introduced to selectively accumulate the outputs from the EDWE module and optimize the backpropagation process. Experimental results demonstrated that on the larger-scale MS-COCO2017 dataset, the AP values were improved by 2.9, 2.6, and 3.4 percentage points when the proposed algorithm was applied to the common models RetinaNet, FCOS, and ATSS, respectively. On the smaller-scale PASCAL VOC2007 dataset, the proposed algorithm achieved improvements of 1.3, 1.0, and 1.1 percentage points in the AP values of the three models respectively. Through the synergistic integration of the EDWE, RLK, and ESM modules, the proposed algorithm effectively enhances the object detection accuracy and has significant performance advantages across datasets of varying scales.

Keywords: detection head ; object detection ; Transformer encoder ; deep fusion ; large kernel convolution

PDF (3033KB) 元数据 多维度评价 相关文章 导出 EndNote| Ris| Bibtex  收藏本文

本文引用格式

包晓安, 彭书友, 张娜, 涂小妹, 张庆琪, 吴彪. 基于多方位感知深度融合检测头的目标检测算法. 浙江大学学报(工学版)[J], 2026, 60(1): 32-42 doi:10.3785/j.issn.1008-973X.2026.01.003

BAO Xiao’an, PENG Shuyou, ZHANG Na, TU Xiaomei, ZHANG Qingqi, WU Biao. Object detection algorithm based on multi-azimuth perception deep fusion detection head. Journal of Zhejiang University(Engineering Science)[J], 2026, 60(1): 32-42 doi:10.3785/j.issn.1008-973X.2026.01.003

在计算机视觉领域,目标检测是重要的研究方向,其目标是在图像中精确定位和识别感兴趣的对象. 目标检测器主要分为3种类型:两阶段检测器[1-3]、单阶段检测器和Transformer检测器(如DETR)[4-6]. 单阶段检测器可以被进一步细分为基于锚点的检测器[7]和无锚点的检测器[8-9],区别在于是否预定义大量锚点框. 对于目标检测的优化,主要包括设计创新性主干网络[6-7],改进特征提取方法[10-11],以及优化训练策略[12]等技术. 这些发展极大地丰富了目标检测领域. 此外,高性能目标检测器的实现通常依赖于优秀的检测头,后者负责在检测器的最后阶段处理由主干网络提取的特征图,进行对象定位与分类. 检测头主要分为耦合检测头[13-14]和平行检测头[7,15-16] 2种形式. 耦合检测头通过一系列堆叠的卷积层处理输入的特征图,随后通过全连接层同时产生分类和目标框回归结果. 平行检测头为分类和回归任务建立2条不同的检测分支,2条分支通常共享相同的特征图输入,每个分支通过各自的堆叠卷积层处理这些输入,再通过各自的全连接层分别产生分类和目标框回归结果. 由于分类和回归任务之间存在特征空间差异,平行检测头在检测器中应用更为普遍[16].

当前研究对检测头潜力的挖掘仍显不足. 标准的平行头设计依赖于卷积层的堆叠,存在全局信息捕获能力欠缺的问题. Wu等[17]提出Double Head,强调全连接层表现出更强的空间敏感性,更适合分类任务,而卷积层具有更强的空间相关性,更适合定位任务. 然而,该检测头仍未解决全局信息捕获能力不足的问题. Dynamic Head[18]通过集成尺度感知、空间感知和任务感知3个感知维度,构建插件模块以提升现有框架的性能,但是其泛化能力仍然受限,尤其在适应不同规模的数据集时局限性更为明显. UniHead[19]将Transformer编码器架构整合到多个视觉下游任务的检测头中,采用点分散学习来统一视觉感知,但是面临着特征信息过于单一、在最终编码阶段预测错误的问题,且较大的计算成本限制了其实用性.

注意力机制对于提升模型性能至关重要. 在基于卷积注意力的机制中,挤压激励注意力网络[20]通过缩放每个通道来增强显著特征并抑制不相关的特征. 卷积块注意力模块[10]结合通道注意力和空间注意力,在保持通道维度的同时压缩空间维度以实现通道注意力机制,并且利用卷积操作为特征图的空间维度生成注意力权重,从而引导模型在通道和空间上都关注关键区域. RepLKNet[21]使用超大卷积核来捕获特征图的宽区域信息,常用于增强显著特征或捕获局部/全局信息. 基于Transformer的注意力机制的核心是多头自注意力及其变体,目前对于多头自注意力的研究更多地聚焦于2个方向:降低复杂度,或者提出新型多头注意力模块以优化信息捕获模式(如基于窗口的多头自注意力[22]和交叉注意力[23]). 然而,单一注意力的重复使用容易导致特征信息单调化.

值得注意的是,若将Transformer架构[24]及其注意力机制直接应用于检测头,虽然能够捕获全局信息,但是会带来新的挑战. 1)过度强调全局信息:在网络学习的后期,普通注意力机制对于全局信息过度重视,容易丢失图片的局部纹理信息;普通注意力机制的计算量过大,会带来整体网络参数的大量增加. 2)特征空间不匹配:检测头的输入特征图通常来自深层主干网络,更倾向于强调局部纹理信息,而Transformer架构强调全局信息. 当直接使用编码器结构替代检测头中的卷积方法时,特征空间的显著差异会导致网络性能下降. 3)在较小数据集上难以拟合:Transformer的核心是注意力机制,需要计算每个查询向量与所有键-值向量之间的相似性,导致二次计算复杂性. 在较小数据集上训练时,由于样本数量有限,网络可能无法充分学习到有效的注意力模式,从而难以收敛,最终影响检测性能. 4)堆叠编码器的错误传播问题:堆叠多个编码器可能会导致在前中期编码阶段预测正确,而在最终编码阶段出现错误预测[12].

为了应对上述挑战,提升平行检测头的能力(增强全局信息捕获、避免特征单一性、提高泛化能力、防止错误传播),提出面向单阶段检测器的基于多方位感知深度融合检测头的目标检测算法(object detection algorithm based on multi-azimuth perception deep fusion detection head, MdfHead). 设计高效双轴窗口注意力编码器(efficient dual-axial-window attention encoder, EDWE)模块,通过交替使用不同的编码器,融合全局信息与局部信息,以解决检测头过度强调全局信息而忽视局部细节的问题,并减少网络参数. 在特征金字塔与EDWE模块之间添加重参化大核卷积(reparameterized large kernel convolution, RLK)模块,用于减小特征空间表示的差异,加速网络收敛,提高网络在训练期间学习注意力模式时的效率,并增强网络对较小数据集的适应性,以解决特征空间不匹配和较小数据集上难以拟合的问题. 设计编码器选择保留模块(encoder selective-save module, ESM),旨在避免网络在最终编码阶段预测错误的情况,从而提高网络的整体性能. MdfHead的设计具有轻量、高效的特点,可以被便捷地集成到各种单阶段检测器中,从而显著提升检测器的性能.

1. 目标检测算法的结构设计

图1所示,以ResNet-50网络为例,MdfHead主要由3个关键组件构成:RLK模块、EDWE模块和ESM. 将输入的特征图(倾向于局部纹理信息)转化为融合了全局信息的卷积形式的特征图,使之从基于卷积的局部信息特征图转变为基于卷积的全局信息特征图,再变为基于Transformer的全局信息特征图,以显著减少特征空间表示的差异. 将该特征图送入EDWE模块,深度融合特征图中的局部信息与全局信息. 使用ESM在不同的编码器阶段选择性地保留特征图,并在每个训练批次中计算编码器的最佳组合以进行反向传播. 最后,通过2个全连接层获取分类结果与目标框回归结果.

图 1

图 1   基于多方位感知深度融合检测头的目标检测算法的网络结构

Fig.1   Network structure of object detection algorithm based on multi-azimuth perception deep fusion detection head


1.1. 高效双轴窗口注意力编码器模块

1.1.1. 高效双轴注意力模块

EDWE模块可以分为2部分:高效双轴注意力(efficient dual-axial attention, EDA)模块[23]和基于窗口的多头自注意力(window-based multi-head self attention, W-MSA)模块[22]. 如图2所示,EDA模块同时使用水平轴向和垂直轴向注意力来模拟长期依赖关系. 对于水平轴向注意力,输入特征图$ {{\boldsymbol{X}}}\in {\mathbf{R}}^{H\times W\times C} $被均匀分成$ H $个不重叠的水平条带,每个条带的宽度为$ W $. 假设$ {{{\boldsymbol{X}}}}_{i}\in {\mathbf{R}}^{W\times C} $表示第$ i $个条带,其自注意力可以表示为

图 2

图 2   高效双轴注意力模块示意图

Fig.2   Schematic diagram of efficient dual-axial attention module


$ \left({\boldsymbol{Q}}_i, {\boldsymbol{K}}_i, {\boldsymbol{V}}_i^{\mathrm{S}}\right)=\left({\boldsymbol{X}}_i {\boldsymbol{W}}_{\boldsymbol{Q}}, {\boldsymbol{X}}_i {\boldsymbol{W}}_{\boldsymbol{K}}, {\boldsymbol{X}}_i {\boldsymbol{W}}_{\boldsymbol{V}}^{\mathrm{S}}\right), $

$ \widehat{\boldsymbol{Y}}_i=\operatorname{Attention}\left(\boldsymbol{Q}_i, \boldsymbol{K}_i, \boldsymbol{V}_i^{\mathrm{S}}\right)=\operatorname{Softmax}\left(\frac{\boldsymbol{Q}_i \boldsymbol{K}_i^{\mathrm{T}}}{\sqrt{d_k}}\right) \boldsymbol{V}_i^{\mathrm{S}} . $

式中:$ {{{\boldsymbol{W}}}}_{{{\boldsymbol{Q}}}}\in {\mathbf{R}}^{C\times C/2} $$ {{{\boldsymbol{W}}}}_{{{\boldsymbol{K}}}}\in {\mathbf{R}}^{C\times C/2} $$ {\boldsymbol{W}}_{\boldsymbol{V}}^{\mathrm{S}}\in {\mathbf{R}}^{C\times C/2} $分别为输入的查询(queries)、键(keys)和值(values)的投影矩阵,$ {{{\boldsymbol{V}}}}_{i}^{\mathrm{S}} $为水平轴向和垂直轴向注意力共享的值,$ {{{\boldsymbol{\widehat{Y}}}}}_{i}\in {\mathbf{R}}^{W\times C/2} $Xi的水平轴向输出,Attention表示注意力机制对查询、键和值的处理,dk为键向量的维度,缩放因子$ \sqrt{{d}_{k}} $用于稳定梯度. 在计算查询、键和值时,采用通道降维操作,以便在压缩后的通道空间中进行注意力的计算. 采用与水平轴向输出类似的计算方式得到Xi的垂直轴向输出,记为$ \overline{\boldsymbol{Y}}_i $. 将2部分轴向输出沿通道维度进行拼接,并使用通用的投影矩阵$ {{\boldsymbol{W}}}^{\mathrm{O}} $进行特征融合:

$ \operatorname{EDA}(\boldsymbol{X})=\operatorname{Cat}(\widehat{\boldsymbol{Y}}, \overline{\boldsymbol{Y}}) \boldsymbol{W}^{\mathrm{O}} . $

式中:EDA表示高效双轴注意力操作,其计算复杂度为$ 3.5HW{C}^{2} $+$ {H}^{2}WC+H{W}^{2}C $.

1.1.2. 基于窗口的多头自注意力模块

将特征图划分为大小为$ M\times M $的窗口,在每个窗口内分别执行自注意力操作. 由于每个窗口的计算复杂度为$ 4{\left(MC\right)}^{2}+2{M}^{4}C $$ \left(H/M\right)\times \left(W/M\right) $个窗口的总计算复杂度为$ 4HW{C}^{2}+2{M}^{2}HWC $,其中$ H $$ W $分别为特征图的高度和宽度. 2种注意力模块各有优劣. 尽管EDA模块有效地模拟了标记(tokens)之间的长期依赖关系,但是缺乏自注意力的归纳偏差,无法充分捕捉局部信息. 相反,W-MSA模块降低了整体计算复杂度,并在局部窗口内整合了特征信息,但是不能促进窗口之间的信息交换,因此缺乏全局视角.

将上述2种注意力模块结合起来,先通过W-MSA模块获得富含局部信息的特征图,再通过EDA模块,将整个特征图中的全局信息融入富含局部信息的特征图. 这种组合解决了由于窗口无法进行信息交换而导致的全局信息缺失问题,将其称为EDWE模块,具体结构如图3所示. 如图4所示,与原EDA与W-MSA结构相比,EDWE模块能够有效建立长距离依赖关系,并实现全局与局部信息的混合感知,从而获得更多的特征信息. 标准多头注意力模块的理论计算复杂度为$ 8HW{C}^{2}+ 4{\left(HW\right)}^{2} $,而EDWE模块的理论计算复杂度为$ 7.5HW{C}^{2}+{H}^{2}WC+H{W}^{2}C+2{M}^{2}HWC $. 由于$ M $通常被设定为较小值(例如8或16),在绝大多数情况下,EDWE模块的理论计算复杂度远低于标准多头注意力模块.

图 3

图 3   高效双轴窗口注意力编码器(EDWE)模块结构

Fig.3   Structure of efficient dual-axial-window attention encoder (EDWE) module


图 4

图 4   由不同注意力模块生成的特征聚焦区域可视化热力图

Fig.4   Visualization heatmaps of feature-focused regions generated by different attention modules


1.2. 重参化大核卷积模块

在特征金字塔之后,融入RLK模块. 对于利用特征金字塔的不同层级获得的不同尺度的特征图,采用不同大小的卷积核. RLK模块结构如图5所示.

图 5

图 5   重参化大核卷积(RLK)模块结构

Fig.5   Structure of reparameterized large kernel convolution (RLK) module


RLK模块使用了残差连接和大核深度卷积,并使用1×1卷积调整深度卷积前后的通道数. 在大核深度卷积之前,通过1×1卷积增加维度,以防止因特征图数量有限而导致信息丢失. 经过大核深度卷积后,使用另一个1×1卷积将维度恢复到原始大小[24]. 此外,在每个大核深度卷积中,引入重参数化深度(reparameterized depthwise,RDW)卷积[21],通过构建并行的$ 3\times 3 $深度卷积层来增强模型在大型和小型数据集上的泛化能力. 输入特征图经过$ 3\times 3 $深度卷积层与批标准化(batch normalization, BN)层的处理后,将输出的特征图与大核深度卷积层分支的输出特征图相加. 经过训练后,$ 3\times 3 $深度卷积层及其BN层的参数可以合并到原大核深度卷积层中,得到的模型保留了训练性能,且不再需要$ 3\times 3 $深度卷积. 残差连接不仅能够有效支持更深层神经网络的构建和训练,而且对于卷积核非常大的网络而言不可或缺. 没有残差连接,网络将难以捕捉局部细节. 残差连接将模型转变为具有不同感受野的隐式集成模型,使之在保留局部细节捕捉能力的同时,能够从更大的感受野中受益. 而使用大核深度卷积能够帮助网络获得更大的感受野. 单阶段目标检测的典型方法与CNN类似,通过堆叠多个小内核的空间卷积来扩大网络的感受野. 这种操作带来的影响是:最初的输入图像在经过主干网络与特征金字塔的处理后,得到的特征图更多地偏向于由CNN架构所提取的、基于局部感受野的细节纹理特征,即卷积的归纳偏置. 如果直接输入EDWE中,由于其自注意力机制会直接建模全局依赖关系,输出特征将偏向于全局上下文信息,即注意力的归纳偏置. 这2种特征在局部与全局上的分布存在巨大差异,使网络在较小数据集上的表现变差. 本研究在RetinaNet的Pascal VOC2007数据集上使用目标检测头UniHead时观察到这一现象,在其他检测器上进行实验时也陆续验证了此现象的存在. 因此,尝试引入大核深度卷积,将特征金字塔处理后获得的偏向于卷积类型的局部纹理信息特征图,转换为偏向于卷积类型的全局信息特征图,再将该特征图作为EDWE模块的输入,最终获得偏向于Transformer类型的全局信息特征图,以减小特征图的信息分布差异. 后续的RLK模块在较小数据集上的有效性验证实验也证明了引入大核深度卷积的有效性与必要性.

在默认情况下,如果不采用多尺度训练策略,处理输入特征图时使用内核大小为7的大核深度卷积. 当采用多尺度训练策略时,针对来自特征金字塔的不同层级的特征图选择性地应用不同大小的内核,并遵循一个原则,即对于较低层级(通道数较少、特征图尺寸较大的层),使用内核较大的大核深度卷积. 例如,对于特征金字塔的P2、P3和P4层,默认情况下深度大核卷积的卷积核大小分别为13、13、9;对于P5和P6层,卷积核大小分别为9和7.

1.3. 编码器选择保留模块

基于查询的目标检测器在最终解码阶段的预测结果往往会出现不如前中期阶段预测结果准确的情况. 以使用6个EDWE模块为例,对每个EDWE阶段的输出结果直接进行全连接层的分类和回归,结果如图6所示. 在第3阶段中,对鸟类的分类置信度为0.58,但是从第4阶段到第6阶段,分类置信度逐渐下降到0.35. 在第5阶段,瓶子被错误地分类为船舶;到了第6阶段,这种误分类的置信度从0.39上升到了0.45. 为了解决这一问题,在EDWE模块中引入ESM,4个EDWE阶段对特征图的处理过程表示为

图 6

图 6   后期编码阶段中出现错误预测的现象

Fig.6   Phenomenon of incorrect predictions occurring in later encoding stages


$ \begin{split} &\boldsymbol{X}^{0-1-2-3-4}=\operatorname{ESM}^{1-2-3-4}\left(\boldsymbol{X}^0\right)= \\&\operatorname{EDWE}^4 \left(\operatorname{EDWE}^3\left(\operatorname{EDWE}^2\left(\operatorname{EDWE}^1\left(\boldsymbol{X}^0\right)\right)\right)\right).\end{split} $

式中:$ {{\boldsymbol{X}}}^{0} $为RLK模块的输出特征图;$ {\mathrm{E}\mathrm{D}\mathrm{W}\mathrm{E}}^{l} $表示不同的EDWE阶段,其中$ l $为每个EDWE阶段的索引;$ {{\boldsymbol{X}}}^{0-1} $为第1个EDWE阶段的输出;如果最终网络使用了4个EDWE模块,那么EDWE的输出表示为$ {{\boldsymbol{X}}}^{0-1-2-3-4} $. 引入ESM后,网络不仅会保留每个EDWE的输出,还会保留之前的输入. 将保留的输入和正常输出一同作为下一个EDWE阶段的输入. 若早期的${{\boldsymbol{X}}} $跳过多个EDWE阶段直接到达较远的后期EDWE阶段,如$ {{{\boldsymbol{X}}}}^{0-4} $,可能会产生较大的特征差距,这种差距会主导最终的损失函数,进而损害网络. 因此,ESM选择性地保存每个阶段的结果. 具体标准为仅允许特征图在相邻或间隔1个编码器阶段之间进行传递,间隔超过2个阶段的连接将被舍弃. 例如,1号编码器的输出能作为3号编码器的输入,但是不能作为4号及之后的编码器的输入.

图7展示了带有4个EDWE的检测头在采用原始模块、编码器密集保留模块(encoder dense-save module, EDM)和ESM的训练结果,分别产生了1、15、11个输出. 在训练过程中,分别计算每个输出特征图$ {{\boldsymbol{X}}} $通过分类和框回归全连接层获得的预测框与真实框之间的损失,对损失最小的特征图$ {\boldsymbol{X}} $对应的参数进行反向传播. 例如,如果某次分类与框回归损失的最小值由特征图$ {{{\boldsymbol{X}}}}^{0-2} $产生,那么在反向传播中只会更新第0、2个EDWE模块的参数. ESM对特征图处理过程的伪代码如算法1所示,其中$ \mathrm{a}\mathrm{p}\mathrm{p}\mathrm{e}\mathrm{n}\mathrm{d} $为向集合中加入元素的操作,$ \mathrm{l}\mathrm{e}\mathrm{n} $表示获得集合大小的操作.

图 7

图 7   原始模块、编码器密集保留模块与编码器选择保留模块示意图

Fig.7   Schematic diagrams of original module, encoder dense-save module (EDM) and encoder selective-save module (ESM)


算法1 ESM对特征图的处理过程

输入P = X0,EDWE = EDWE1, EDWE2,···, EDWEl,其中P为RLK模块的输出特征图,EDWE为网络使用的EDWE模块集合,l为所使用的EDWE模块的总数量. EDWE_OUTPUTS为EDWE的输出集合,EDWE_C_INPUTS为当前EDWE阶段的输入集合,EDWE_C_LASTINDEX为当前EDWE阶段的输入集合所对应的最近操作下标索引,用于选择性保留操作. losses为EDWE模块的损失集合. M.delete (index)表示删除M集合中索引为index的元素,Update_Params表示对网络进行反向传播.

输出:损失值最小的EDWE序列元素,并对其进行反向传播.

1: Initialize EDWE_OUTPUTS= [ ]

2: Initialize EDWE_C_INPUTS= [X0]

3: Initialize losses= [ ]

4: Initialize EDWE_C_LASTINDEX=[ ]

5: for i = 0 to S−1 do

6: temp_INPUTS = EDWE_C_INPUTS

7: temp_C_LASTINDEX = EDWE_C_LASTINDEX

8:  for j= 0 to len (EDWE_C_INPUTS)−1 do

9:   current_INPUT = EDWE_C_INPUTS [j]

10:  current_INDEX = EDWE_C_LASTINDEX [j]

11:  if current_INDEX−i > 2 then

12:   temp_INPUTS.delete (j)

13:   temp_C_LASTINDEX.delete(j)

14:  else

15:   EDWE_OUTPUT = EDWE [i] (current_INPUT)

16:   EDWE_OUTPUTS.append (EDWE_OUTPUT)

17:   Loss = calculate_loss (EDWE_OUTPUT)

18:   losses.append(Loss)

19:   temp_INPUTS.append (EDWE_OUTPUT)

20:   temp_C_LASTINDEX.append (i)

21:  end if

22: end for

23: EDWE_C_INPUTS = temp_INPUTS

24: EDWE_C_LASTINDEX = temp_C_LASTINDEX

25: end for

26: min_loss_index = argmin (losses)

27: temp_Var = EDWE_OUTPUTS [min_loss_index]

28: Return Update_Params (temp_Var )

2. 实 验

2.1. 数据集与评估指标

采用MS-COCO2017数据集[25]与多种主干网络进行实验,以证明MdfHead的整体有效性. 此外,在较小的公共数据集Pascal VOC2007[26]上进行实验,以强调RLK模块在整个方法中的重要性. MS-COCO2017数据集包含80个目标类别,大约有164 000张图像,其中约有118 000张用于训练,5 000张用于验证,41 000张用于测试. Pascal VOC2007数据集包括20个目标类别,总共有9 963张图片,其中5 011张用于训练和验证,4 952张用于测试. 对于MS-COCO2017数据集,在train2017子集上训练模型,在val2017子集上评估网络性能并进行消融实验. 使用平均精度(AP)来衡量检测性能,并使用模型参数量(Np)和每秒浮点运算次数(FLOPs)来评估模型效率. 对于Pascal VOC2007数据集,在trainval子集上训练模型,在测试子集上评估网络性能,并使用平均精度均值(mAP)作为性能指标.

2.2. 实施细节

采用MMDetection[27]作为检测平台,以此为基础部署MdfHead,替代经典检测器中默认的平行头,并对MdfHead与默认的平行头进行比较. 在所有实验中,采用在ImageNet数据集[28]上预训练的模型作为主干网络. 在训练过程中,分辨率设置为MMDetection中的默认大小;采用AdamW作为优化器,初始学习率为0.0001,权重衰减率为0.2. 遵循MMDetection中的默认训练策略,在第9、12个epoch中将学习率降低10倍. 在数据增强方面,仅使用水平翻转方式. 除非另有说明,所有实验均使用4个EDWE模块,从第1个EDWE阶段开始使用ESM. 默认数据集为MS-COCO2017. 所有实验均在2个内存为24 GB的3090 GPU上进行.

2.3. 在经典目标检测器上使用MdfHead

为了证明MdfHead的有效性,将其插入经典的目标检测器中,包括RetinaNet[7]、FCOS[8]、CenterNet[9]、ATSS[29]和PAA[30]. 这些被选择评估的检测器代表了多种主流目标检测框架,包括基于锚框、无锚框、基于锚点与强基线的方法. 实验结果如表1所示,其中baseline表示使用原始检测头(平行检测头)的方法. MdfHead在略微增加模型参数量与计算量的情况下,提升了所有检测器的性能. 例如,在RetinaNet[7]上AP值实现了2.9个百分点的提升,在ATSS[29]上实现了3.4个百分点的提升. 此外,在选择更深的主干网络的情况下,MdfHead对AP的提升效果更为明显.

表 1   不同目标检测器在MS-COCO2017数据集上使用MdfHead的结果

Tab.1  Results of applying MdfHead to different object detectors on MS-COCO2017 dataset

检测器方法Np/106FLOPs/109AP/%AP50/%AP75/%FPS/(帧·s−1)
RetinaNet(R101)Baseline56.961282.9138.557.641.023.2
RetinaNet(R101)MdfHead58.013283.4241.460.743.622.9
FCOS(R101)Baseline51.287248.2639.158.342.123.1
FCOS(R101)MdfHead52.117249.1941.761.044.123.0
CenterNet(R50)Baseline32.293179.9940.258.343.932.9
CenterNet(R50)MdfHead33.311183.3742.060.445.832.5
ATSS(R101)Baseline51.283252.5241.559.945.223.4
ATSS(R101)MdfHead52.108253.0444.963.649.123.2
PAA(R101)Baseline51.435255.1142.660.846.620.5
PAA(R101)MdfHead52.303255.8445.263.248.420.3

新窗口打开| 下载CSV


2.4. 消融实验

采用以ResNet-101[31]为主干网络的RetinaNet[7]作为整个消融实验的基准网络,共训练12个轮次,以证明MdfHead中每个模块的有效性.

2.4.1. 总体消融实验

为了评估每个模块的效果,将RetinaNet中的原始平行头替换为MdfHead,对MdfHead中的不同模块进行消融实验. 其中ESM依赖于EDWE模块,不能单独使用. 实验结果如表2所示. 结果表明,单独使用EDWE的效果不尽人意. 然而,当EDWE与RLK结合时,其性能超越了使用平行头的baseline. 原因是RLK模块将偏向于卷积类型局部纹理信息的原始特征图转换为了更贴近于EDWE特征空间分布的卷积类型全局信息的特征图. 此外,ESM提高了性能上限,使网络获得了更佳的结果.

表 2   Mdfhead中不同模块的消融实验

Tab.2  Ablation experiment of different modules in MdfHead

RLKEDWEESMNp/106FLOPs/109AP/%AP50/%AP75/%
56.961282.9138.557.641.0
54.413243.2034.654.138.4
55.501274.1036.755.539.8
58.013283.4240.359.642.3
55.501274.1039.758.742.1
58.013283.4241.460.743.6

新窗口打开| 下载CSV


2.4.2. EDWE模块与常见编码器模块的对比实验

为了验证EDWE模块的有效性,进行EDWE与标准编码器、EDA和W-MSA模块之间的对比实验,最终结果如表3所示. 由于1个EDWE包含1个EDA与1个W-MSA,为了确保公平比较,在使用4个EDWE的情景下,对比实验将采用8个标准编码器、8个EDA和8个W-MSA. 如表3所示,单独使用EDA或W-MSA虽然减少了参数量,但是导致网络性能下降. 当在EDWE中将两者结合使用时显著提升了网络性能,同时保持了相近的参数量,这得益于局部和全局信息的整合.

表 3   使用不同编码器模块的对比实验

Tab.3  Comparison experiment with different encoder modules

方法Np/106FLOPs/109AP/%AP50/%AP75/%
标准编码器61.101293.1140.159.441.9
EDA57.462281.9239.359.041.2
W-MSA58.704285.1338.758.340.7
EDWE58.013283.4241.460.743.6

新窗口打开| 下载CSV


2.4.3. EDWE模块数量的选择实验

使用不同数量的EDWE进行实验,以分析其影响,结果如表4所示. 其中,NclsNreg分别为分类编码器与回归编码器的数量. MdfHead在编码器数量增加时性能有所提升,综合考虑计算成本和参数规模,最终选择使用4个EDWE模块.

表 4   EDWE模块数量的选择实验

Tab.4  Ablation experiment on the number of EDWE modules

NclsNregNp/106FLOPs/109AP/%AP50/%AP75/%
56.961282.9138.557.641.0
1155.313253.2437.757.040.1
2256.213263.3138.457.840.7
3357.113273.3639.358.041.8
4458.013283.4241.460.743.6
5560.021292.1841.760.843.8

新窗口打开| 下载CSV


2.4.4. RLK模块中卷积核大小的选择实验

表5展示了在RLK模块中使用不同大小的卷积核的实验结果. 在进行多尺度训练时,对特征金字塔低层级的特征图使用较大的卷积核可以获得更显著的性能提升,且随着卷积核的增大,获得的性能增益逐渐增多,但是增长比例下降,原因是随着卷积核增大,所能捕获的新增全局信息量会逐渐减少. 考虑到参数量和FLOPs,MdfHead默认使用13-13-9-9-7的卷积核配置.

表 5   RLK模块中卷积核大小的选择实验

Tab.5  Experiment on selection of convolution kernel sizes in RLK module

卷积核大小Np/106FLOPs/109AP/%AP50/%AP75/%
3-3-3-3-355.742272.4539.959.342.3
7-7-7-7-756.313272.8840.560.042.8
13-13-9-9-758.013283.4241.460.743.6
13-13-13-13-1358.518284.0141.360.942.9
25-25-25-25-1363.729285.8341.661.043.7

新窗口打开| 下载CSV


2.4.5. RLK模块在较小数据集上的有效性实验

大部分与编、解码相关的方法都体现出一个特征:在数据集规模较小的情况下,网络容易出现欠拟合以及难以收敛的问题,导致精度较低. 为了验证RLK模块在此类场景下的作用,在Pascal VOC2007数据集上使用较小的主干网络ResNet-50[31],在RetinaNet、FCOS与ATSS检测器上进行实验,结果如表6所示. 如果未使用RLK模块,MdfHead的性能显著下降,其mAP值甚至低于基线模型,这凸显了当数据有限时特征空间差异带来的负面影响;而引入RLK模块后,所有检测器的性能均得到显著提升,RetinaNet、FCOS、ATSS的mAP值分别提升了1.3、1.0、1.1个百分点. RLK模块通过减小特征空间差异,有效增强了网络对较小数据集的适应性,为EDWE模块与ESM在数据有限条件下的稳定工作提供了关键支持.

表 6   RLK模块在较小数据集上的有效性实验

Tab.6  Experiment on effectiveness of RLK module on smaller dataset

检测器方法Np/106FLOPs/109mAP/%
RetinaNetBaseline36.724106.7171.1
未使用RLK35.817101.3968.3
使用RLK37.901108.0572.4
FCOSBaseline32.15799.1669.6
未使用RLK31.25095.1567.1
使用RLK33.334100.7270.6
ATSSBaseline32.157101.5469.2
未使用RLK31.48999.9567.3
使用RLK32.677102.3670.3

新窗口打开| 下载CSV


2.4.6. ESM的消融实验

表7所示,ESM在略微增加网络训练时间的情况下,使网络整体性能获得了提升. 表7中,Base为正常输入多个编码器模块的方法. 当使用EDM时,网络训练时间显著增加,且早期输入直接传递到后期编码器所产生的过大损失损害了网络的整体性能,导致精度下降. 相较之下,使用ESM虽然略微增加了训练时长,但是能够减少后期编码器阶段的预测精度低于前中期编码器的现象,使网络获得更好的性能.

表 7   ESM的消融实验

Tab.7  Ablation experiment on ESM

方法开始阶段训练时长AP/%AP50/%AP75/%
Base1.00×40.359.642.3
EDM2.31×41.260.343.4
ESM11.67×41.460.743.6
ESM21.44×41.260.643.0
ESM31.28×41.060.042.9
ESM41.11×40.659.842.5

新窗口打开| 下载CSV


2.4.7. 可视化对比实验

采用以ResNet-101为主干网络的RetinaNet模型进行可视化对比实验,结果如图8所示. 与传统的平行检测头相比,MdfHead不仅能够在复杂场景中感知到小目标,而且获得了更高的分类得分,如图8中椭圆框标注区域所示. 这表明MdfHead不仅可以提高检测性能,而且能够增强目标检测器的鲁棒性.

图 8

图 8   MdfHead与原始检测头的可视化对比实验结果

Fig.8   Experimental results of visualization comparison between MdfHead and original detection head


2.5. 在野生动物数据集上应用MdfHead
2.5.1. 野生动物数据集介绍

所用的野生动物数据集来自于浙江省东阳市东白山自然保护区. 利用保护区内架设的108台红外摄像机进行24 h的运动侦测,对保留下来的视频片段进行人工筛选与裁切,用于野生动物数据集的制作. 数据集收录了14种野生动物的图像数据,收集时长横跨数月,囊括不同日期、时段与多种气候情况下的7 011张图片,其中包括常见的野猪、麻雀与野兔等野生动物及黄麂、白鹇等国家珍稀保护动物,可用于真实野外场景的实验验证.

2.5.2. 对比实验

考虑到数据集规模的影响,对比实验均在以ResNet-50为主干网络的RetinaNet检测器上进行,训练分辨率大小设置为1333×800,其余设置与2.2节中相同. 每类动物的具体检测精度如图9所示. 由图可知,使用MdfHead的RetinaNet检测器的检测效果均优于使用默认平行头方法的RetinaNet检测器. 其中,对于目标较小的老鼠、麻雀类别,MdfHead使RetinaNet检测器的mAP分别提升了5.2与5.6个百分点. 检测速度如表8所示,41.3帧/s的检测速度达到了实时检测的要求.

图 9

图 9   MdfHead与原始检测头对野生动物数据集中不同类别的检测精度

Fig.9   Detection accuracy of MdfHead and original detection head on different species in wildlife dataset


表 8   不同检测头在野生动物数据集上的对比实验

Tab.8  Comparison experiment of different detection heads on wildlife dataset

方法Np/106FLOPs/109FPS/(帧·s−1)
MdfHead37.697106.0341.3
Baseline36.518104.6241.5

新窗口打开| 下载CSV


2.6. 不同数据集上的实验结果分析

相较于Pascal VOC2007,MS-COCO2017规模更大,不仅数据量足够丰富,而且前景与背景的构成更为复杂. Pascal VOC2007数据集由于数据量相对较少,可能无法支持复杂网络实现完全收敛,导致网络AP的提升相较于MS-COCO2017数据集更小. 野生动物数据集的监控点位相对固定,虽然在数据规模上与Pascal VOC2007相近,但不同图片的背景变化较小,所以AP的提升更为明显.

3. 结 语

针对传统目标检测头捕捉全局信息的能力不足以及检测性能较低的问题,提出基于多方位感知深度融合的目标检测算法(MdfHead),该算法可以被集成到不同的检测框架中,并应用于不同规模的数据集. 首先,在MdfHead中设计高效双轴窗口注意力编码器(EDWE)模块,增强了其捕获全局信息与局部信息的能力. 其次,在EDWE之前插入重参化大核卷积(RLK)模块,以缩小从主干网络到检测头的特征空间差异,提高了MdfHead在小型数据集上的适用性. 最后,引入编码器选择保留模块(ESM)到EDWE中,从而能够选择性地聚合每个EDWE模块的输出,并允许后续的EDWE直接处理前中期EDWE的输出,优化了反向传播. 实验结果表明,MdfHead可以被灵活地集成到各种主流的目标检测器中,并显著提升了检测性能. 在下一步计划中,将着重研究如何对检测头进行剪枝操作,从而在获得更好的检测结果的前提下尽可能地减少参数量以释放计算资源.

参考文献

REN S, HE K, GIRSHICK R, et al

Faster R-CNN: towards real-time object detection with region proposal networks

[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2017, 39 (6): 1137- 1149

DOI:10.1109/TPAMI.2016.2577031      [本文引用: 1]

LI W, ZHAO D, YUAN B, et al

PETDet: proposal enhancement for two-stage fine-grained object detection

[J]. IEEE Transactions on Geoscience and Remote Sensing, 2023, 62: 5602214

LI H, SHI F

A DETR-like detector-based semi-supervised object detection method for Brassica Chinensis growth monitoring

[J]. Computers and Electronics in Agriculture, 2024, 219: 108788

DOI:10.1016/j.compag.2024.108788      [本文引用: 1]

HOU X, LIU M, ZHANG S, et al. Relation DETR: exploring explicit position relation prior for object detection [C]// Proceedings of the European Conference on Computer Vision. Milan: Springer, 2024: 89–105.

[本文引用: 1]

ZHAO Y, LV W, XU S, et al. DETRs beat YOLOs on real-time object detection [C]// Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. Seattle: IEEE, 2024: 16965–16974.

CARION N, MASSA F, SYNNAEVE G, et al. End-to-end object detection with Transformers [C]// Proceedings of the European Conference on Computer Vision. Glasgow: Springer, 2020: 213–229.

[本文引用: 2]

LIN T Y, GOYAL P, GIRSHICK R, et al. Focal loss for dense object detection [C]// Proceedings of the IEEE International Conference on Computer Vision. Venice: IEEE, 2017: 2999–3007.

[本文引用: 6]

TIAN Z, SHEN C, CHEN H, et al. FCOS: fully convolutional one-stage object detection [C]// Proceedings of the IEEE/CVF International Conference on Computer Vision. Seoul: IEEE, 2019: 9626–9635.

[本文引用: 2]

DUAN K, BAI S, XIE L, et al. CenterNet: keypoint triplets for object detection [C]// Proceedings of the IEEE/CVF International Conference on Computer Vision. Seoul: IEEE, 2019: 6568–6577.

[本文引用: 2]

WOO S, PARK J, LEE J Y, et al. CBAM: convolutional block attention module [C]// Proceedings of the European Conference on Computer Vision. Munich: Springer, 2018: 3–19.

[本文引用: 2]

LIN T Y, DOLLÁR P, GIRSHICK R, et al. Feature pyramid networks for object detection [C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Honolulu: IEEE, 2017: 936–944.

[本文引用: 1]

CHEN F, ZHANG H, HU K, et al. Enhanced training of query-based object detection via selective query recollection [C]// Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. Vancouver: IEEE, 2023: 23756–23765.

[本文引用: 2]

REDMON J, FARHADI A. YOLOv3: an incremental improvement [EB/OL]. (2018−04−08) [2024−10−07]. https://arxiv.org/abs/1804.02767.

[本文引用: 1]

BOCHKOVSKIY A, WANG C Y, LIAO H Y M. YOLOv4: optimal speed and accuracy of object detection [EB/OL]. (2020−04-23) [2024−10−07]. https://arxiv.org/abs/2004.10934.

[本文引用: 1]

TIAN Z, CHU X, WANG X, et al. Fully convolutional one-stage 3D object detection on LiDAR range images [EB/OL]. (2022−09−20) [2024−10−07]. https://arxiv.org/abs/2205.13764.

[本文引用: 1]

GE Z, LIU S, WANG F, et al. YOLOX: exceeding YOLO series in 2021 [EB/OL]. (2021−08−06) [2024−10−07]. https://arxiv.org/abs/2107.08430.

[本文引用: 2]

WU Y, CHEN Y, YUAN L, et al. Rethinking classification and localization for object detection [C]// Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. Seattle: IEEE, 2020: 10183–10192.

[本文引用: 1]

DAI X, CHEN Y, XIAO B, et al. Dynamic head: unifying object detection heads with attentions [C]// Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. Nashville: IEEE, 2021: 7369–7378.

[本文引用: 1]

LIANG J, SONG G, LENG B, et al. Unifying visual perception by dispersible points learning [C]// Proceedings of the European Conference on Computer Vision. Tel Aviv: Springer, 2022: 439–456.

[本文引用: 1]

HU J, SHEN L, SUN G. Squeeze-and-excitation networks [C]// Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. Salt Lake City: IEEE, 2018: 7132–7141.

[本文引用: 1]

DING X, ZHANG X, HAN J, et al. Scaling up your kernels to 31×31: revisiting large kernel design in CNNs [C]// Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. New Orleans: IEEE, 2022: 11953–11965.

[本文引用: 2]

LIU Z, LIN Y, CAO Y, et al. Swin Transformer: hierarchical vision Transformer using shifted windows [C]// Proceedings of the IEEE/CVF International Conference on Computer Vision. Montreal: IEEE, 2021: 9992–10002.

[本文引用: 2]

ZHOU H, YANG R, ZHANG Y, et al

UniHead: unifying multi-perception for detection heads

[J]. IEEE Transactions on Neural Networks and Learning Systems, 2025, 36 (5): 9565- 9576

[本文引用: 2]

VASWANI A, SHAZEER N, PARMAR N, et al. Attention is all you need [C]// Proceedings of the 31st International Conference on Neural Information Processing Systems. Long Beach: Curran Associates Inc, 2017: 6000–6010.

[本文引用: 2]

LIN T Y, MAIRE M, BELONGIE S, et al. Microsoft COCO: common objects in context [C]// Proceedings of the European Conference on Computer Vision. Zurich: Springer, 2014: 740–755.

[本文引用: 1]

EVERINGHAM M, VAN GOOL L, WILLIAMS C K I, et al

The pascal visual object classes (VOC) challenge

[J]. International Journal of Computer Vision, 2010, 88 (2): 303- 338

DOI:10.1007/s11263-009-0275-4      [本文引用: 1]

CHEN K, WANG J, PANG J, et al. MMDetection: open MMLab detection toolbox and benchmark. [EB/OL]. (2019−06−17) [2024−10−07]. https://arxiv.org/abs/1906.07155.

[本文引用: 1]

DENG J, DONG W, SOCHER R, et al. ImageNet: a large-scale hierarchical image database [C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Miami: IEEE, 2009: 248–255.

[本文引用: 1]

ZHANG S, CHI C, YAO Y, et al. Bridging the gap between anchor-based and anchor-free detection via adaptive training sample selection [C]// Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. Seattle: IEEE, 2020: 9756–9765.

[本文引用: 2]

KIM K, LEE H S. Probabilistic anchor assignment with IoU prediction for object detection [C]// Proceedings of the European Conference on Computer Vision. Glasgow: Springer, 2020: 355–371.

[本文引用: 1]

HE K, ZHANG X, REN S, et al. Deep residual learning for image recognition [C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas: IEEE, 2016: 770–778.

[本文引用: 2]

/