<img src="https://www.zjujournals.com/eng/images/1008-973X/images/logo.png" class="img-responsive">

图 1 基于多方位感知深度融合检测头的目标检测算法的网络结构

Fig.1 Network structure of object detection algorithm based on multi-azimuth perception deep fusion detection head

1.1. 高效双轴窗口注意力编码器模块

1.1.1. 高效双轴注意力模块

EDWE模块可以分为2部分：高效双轴注意力（efficient dual-axial attention, EDA）模块^[23]和基于窗口的多头自注意力（window-based multi-head self attention, W-MSA）模块^[22]. 如图2所示，EDA模块同时使用水平轴向和垂直轴向注意力来模拟长期依赖关系. 对于水平轴向注意力，输入特征图$ {{\boldsymbol{X}}}\in {\mathbf{R}}^{H\times W\times C} $被均匀分成$ H $个不重叠的水平条带，每个条带的宽度为$ W $. 假设$ {{{\boldsymbol{X}}}}_{i}\in {\mathbf{R}}^{W\times C} $表示第$ i $个条带，其自注意力可以表示为

图 2

图 2 高效双轴注意力模块示意图

Fig.2 Schematic diagram of efficient dual-axial attention module

(1)$ \left({\boldsymbol{Q}}_i, {\boldsymbol{K}}_i, {\boldsymbol{V}}_i^{\mathrm{S}}\right)=\left({\boldsymbol{X}}_i {\boldsymbol{W}}_{\boldsymbol{Q}}, {\boldsymbol{X}}_i {\boldsymbol{W}}_{\boldsymbol{K}}, {\boldsymbol{X}}_i {\boldsymbol{W}}_{\boldsymbol{V}}^{\mathrm{S}}\right), $

(2)$ \widehat{\boldsymbol{Y}}_i=\operatorname{Attention}\left(\boldsymbol{Q}_i, \boldsymbol{K}_i, \boldsymbol{V}_i^{\mathrm{S}}\right)=\operatorname{Softmax}\left(\frac{\boldsymbol{Q}_i \boldsymbol{K}_i^{\mathrm{T}}}{\sqrt{d_k}}\right) \boldsymbol{V}_i^{\mathrm{S}} . $

式中：$ {{{\boldsymbol{W}}}}_{{{\boldsymbol{Q}}}}\in {\mathbf{R}}^{C\times C/2} $、$ {{{\boldsymbol{W}}}}_{{{\boldsymbol{K}}}}\in {\mathbf{R}}^{C\times C/2} $、$ {\boldsymbol{W}}_{\boldsymbol{V}}^{\mathrm{S}}\in {\mathbf{R}}^{C\times C/2} $分别为输入的查询（queries）、键（keys）和值（values）的投影矩阵，$ {{{\boldsymbol{V}}}}_{i}^{\mathrm{S}} $为水平轴向和垂直轴向注意力共享的值，$ {{{\boldsymbol{\widehat{Y}}}}}_{i}\in {\mathbf{R}}^{W\times C/2} $为X_i的水平轴向输出，Attention表示注意力机制对查询、键和值的处理，d_k为键向量的维度，缩放因子$ \sqrt{{d}_{k}} $用于稳定梯度. 在计算查询、键和值时，采用通道降维操作，以便在压缩后的通道空间中进行注意力的计算. 采用与水平轴向输出类似的计算方式得到X_i的垂直轴向输出，记为$ \overline{\boldsymbol{Y}}_i $. 将2部分轴向输出沿通道维度进行拼接，并使用通用的投影矩阵$ {{\boldsymbol{W}}}^{\mathrm{O}} $进行特征融合：

(3)$ \operatorname{EDA}(\boldsymbol{X})=\operatorname{Cat}(\widehat{\boldsymbol{Y}}, \overline{\boldsymbol{Y}}) \boldsymbol{W}^{\mathrm{O}} . $

式中：EDA表示高效双轴注意力操作，其计算复杂度为$ 3.5HW{C}^{2} $+$ {H}^{2}WC+H{W}^{2}C $.

1.1.2. 基于窗口的多头自注意力模块

将特征图划分为大小为$ M\times M $的窗口，在每个窗口内分别执行自注意力操作. 由于每个窗口的计算复杂度为$ 4{\left(MC\right)}^{2}+2{M}^{4}C $，$ \left(H/M\right)\times \left(W/M\right) $个窗口的总计算复杂度为$ 4HW{C}^{2}+2{M}^{2}HWC $，其中$ H $、$ W $分别为特征图的高度和宽度. 2种注意力模块各有优劣. 尽管EDA模块有效地模拟了标记（tokens）之间的长期依赖关系，但是缺乏自注意力的归纳偏差，无法充分捕捉局部信息. 相反，W-MSA模块降低了整体计算复杂度，并在局部窗口内整合了特征信息，但是不能促进窗口之间的信息交换，因此缺乏全局视角.

将上述2种注意力模块结合起来，先通过W-MSA模块获得富含局部信息的特征图，再通过EDA模块，将整个特征图中的全局信息融入富含局部信息的特征图. 这种组合解决了由于窗口无法进行信息交换而导致的全局信息缺失问题，将其称为EDWE模块，具体结构如图3所示. 如图4所示，与原EDA与W-MSA结构相比，EDWE模块能够有效建立长距离依赖关系，并实现全局与局部信息的混合感知，从而获得更多的特征信息. 标准多头注意力模块的理论计算复杂度为$ 8HW{C}^{2}+ 4{\left(HW\right)}^{2} $，而EDWE模块的理论计算复杂度为$ 7.5HW{C}^{2}+{H}^{2}WC+H{W}^{2}C+2{M}^{2}HWC $. 由于$ M $通常被设定为较小值（例如8或16），在绝大多数情况下，EDWE模块的理论计算复杂度远低于标准多头注意力模块.

图 3

图 3 高效双轴窗口注意力编码器(EDWE)模块结构

Fig.3 Structure of efficient dual-axial-window attention encoder (EDWE) module

图 4

图 4 由不同注意力模块生成的特征聚焦区域可视化热力图

Fig.4 Visualization heatmaps of feature-focused regions generated by different attention modules

1.2. 重参化大核卷积模块

在特征金字塔之后，融入RLK模块. 对于利用特征金字塔的不同层级获得的不同尺度的特征图，采用不同大小的卷积核. RLK模块结构如图5所示.

图 5

图 5 重参化大核卷积(RLK)模块结构

Fig.5 Structure of reparameterized large kernel convolution (RLK) module

RLK模块使用了残差连接和大核深度卷积，并使用1×1卷积调整深度卷积前后的通道数. 在大核深度卷积之前，通过1×1卷积增加维度，以防止因特征图数量有限而导致信息丢失. 经过大核深度卷积后，使用另一个1×1卷积将维度恢复到原始大小^[24]. 此外，在每个大核深度卷积中，引入重参数化深度（reparameterized depthwise，RDW）卷积^[21]，通过构建并行的$ 3\times 3 $深度卷积层来增强模型在大型和小型数据集上的泛化能力. 输入特征图经过$ 3\times 3 $深度卷积层与批标准化（batch normalization, BN）层的处理后，将输出的特征图与大核深度卷积层分支的输出特征图相加. 经过训练后，$ 3\times 3 $深度卷积层及其BN层的参数可以合并到原大核深度卷积层中，得到的模型保留了训练性能，且不再需要$ 3\times 3 $深度卷积. 残差连接不仅能够有效支持更深层神经网络的构建和训练，而且对于卷积核非常大的网络而言不可或缺. 没有残差连接，网络将难以捕捉局部细节. 残差连接将模型转变为具有不同感受野的隐式集成模型，使之在保留局部细节捕捉能力的同时，能够从更大的感受野中受益. 而使用大核深度卷积能够帮助网络获得更大的感受野. 单阶段目标检测的典型方法与CNN类似，通过堆叠多个小内核的空间卷积来扩大网络的感受野. 这种操作带来的影响是：最初的输入图像在经过主干网络与特征金字塔的处理后，得到的特征图更多地偏向于由CNN架构所提取的、基于局部感受野的细节纹理特征，即卷积的归纳偏置. 如果直接输入EDWE中，由于其自注意力机制会直接建模全局依赖关系，输出特征将偏向于全局上下文信息，即注意力的归纳偏置. 这2种特征在局部与全局上的分布存在巨大差异，使网络在较小数据集上的表现变差. 本研究在RetinaNet的Pascal VOC2007数据集上使用目标检测头UniHead时观察到这一现象，在其他检测器上进行实验时也陆续验证了此现象的存在. 因此，尝试引入大核深度卷积，将特征金字塔处理后获得的偏向于卷积类型的局部纹理信息特征图，转换为偏向于卷积类型的全局信息特征图，再将该特征图作为EDWE模块的输入，最终获得偏向于Transformer类型的全局信息特征图，以减小特征图的信息分布差异. 后续的RLK模块在较小数据集上的有效性验证实验也证明了引入大核深度卷积的有效性与必要性.

在默认情况下，如果不采用多尺度训练策略，处理输入特征图时使用内核大小为7的大核深度卷积. 当采用多尺度训练策略时，针对来自特征金字塔的不同层级的特征图选择性地应用不同大小的内核，并遵循一个原则，即对于较低层级（通道数较少、特征图尺寸较大的层），使用内核较大的大核深度卷积. 例如，对于特征金字塔的P2、P3和P4层，默认情况下深度大核卷积的卷积核大小分别为13、13、9；对于P5和P6层，卷积核大小分别为9和7.

1.3. 编码器选择保留模块

基于查询的目标检测器在最终解码阶段的预测结果往往会出现不如前中期阶段预测结果准确的情况. 以使用6个EDWE模块为例，对每个EDWE阶段的输出结果直接进行全连接层的分类和回归，结果如图6所示. 在第3阶段中，对鸟类的分类置信度为0.58，但是从第4阶段到第6阶段，分类置信度逐渐下降到0.35. 在第5阶段，瓶子被错误地分类为船舶；到了第6阶段，这种误分类的置信度从0.39上升到了0.45. 为了解决这一问题，在EDWE模块中引入ESM，4个EDWE阶段对特征图的处理过程表示为

图 6

图 6 后期编码阶段中出现错误预测的现象

Fig.6 Phenomenon of incorrect predictions occurring in later encoding stages

(4)$ \begin{split} &\boldsymbol{X}^{0-1-2-3-4}=\operatorname{ESM}^{1-2-3-4}\left(\boldsymbol{X}^0\right)= \\&\operatorname{EDWE}^4 \left(\operatorname{EDWE}^3\left(\operatorname{EDWE}^2\left(\operatorname{EDWE}^1\left(\boldsymbol{X}^0\right)\right)\right)\right).\end{split} $

式中：$ {{\boldsymbol{X}}}^{0} $为RLK模块的输出特征图；$ {\mathrm{E}\mathrm{D}\mathrm{W}\mathrm{E}}^{l} $表示不同的EDWE阶段，其中$ l $为每个EDWE阶段的索引；$ {{\boldsymbol{X}}}^{0-1} $为第1个EDWE阶段的输出；如果最终网络使用了4个EDWE模块，那么EDWE的输出表示为$ {{\boldsymbol{X}}}^{0-1-2-3-4} $. 引入ESM后，网络不仅会保留每个EDWE的输出，还会保留之前的输入. 将保留的输入和正常输出一同作为下一个EDWE阶段的输入. 若早期的${{\boldsymbol{X}}} $跳过多个EDWE阶段直接到达较远的后期EDWE阶段，如$ {{{\boldsymbol{X}}}}^{0-4} $，可能会产生较大的特征差距，这种差距会主导最终的损失函数，进而损害网络. 因此，ESM选择性地保存每个阶段的结果. 具体标准为仅允许特征图在相邻或间隔1个编码器阶段之间进行传递，间隔超过2个阶段的连接将被舍弃. 例如，1号编码器的输出能作为3号编码器的输入，但是不能作为4号及之后的编码器的输入.

图7展示了带有4个EDWE的检测头在采用原始模块、编码器密集保留模块（encoder dense-save module, EDM）和ESM的训练结果，分别产生了1、15、11个输出. 在训练过程中，分别计算每个输出特征图$ {{\boldsymbol{X}}} $通过分类和框回归全连接层获得的预测框与真实框之间的损失，对损失最小的特征图$ {\boldsymbol{X}} $对应的参数进行反向传播. 例如，如果某次分类与框回归损失的最小值由特征图$ {{{\boldsymbol{X}}}}^{0-2} $产生，那么在反向传播中只会更新第0、2个EDWE模块的参数. ESM对特征图处理过程的伪代码如算法1所示，其中$ \mathrm{a}\mathrm{p}\mathrm{p}\mathrm{e}\mathrm{n}\mathrm{d} $为向集合中加入元素的操作，$ \mathrm{l}\mathrm{e}\mathrm{n} $表示获得集合大小的操作.

图 7

图 7 原始模块、编码器密集保留模块与编码器选择保留模块示意图

Fig.7 Schematic diagrams of original module, encoder dense-save module (EDM) and encoder selective-save module (ESM)

算法1　ESM对特征图的处理过程

输入：P = X⁰，EDWE = EDWE¹, EDWE²,···, EDWE^l，其中P为RLK模块的输出特征图，EDWE为网络使用的EDWE模块集合，l为所使用的EDWE模块的总数量. EDWE_OUTPUTS为EDWE的输出集合，EDWE_C_INPUTS为当前EDWE阶段的输入集合，EDWE_C_LASTINDEX为当前EDWE阶段的输入集合所对应的最近操作下标索引，用于选择性保留操作. losses为EDWE模块的损失集合. M.delete (index)表示删除M集合中索引为index的元素，Update_Params表示对网络进行反向传播.

输出：损失值最小的EDWE序列元素，并对其进行反向传播.

1: Initialize EDWE_OUTPUTS= [ ]

2: Initialize EDWE_C_INPUTS= [X⁰]

3: Initialize losses= [ ]

4: Initialize EDWE_C_LASTINDEX=[ ]

5: for i = 0 to S−1 do

6: temp_INPUTS = EDWE_C_INPUTS

7: temp_C_LASTINDEX = EDWE_C_LASTINDEX

8: 　for j= 0 to len (EDWE_C_INPUTS)−1 do

9: 　　current_INPUT = EDWE_C_INPUTS [j]

10:　　current_INDEX = EDWE_C_LASTINDEX [j]

11:　　if current_INDEX−i > 2 then

12:　　　temp_INPUTS.delete (j)

13:　　　temp_C_LASTINDEX.delete(j)

14:　　else

15:　　　EDWE_OUTPUT = EDWE [i] (current_INPUT)

16:　　　EDWE_OUTPUTS.append (EDWE_OUTPUT)

17:　　　Loss = calculate_loss (EDWE_OUTPUT)

18:　　　losses.append(Loss)

19:　　　temp_INPUTS.append (EDWE_OUTPUT)

20:　　　temp_C_LASTINDEX.append (i)

21:　　end if

22:　end for

23:　EDWE_C_INPUTS = temp_INPUTS

24:　EDWE_C_LASTINDEX = temp_C_LASTINDEX

25: end for

26: min_loss_index = argmin (losses)

27: temp_Var = EDWE_OUTPUTS [min_loss_index]

28: Return Update_Params (temp_Var )

2. 实　验

2.1. 数据集与评估指标

采用MS-COCO2017数据集^[25]与多种主干网络进行实验，以证明MdfHead的整体有效性. 此外，在较小的公共数据集Pascal VOC2007^[26]上进行实验，以强调RLK模块在整个方法中的重要性. MS-COCO2017数据集包含80个目标类别，大约有164 000张图像，其中约有118 000张用于训练，5 000张用于验证，41 000张用于测试. Pascal VOC2007数据集包括20个目标类别，总共有9 963张图片，其中5 011张用于训练和验证，4 952张用于测试. 对于MS-COCO2017数据集，在train2017子集上训练模型，在val2017子集上评估网络性能并进行消融实验. 使用平均精度（AP）来衡量检测性能，并使用模型参数量（N_p）和每秒浮点运算次数（FLOPs）来评估模型效率. 对于Pascal VOC2007数据集，在trainval子集上训练模型，在测试子集上评估网络性能，并使用平均精度均值（mAP）作为性能指标.

2.2. 实施细节

采用MMDetection^[27]作为检测平台，以此为基础部署MdfHead，替代经典检测器中默认的平行头，并对MdfHead与默认的平行头进行比较. 在所有实验中，采用在ImageNet数据集^[28]上预训练的模型作为主干网络. 在训练过程中，分辨率设置为MMDetection中的默认大小；采用AdamW作为优化器，初始学习率为0.0001，权重衰减率为0.2. 遵循MMDetection中的默认训练策略，在第9、12个epoch中将学习率降低10倍. 在数据增强方面，仅使用水平翻转方式. 除非另有说明，所有实验均使用4个EDWE模块，从第1个EDWE阶段开始使用ESM. 默认数据集为MS-COCO2017. 所有实验均在2个内存为24 GB的3090 GPU上进行.

2.3. 在经典目标检测器上使用MdfHead

为了证明MdfHead的有效性，将其插入经典的目标检测器中，包括RetinaNet^[7]、FCOS^[8]、CenterNet^[9]、ATSS^[29]和PAA^[30]. 这些被选择评估的检测器代表了多种主流目标检测框架，包括基于锚框、无锚框、基于锚点与强基线的方法. 实验结果如表1所示，其中baseline表示使用原始检测头（平行检测头）的方法. MdfHead在略微增加模型参数量与计算量的情况下，提升了所有检测器的性能. 例如，在RetinaNet^[7]上AP值实现了2.9个百分点的提升，在ATSS^[29]上实现了3.4个百分点的提升. 此外，在选择更深的主干网络的情况下，MdfHead对AP的提升效果更为明显.

表 1 不同目标检测器在MS-COCO2017数据集上使用MdfHead的结果

Tab.1 Results of applying MdfHead to different object detectors on MS-COCO2017 dataset

检测器	方法	N_p/10⁶	FLOPs/10⁹	AP/%	AP₅₀/%	AP₇₅/%	FPS/(帧·s⁻¹)
RetinaNet(R101)	Baseline	56.961	282.91	38.5	57.6	41.0	23.2
RetinaNet(R101)	MdfHead	58.013	283.42	41.4	60.7	43.6	22.9
FCOS(R101)	Baseline	51.287	248.26	39.1	58.3	42.1	23.1
FCOS(R101)	MdfHead	52.117	249.19	41.7	61.0	44.1	23.0
CenterNet(R50)	Baseline	32.293	179.99	40.2	58.3	43.9	32.9
CenterNet(R50)	MdfHead	33.311	183.37	42.0	60.4	45.8	32.5
ATSS(R101)	Baseline	51.283	252.52	41.5	59.9	45.2	23.4
ATSS(R101)	MdfHead	52.108	253.04	44.9	63.6	49.1	23.2
PAA(R101)	Baseline	51.435	255.11	42.6	60.8	46.6	20.5
PAA(R101)	MdfHead	52.303	255.84	45.2	63.2	48.4	20.3

2.4. 消融实验

采用以ResNet-101^[31]为主干网络的RetinaNet^[7]作为整个消融实验的基准网络，共训练12个轮次，以证明MdfHead中每个模块的有效性.

2.4.1. 总体消融实验

为了评估每个模块的效果，将RetinaNet中的原始平行头替换为MdfHead，对MdfHead中的不同模块进行消融实验. 其中ESM依赖于EDWE模块，不能单独使用. 实验结果如表2所示. 结果表明，单独使用EDWE的效果不尽人意. 然而，当EDWE与RLK结合时，其性能超越了使用平行头的baseline. 原因是RLK模块将偏向于卷积类型局部纹理信息的原始特征图转换为了更贴近于EDWE特征空间分布的卷积类型全局信息的特征图. 此外，ESM提高了性能上限，使网络获得了更佳的结果.

表 2 Mdfhead中不同模块的消融实验

Tab.2 Ablation experiment of different modules in MdfHead

RLK	EDWE	ESM	N_p/10⁶	FLOPs/10⁹	AP/%	AP₅₀/%	AP₇₅/%
—	—	—	56.961	282.91	38.5	57.6	41.0
√	—	—	54.413	243.20	34.6	54.1	38.4
—	√	—	55.501	274.10	36.7	55.5	39.8
√	√	—	58.013	283.42	40.3	59.6	42.3
—	√	√	55.501	274.10	39.7	58.7	42.1
√	√	√	58.013	283.42	41.4	60.7	43.6

2.4.2. EDWE模块与常见编码器模块的对比实验

为了验证EDWE模块的有效性，进行EDWE与标准编码器、EDA和W-MSA模块之间的对比实验，最终结果如表3所示. 由于1个EDWE包含1个EDA与1个W-MSA，为了确保公平比较，在使用4个EDWE的情景下，对比实验将采用8个标准编码器、8个EDA和8个W-MSA. 如表3所示，单独使用EDA或W-MSA虽然减少了参数量，但是导致网络性能下降. 当在EDWE中将两者结合使用时显著提升了网络性能，同时保持了相近的参数量，这得益于局部和全局信息的整合.

表 3 使用不同编码器模块的对比实验

Tab.3 Comparison experiment with different encoder modules

方法	N_p/10⁶	FLOPs/10⁹	AP/%	AP₅₀/%	AP₇₅/%
标准编码器	61.101	293.11	40.1	59.4	41.9
EDA	57.462	281.92	39.3	59.0	41.2
W-MSA	58.704	285.13	38.7	58.3	40.7
EDWE	58.013	283.42	41.4	60.7	43.6

2.4.3. EDWE模块数量的选择实验

使用不同数量的EDWE进行实验，以分析其影响，结果如表4所示. 其中，N_cls、N_reg分别为分类编码器与回归编码器的数量. MdfHead在编码器数量增加时性能有所提升，综合考虑计算成本和参数规模，最终选择使用4个EDWE模块.

表 4 EDWE模块数量的选择实验

Tab.4 Ablation experiment on the number of EDWE modules

N_cls	N_reg	N_p/10⁶	FLOPs/10⁹	AP/%	AP_50/%	AP₇₅/%
—	—	56.961	282.91	38.5	57.6	41.0
1	1	55.313	253.24	37.7	57.0	40.1
2	2	56.213	263.31	38.4	57.8	40.7
3	3	57.113	273.36	39.3	58.0	41.8
4	4	58.013	283.42	41.4	60.7	43.6
5	5	60.021	292.18	41.7	60.8	43.8

2.4.4. RLK模块中卷积核大小的选择实验

表5展示了在RLK模块中使用不同大小的卷积核的实验结果. 在进行多尺度训练时，对特征金字塔低层级的特征图使用较大的卷积核可以获得更显著的性能提升，且随着卷积核的增大，获得的性能增益逐渐增多，但是增长比例下降，原因是随着卷积核增大，所能捕获的新增全局信息量会逐渐减少. 考虑到参数量和FLOPs，MdfHead默认使用13-13-9-9-7的卷积核配置.

表 5 RLK模块中卷积核大小的选择实验

Tab.5 Experiment on selection of convolution kernel sizes in RLK module

卷积核大小	N_p/10⁶	FLOPs/10⁹	AP/%	AP₅₀/%	AP₇₅/%
3-3-3-3-3	55.742	272.45	39.9	59.3	42.3
7-7-7-7-7	56.313	272.88	40.5	60.0	42.8
13-13-9-9-7	58.013	283.42	41.4	60.7	43.6
13-13-13-13-13	58.518	284.01	41.3	60.9	42.9
25-25-25-25-13	63.729	285.83	41.6	61.0	43.7

2.4.5. RLK模块在较小数据集上的有效性实验

大部分与编、解码相关的方法都体现出一个特征：在数据集规模较小的情况下，网络容易出现欠拟合以及难以收敛的问题，导致精度较低. 为了验证RLK模块在此类场景下的作用，在Pascal VOC2007数据集上使用较小的主干网络ResNet-50^[31]，在RetinaNet、FCOS与ATSS检测器上进行实验，结果如表6所示. 如果未使用RLK模块，MdfHead的性能显著下降，其mAP值甚至低于基线模型，这凸显了当数据有限时特征空间差异带来的负面影响；而引入RLK模块后，所有检测器的性能均得到显著提升，RetinaNet、FCOS、ATSS的mAP值分别提升了1.3、1.0、1.1个百分点. RLK模块通过减小特征空间差异，有效增强了网络对较小数据集的适应性，为EDWE模块与ESM在数据有限条件下的稳定工作提供了关键支持.

表 6 RLK模块在较小数据集上的有效性实验

Tab.6 Experiment on effectiveness of RLK module on smaller dataset

检测器	方法	N_p/10⁶	FLOPs/10⁹	mAP/%
RetinaNet	Baseline	36.724	106.71	71.1
	未使用RLK	35.817	101.39	68.3
	使用RLK	37.901	108.05	72.4
FCOS	Baseline	32.157	99.16	69.6
	未使用RLK	31.250	95.15	67.1
	使用RLK	33.334	100.72	70.6
ATSS	Baseline	32.157	101.54	69.2
	未使用RLK	31.489	99.95	67.3
	使用RLK	32.677	102.36	70.3

2.4.6. ESM的消融实验

如表7所示，ESM在略微增加网络训练时间的情况下，使网络整体性能获得了提升. 表7中，Base为正常输入多个编码器模块的方法. 当使用EDM时，网络训练时间显著增加，且早期输入直接传递到后期编码器所产生的过大损失损害了网络的整体性能，导致精度下降. 相较之下，使用ESM虽然略微增加了训练时长，但是能够减少后期编码器阶段的预测精度低于前中期编码器的现象，使网络获得更好的性能.

表 7 ESM的消融实验

Tab.7 Ablation experiment on ESM

方法	开始阶段	训练时长	AP/%	AP₅₀/%	AP₇₅/%
Base	—	1.00×	40.3	59.6	42.3
EDM	—	2.31×	41.2	60.3	43.4
ESM	1	1.67×	41.4	60.7	43.6
ESM	2	1.44×	41.2	60.6	43.0
ESM	3	1.28×	41.0	60.0	42.9
ESM	4	1.11×	40.6	59.8	42.5

2.4.7. 可视化对比实验

采用以ResNet-101为主干网络的RetinaNet模型进行可视化对比实验，结果如图8所示. 与传统的平行检测头相比，MdfHead不仅能够在复杂场景中感知到小目标，而且获得了更高的分类得分，如图8中椭圆框标注区域所示. 这表明MdfHead不仅可以提高检测性能，而且能够增强目标检测器的鲁棒性.

图 8

图 8 MdfHead与原始检测头的可视化对比实验结果

Fig.8 Experimental results of visualization comparison between MdfHead and original detection head

2.5. 在野生动物数据集上应用MdfHead

2.5.1. 野生动物数据集介绍

所用的野生动物数据集来自于浙江省东阳市东白山自然保护区. 利用保护区内架设的108台红外摄像机进行24 h的运动侦测，对保留下来的视频片段进行人工筛选与裁切，用于野生动物数据集的制作. 数据集收录了14种野生动物的图像数据，收集时长横跨数月，囊括不同日期、时段与多种气候情况下的7 011张图片，其中包括常见的野猪、麻雀与野兔等野生动物及黄麂、白鹇等国家珍稀保护动物，可用于真实野外场景的实验验证.

2.5.2. 对比实验

考虑到数据集规模的影响，对比实验均在以ResNet-50为主干网络的RetinaNet检测器上进行，训练分辨率大小设置为1333×800，其余设置与2.2节中相同. 每类动物的具体检测精度如图9所示. 由图可知，使用MdfHead的RetinaNet检测器的检测效果均优于使用默认平行头方法的RetinaNet检测器. 其中，对于目标较小的老鼠、麻雀类别，MdfHead使RetinaNet检测器的mAP分别提升了5.2与5.6个百分点. 检测速度如表8所示，41.3帧/s的检测速度达到了实时检测的要求.

图 9

图 9 MdfHead与原始检测头对野生动物数据集中不同类别的检测精度

Fig.9 Detection accuracy of MdfHead and original detection head on different species in wildlife dataset

表 8 不同检测头在野生动物数据集上的对比实验

Tab.8 Comparison experiment of different detection heads on wildlife dataset

方法	N_p/10⁶	FLOPs/10⁹	FPS/(帧·s⁻¹)
MdfHead	37.697	106.03	41.3
Baseline	36.518	104.62	41.5

DOI:10.1016/j.compag.2024.108788 [本文引用: 1]

2.6. 不同数据集上的实验结果分析

相较于Pascal VOC2007，MS-COCO2017规模更大，不仅数据量足够丰富，而且前景与背景的构成更为复杂. Pascal VOC2007数据集由于数据量相对较少，可能无法支持复杂网络实现完全收敛，导致网络AP的提升相较于MS-COCO2017数据集更小. 野生动物数据集的监控点位相对固定，虽然在数据规模上与Pascal VOC2007相近，但不同图片的背景变化较小，所以AP的提升更为明显.

3. 结　语

针对传统目标检测头捕捉全局信息的能力不足以及检测性能较低的问题，提出基于多方位感知深度融合的目标检测算法（MdfHead），该算法可以被集成到不同的检测框架中，并应用于不同规模的数据集. 首先，在MdfHead中设计高效双轴窗口注意力编码器（EDWE）模块，增强了其捕获全局信息与局部信息的能力. 其次，在EDWE之前插入重参化大核卷积（RLK）模块，以缩小从主干网络到检测头的特征空间差异，提高了MdfHead在小型数据集上的适用性. 最后，引入编码器选择保留模块（ESM）到EDWE中，从而能够选择性地聚合每个EDWE模块的输出，并允许后续的EDWE直接处理前中期EDWE的输出，优化了反向传播. 实验结果表明，MdfHead可以被灵活地集成到各种主流的目标检测器中，并显著提升了检测性能. 在下一步计划中，将着重研究如何对检测头进行剪枝操作，从而在获得更好的检测结果的前提下尽可能地减少参数量以释放计算资源.

参考文献

原文顺序

文献年度倒序

文中引用次数倒序

被引期刊影响因子

[1]

REN S, HE K, GIRSHICK R, et al

Faster R-CNN: towards real-time object detection with region proposal networks

[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2017, 39 (6): 1137- 1149

DOI:10.1109/TPAMI.2016.2577031 [本文引用: 1]

[2]

LI W, ZHAO D, YUAN B, et al

PETDet: proposal enhancement for two-stage fine-grained object detection

[J]. IEEE Transactions on Geoscience and Remote Sensing, 2023, 62: 5602214

[3]

LI H, SHI F

A DETR-like detector-based semi-supervised object detection method for Brassica Chinensis growth monitoring

[J]. Computers and Electronics in Agriculture, 2024, 219: 108788

[4]

HOU X, LIU M, ZHANG S, et al. Relation DETR: exploring explicit position relation prior for object detection [C]// Proceedings of the European Conference on Computer Vision. Milan: Springer, 2024: 89–105.

[5]

ZHAO Y, LV W, XU S, et al. DETRs beat YOLOs on real-time object detection [C]// Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. Seattle: IEEE, 2024: 16965–16974.

[6]

CARION N, MASSA F, SYNNAEVE G, et al. End-to-end object detection with Transformers [C]// Proceedings of the European Conference on Computer Vision. Glasgow: Springer, 2020: 213–229.

[7]

LIN T Y, GOYAL P, GIRSHICK R, et al. Focal loss for dense object detection [C]// Proceedings of the IEEE International Conference on Computer Vision. Venice: IEEE, 2017: 2999–3007.

[本文引用: 6]

[8]

TIAN Z, SHEN C, CHEN H, et al. FCOS: fully convolutional one-stage object detection [C]// Proceedings of the IEEE/CVF International Conference on Computer Vision. Seoul: IEEE, 2019: 9626–9635.

[9]

DUAN K, BAI S, XIE L, et al. CenterNet: keypoint triplets for object detection [C]// Proceedings of the IEEE/CVF International Conference on Computer Vision. Seoul: IEEE, 2019: 6568–6577.

[10]

WOO S, PARK J, LEE J Y, et al. CBAM: convolutional block attention module [C]// Proceedings of the European Conference on Computer Vision. Munich: Springer, 2018: 3–19.

[11]

LIN T Y, DOLLÁR P, GIRSHICK R, et al. Feature pyramid networks for object detection [C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Honolulu: IEEE, 2017: 936–944.

[12]

CHEN F, ZHANG H, HU K, et al. Enhanced training of query-based object detection via selective query recollection [C]// Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. Vancouver: IEEE, 2023: 23756–23765.

[13]

REDMON J, FARHADI A. YOLOv3: an incremental improvement [EB/OL]. (2018−04−08) [2024−10−07]. https://arxiv.org/abs/1804.02767.

[14]

BOCHKOVSKIY A, WANG C Y, LIAO H Y M. YOLOv4: optimal speed and accuracy of object detection [EB/OL]. (2020−04-23) [2024−10−07]. https://arxiv.org/abs/2004.10934.

[15]

TIAN Z, CHU X, WANG X, et al. Fully convolutional one-stage 3D object detection on LiDAR range images [EB/OL]. (2022−09−20) [2024−10−07]. https://arxiv.org/abs/2205.13764.

[16]

GE Z, LIU S, WANG F, et al. YOLOX: exceeding YOLO series in 2021 [EB/OL]. (2021−08−06) [2024−10−07]. https://arxiv.org/abs/2107.08430.

[17]

WU Y, CHEN Y, YUAN L, et al. Rethinking classification and localization for object detection [C]// Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. Seattle: IEEE, 2020: 10183–10192.

[18]

DAI X, CHEN Y, XIAO B, et al. Dynamic head: unifying object detection heads with attentions [C]// Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. Nashville: IEEE, 2021: 7369–7378.

[19]

LIANG J, SONG G, LENG B, et al. Unifying visual perception by dispersible points learning [C]// Proceedings of the European Conference on Computer Vision. Tel Aviv: Springer, 2022: 439–456.

[20]

HU J, SHEN L, SUN G. Squeeze-and-excitation networks [C]// Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. Salt Lake City: IEEE, 2018: 7132–7141.

[21]

DING X, ZHANG X, HAN J, et al. Scaling up your kernels to 31×31: revisiting large kernel design in CNNs [C]// Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. New Orleans: IEEE, 2022: 11953–11965.

[22]

LIU Z, LIN Y, CAO Y, et al. Swin Transformer: hierarchical vision Transformer using shifted windows [C]// Proceedings of the IEEE/CVF International Conference on Computer Vision. Montreal: IEEE, 2021: 9992–10002.

[23]

ZHOU H, YANG R, ZHANG Y, et al

UniHead: unifying multi-perception for detection heads

[J]. IEEE Transactions on Neural Networks and Learning Systems, 2025, 36 (5): 9565- 9576

[24]

VASWANI A, SHAZEER N, PARMAR N, et al. Attention is all you need [C]// Proceedings of the 31st International Conference on Neural Information Processing Systems. Long Beach: Curran Associates Inc, 2017: 6000–6010.

[25]

LIN T Y, MAIRE M, BELONGIE S, et al. Microsoft COCO: common objects in context [C]// Proceedings of the European Conference on Computer Vision. Zurich: Springer, 2014: 740–755.

[26]

EVERINGHAM M, VAN GOOL L, WILLIAMS C K I, et al

The pascal visual object classes (VOC) challenge

[J]. International Journal of Computer Vision, 2010, 88 (2): 303- 338

DOI:10.1007/s11263-009-0275-4 [本文引用: 1]

[27]

CHEN K, WANG J, PANG J, et al. MMDetection: open MMLab detection toolbox and benchmark. [EB/OL]. (2019−06−17) [2024−10−07]. https://arxiv.org/abs/1906.07155.

[28]

DENG J, DONG W, SOCHER R, et al. ImageNet: a large-scale hierarchical image database [C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Miami: IEEE, 2009: 248–255.

[29]

ZHANG S, CHI C, YAO Y, et al. Bridging the gap between anchor-based and anchor-free detection via adaptive training sample selection [C]// Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. Seattle: IEEE, 2020: 9756–9765.

[30]

KIM K, LEE H S. Probabilistic anchor assignment with IoU prediction for object detection [C]// Proceedings of the European Conference on Computer Vision. Glasgow: Springer, 2020: 355–371.

[31]

HE K, ZHANG X, REN S, et al. Deep residual learning for image recognition [C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas: IEEE, 2016: 770–778.