<img src="https://www.zjujournals.com/eng/images/1008-973X/images/logo.png" class="img-responsive">

图 1 3种改进的特征金字塔网络的结构图

Fig.1 Structure diagram of three improved feature pyramid network

He等^[23]提出SENet，通过压缩与激励操作构建通道之间的关系，完成通道特征重标定. Woo等^[24]提出的CBAM能够有效获取空间与通道信息，模型的特征提取能力得以提升. Zhang等^[25]采用轻量、高效的金字塔压缩模块(pyramid squeeze attention，PSA)，该模块获取多尺度的空间特征并与通道注意力关联. 本研究所提SCFE模块通过捕获不同尺度空间特征来完成通道特征重标定，以此优化特征层.

2. 基于特征优化与深层次融合的目标检测算法的网络结构设计

如图2所示，FEDet以SSD300为基础，添加Conv3_3层为预测特征图. 图中，⊕表示将经过DFPN特征融合后的Conv4_3层与Conv3_3层融合，并将SCFE作用于融合后的Conv3_3层，突出覆盖小目标的细节信息，加强特征图的表征能力，提升Conv3_3层对小目标物体的检测能力. 将原SSD预测特征图经过DFPN进行深层次的特征融合，突出空间通道信息，增强全局上下文信息，提高模型检测精度. 在训练阶段，FEDet添加基于DIoU的样本加权训练策略，使模型注重训练定位良好、分类置信度高的样本，提升模型检测精度.

图 2

图 2 基于特征优化与深层次融合的目标检测算法的网络结构

Fig.2 Structure diagram of single-stage object detection algorithm based on feature enhancement and deep fusion

2.1. 特征优化

2.1.1. Conv3_3网络结构模块

为了提高模型对小目标的检测效果，增加Conv3_3层用于小目标检测. 相比于Conv3_2层，Conv3_3层不仅特征表现力更好，而且更接近Conv4_3层，更有利于后续的特征融合. 虽然Conv3_3经过卷积次数少，含有覆盖小目标的细节信息更充足，但是Conv3_3层的数据与高层特征层（如Conv9_2层）的数据分布差异较大，较大的Conv3_3层数将使高层特征层无法影响分类和回归^[26]，导致模型训练效果不佳. 要让Conv3_3层与Conv4_3层的数值范围相同，须用L2 Normalization处理Conv3_3层. 分别在未经处理的Conv3_3、处理后的Conv3_3（L2Norm-Conv3_3 ）、Conv9_2特征图中随机选取1 000个特征点，如图3所示. 图中，F_P为特征点编号，F_V为特征数值. 可以看出，L2Norm-Conv3_3与Conv9_2的数值大小相近. 在SSD特征金字塔中，Conv3_3是底层特征图，与Conv4_3层一起被用于检测小占比目标；Conv7、Conv8_2、Conv9_2、Conv10_2、Conv11_2均为高层特征层，它们缺乏细节信息但含有丰富的语义信息，被用于检测中大占比目标.

图 3

图 3 3个特征层各自随机抽取的1 000个特征点及其数值

Fig.3 One thousand randomly extracted feature points and their values for three feature layers each

同一特征图上每个单元设置的默认框是相同的，不同特征图上的默认框数和尺度是不同的. 默认框的设置分为尺度和长宽比，原SSD特征金字塔中Conv4_3层上的默认框尺度须单独设置，更适合检测小目标的Conv3_3须单独设置更小的尺度. 其他5层的默认框尺度遵循的线性递增规则为

(1) $ {S_i} = {S_{\min }}+\frac{{{S_{\max }} - {S_{\min }}}}{{n - 1}}\left( {i - 1} \right),\;i \in \left[ {1,n} \right] ; $

(2) $ {m_{{\text{min,}i}}} = {S_i} \times {m_{{\text{in}}}} ， $

(3) $ {m_{{\text{max,}}i}} = {S_{i+1}} \times {m_{{\text{in}}}} . $

式中：n为其余特征金字塔层数，n=5；S_i为默认框尺度相对于图片的比例；S_max、S_min分别为比例的最大值与最小值，取S_max=0.9、S_min=0.2；m_in为模型输入图片尺寸，取m_in=300. m_min,i为对应层上第一个默认框的边长；m_max,i为边长参数. 对应层上每个默认框的宽w高h计算式分別为

(4) $ w = {m_{\min }}\sqrt \alpha ， $

(5) $ h{\text{ = }}\frac{{{m_{\min }}}}{{\sqrt \alpha }} . $

式中：α为长宽比. 当α=1时，额外增加的默认框宽高计算式为

(6) $ w = h = \sqrt {{m_{\min }} \times {m_{\max }}} . $

默认框的具体设置如表1所示. 表中，A_box为框面积，n_box为框个数

表 1 特征金字塔网络中默认框的参数设置

Tab.1 Parameter settings of default box in feature pyramid network

特征层	特征图尺寸	m_min	m_max	A_box	α	n_box
Conv3_3	75×75	10	60	100,600	1, 2, 3	33 750
Conv4_3	38×38	30	60	900,18 000	1, 2	5 776
Conv7	19×19	60	111	3 600,6 660	1, 2, 3	2 166
Conv8_2	10×10	111	162	12 321,17 982	1, 2, 3	600
Conv9_2	5×5	162	213	26 244,34 506	1, 2, 3	150
Conv10_2	3×3	213	264	45 369,56 232	1, 2	36
Conv11_2	1×1	264	315	69 696,83 160	1, 2	4

小目标的定义主要有2种^[27]：1）当目标物体的像素点小于32×32时，目标物体可以当作绝对小目标物体；2）当目标物体尺寸不超过原图尺寸的10%时，目标物体可以当作相对小目标物体. 本研究所提模型的输入尺寸为300×300，因此Conv3_3、Conv4_3生成的默认框适合用于检测小目标. Conv3_3上生成的默认框比Conv4_3更小、更多，以增加小目标默认框的方式增加训练数据量，能够提升小目标检测的精度. Conv3_3层富含覆盖小目标的细节信息，但缺乏语义信息，影响小目标检测的效果. 增加非线性程度的模型能够拟合更复杂的函数，提取更高级的语义信息，提升模型检测精度和鲁棒性. 将Conv3_3与特征融合后的Conv4_3相加，再经过空间通道特征增强模块增强，得到新的Conv3_3. 新的Conv3_3既能够增加语义信息，又能够突出细节信息，利于检测小目标.

2.1.2. 空间通道特征增强

设计SCFE来突出空间信息和全局通道信息. 如图4所示，SCFE模块分为2个相互依赖的部分：局部空间注意力增强和全局通道注意力增强. 图中，○表示将4个新特征图通过通道堆叠，输出为C×H×W的特征图F ；⊕表示将SCFE模块输入与SCFE模块输出相加；⊙表示空间权重系数M_s和相应特征图R_i按通道相乘，输出为4个经过空间特征重标定的新特征图.

图 4

图 4 空间通道特征增强模块结构图

Fig.4 Structure diagram of spatial channel feature enhancement module

局部空间注意力部分将输入的通道数C、长H、宽W的特征图进行1×1的卷积，生成尺寸不变、通道数减少的特征图（C/4×H×W）. 该操作减少了参数量，提升了模型训练和测试的速度. 为了提升模型鲁棒性，卷积完成后进行BN和ReLU操作，最终得到压缩后的特征图. 为了整合不同尺度的空间特征和减少细节信息的损失，本研究分别以1、3、5、7的卷积尺寸进行4次压缩操作，得到4个尺度为C/4×H×W的特征图{R₁,R₂, R₃, R₄}. 对这4个特征图分别进行空间注意力匹配，计算式为

(7) $ {M_{\rm{s}}}\left( {{R_i}} \right) = \sigma \left( {{f^{3 \times 3}}\left( {R_{i,{\rm{avg}}}^{\rm{s}}} \right)} \right),i = 1,2,3,4 . $

对特征图R_i进行通道上的空间全局平均池化R^s_i,avg，得到1×H×W的空间特征信息，经过3×3卷积操作(f_{^3×3)和激活函数σ(Sigmoid)对权重进行归一化，提高模型的泛化能力，得到空间权重系数M_s.}

全局通道注意力增强采用SENet进行通道特征重标定，但在PSA中，将SENet的压缩和激励操作所用的全连接层全部替换为卷积层，以减少参数量，计算式为

(8) $ {M_{\rm{c}}}(F) = \sigma \left( {f_2^{1 \times 1}\left( {\delta \left( {f_1^{1 \times 1}\left( {F_{{\rm{avg}}}^{\rm{c}}} \right)} \right)} \right)} \right) . $

对输入特征图F的每个通道进行全局平均池化 ${F_{{\rm{avg}}}^{\rm{c}}} $，得到C×1×1的通道全局信息特征图，经过1×1卷积层f₁^1×1和激活函数δ(ReLU)将特征图压缩为C/16×1×1，再通过1×1卷积层f₂^1×1恢复C×1×1的特征图，增加非线性程度又减少参数，经过函数σ(Sigmoid)归一化，得到C个通道权重参数，将权重参数按通道加权到输入特征图上. 受残差网络的短连接启发，SCFE模块在输入和输出间添加了短连接，将SCFE模块输入与SCFE模块输出相加，并经过ReLU激活函数，既加深了网络深度，又补充了输出特征图的细节信息.

为了尽可能地保留细节信息，利用不同大小的卷积整合特征图信息得到4个特征图，将这4个特征图分别进行空间注意力匹配后，通过通道堆叠组成新特征图，而后进行通道注意力匹配. 如图5所示，对比原Conv3_3，可视化增强后的Conv3_3层特征图注重覆盖小目标的细节信息，更利于小目标检测.

图 5

图 5 原特征与特征增强后的热力图对比

Fig.5 Comparison between heat map of original feature and that of enhanced one

2.2. 深层次特征融合

SSD算法的多尺度特征金字塔存在明显缺陷，即低层特征图缺乏语义信息而高层特征图缺乏细节信息，导致SSD算法检测效果不佳，因此本研究利用FPN对用于预测的特征层Conv4_3、Conv7进行特征融合. 如图6所示，C₂~C₇分别表示原SSD预测特征层Conv4_3、Conv7、Conv8_2、Conv9_2、Conv10_2、Conv11_2，M₂~M₇分别表示C₂~C₇经过1×1卷积降维但未进行特征融合的特征图，P₂~P₇表示自顶向下特征融合的特征图. 实验结果表明，由于FPN本身存在缺陷，FPN对SSD算法检测精度提升不明显. 为此，对FPN进行改进，使改进后的FPN能够显著提升算法检测精度. 针对FPN存在特征层降维的信息损失和不同特征层的语义鸿沟问题，本研究基于RSCFE和一致性监督（consistent supervision，CS）^[16]来改进FPN，实现深层次的特征融合. CS的作用是将P₂~P₇金字塔生成的预测框映射到M₂~M₇上，以生成感兴趣区域(region of intersect，ROI). 并将ROI用于预测，生成辅助损失，迫使M₂~M₇特征图间生成相似的语义信息，缓解融合信息损失. 在测试阶段，无需使用损失函数，因此CS在该阶段不增加计算量.

图 6

图 6 特征金字塔结构

Fig.6 Feature pyramid structure

2.2.1. 残差空间与通道特征增强

在FPN中，须先对输入的多尺度特征图C₂~C₇进行1×1卷积的降维操作，以统一各特征图的通道数，方便后续的特征融合，得到M₂~M₇. 在降维过程中，各特征图损失了许多通道信息，在后续自顶向下的特征融合过程中，低层特征图可由来自高层特征图的语义信息增强特征表现力，而顶层特征图没有其他层的信息补充. 如表2所示，FPN的C₂、C₃、C₄层经过1×1卷积分别得到M₂、M₃、M₄，通道数减少，信息损失较为严重. 表中，T_C为C层通道数，T_M为M层为通道数. 参考Qin等^[28]通过结合全局池化提取的全局上下文特征来减轻信息丢失的方法，将SCFE模块中的短连接剪除后当作残差连接，作用于C₂、C₃、C₄、C₇和P₂、P₃、P₄、P₇之间，补充特征图的空间信息和全局通道信息，从而减少信息丢失，如图7(a). 设计如图7(b)的连接结构，以检测精度为评估标准进行实验. 图7的2种残差连接方式检测精度相差无几，同时图7(a)连接结构更简洁，参数量更少，因此本研究采用如图7（a）连接方式.

表 2 特征金字塔网络的输入与输出

Tab.2 Input and output of feature pyramid network

特征图	T_C	T_M
Conv4_3	512	256
Conv7	1024	256
Conv8_2	512	256
Conv9_2	256	256
Conv10_2	256	256
Conv11_2	256	256

图 7

图 7 2种残差空间与通道特征增强模块的结构图

Fig.7 Structural diagram of two residual spatial and channel attention feature enhancement modules

2.3. 样本加权训练策略

原SSD采用难例挖掘策略训练样本，该策略虽然能够缓解正负样本不均衡问题，但没有侧重训练对模型训练有效的样本. 本研究添加主要样本训练策略(prime sample attention，Pisa)^[29]对分类和回归后的样本进行加权. Pisa将真实框IoU较高的正样本和分类置信度较高的负样本认定为影响的模型训练效果的主要因素，还认定分类和回归的目标相关. Pisa根据IoU分层局部排序和置信度分层局部排序的结果对样本重加权，以表示出不同样本的重要程度. 在IoU分层局部排序中， Pisa用IoU表示样本和真实框的重叠度，据此进行分组并局部排序. 由于IoU无法反映2个物体的重叠方式，本研究提出基于DIoU的主要样本训练（DIoU prime sample attention，DIoU-Pisa），用DIoU表示样本和真实框的重叠度. 相比于IoU，DIoU添加了表示样本框与真实框的中心点间的距离的惩罚项，表达式为

(9) $ {\text{IoU = }}\frac{{\left| {B \cap {B^{{\text{gt}}}}} \right|}}{{\left| {B \cup {B^{{\text{gt}}}}} \right|}} ，$

(10) $ {\text{DIoU }} = {\text{ IoU}} - \frac{{{D^2}\left( {b,{b^{{\text{gt}}}}} \right)}}{{{d^2}}} . $

式中：B为样本框，B^gt为真实框， IoU为样本框与真实框的交并比b为样本框B的中心点，b^gt为真实框B^gt的中心点，D为2个中心点间的欧式距离，d为最小包围样本框和真实框的封闭框对角线长度， ${{{D^2}\left( {b,{b^{{\text{gt}}}}} \right)}}/{{{d^2}}} $为IoU的惩罚项. 如图8(b)所示，3种不同的边框重叠方式IoU的值都为0.5，后续进行的局部排序与样本加权无法有效体现这3种样本的重要程度，而采用DIoU则可以有效区分这3种样本的重要程度.

图 8

图 8 DIoU效果示意图

Fig.8 Schematic diagram of effect of DIoU

针对正样本，为了得到DIoU分层局部排序，将样本根据其最近的真实框进行分组，对每个组的样本根据DIoU进行降序排序，得到DIoU局部排名，如图9所示. 随后对所有分组取具有相同排名的样本并对具有相同排名的样本进行降序排序. 如算法1所示，选取所有分组中排序第一的样本并进行降序排序，然后是第二、第三等，以此类推，将所有样本进行排序，即DIoU分层局部排序. DIoU局部排序在每个组内将较高DIoU样本放在前面，体现了对于每个真实框最高DIoU样本最重要，DIoU分层局部排序在每个层级组中进行DIoU降序排序，体现了所有样本中DIoU较高的样本更为重要. 针对负样本，进行置信度分层局部排序的步骤与DIoU分层局部排序相似，与围绕在真实框周围的正样本不同的是负样本可能出现在背景中，因此主要样本训练策略先使用NMS将它们分组到不同的真实框，再以置信度为依据，按照DIoU分层局部排序步骤进行排序操作，最终根据不同的重要性程度，主要样本训练策略给所有样本分配不同权重并将权重归一化，以保持总损失不变.

图 9

图 9 DIoU分层局部排序

Fig.9 DIoU hierarchical local sorting

算法1　 DIoU分层局部排序.

输入：P={x₁,x₂,···,x_n},G={g₁,g₂,···,g_n},D={y₁,y₂,···,y_n}.　　 P表示某一类别的预测框编号.　　 G表示P中预测框对应的真实框编号.　　 D表示预测框x_i与对应真实框g_i的DIoU值.　　unique(array)表示对array进行去重并返回去重结果.　　getIndex(array, value)表示返回array中所有值为value的下标.　　Sort(array, descend=True or False)表示对array进行升序或降序，返回array中的元素索引.　　MAXNUM表示所有类别中样本类别的最大值.　　输出：一组预测框的DIoU分层局部排序的排名DRank.　　　1. FOR gt∈unique(G) DO　　2.　 ind←getIndex(G,gt)　　3.　 p←P[ind]　　4.　 d←D[ind]　　5.　dRankInd←sort(d,descend=True)　　6.　dRank←sort(dRankInd,descend=False)　　7.　 D[ind]←D[ind]+(MAXNUM-dRank)　　8. END FOR　　9. DRankInd←sort(D,descend=True)　　10. DRank←sort(DRankInd,descend=False)　　11. RETURN DRank

3. 实　验

3.1. 实验环境配置

CPU 为 Intel(R) Xeon(R) CPU E5-2650 v2 @2.60 GHz，32G内存，操作系统为Ubuntu16.04，显卡型号为 NVIDIA GTX1080Ti. 采用CUDA 10.1 cuDNN v7.5.0作为GPU加速库，使用pytorch1.0 torchvision0.3.0深度学习框架和Python3.6编程语言. 以VGG16为预训练模型，模型的训练分为12个阶段，batch size设置为32，初始学习率为0.000 35，第1个阶段的前500个迭代为预热阶段，学习率逐渐增大，该操作有利于模型训练的稳定性. 之后保持0.001的学习率，在第9~11个阶段学习率降为0.000 1，在第12个阶段学习率降为0.000 01.

3.2. Pascal VOC数据集对比实验

采用目标检测公开数据集PASCAL VOC对FEDet进行性能评估. 评估指标分别为平均检测精度mAP和检测速度s. 本研究的网络模型和SSD网络将VOC 2007、VOC 2012的训练集和验证集作为训练集，共16 551张图片，测试在VOC2007的测试集上进行，共4 952张图片. 对比方法包括1)双阶段经典算法Faster R-CNN，2)单阶段算法经典算法SSD、YOLOv2和YOLOv3，3)以SSD为基础改进的DSSD、FSSD、尺度变换目标检测器^[30](scale-transferrable object detection，STDN)、高精度单阶段算法RetinaNet和特征聚合与增强的单阶段算法^[31](single-shot object detector with feature aggregation and enhancement, FAENet)，4)单阶段无锚框检测算法FCOS^[32]和ATSS^[33]算法. 如表3所示为各方法在PASCAL VOC2007测试集上的检测结果. 其中SSD、FAENet、FCOS和ATSS由开源代码实验得到. 由表可知，双阶段检测算法的检测精度普遍高于单阶段算法，但其检测速度较为缓慢. FEDet属于单阶段算法，mAP =79.7%、s=39帧/s，比DSSD321和RetinaNet的检测性能高，比YOLOV2, YOLOv3^[35], SSD300, STDN300和FSSD300的精度高，与FAENet的检测性能相近. 与单阶段无锚框算法FCOS和ATSS相比，FEDet的平均检测精度分别高0.019和0.015. STDN是兼顾速度与精度的算法，FEDet的检测速度与STDN300相近，但精度比STDN高0.016. 与SSD相比，FEDet的检测速度稍有下降，但依然能达到实时检测要求. 如表4所示，为了进一步验证FEDet有效提高检测效果，选择与FEDet输入图片尺寸差异不大的单阶段算法，测试在VOC2007数据集上各类别的平均检测精度. 在10个类别中，FEDet在检测aero、boat、bottle、plant、train、tv类别时的精度是测试算法中最高，在检测 bottle、plant这些小目标出现频次较高的类别中，FEDet相比于SSD有改善最显著，同时比性能最优的FAENet精度更高.

表 3 VOC2007测试集上平均检测精度对比

Tab.3 Comparison of mean average precision on VOC2007 test set

算法	主干网络	mAP/%	S/(帧·s⁻¹)
Faster R-CNN^[5]	VGGNet	73.2	7.0
Faster R-CNN^[5]	ResNet-101	78.8	2.3
R-FCN^[34]	ResNet-101	80.5	9.0
Cascade R-CNN^[6]	VGGNet	79.6	4.2
YOLOV2^[9]	DarkNet-19	73.7	81.0
SSD300^[7]	VGGNet	77.2	46.0
DSSD321^[19]	ResNet-101	78.6	9.5
STDN300^[30]	DenseNet-169	78.1	41.5
FSSD300^[12]	VGGNet	78.8	65.0
YOLOv3^[35]	DarkNet-53	79.4	37.0
RetinaNet^[13]	ResNet-101	79.4	12.4
FAENet300^[31]	VGGNet	80.1	65.0
FCOS^[32]	ResNet-50	77.8	17.6
ATSS^[33]	ResNet-50	78.2	14.9
FEDet	VGGNet	79.7	39.0

表 4 VOC2007测试集不同类别目标检测精度结果

Tab.4 Different types of target detection accuracy results on VOC2007 test set

算法	mAP/%
算法	aero	bird	boat	bottle	car	person	plant	sheep	train	tv
SSD300^[7]	77.1	75.3	68.0	50.4	85.2	80.2	47.5	76.1	86.3	77.0
DSSD321^[19]	81.9	80.5	68.4	53.9	86.2	79.7	51.7	78.0	87.2	79.4
STDN300^[30]	81.1	76.4	69.2	52.4	84.2	76.8	51.8	78.4	87.5	77.8
FAENet300^[31]	82.8	76.5	74.7	58.7	87.5	81.4	57.7	80.4	86.8	79.6
FEDet	84.0	79.3	75.6	59.1	86.7	80.0	59.2	79.5	87.9	79.9

SSD与FEDet在VOC2007数据集上的检测效果对比如图10所示. 图10（a）中有3张椅子，较为密集，FEDet更容易检测密集的目标. 图10（b）中，SSD无法检测出被遮挡的椅子，FEDet检测成功，表明FEDet更容易检测被遮挡的目标. 图10（c）中SSD无法检测出小目标物体，FEDet检测成功，表明FEDet适合小目标物体的检测.

图 10

图 10 2种算法在VOC2007数据集上检测结果对比

Fig.10 Comparison of detection results of two algorithms on VOC2007 dataset

3.3. COCO数据集实验结果评估

COCO数据集具有比PASCAL VOC数据集更丰富的目标种类，更复杂的场景和更多的小目标物体. 为了进一步验证FEDet的小目标检测效果，使用COCO2017训练集进行训练，共约110 000张图片，在COCO2017验证集上进行测试，共5 000张图片. COCO数据集有41%的小目标物体，因此将Conv4_3层上的默认框相对于图片的最小尺寸由0.20减小为0.15. 对比方法包括SSD、YOLOv3、RefineDet^[36]和FAENet. 其中YOLOv3和RefineDet分别通过增加默认框个数和进行特征融合的方式提高小目标检测精度，与FEDet相似. FAENet是专门针对小目标的单阶段检测算法. FEDet、SSD、FAENet输入的图片尺寸均为300×300， YOLOv3、RefineDet输入的图片尺寸均为320×320. 其中SSD、RefineDet、FAENet的实验结果由开源代码实验得到. 如表5所示为不同算法在COCO测试集上的检测精度. 表中，AP为当IoU∈（0.50，0.95）时的平均精度，AP₅₀为当 IoU=0.50时的平均精度，AP₇₅为当 IoU=0.75时的平均检测精度；AP_S为对目标面积不超过32×32的检测精度，即小目标检测；AP_M为对目标面积大于等于32×32和小于96×96的检测精度，即中目标检测；AP_L为对目标面积大于等于96×96的检测精度，即大目标检测. FEDet的AP=30.1%、AP₅₀=50.0%、AP₇₅=31.2%. FEDet的AP_S=13.3%，相比于SSD提高0.065，相比于YOLOv3，RefineDet和FAENet也有所提高. FEDet的AP_M=33.2%、AP_L=44.0%. 实验结果表明，FEDet在复杂场景下对小目标检测效果有提升. SSD与FEDet在COCO数据集上的检测效果对比如图11所示.

表 5 不同算法在COCO数据集上的实验结果

Tab.5 Experiment results of different algorithms on COCO dataset

算法	AP	AP₅₀	AP₇₅	AP_S	AP_M	AP_L
%
SSD^[7]	25.6	43.8	26.3	6.8	27.8	42.2
YOLOv3^[35]	28.2	51.5	29.7	11.9	30.6	43.4
RefineDet^[36]	29.4	49.2	31.3	10.0	32.0	44.4
FAENet^[31]	28.3	47.9	29.7	10.5	30.9	41.9
FEDet	30.1	50.0	31.2	13.3	33.2	44.0

图 11

图 11 2种算法在COCO数据集上检测结果对比

Fig.11 Comparison of detection results of two algorithms on COCO datase

3.4. 消融实验

对Cov3_2，Conv3_3层和SCFE进行实验，以证明各个模块的有效性. 添加 Conv3_3和SCFE的目的是提升模型对小目标物体的检测效果. 使用PASCAL VOC2007测试集作为测试数据集，以mAP和小目标检测精度AP_S作为评价指标. 在PASCAL VOC2007测试集中，尺寸小于32×32或者小于原图尺寸的小目标物体有1 171个，其中bottle和plant类别在小目标物体中的占比较大. 消融实验结果如图12所示，添加Conv3_2层对AP_S与mAP略有提升， Conv3_3层不论是对mAP还是AP_S都有提升. 原因是Conv3_3层的抽象程度更高，语义信息更高级，更有利于模型区分小目标物体与背景. 在Conv3_3的基础上添加SCFE模块，模型的mAP比原SSD的提升0.007，小目标检测精度提升0.042，检测效果明显优于Conv3_2与SCFE的组合，说明Conv3_3层与SCFE的组合更有利于提升小目标检测效果. 对于SCFE模块与Conv3_2，Conv3_3组合的小目标检测效果分别提升0.018、0.027，说明SCFE有利于模型注重覆盖小目标的细节信息，显著提升小目标精度. 由此可见，提升Conv3_3层的抽象程度有利于提升小目标检测精度的，因此本研究选择将经过深层次特征融合后的Conv4_3与Conv3_3融合，再经过SCFE模块进行特征重标定，FEDet的小目标检测精度为28.5%. 对比SCFE与CBAM，虽然两者的mAP值相差不大，但CBAM的小目标检测精度为23.9%，低于SCFE. 原因是SCFE的空间模块由不同尺寸的卷积核组成，更注重不同尺寸的局部信息，与小目标更适配.

图 12

图 12 空间通道注意力特征增强模块的消融实验

Fig.12 Ablation experiment of spatial and channel attention feature enhancement module

基于SSD添加FPN，并且利用2种方法改进FPN进行，提升模型mAP的同时提升小目标检测精度，2种方法的消融实验结果如图13所示. FPN作用在Conv4_3、Conv7、Conv8_2、Conv9_2、Conv10_2、Conv11_2层上，对SSD算法检测精度略有提升. 先利用RSCFE结构改进FPN，使得mAP提升0.006，AP_S提升0.011，说明RSCFE结构能够减少降维引起的信息损失；再利用Consistent Supervision(CS)^[16]方法改进FPN，算法mAP=78.3%，AP_S=23.3%. 共同运用2种方法即DFPN，使得SSD算法mAP=78.7%，并且小目标检测精度提升显著. 该实验结果表明，RSCFE和CS能有效补助FPN缺陷，大幅提升检测精度.

图 13

图 13 深层次特征金字塔网络的消融实验

Fig.13 Ablation experiment of deep feature pyramid network

为了评估FEDet目标检测器不同模块的有效性，对DFPN、SCFE、DIoU-Pisa进行消融实验. 实验以SSD300为基础网络，精度为 77.2%，所有实验均在VOC2007测试集上测试. 实验结果如表6所示. SCFE模块作用在Conv3_3层，添加SCFE表示将Conv3_3 当作预测特征层. 由表可知，将DFPN作用在SSD上，其检测精度提升至78.7%；在SSD的样本训练中采用DIoU-Pisa策略，相对于原SSD，精度提升0.008；在SSD中添加SCFE模块，精度提升0.007，该模块主要针对小目标样本进行. DFPN、SCFE、DIoU-Pisa中DFPN对SSD提升最明显，其他2种模块次之. 3个模块共同使用时的精度为79.7%.

表 6 所提算法不同模块的平均精度均值

Tab.6 Average precision means of different modules of proposed algorithm

算法	mAP/%
DFPN	78.7
SCFE	77.9
DIoU-Pisa	78.0
DFPN+SCFE	79.2
DFPN+DIoU-Pisa	79.1
SCFE+DIoU-Pisa	78.9
DFPN+SCFE+DIoU-Pisa	79.7

3.5. SCFE与RSCFE不同结构实验

考虑利用空间与通道注意力增强Conv3_3层的检测能力，设计如下3种结构：单独添加空间注意力、单独添加通道注意力、添加空间与通道注意力. 将3种结构均作用于Conv3_3层，在VOC2007测试集上进行测试，以AP_S和mAP为评估指标，实验结果如表7所示. 单独添加空间或者通道注意力的mAP由 SSD的77.2%提升至77.7%，添加空间与通道注意力的mAP由 SSD的77.2%提升至77.9%，说明在2个维度上进行注意力匹配，最有利于目标检测. 原因是通道信息有利于分辨物体的类别，空间信息有利于确定物体的坐标位置. 从mAP的结果来看，先空间后通道的组合方式相较于其他方式的精度提升0.002. 先空间后通道的组合方式对小目标检测结果相较于其他组合方式（单独空间和单独通道）的有显著提升.

表 7 通道注意力与空间注意力不同结合方式的评估实验结果

Tab.7 Evaluation of Experimental results different combinations of channel attention and spatial attention

注意力模块	AP_S/%	mAP/%
空间	23.8	77.7
通道	23.1	77.7
空间+通道	24.9	77.9

为了减少FPN信息损失. 设计了如图7所示的2种RSCFE结构. 1)在FPN的C₂、C₃、C₄、C₇与P₂、P₃、P₄、P₇之间添加SCFE连接，称为RSCFE-a；2)在FPN的C₂~C₇与相对的P₂~P₇之间添加SCFE连接，称为RSCFE-b. 在VOC2007测试集上进行检测精度测试，结果如表8所示. 可以看出，2种结构的检测效果相同. 原因C₅、C₆与P₅、P₆对应的通道数都是256，经过1×1卷积操作后，这2层的信息损失较小，且P₅、P₆补充了来自顶层特征图的语义信息. RSCFE-a相对简洁且添加参数量较少，因此本研究选择RSCFE-a作为RSCFE结构.

表 8 不同模块连接结构的平均精度均值

Tab.8 Average accuracy means of different module connection structures

算法	mAP/(%)
SSD	77.2
SSD+FPN	77.5
RSCFE-a	78.1
RSCFE-b	78.1

DOI:10.3969/j.issn.0372-2112.2020.12.011 [本文引用: 1]

4. 结　语

针对SSD检测器存在检测精度不高以及对小目标检测误差较大的问题，提出基于特征优化与深层次特征融合的目标检测器. 将空间通道注意力作用于SSD的Conv3_3层，提升小目标检测效果；利用残差空间通道信息增强和CS^[16]改进FPN，并将改进的FPN作用于SSD预测特征层；由于添加大量的默认框，采用DIoU-Pisa策略，侧重对定位良好并且分类置信度高的样本的训练. 在PASCAL VOC2007测试集上的实验表明，FEDet的检测精度为79.7%，相对于SSD，提升0.025，检测速度为39帧/s. 在COCO数据集上FEDet的mAP比SSD提高0.045，对小目标物体检测效果比原SSD更优. FEDet是高精度且有利于小目标检测的实时检测算法，适用于高精度的实时检测应用场景，但FEDet还存在骨干网络VGG16的特征提取能力不足的问题. 在SCFE不同结合方式的消融实验中，先通道后空间结合方式的精度为77.5%，下一步计划着重研究不同注意力机制的结合效果，以获得更好的检测结果.

参考文献

原文顺序

文献年度倒序

文中引用次数倒序

被引期刊影响因子

[1]

李雅倩, 盖成远, 肖存军, 等

基于细化多尺度深度特征的目标检测网络

[J]. 电子学报, 2020, 48 (12): 2360- 2366

LI Ya-qian, GAI Cheng-yuan, XIAO Cun-jun, et al

Object detection network based on refined multi-scale depth features

[J]. Acta Electronica Sinica, 2020, 48 (12): 2360- 2366

DOI:10.3969/j.issn.0372-2112.2020.12.011 [本文引用: 1]

[2]

郑浦, 白宏阳, 李伟, 等

复杂背景下的小目标检测算法

[J]. 浙江大学学报:工学版, 2020, 54 (9): 1777- 1784

ZHENG Pu, BAI Hong-yang, LI Wei, et al

Small target detection algorithm in complex background

[J]. Journal of Zhejiang University: Engineering Science, 2020, 54 (9): 1777- 1784

[3]

GIRSHICK R, DONAHUE J, DARRELL T, et al. Rich feature hierarchies for accurate object detection and semantic segmentation [C]// 2014 IEEE Conference on Computer Vison and Pattern Recognition. Columbus: IEEE, 2014: 580-587.

[4]

GIRSHICK R. Fast R-CNN [C]// 2015 IEEE International Conference on Computer Vison. Santiago: IEEE, 2015: 1440-1448.

[5]

REN S, HE K

GIRSHICK R, et al. Faster R-CNN: towards real-time object detection with region proposal networks

[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2017, 39 (6): 1137- 1149

DOI:10.1109/TPAMI.2016.2577031 [本文引用: 3]

[6]

CAI Z W, VASCONCELOS N. Cascade R-CNN: delving into high quality object detection [C]// 2018 IEEE/CVF Conference on Computer Vison and Pattern Recognition. Salt Lake City: IEEE, 2018: 2603-2611.

[7]

LIU W, ANGUELOV D, ERHAN D, et al. SSD: single shot multibox detector [C]// European Conference on Computer Vision. [S. l. ]: Springer, 2016: 21-37.

[本文引用: 4]

[8]

REDMON J, DIVVALA S, GIRSHICK R, et al. You only look once: unified, real-time object detection [C]// 2016 IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas: IEEE, 2016: 779-788.

[9]

REDMON J, FARHADI A. YOLO9000: better, faster, stronger [C]// 2017 IEEE Conference on Computer Vision and Pattern Recognition. Honolulu: IEEE, 2017: 6517-6525.

[10]

REDMON J, FARHADI A. Yolov3: an incremental improvement. [EB/OL]. [2021-12-30]. https://arxiv.org/pdf/1804.02767.pdf.

[11]

LIN T Y, DOLLÁR P, GIRSHICK R, et al. Feature pyramid networks for object detection [C]// 2017 IEEE Conference on Computer Vison and Pattern Recognition. Honolulu: IEEE, 2017: 963-944.

[12]

LI Z X, ZHOU F Q. FSSD: feature fusion single shot multibox detector [EB/OL]. [2021-12-30]. https://arxiv.org/pdf/1712. 00960.pdf.

[13]

LIN T Y, GOYAL P, GIRSHICK R, et al. Focal loss for dense object detection [C]// 2017 IEEE International Conference on Computer Vison. Venice: IEEE, 2017: 2999-3007.

[本文引用: 3]

[14]

裴伟, 许晏铭, 朱永英, 等

改进的SSD航拍目标检测方法

[J]. 软件学报, 2019, 30 (3): 738- 758

DOI:10.13328/j.cnki.jos.005695 [本文引用: 1]

PEI Wei, XU Yan-ming, ZHU Yong-ying, et al

The target detection method of aerial photography images with improved SSD

[J]. Journal of Software, 2019, 30 (3): 738- 758

DOI:10.13328/j.cnki.jos.005695 [本文引用: 1]

[15]

TAN M, PANG R, LE Q V. EfficientDet: scalable and efficient object detection [C]// 2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Seattle: IEEE, 2020: 10778-10787.

[16]

GUO C, FAN B, ZHANG Q, et al. AugFPN: improving multi-scale feature learning for object detection [C]// 2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Seattle: IEEE, 2020: 12592-12601.

[本文引用: 4]

[17]

ZHENG Z, WANG P, LIU W, et al. Distance-IoU loss: faster and better learning for bounding box regression. [C]// AAAI Conference on Artificial Intelligence. NewYork: AAAI, 2020: 12993–13000.

[18]

SIMON Y K, ZISSERMAN A. Very deep convolutional networks for large-scale image recognition [EB/OL]. [2021-12-30]. https://arxiv.org/pdf/1409.1556.pdf.

[19]

陈科圻, 朱志亮, 邓小明, 等

多尺度目标检测的深度学习研究综述

[J]. 软件学报, 2021, 32 (4): 1201- 1227

DOI:10.13328/j.cnki.jos.006166 [本文引用: 3]

CHEN Ke-qi, ZHU Zhi-liang, DENG Xiao-ming, et al

Deep learning for multi-scale object detection: a survey

[J]. Journal of Software, 2021, 32 (4): 1201- 1227

DOI:10.13328/j.cnki.jos.006166 [本文引用: 3]

[20]

WANG K, LIEW J H, ZOU Y, et al. PANet: few-shot image semantic segmentation with prototype alignment [C]// 2019 IEEE/CVF International Conference on Computer Vision. Seoul: IEEE, 2019: 9197-9206.

[21]

GHIASI G, LIN T Y, LE Q V. NAS-FPN: learning scalable feature pyramid architecture for object detection [C]// 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Long Beach: IEEE, 2019: 7036-7045.

DOI:10.1016/j.flowmeasinst.2021.102012 [本文引用: 1]

[22]

ZHANG Q, BAO X, WU B, et al

Water meter pointer reading recognition method based on target-key point detection

[J]. Flow Measurement and Instrumentation, 2021, 81: 102012

[23]

HE J, SHEN L, ALBANIE S, et al

Squeeze-and-excitation networks

[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2020, 42 (8): 2011- 2023

DOI:10.1109/TPAMI.2019.2913372 [本文引用: 1]

[24]

WOO S, PARK J, LEE J Y, et al. CBAM: convolutional block attention module [C]// European Conference on Computer Vision. [S. l.]: Springer, 2018: 3-19.

[25]

ZHANG H, ZU K, LU J, et al. EPSANet: an efficient pyramid split attention block on convolutional neural network. [EB/OL]. [2021-12-30]. https://arxiv.org/pdf/ 2105.14447.pdf.

[26]

LIU W, RABINOVICH A, BERG A C. ParseNet: looking wider to see better. [EB/OL]. [2021-12-30]. https://arxiv.org/pdf/1506.04579.pdf.

DOI:10.3969/j.issn.0372-2112.2020.03.024 [本文引用: 1]

[27]

刘颖, 刘红燕, 范九伦, 等

基于深度学习的小目标检测研究与应用综述

[J]. 电子学报, 2020, 48 (3): 590- 601

LIU Ying, LIU Hong-yan, FAN Jiu-lun, et al

A Survey of research and application of small object detection based on deep learning

[J]. Acta Electronica Sinica, 2020, 48 (3): 590- 601

DOI:10.3969/j.issn.0372-2112.2020.03.024 [本文引用: 1]

[28]

QIN Z, LI Z, ZHANG Z, et al. ThunderNet: towards real-time generic object detection on mobile devices [C]// 2019 IEEE/CVF International Conference on Computer Vision. Seoul: IEEE, 2019: 6718-6727.

[29]

CAO Y, CHEN K, LOY C C, et al. Prime sample attention in object detection [C]// 2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Seattle: IEEE, 2020: 11583-11591.

[30]

ZHOU P, NI B, GENG C, et al. Scale-transferrable object detection [C]// 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Salt Lake City: IEEE, 2018: 528-537.

[本文引用: 3]

[31]

LI W, LIU G. A single-shot object detector with feature aggregation and enhancement [C]// 2019 IEEE International Conference on Image Processing. [S.l.]: IEEE, 2019: 3910-3914.

[本文引用: 4]

[32]

TIAN Z, SHEN C, CHEN H, et al. FCOS: fully convolutional one-stage object detection [C]// 2019 IEEE/CVF International Conference on Computer Vision. Seoul: IEEE, 2019: 9627-9636.

[33]

ZHANG S, CHI C, YAO Y, et al. Bridging the gap between anchor-based and anchor-free detection via adaptive training sample selection [C]// 2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Seattle: IEEE, 2020: 9759-9768.

DOI:10.11897/SP.J.1016.2021.00370 [本文引用: 1]

[34]

田秀霞, 李华强, 张琴, 等

基于双通道R-FCN的图像篡改检测模型

[J]. 计算机学报, 2021, 44 (2): 370- 383

TIAN Xiu-xia, LI Hua-qiang, ZHANG Qin, et al

Dual-channel R-FCN model for image forgery detection

[J]. Chinese Journal of Computers, 2021, 44 (2): 370- 383

DOI:10.11897/SP.J.1016.2021.00370 [本文引用: 1]

[35]

BOCHKOVSKIY A, WANG C Y, LIAO H Y M, et al. YOLOv4: optimal speed and accuracy of object detection. [EB/OL]. [2021-12-30]. https://arxiv.org/pdf/2004.10934.pdf.

[本文引用: 3]

[36]

ZHANG S, WEN L, BIAN X, et al. Single-shot refinement neural network for object detection [C]// 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Salt Lake City: IEEE, 2018: 4203-4212.