浙江大学学报(工学版), 2022, 56(12): 2403-2415 doi: 10.3785/j.issn.1008-973X.2022.12.009

计算机技术

基于特征优化与深层次融合的目标检测算法

谢誉,, 包梓群, 张娜,, 吴彪, 涂小妹, 包晓安

1. 浙江理工大学 计算机科学与技术学院,浙江 杭州 310018

2. 浙江理工大学 理学院,浙江 杭州 310018

3. 浙江广厦建设职业技术大学 建筑工程学院,浙江 东阳 322100

Object detection algorithm based on feature enhancement and deep fusion

XIE Yu,, BAO Zi-qun, ZHANG Na,, WU Biao, TU Xiao-mei, BAO Xiao-an

1. School of Computer Science and Technology, Zhejiang Sci-Tech University, Hangzhou 310018, China

2. School of Science, Zhejiang Sci-Tech University, Hangzhou 310018, China

3. School of Civil Engineering and Architecture, Zhejiang Guangsha Vocational and Technical University of Construction, Dongyang 322100, China

通讯作者: 张娜,女,副教授. orcid.org/0000-0001-5131-6417. E-mail: zhangna@zstu.edu.cn

收稿日期: 2022-01-5  

基金资助: 浙江省重点研发计划项目(2020C03094);浙江省教育厅一般科研项目(Y202147659); 浙江省教育厅项目(Y202250706,Y202250677);国家自然科学基金资助项目(6207050141);浙江省基础公益研究计划项目(QY19E050003)

Received: 2022-01-5  

Fund supported: 浙江省重点研发计划项目(2020C03094);浙江省教育厅一般科研项目(Y202147659);浙江省教育厅项目(Y202250706,Y202250677);国家自然科学基金资助项目(6207050141);浙江省基础公益研究计划项目(QY19E050003)

作者简介 About authors

谢誉(1997—),男,硕士生,从事人工智能及计算机视觉信息处理研究.orcid.org/0000-0003-1067-3674.E-mail:1419352830@qq.com , E-mail:1419352830@qq.com

摘要

针对单阶段多边框检测算法(SSD)存在对小目标检测误差较大的问题,提出基于特征优化与深层次融合的目标检测算法,通过空间通道特征增强(SCFE)模块和深层次特征金字塔网络(DFPN)改进SSD. SCFE模块基于局部空间特征增强和全局通道特征增强机制优化特征层,注重特征层的细节信息;DFPN基于残差空间通道增强模块改进特征金字塔网络,使不同尺度特征层进行深层次特征融合,提升目标检测精度. 在训练阶段添加样本加权训练策略,使网络注重训练定位良好的样本和置信度高的样本. 实验结果表明,在PASCAL VOC数据集上,所提算法在保证速度的同时检测精度由SSD的77.2%提升至79.7%;在COCO数据集上,所提算法的检测精度由SSD的25.6%提升至30.1%,对小目标的检测精度由SSD的6.8%提升至13.3%.

关键词: 目标检测 ; 深层次特征金字塔网络(DFPN) ; 空间通道特征增强(SCFE) ; 样本加权训练 ; 单阶段多边框检测算法(SSD)

Abstract

A object detection algorithm based on feature optimization and deep fusion was proposed, aiming at the problems of single-stage multi-box detector algorithm (SSD) with large detection errors for small targets. SSD was improved through spatial and channel feature enhancement (SCFE) and deep feature pyramid network (DFPN). A feature layer based on the local spatial feature enhancement and the global channel feature enhancement mechanism was optimized by SCFE module which focused on detail information of the feature layer. Based on the residual space channel enhancement module, feature pyramid network was improved by DFPN which fused feature layers of different scales and improved the accuracy of object detection. At the same time, a sample weighted training strategy was added in the training stage, which made the network focused on training samples with good position and high confidence. The experimental results show that on the PASCAL VOC dataset, the detection accuracy of the proposed algorithm is improved from 77.2% to 79.7% of SSD while ensuring speed. On the COCO dataset, the detection accuracy of the proposed algorithm is increased from 25.6% to 30.1% for that of SSD, and the detection accuracy for small targets is increased from 6.8% to 13.3% for that of SSD.

Keywords: object detection ; deep feature pyramid network (DFPN) ; spatial and channel feature enhancement (SCFE) ; sample weighted training ; single-stage multi-box detector algorithm (SSD)

PDF (1565KB) 元数据 多维度评价 相关文章 导出 EndNote| Ris| Bibtex  收藏本文

本文引用格式

谢誉, 包梓群, 张娜, 吴彪, 涂小妹, 包晓安. 基于特征优化与深层次融合的目标检测算法. 浙江大学学报(工学版)[J], 2022, 56(12): 2403-2415 doi:10.3785/j.issn.1008-973X.2022.12.009

XIE Yu, BAO Zi-qun, ZHANG Na, WU Biao, TU Xiao-mei, BAO Xiao-an. Object detection algorithm based on feature enhancement and deep fusion. Journal of Zhejiang University(Engineering Science)[J], 2022, 56(12): 2403-2415 doi:10.3785/j.issn.1008-973X.2022.12.009

目标检测是图像识别领域重要的研究方向,在自动驾驶、安防监控邻域发挥着重要作用[1]. 主流的目标检测算法分为双阶段目标检测算法和单阶段目标检测算法[2]. 双阶段检测算法主要有RCNN[3]系列, 包括Fast R-CNN[4]、Faster R-CNN[5]、Cascade R-CNN[ 6]等. 双阶段检测算法在第一个阶段,通过区域候选网络(region proposal network,RPN)将生成的默认框区分为前景或背景以生成候选框;在第二阶段,对候选框进行预测得到最终检测结果. 双阶段目标检测算法先筛除大部分默认框,虽然其检测精度比单阶段检测算法的更高,但须执行2个步骤,导致算法的计算复杂度大幅增加,算法的检测速度降低. 单阶段检测算法主要有单阶段多边框检测算法(single-stage multi-box detector algorithm,SSD)[7]系列和YOLO[8-10]系列. 单阶段检测算法直接对定义的默认框进行分类和偏移量预测. 由于正负样本不均衡,单阶段检测算法的检测精度较低,但算法只经过一次分类和回归,检测速度比双阶段检测算法快. SSD利用不同尺度的特征层检测不同大小的目标. 高分辨率的低层特征图检测小目标物体,低分辨率的高层特征图检测大目标物体的方法,在一定程度上缓解了多尺度检测问题. SSD对样本进行预测时采用难例挖掘策略,即选取正负样本比例为1∶3,这样一定程度上缓解了正负样本不均衡问题.

小目标检测是目标检测的难点,SSD在小目标物体繁多、应用场景复杂情况下的检测精度较低. 检测小目标物体需要精细的特征和足够的语义信息以便将物体与背景区分开,SSD的低级特征层虽然有精细的特征,但是语义信息不足. 许多检测器利用特征金字塔网络(feature pyramid network,FPN)[11]来解决这个问题. Li等[12]利用特征融合改进SSD,提出FSSD算法. 该模型借鉴FPN的概念,在保证检测速度的同时提升了模型的检测精度. Lin等[13]提出的RetinaNet将FPN融入算法,不但用低层特征图补充了高级语义信息,还保留了低层细节信息. 不仅如此,RetinaNet中的Focal Loss[13]损失函数,还让单阶段检测器的检测精度超过了双阶段检测器的. 裴伟等[14]利用深度残差网络和特征融合改进SSD,使算法适于航拍目标检测. FPN存在2种损失:1)在特征融合之前,输入的特征图须先经过1×1卷积将通道数降为256,这个过程是造成通道信息丢失的主要原因,称为降维损失. 2)不同尺度特征图间存在语义鸿沟,直接将不同尺度特征图相加融合会导致混叠效应(aliasing effects)[15],陷入次优特征金字塔,称为融合损失.

本研究提出基于优化特征与深层次融合的目标检测算法(single-stage object detection algorithm based on feature enhancement and deep fusion, FEDet). 1)在SSD基础上额外添加Conv3_3层特征图用于小目标预测,增加小目标默认框个数;利用空间通道注意力特征增强模块(spatial and channel attention feature enhancement, SCFE)优化Conv3_3层,增加Conv3_3层的非线性程度,突出该层覆盖小目标的细节信息,提升小目标检测效果. 2)改进FPN为深层次特征金字塔网络(DFPN),利用残差空间与通道特征增强(residual spatial and channel attention feature enhancement, RSCFE)结构补充FPN的降维信息损失;基于AugFPN的一致性监督(consistent supervision)[16]方法,在特征金字塔中添加监督信号,减少FPN的融合信息损失;将DFPN作用于原SSD预测特征图,丰富特征图的语义信息,提升检测器精度. 3)在SSD的训练策略基础上,添加基于距离交并比的样本加权训练策略(distance intersection over union-prime sample attention,DIoU-Pisa),使用DIoU[17]衡量预测框定位的精确度,对样本进行归一化加权,使网络注重训练定位良好且分类置信度高的样本,提升检测器的精度和鲁棒性.

1. 相关工作

SSD以VGG16[18]为主干网络,由主干网络提取的多尺度特征图组成特征金字塔来检测不同尺寸的目标. 虽然这种检测策略提升了检测的准确度和对不同尺寸物体的泛化性能,但SSD的特征提取能力有限,且低层特征图缺少语义信息,因此对小目标物体检测误差较大. SSD是高效的全卷积实时检测网络,本研究将SSD作为基础网络,从以下两个方面对SSD进行改进:1)为了提高网络的特征提取能力,用特征提取能力更强的主干网络替换VGG16;2)为了提高特征的表征能力,对不同尺度特征图进行特征融合,以丰富特征图的语义信息并保留细节信息. DSSD[19]以ResNet-101为主干网络,添加预测结构和反卷积结构,不仅提升了特征的表征能力,还引入了空间上下文信息. FSSD中的特征融合模块提升了低层特征图的表征能力. RetinaNet以ResNet-101为主干网络,融入FPN,Focal loss函数使模型更注重对难分样本的训练. 上述网络算法均有助于提升检测效果,但ResNet-101的网络较复杂,残差连接和卷积层较多,导致模型推理速度大幅下降,VGG16的特征提取能力不足,但推理速度较快,因此本研究以VGG16为主干网络.

FPN构造的横向连接和带有自顶向下融合的层级结构,在目标检测算法中被广泛使用. 由于FPN存在降维、融合损失,导致特征没有进行深层次的融合. 如图1所示为3种改进的FPN的结构图. PANet[20]添加从下向上再次融合的结构,使融合更进一步;NAS-FPN[21]中的不规则融合路径和反复堆叠,提升了检测精度;BiFPN[22] 先在PANet的基础上给每个层级添加残差连接,然后进行反复堆叠特征融合,每个融合的特征层均被添加归一化权重以学习特征层的重要性、减少融合损失,达到更深层次特征融合的目的. 反复堆叠自顶向下、从下向上特征融合结构的方法虽然能够提升算法的检测精度,但是计算的复杂度大幅增加,造成算法的检测速度损失严重. 本研究用DFPN进行深度特征融合,以解决降维、融合损失,提升检测精度并保持实时检测的速度.

图 1

图 1   3种改进的特征金字塔网络的结构图

Fig.1   Structure diagram of three improved feature pyramid network


He等[23]提出SENet,通过压缩与激励操作构建通道之间的关系,完成通道特征重标定. Woo等[24]提出的CBAM能够有效获取空间与通道信息,模型的特征提取能力得以提升. Zhang等[25]采用轻量、高效的金字塔压缩模块(pyramid squeeze attention,PSA),该模块获取多尺度的空间特征并与通道注意力关联. 本研究所提SCFE模块通过捕获不同尺度空间特征来完成通道特征重标定,以此优化特征层.

2. 基于特征优化与深层次融合的目标检测算法的网络结构设计

图2所示,FEDet以SSD300为基础,添加Conv3_3层为预测特征图. 图中,⊕表示将经过DFPN特征融合后的Conv4_3层与Conv3_3层融合,并将SCFE作用于融合后的Conv3_3层,突出覆盖小目标的细节信息,加强特征图的表征能力,提升Conv3_3层对小目标物体的检测能力. 将原SSD预测特征图经过DFPN进行深层次的特征融合,突出空间通道信息,增强全局上下文信息,提高模型检测精度. 在训练阶段,FEDet添加基于DIoU的样本加权训练策略,使模型注重训练定位良好、分类置信度高的样本,提升模型检测精度.

图 2

图 2   基于特征优化与深层次融合的目标检测算法的网络结构

Fig.2   Structure diagram of single-stage object detection algorithm based on feature enhancement and deep fusion


2.1. 特征优化

2.1.1. Conv3_3网络结构模块

为了提高模型对小目标的检测效果,增加Conv3_3层用于小目标检测. 相比于Conv3_2层,Conv3_3层不仅特征表现力更好,而且更接近Conv4_3层,更有利于后续的特征融合. 虽然Conv3_3经过卷积次数少,含有覆盖小目标的细节信息更充足,但是Conv3_3层的数据与高层特征层(如Conv9_2层)的数据分布差异较大,较大的Conv3_3层数将使高层特征层无法影响分类和回归[26],导致模型训练效果不佳. 要让Conv3_3层与Conv4_3层的数值范围相同,须用L2 Normalization处理Conv3_3层. 分别在未经处理的Conv3_3、处理后的Conv3_3(L2Norm-Conv3_3 )、Conv9_2特征图中随机选取1 000个特征点,如图3所示. 图中,FP为特征点编号,FV为特征数值. 可以看出,L2Norm-Conv3_3与Conv9_2的数值大小相近. 在SSD特征金字塔中,Conv3_3是底层特征图,与Conv4_3层一起被用于检测小占比目标;Conv7、Conv8_2、Conv9_2、Conv10_2、Conv11_2均为高层特征层,它们缺乏细节信息但含有丰富的语义信息,被用于检测中大占比目标.

图 3

图 3   3个特征层各自随机抽取的1 000个特征点及其数值

Fig.3   One thousand randomly extracted feature points and their values for three feature layers each


同一特征图上每个单元设置的默认框是相同的,不同特征图上的默认框数和尺度是不同的. 默认框的设置分为尺度和长宽比,原SSD特征金字塔中Conv4_3层上的默认框尺度须单独设置,更适合检测小目标的Conv3_3须单独设置更小的尺度. 其他5层的默认框尺度遵循的线性递增规则为

$ {S_i} = {S_{\min }}+\frac{{{S_{\max }} - {S_{\min }}}}{{n - 1}}\left( {i - 1} \right),\;i \in \left[ {1,n} \right] ; $

$ {m_{{\text{min,}i}}} = {S_i} \times {m_{{\text{in}}}} , $

$ {m_{{\text{max,}}i}} = {S_{i+1}} \times {m_{{\text{in}}}} . $

式中:n为其余特征金字塔层数,n=5;Si为默认框尺度相对于图片的比例;SmaxSmin分别为比例的最大值与最小值,取Smax=0.9、Smin=0.2;min为模型输入图片尺寸,取min=300. mmin,i为对应层上第一个默认框的边长;mmax,i为边长参数. 对应层上每个默认框的宽wh计算式分別为

$ w = {m_{\min }}\sqrt \alpha , $

$ h{\text{ = }}\frac{{{m_{\min }}}}{{\sqrt \alpha }} . $

式中:α为长宽比. 当α=1时,额外增加的默认框宽高计算式为

$ w = h = \sqrt {{m_{\min }} \times {m_{\max }}} . $

默认框的具体设置如表1所示. 表中,Abox为框面积,nbox为框个数

表 1   特征金字塔网络中默认框的参数设置

Tab.1  Parameter settings of default box in feature pyramid network

特征层 特征图尺寸 mmin mmax Abox α nbox
Conv3_3 75×75 10 60 100,600 1, 2, 3 33 750
Conv4_3 38×38 30 60 900,18 000 1, 2 5 776
Conv7 19×19 60 111 3 600,6 660 1, 2, 3 2 166
Conv8_2 10×10 111 162 12 321,17 982 1, 2, 3 600
Conv9_2 5×5 162 213 26 244,34 506 1, 2, 3 150
Conv10_2 3×3 213 264 45 369,56 232 1, 2 36
Conv11_2 1×1 264 315 69 696,83 160 1, 2 4

新窗口打开| 下载CSV


小目标的定义主要有2种[27]:1)当目标物体的像素点小于32×32时,目标物体可以当作绝对小目标物体;2)当目标物体尺寸不超过原图尺寸的10%时,目标物体可以当作相对小目标物体. 本研究所提模型的输入尺寸为300×300,因此Conv3_3、Conv4_3生成的默认框适合用于检测小目标. Conv3_3上生成的默认框比Conv4_3更小、更多,以增加小目标默认框的方式增加训练数据量,能够提升小目标检测的精度. Conv3_3层富含覆盖小目标的细节信息,但缺乏语义信息,影响小目标检测的效果. 增加非线性程度的模型能够拟合更复杂的函数,提取更高级的语义信息,提升模型检测精度和鲁棒性. 将Conv3_3与特征融合后的Conv4_3相加,再经过空间通道特征增强模块增强,得到新的Conv3_3. 新的Conv3_3既能够增加语义信息,又能够突出细节信息,利于检测小目标.

2.1.2. 空间通道特征增强

设计SCFE来突出空间信息和全局通道信息. 如图4所示,SCFE模块分为2个相互依赖的部分:局部空间注意力增强和全局通道注意力增强. 图中,○表示将4个新特征图通过通道堆叠,输出为C×H×W的特征图F ;⊕表示将SCFE模块输入与SCFE模块输出相加;⊙表示空间权重系数Ms和相应特征图Ri按通道相乘,输出为4个经过空间特征重标定的新特征图.

图 4

图 4   空间通道特征增强模块结构图

Fig.4   Structure diagram of spatial channel feature enhancement module


局部空间注意力部分将输入的通道数C、长H、宽W的特征图进行1×1的卷积,生成尺寸不变、通道数减少的特征图(C/H×W). 该操作减少了参数量,提升了模型训练和测试的速度. 为了提升模型鲁棒性,卷积完成后进行BN和ReLU操作,最终得到压缩后的特征图. 为了整合不同尺度的空间特征和减少细节信息的损失,本研究分别以1、3、5、7的卷积尺寸进行4次压缩操作,得到4个尺度为C/H×W的特征图{R1,R2, R3, R4}. 对这4个特征图分别进行空间注意力匹配,计算式为

$ {M_{\rm{s}}}\left( {{R_i}} \right) = \sigma \left( {{f^{3 \times 3}}\left( {R_{i,{\rm{avg}}}^{\rm{s}}} \right)} \right),i = 1,2,3,4 . $

对特征图Ri进行通道上的空间全局平均池化Rsi,avg,得到1×H×W的空间特征信息,经过3×3卷积操作(f3×3)和激活函数σ(Sigmoid)对权重进行归一化,提高模型的泛化能力,得到空间权重系数Ms.

全局通道注意力增强采用SENet进行通道特征重标定,但在PSA中,将SENet的压缩和激励操作所用的全连接层全部替换为卷积层,以减少参数量,计算式为

$ {M_{\rm{c}}}(F) = \sigma \left( {f_2^{1 \times 1}\left( {\delta \left( {f_1^{1 \times 1}\left( {F_{{\rm{avg}}}^{\rm{c}}} \right)} \right)} \right)} \right) . $

对输入特征图F的每个通道进行全局平均池化 ${F_{{\rm{avg}}}^{\rm{c}}} $,得到C×1×1的通道全局信息特征图,经过1×1卷积层f11×1和 激活函数δ(ReLU)将特征图压缩为C/16×1×1,再通过1×1卷积层f21×1恢复C×1×1的特征图,增加非线性程度又减少参数,经过函数σ(Sigmoid)归一化,得到C个通道权重参数,将权重参数按通道加权到输入特征图上. 受残差网络的短连接启发,SCFE模块在输入和输出间添加了短连接,将SCFE模块输入与SCFE模块输出相加,并经过ReLU激活函数,既加深了网络深度,又补充了输出特征图的细节信息.

为了尽可能地保留细节信息,利用不同大小的卷积整合特征图信息得到4个特征图,将这4个特征图分别进行空间注意力匹配后,通过通道堆叠组成新特征图,而后进行通道注意力匹配. 如图5所示,对比原Conv3_3,可视化增强后的Conv3_3层特征图注重覆盖小目标的细节信息,更利于小目标检测.

图 5

图 5   原特征与特征增强后的热力图对比

Fig.5   Comparison between heat map of original feature and that of enhanced one


2.2. 深层次特征融合

SSD算法的多尺度特征金字塔存在明显缺陷,即低层特征图缺乏语义信息而高层特征图缺乏细节信息,导致SSD算法检测效果不佳,因此本研究利用FPN对用于预测的特征层Conv4_3、Conv7进行特征融合. 如图6所示,C2~C7分别表示原SSD预测特征层Conv4_3、Conv7、Conv8_2、Conv9_2、Conv10_2、Conv11_2,M2~M7分别表示C2~C7经过1×1卷积降维但未进行特征融合的特征图,P2~P7表示自顶向下特征融合的特征图. 实验结果表明,由于FPN本身存在缺陷,FPN对SSD算法检测精度提升不明显. 为此,对FPN进行改进,使改进后的FPN能够显著提升算法检测精度. 针对FPN存在特征层降维的信息损失和不同特征层的语义鸿沟问题,本研究基于RSCFE和一致性监督(consistent supervision,CS)[16]来改进FPN,实现深层次的特征融合. CS的作用是将P2~P7金字塔生成的预测框映射到M2~M7上,以生成感兴趣区域(region of intersect,ROI). 并将ROI用于预测,生成辅助损失,迫使M2~M7特征图间生成相似的语义信息,缓解融合信息损失. 在测试阶段,无需使用损失函数,因此CS在该阶段不增加计算量.

图 6

图 6   特征金字塔结构

Fig.6   Feature pyramid structure


2.2.1. 残差空间与通道特征增强

在FPN中,须先对输入的多尺度特征图C2~C7进行1×1卷积的降维操作,以统一各特征图的通道数,方便后续的特征融合,得到M2~M7. 在降维过程中,各特征图损失了许多通道信息,在后续自顶向下的特征融合过程中,低层特征图可由来自高层特征图的语义信息增强特征表现力,而顶层特征图没有其他层的信息补充. 如表2所示,FPN的C2C3C4层经过1×1卷积分别得到M2M3M4,通道数减少,信息损失较为严重. 表中,TCC层通道数,TMM层为通道数. 参考Qin等[28]通过结合全局池化提取的全局上下文特征来减轻信息丢失的方法,将SCFE模块中的短连接剪除后当作残差连接,作用于C2C3C4C7P2P3P4P7之间,补充特征图的空间信息和全局通道信息,从而减少信息丢失,如图7(a). 设计如图7(b)的连接结构,以检测精度为评估标准进行实验. 图7的2种残差连接方式检测精度相差无几,同时图7(a)连接结构更简洁,参数量更少,因此本研究采用如图7(a)连接方式.

表 2   特征金字塔网络的输入与输出

Tab.2  Input and output of feature pyramid network

特征图 TC TM
Conv4_3 512 256
Conv7 1024 256
Conv8_2 512 256
Conv9_2 256 256
Conv10_2 256 256
Conv11_2 256 256

新窗口打开| 下载CSV


图 7

图 7   2种残差空间与通道特征增强模块的结构图

Fig.7   Structural diagram of two residual spatial and channel attention feature enhancement modules


2.3. 样本加权训练策略

原SSD采用难例挖掘策略训练样本,该策略虽然能够缓解正负样本不均衡问题,但没有侧重训练对模型训练有效的样本. 本研究添加主要样本训练策略(prime sample attention,Pisa)[29]对分类和回归后的样本进行加权. Pisa将真实框IoU较高的正样本和分类置信度较高的负样本认定为影响的模型训练效果的主要因素,还认定分类和回归的目标相关. Pisa根据IoU分层局部排序和置信度分层局部排序的结果对样本重加权,以表示出不同样本的重要程度. 在IoU分层局部排序中, Pisa用IoU表示样本和真实框的重叠度,据此进行分组并局部排序. 由于IoU无法反映2个物体的重叠方式,本研究提出基于DIoU的主要样本训练(DIoU prime sample attention,DIoU-Pisa),用DIoU表示样本和真实框的重叠度. 相比于IoU,DIoU添加了表示样本框与真实框的中心点间的距离的惩罚项,表达式为

$ {\text{IoU = }}\frac{{\left| {B \cap {B^{{\text{gt}}}}} \right|}}{{\left| {B \cup {B^{{\text{gt}}}}} \right|}} ,$

$ {\text{DIoU }} = {\text{ IoU}} - \frac{{{D^2}\left( {b,{b^{{\text{gt}}}}} \right)}}{{{d^2}}} . $

式中:B为样本框,Bgt为真实框, IoU为样本框与真实框的交并比b为样本框B的中心点,bgt为真实框Bgt的中心点,D为2个中心点间的欧式距离,d为最小包围样本框和真实框的封闭框对角线长度, ${{{D^2}\left( {b,{b^{{\text{gt}}}}} \right)}}/{{{d^2}}} $为IoU的惩罚项. 如图8(b)所示,3种不同的边框重叠方式IoU的值都为0.5,后续进行的局部排序与样本加权无法有效体现这3种样本的重要程度,而采用DIoU则可以有效区分这3种样本的重要程度.

图 8

图 8   DIoU效果示意图

Fig.8   Schematic diagram of effect of DIoU


针对正样本,为了得到DIoU分层局部排序,将样本根据其最近的真实框进行分组,对每个组的样本根据DIoU进行降序排序,得到DIoU局部排名,如图9所示. 随后对所有分组取具有相同排名的样本并对具有相同排名的样本进行降序排序. 如算法1所示,选取所有分组中排序第一的样本并进行降序排序,然后是第二、第三等,以此类推,将所有样本进行排序,即DIoU分层局部排序. DIoU局部排序在每个组内将较高DIoU样本放在前面,体现了对于每个真实框最高DIoU样本最重要,DIoU分层局部排序在每个层级组中进行DIoU降序排序,体现了所有样本中DIoU较高的样本更为重要. 针对负样本,进行置信度分层局部排序的步骤与DIoU分层局部排序相似,与围绕在真实框周围的正样本不同的是负样本可能出现在背景中,因此主要样本训练策略先使用NMS将它们分组到不同的真实框,再以置信度为依据,按照DIoU分层局部排序步骤进行排序操作,最终根据不同的重要性程度,主要样本训练策略给所有样本分配不同权重并将权重归一化,以保持总损失不变.

图 9

图 9   DIoU分层局部排序

Fig.9   DIoU hierarchical local sorting


算法1  DIoU分层局部排序.

输入:P={x1,x2,···,xn},G={g1,g2,···,gn},D={y1,y2,···,yn}.   P表示某一类别的预测框编号.   G表示P中预测框对应的真实框编号.   D表示预测框xi与对应真实框gi的DIoU值.  unique(array)表示对array进行去重并返回去重结果.  getIndex(array, value)表示返回array中所有值为value的下标.  Sort(array, descend=True or False)表示对array进行升序或降序,返回array中的元素索引.  MAXNUM表示所有类别中样本类别的最大值.  输出:一组预测框的DIoU分层局部排序的排名DRank.   1. FOR gt∈unique(G) DO  2.  ind←getIndex(G,gt)  3.  p←P[ind]  4.  d←D[ind]  5. dRankInd←sort(d,descend=True)  6. dRank←sort(dRankInd,descend=False)  7.  D[ind]←D[ind]+(MAXNUM-dRank)  8. END FOR  9. DRankInd←sort(D,descend=True)  10. DRank←sort(DRankInd,descend=False)  11. RETURN DRank

3. 实 验

3.1. 实验环境配置

CPU 为 Intel(R) Xeon(R) CPU E5-2650 v2 @2.60 GHz,32G内存,操作系统为Ubuntu16.04,显卡型号为 NVIDIA GTX1080Ti. 采用CUDA 10.1 cuDNN v7.5.0作为GPU加速库,使用pytorch1.0 torchvision0.3.0深度学习框架和Python3.6编程语言. 以VGG16为预训练模型,模型的训练分为12个阶段,batch size设置为32,初始学习率为0.000 35,第1个阶段的前500个迭代为预热阶段,学习率逐渐增大,该操作有利于模型训练的稳定性. 之后保持0.001的学习率,在第9~11个阶段学习率降为0.000 1,在第12个阶段学习率降为0.000 01.

3.2. Pascal VOC数据集对比实验

采用目标检测公开数据集PASCAL VOC对FEDet进行性能评估. 评估指标分别为平均检测精度mAP和检测速度s. 本研究的网络模型和SSD网络将VOC 2007、VOC 2012的训练集和验证集作为训练集,共16 551张图片,测试在VOC2007的测试集上进行,共4 952张图片. 对比方法包括1)双阶段经典算法Faster R-CNN,2)单阶段算法经典算法SSD、YOLOv2和YOLOv3,3)以SSD为基础改进的DSSD、FSSD、尺度变换目标检测器[30](scale-transferrable object detection,STDN)、高精度单阶段算法RetinaNet和特征聚合与增强的单阶段算法[31](single-shot object detector with feature aggregation and enhancement, FAENet),4)单阶段无锚框检测算法FCOS[32]和ATSS[33]算法. 如表3所示为各方法在PASCAL VOC2007测试集上的检测结果. 其中SSD、FAENet、FCOS和ATSS由开源代码实验得到. 由表可知,双阶段检测算法的检测精度普遍高于单阶段算法,但其检测速度较为缓慢. FEDet属于单阶段算法,mAP =79.7%、s=39帧/s,比DSSD321和RetinaNet的检测性能高,比YOLOV2, YOLOv3[35], SSD300, STDN300和FSSD300的精度高,与FAENet的检测性能相近. 与单阶段无锚框算法FCOS和ATSS相比,FEDet的平均检测精度分别高0.019和0.015. STDN是兼顾速度与精度的算法,FEDet的检测速度与STDN300相近,但精度比STDN高0.016. 与SSD相比,FEDet的检测速度稍有下降,但依然能达到实时检测要求. 如表4所示,为了进一步验证FEDet有效提高检测效果,选择与FEDet输入图片尺寸差异不大的单阶段算法,测试在VOC2007数据集上各类别的平均检测精度. 在10个类别中,FEDet在检测aero、boat、bottle、plant、train、tv类别时的精度是测试算法中最高,在检测 bottle、plant这些小目标出现频次较高的类别中,FEDet相比于SSD有改善最显著,同时比性能最优的FAENet精度更高.

表 3   VOC2007测试集上平均检测精度对比

Tab.3  Comparison of mean average precision on VOC2007 test set

算法 主干网络 mAP/% S/(帧·s−1)
Faster R-CNN[5] VGGNet 73.2 7.0
Faster R-CNN[5] ResNet-101 78.8 2.3
R-FCN[34] ResNet-101 80.5 9.0
Cascade R-CNN[6] VGGNet 79.6 4.2
YOLOV2[9] DarkNet-19 73.7 81.0
SSD300[7] VGGNet 77.2 46.0
DSSD321[19] ResNet-101 78.6 9.5
STDN300[30] DenseNet-169 78.1 41.5
FSSD300[12] VGGNet 78.8 65.0
YOLOv3[35] DarkNet-53 79.4 37.0
RetinaNet[13] ResNet-101 79.4 12.4
FAENet300[31] VGGNet 80.1 65.0
FCOS[32] ResNet-50 77.8 17.6
ATSS[33] ResNet-50 78.2 14.9
FEDet VGGNet 79.7 39.0

新窗口打开| 下载CSV


表 4   VOC2007测试集不同类别目标检测精度结果

Tab.4  Different types of target detection accuracy results on VOC2007 test set

算法 mAP/%
aero bird boat bottle car person plant sheep train tv
SSD300[7] 77.1 75.3 68.0 50.4 85.2 80.2 47.5 76.1 86.3 77.0
DSSD321[19] 81.9 80.5 68.4 53.9 86.2 79.7 51.7 78.0 87.2 79.4
STDN300[30] 81.1 76.4 69.2 52.4 84.2 76.8 51.8 78.4 87.5 77.8
FAENet300[31] 82.8 76.5 74.7 58.7 87.5 81.4 57.7 80.4 86.8 79.6
FEDet 84.0 79.3 75.6 59.1 86.7 80.0 59.2 79.5 87.9 79.9

新窗口打开| 下载CSV


SSD与FEDet在VOC2007数据集上的检测效果对比如图10所示. 图10(a)中有3张椅子,较为密集,FEDet更容易检测密集的目标. 图10(b)中,SSD无法检测出被遮挡的椅子,FEDet检测成功,表明FEDet更容易检测被遮挡的目标. 图10(c)中SSD无法检测出小目标物体,FEDet检测成功,表明FEDet适合小目标物体的检测.

图 10

图 10   2种算法在VOC2007数据集上检测结果对比

Fig.10   Comparison of detection results of two algorithms on VOC2007 dataset


3.3. COCO数据集实验结果评估

COCO数据集具有比PASCAL VOC数据集更丰富的目标种类,更复杂的场景和更多的小目标物体. 为了进一步验证FEDet的小目标检测效果,使用COCO2017训练集进行训练,共约110 000张图片,在COCO2017验证集上进行测试,共5 000张图片. COCO数据集有41%的小目标物体,因此将Conv4_3层上的默认框相对于图片的最小尺寸由0.20减小为0.15. 对比方法包括SSD、YOLOv3、RefineDet[36]和FAENet. 其中YOLOv3和RefineDet分别通过增加默认框个数和进行特征融合的方式提高小目标检测精度,与FEDet相似. FAENet是专门针对小目标的单阶段检测算法. FEDet、SSD、FAENet输入的图片尺寸均为300×300, YOLOv3、RefineDet输入的图片尺寸均为320×320. 其中SSD、RefineDet、FAENet的实验结果由开源代码实验得到. 如表5所示为不同算法在COCO测试集上的检测精度. 表中,AP为当IoU∈(0.50,0.95)时的平均精度,AP50为当 IoU=0.50时的平均精度,AP75为当 IoU=0.75时的平均检测精度;APS为对目标面积不超过32×32的检测精度,即小目标检测;APM为对目标面积大于等于32×32和小于96×96的检测精度,即中目标检测;APL为对目标面积大于等于96×96的检测精度,即大目标检测. FEDet的AP=30.1%、AP50=50.0%、AP75=31.2%. FEDet的APS=13.3%,相比于SSD提高0.065,相比于YOLOv3,RefineDet和FAENet也有所提高. FEDet的APM=33.2%、APL=44.0%. 实验结果表明,FEDet在复杂场景下对小目标检测效果有提升. SSD与FEDet在COCO数据集上的检测效果对比如图11所示.

表 5   不同算法在COCO数据集上的实验结果

Tab.5  Experiment results of different algorithms on COCO dataset

算法 AP AP50 AP75 APS APM APL
%
SSD[7] 25.6 43.8 26.3 6.8 27.8 42.2
YOLOv3[35] 28.2 51.5 29.7 11.9 30.6 43.4
RefineDet[36] 29.4 49.2 31.3 10.0 32.0 44.4
FAENet[31] 28.3 47.9 29.7 10.5 30.9 41.9
FEDet 30.1 50.0 31.2 13.3 33.2 44.0

新窗口打开| 下载CSV


图 11

图 11   2种算法在COCO数据集上检测结果对比

Fig.11   Comparison of detection results of two algorithms on COCO datase


3.4. 消融实验

对Cov3_2,Conv3_3层和SCFE进行实验,以证明各个模块的有效性. 添加 Conv3_3和SCFE的目的是提升模型对小目标物体的检测效果. 使用PASCAL VOC2007测试集作为测试数据集,以mAP和小目标检测精度APS作为评价指标. 在PASCAL VOC2007测试集中,尺寸小于32×32或者小于原图尺寸的小目标物体有1 171个,其中bottle和plant类别在小目标物体中的占比较大. 消融实验结果如图12所示,添加Conv3_2层对APS与mAP略有提升, Conv3_3层不论是对mAP还是APS都有提升. 原因是Conv3_3层的抽象程度更高,语义信息更高级,更有利于模型区分小目标物体与背景. 在Conv3_3的基础上添加SCFE模块,模型的mAP比原SSD的提升0.007,小目标检测精度提升0.042,检测效果明显优于Conv3_2与SCFE的组合,说明Conv3_3层与SCFE的组合更有利于提升小目标检测效果. 对于SCFE模块与Conv3_2,Conv3_3组合的小目标检测效果分别提升0.018、0.027,说明SCFE有利于模型注重覆盖小目标的细节信息,显著提升小目标精度. 由此可见,提升Conv3_3层的抽象程度有利于提升小目标检测精度的,因此本研究选择将经过深层次特征融合后的Conv4_3与Conv3_3融合,再经过SCFE模块进行特征重标定,FEDet的小目标检测精度为28.5%. 对比SCFE与CBAM,虽然两者的mAP值相差不大,但CBAM的小目标检测精度为23.9%,低于SCFE. 原因是SCFE的空间模块由不同尺寸的卷积核组成,更注重不同尺寸的局部信息,与小目标更适配.

图 12

图 12   空间通道注意力特征增强模块的消融实验

Fig.12   Ablation experiment of spatial and channel attention feature enhancement  module


基于SSD添加FPN,并且利用2种方法改进FPN进行,提升模型mAP的同时提升小目标检测精度,2种方法的消融实验结果如图13所示. FPN作用在Conv4_3、Conv7、Conv8_2、Conv9_2、Conv10_2、Conv11_2层上,对SSD算法检测精度略有提升. 先利用RSCFE结构改进FPN,使得mAP提升0.006,APS提升0.011,说明RSCFE结构能够减少降维引起的信息损失;再利用Consistent Supervision(CS)[16]方法改进FPN,算法mAP=78.3%,APS=23.3%. 共同运用2种方法即DFPN,使得SSD算法mAP=78.7%,并且小目标检测精度提升显著. 该实验结果表明,RSCFE和CS能有效补助FPN缺陷,大幅提升检测精度.

图 13

图 13   深层次特征金字塔网络的消融实验

Fig.13   Ablation experiment of deep feature pyramid network


为了评估FEDet目标检测器不同模块的有效性,对DFPN、SCFE、DIoU-Pisa进行消融实验. 实验以SSD300为基础网络,精度为 77.2%,所有实验均在VOC2007测试集上测试. 实验结果如表6所示. SCFE模块作用在Conv3_3层,添加SCFE表示将Conv3_3 当作预测特征层. 由表可知,将DFPN作用在SSD上,其检测精度提升至78.7%;在SSD的样本训练中采用DIoU-Pisa策略,相对于原SSD,精度提升0.008;在SSD中添加SCFE模块,精度提升0.007,该模块主要针对小目标样本进行. DFPN、SCFE、DIoU-Pisa中DFPN对SSD提升最明显,其他2种模块次之. 3个模块共同使用时的精度为79.7%.

表 6   所提算法不同模块的平均精度均值

Tab.6  Average precision means of different modules of proposed algorithm

算法 mAP/%
DFPN 78.7
SCFE 77.9
DIoU-Pisa 78.0
DFPN+SCFE 79.2
DFPN+DIoU-Pisa 79.1
SCFE+DIoU-Pisa 78.9
DFPN+SCFE+DIoU-Pisa 79.7

新窗口打开| 下载CSV


3.5. SCFE与RSCFE不同结构实验

考虑利用空间与通道注意力增强Conv3_3层的检测能力,设计如下3种结构:单独添加空间注意力、单独添加通道注意力、添加空间与通道注意力. 将3种结构均作用于Conv3_3层,在VOC2007测试集上进行测试,以APS和mAP为评估指标,实验结果如表7所示. 单独添加空间或者通道注意力的mAP由 SSD的77.2%提升至77.7%,添加空间与通道注意力的mAP由 SSD的77.2%提升至77.9%,说明在2个维度上进行注意力匹配,最有利于目标检测. 原因是通道信息有利于分辨物体的类别,空间信息有利于确定物体的坐标位置. 从mAP的结果来看,先空间后通道的组合方式相较于其他方式的精度提升0.002. 先空间后通道的组合方式对小目标检测结果相较于其他组合方式(单独空间和单独通道)的有显著提升.

表 7   通道注意力与空间注意力不同结合方式的评估实验结果

Tab.7  Evaluation of Experimental results different combinations of channel attention and spatial attention

注意力模块 APS/% mAP/%
空间 23.8 77.7
通道 23.1 77.7
空间+通道 24.9 77.9

新窗口打开| 下载CSV


为了减少FPN信息损失. 设计了如图7所示的2种RSCFE结构. 1)在FPN的C2C3C4C7P2P3P4P7之间添加SCFE连接,称为RSCFE-a;2)在FPN的C2~C7与相对的P2~P7之间添加SCFE连接,称为RSCFE-b. 在VOC2007测试集上进行检测精度测试,结果如表8所示. 可以看出,2种结构的检测效果相同. 原因C5C6P5P6对应的通道数都是256,经过1×1卷积操作后,这2层的信息损失较小,且P5P6补充了来自顶层特征图的语义信息. RSCFE-a相对简洁且添加参数量较少,因此本研究选择RSCFE-a作为RSCFE结构.

表 8   不同模块连接结构的平均精度均值

Tab.8  Average accuracy means of different module connection structures

算法 mAP/(%)
SSD 77.2
SSD+FPN 77.5
RSCFE-a 78.1
RSCFE-b 78.1

新窗口打开| 下载CSV


4. 结 语

针对SSD检测器存在检测精度不高以及对小目标检测误差较大的问题,提出基于特征优化与深层次特征融合的目标检测器. 将空间通道注意力作用于SSD的Conv3_3层,提升小目标检测效果;利用残差空间通道信息增强和CS[16]改进FPN,并将改进的FPN作用于SSD预测特征层;由于添加大量的默认框,采用DIoU-Pisa策略,侧重对定位良好并且分类置信度高的样本的训练. 在PASCAL VOC2007测试集上的实验表明,FEDet的检测精度为79.7%,相对于SSD,提升0.025,检测速度为39帧/s. 在COCO数据集上FEDet的mAP比SSD提高0.045,对小目标物体检测效果比原SSD更优. FEDet是高精度且有利于小目标检测的实时检测算法,适用于高精度的实时检测应用场景,但FEDet还存在骨干网络VGG16的特征提取能力不足的问题. 在SCFE不同结合方式的消融实验中,先通道后空间结合方式的精度为77.5%,下一步计划着重研究不同注意力机制的结合效果,以获得更好的检测结果.

参考文献

李雅倩, 盖成远, 肖存军, 等

基于细化多尺度深度特征的目标检测网络

[J]. 电子学报, 2020, 48 (12): 2360- 2366

DOI:10.3969/j.issn.0372-2112.2020.12.011      [本文引用: 1]

LI Ya-qian, GAI Cheng-yuan, XIAO Cun-jun, et al

Object detection network based on refined multi-scale depth features

[J]. Acta Electronica Sinica, 2020, 48 (12): 2360- 2366

DOI:10.3969/j.issn.0372-2112.2020.12.011      [本文引用: 1]

郑浦, 白宏阳, 李伟, 等

复杂背景下的小目标检测算法

[J]. 浙江大学学报:工学版, 2020, 54 (9): 1777- 1784

[本文引用: 1]

ZHENG Pu, BAI Hong-yang, LI Wei, et al

Small target detection algorithm in complex background

[J]. Journal of Zhejiang University: Engineering Science, 2020, 54 (9): 1777- 1784

[本文引用: 1]

GIRSHICK R, DONAHUE J, DARRELL T, et al. Rich feature hierarchies for accurate object detection and semantic segmentation [C]// 2014 IEEE Conference on Computer Vison and Pattern Recognition. Columbus: IEEE, 2014: 580-587.

[本文引用: 1]

GIRSHICK R. Fast R-CNN [C]// 2015 IEEE International Conference on Computer Vison. Santiago: IEEE, 2015: 1440-1448.

[本文引用: 1]

REN S, HE K

GIRSHICK R, et al. Faster R-CNN: towards real-time object detection with region proposal networks

[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2017, 39 (6): 1137- 1149

DOI:10.1109/TPAMI.2016.2577031      [本文引用: 3]

CAI Z W, VASCONCELOS N. Cascade R-CNN: delving into high quality object detection [C]// 2018 IEEE/CVF Conference on Computer Vison and Pattern Recognition. Salt Lake City: IEEE, 2018: 2603-2611.

[本文引用: 1]

LIU W, ANGUELOV D, ERHAN D, et al. SSD: single shot multibox detector [C]// European Conference on Computer Vision. [S. l. ]: Springer, 2016: 21-37.

[本文引用: 4]

REDMON J, DIVVALA S, GIRSHICK R, et al. You only look once: unified, real-time object detection [C]// 2016 IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas: IEEE, 2016: 779-788.

[本文引用: 1]

REDMON J, FARHADI A. YOLO9000: better, faster, stronger [C]// 2017 IEEE Conference on Computer Vision and Pattern Recognition. Honolulu: IEEE, 2017: 6517-6525.

[本文引用: 1]

REDMON J, FARHADI A. Yolov3: an incremental improvement. [EB/OL]. [2021-12-30]. https://arxiv.org/pdf/1804.02767.pdf.

[本文引用: 1]

LIN T Y, DOLLÁR P, GIRSHICK R, et al. Feature pyramid networks for object detection [C]// 2017 IEEE Conference on Computer Vison and Pattern Recognition. Honolulu: IEEE, 2017: 963-944.

[本文引用: 1]

LI Z X, ZHOU F Q. FSSD: feature fusion single shot multibox detector [EB/OL]. [2021-12-30]. https://arxiv.org/pdf/1712. 00960.pdf.

[本文引用: 2]

LIN T Y, GOYAL P, GIRSHICK R, et al. Focal loss for dense object detection [C]// 2017 IEEE International Conference on Computer Vison. Venice: IEEE, 2017: 2999-3007.

[本文引用: 3]

裴伟, 许晏铭, 朱永英, 等

改进的SSD航拍目标检测方法

[J]. 软件学报, 2019, 30 (3): 738- 758

DOI:10.13328/j.cnki.jos.005695      [本文引用: 1]

PEI Wei, XU Yan-ming, ZHU Yong-ying, et al

The target detection method of aerial photography images with improved SSD

[J]. Journal of Software, 2019, 30 (3): 738- 758

DOI:10.13328/j.cnki.jos.005695      [本文引用: 1]

TAN M, PANG R, LE Q V. EfficientDet: scalable and efficient object detection [C]// 2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Seattle: IEEE, 2020: 10778-10787.

[本文引用: 1]

GUO C, FAN B, ZHANG Q, et al. AugFPN: improving multi-scale feature learning for object detection [C]// 2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Seattle: IEEE, 2020: 12592-12601.

[本文引用: 4]

ZHENG Z, WANG P, LIU W, et al. Distance-IoU loss: faster and better learning for bounding box regression. [C]// AAAI Conference on Artificial Intelligence. NewYork: AAAI, 2020: 12993–13000.

[本文引用: 1]

SIMON Y K, ZISSERMAN A. Very deep convolutional networks for large-scale image recognition [EB/OL]. [2021-12-30]. https://arxiv.org/pdf/1409.1556.pdf.

[本文引用: 1]

陈科圻, 朱志亮, 邓小明, 等

多尺度目标检测的深度学习研究综述

[J]. 软件学报, 2021, 32 (4): 1201- 1227

DOI:10.13328/j.cnki.jos.006166      [本文引用: 3]

CHEN Ke-qi, ZHU Zhi-liang, DENG Xiao-ming, et al

Deep learning for multi-scale object detection: a survey

[J]. Journal of Software, 2021, 32 (4): 1201- 1227

DOI:10.13328/j.cnki.jos.006166      [本文引用: 3]

WANG K, LIEW J H, ZOU Y, et al. PANet: few-shot image semantic segmentation with prototype alignment [C]// 2019 IEEE/CVF International Conference on Computer Vision. Seoul: IEEE, 2019: 9197-9206.

[本文引用: 1]

GHIASI G, LIN T Y, LE Q V. NAS-FPN: learning scalable feature pyramid architecture for object detection [C]// 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Long Beach: IEEE, 2019: 7036-7045.

[本文引用: 1]

ZHANG Q, BAO X, WU B, et al

Water meter pointer reading recognition method based on target-key point detection

[J]. Flow Measurement and Instrumentation, 2021, 81: 102012

DOI:10.1016/j.flowmeasinst.2021.102012      [本文引用: 1]

HE J, SHEN L, ALBANIE S, et al

Squeeze-and-excitation networks

[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2020, 42 (8): 2011- 2023

DOI:10.1109/TPAMI.2019.2913372      [本文引用: 1]

WOO S, PARK J, LEE J Y, et al. CBAM: convolutional block attention module [C]// European Conference on Computer Vision. [S. l.]: Springer, 2018: 3-19.

[本文引用: 1]

ZHANG H, ZU K, LU J, et al. EPSANet: an efficient pyramid split attention block on convolutional neural network. [EB/OL]. [2021-12-30]. https://arxiv.org/pdf/ 2105.14447.pdf.

[本文引用: 1]

LIU W, RABINOVICH A, BERG A C. ParseNet: looking wider to see better. [EB/OL]. [2021-12-30]. https://arxiv.org/pdf/1506.04579.pdf.

[本文引用: 1]

刘颖, 刘红燕, 范九伦, 等

基于深度学习的小目标检测研究与应用综述

[J]. 电子学报, 2020, 48 (3): 590- 601

DOI:10.3969/j.issn.0372-2112.2020.03.024      [本文引用: 1]

LIU Ying, LIU Hong-yan, FAN Jiu-lun, et al

A Survey of research and application of small object detection based on deep learning

[J]. Acta Electronica Sinica, 2020, 48 (3): 590- 601

DOI:10.3969/j.issn.0372-2112.2020.03.024      [本文引用: 1]

QIN Z, LI Z, ZHANG Z, et al. ThunderNet: towards real-time generic object detection on mobile devices [C]// 2019 IEEE/CVF International Conference on Computer Vision. Seoul: IEEE, 2019: 6718-6727.

[本文引用: 1]

CAO Y, CHEN K, LOY C C, et al. Prime sample attention in object detection [C]// 2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Seattle: IEEE, 2020: 11583-11591.

[本文引用: 1]

ZHOU P, NI B, GENG C, et al. Scale-transferrable object detection [C]// 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Salt Lake City: IEEE, 2018: 528-537.

[本文引用: 3]

LI W, LIU G. A single-shot object detector with feature aggregation and enhancement [C]// 2019 IEEE International Conference on Image Processing. [S.l.]: IEEE, 2019: 3910-3914.

[本文引用: 4]

TIAN Z, SHEN C, CHEN H, et al. FCOS: fully convolutional one-stage object detection [C]// 2019 IEEE/CVF International Conference on Computer Vision. Seoul: IEEE, 2019: 9627-9636.

[本文引用: 2]

ZHANG S, CHI C, YAO Y, et al. Bridging the gap between anchor-based and anchor-free detection via adaptive training sample selection [C]// 2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Seattle: IEEE, 2020: 9759-9768.

[本文引用: 2]

田秀霞, 李华强, 张琴, 等

基于双通道R-FCN的图像篡改检测模型

[J]. 计算机学报, 2021, 44 (2): 370- 383

DOI:10.11897/SP.J.1016.2021.00370      [本文引用: 1]

TIAN Xiu-xia, LI Hua-qiang, ZHANG Qin, et al

Dual-channel R-FCN model for image forgery detection

[J]. Chinese Journal of Computers, 2021, 44 (2): 370- 383

DOI:10.11897/SP.J.1016.2021.00370      [本文引用: 1]

BOCHKOVSKIY A, WANG C Y, LIAO H Y M, et al. YOLOv4: optimal speed and accuracy of object detection. [EB/OL]. [2021-12-30]. https://arxiv.org/pdf/2004.10934.pdf.

[本文引用: 3]

ZHANG S, WEN L, BIAN X, et al. Single-shot refinement neural network for object detection [C]// 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Salt Lake City: IEEE, 2018: 4203-4212.

[本文引用: 2]

/