(7) $ \left. \begin{array}{l} p_{1x}^{''} = {\rm{min}} \;\left( {p_{1x}',p_{2x}',p_{3x}',p_{4x}'} \right), \\ p_{3x}^{''} = {\rm{max}} \;\left( {p_{1x}',p_{2x}',p_{3x}',p_{4x}'} \right), \\ p_{1y}^{''} = {\rm{min}} \;\left( {p_{1y}',p_{2y}',p_{3y}',p_{4y}'} \right), \\ p_{3y}^{''} = {\rm{max}} \;\left( {p_{1y}',p_{2y}',p_{3y}',p_{4y}'} \right). \end{array} \right\} $
[1]
LIU S T, HUANG D, WANG Y H. Receptive field block net for accurate and fast object detection [C] // European Conference on Computer Vision . Munich: Springer, 2018: 404-418.
[本文引用: 4]
[2]
LIU W, ANGUELOV D, ERHAN D, et al. SSD: single shot multibox detector [C] // European Conference on Computer Vision . Amsterdam: Springer, 2016: 21-37.
[本文引用: 3]
[3]
LUO W J, LI Y J, URTASUN R, et al. Understanding the effective receptive field in deep convolutional neural networks [C] // Neural Information Processing Systems . Barcelona: [s. n.], 2016: 4898-4906.
[本文引用: 3]
[4]
LIN T Y, DOLLAR P, GIRSHICK R, et al. Feature pyramid networks for object detection [C] // Computer Vision and Pattern Recognition . Honolulu: IEEE, 2017: 936-944.
[本文引用: 1]
[5]
JEONG J, PARK H, KWAK N. Enhancement of SSD by concatenating feature maps for object detection [EB/OL]. (2017-05-26)[2019-02-26]. https://arxiv.xilesou.top/abs/1705.09587.
[本文引用: 2]
[6]
LI Z X, ZHOU F Q. FSSD: feature fusion single shot multibox detector [EB/OL]. (2018-05-17)[2019-02-26]. https://arxiv.org/abs/1712.00960.
[本文引用: 3]
[7]
SHELHAMER E, LONG J, DARRELL T Fully convolutional networks for semantic segmentation
[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence , 2015 , 39 (4 ): 640 - 651
[本文引用: 2]
[8]
BADRINARAYANAN V, KENDALL A, CIPOLLA R Segnet: a deep convolutional encoder-decoder architecture for image segmentation
[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence , 2017 , 39 (12 ): 2481 - 2495
DOI:10.1109/TPAMI.2016.2644615
[本文引用: 1]
[9]
ZHAO H S, SHI J P, QI X J, et al. Pyramid scene parsing network [C] // Computer Vision and Pattern Recognition . Honolulu: IEEE, 2017: 6230-6239.
[本文引用: 2]
[10]
CHEN L C, PAPANDREOU G, KOKKINOS I, et al DeepLab: semantic image segmentation with deep convolutional nets, atrous convolution, and fully connected crfs
[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence , 2017 , 40 (4 ): 834 - 848
[本文引用: 1]
[11]
CHEN L C, PAPANDREOU G, SCHROFF F, et al. Rethinking atrous convolution for semantic image segmentation [EB/OL]. (2017-12-25)[2019-02-26]. https://arxiv.org/abs/1706.05587.
[本文引用: 3]
[12]
FU C, LIU W, RANGA A, et al. DSSD: deconvolutional single shot detector [EB/OL]. (2017-01-23)[2019-02-26]. https://arxiv.org/abs/1701.06659.
[本文引用: 5]
[13]
WANDELL B A, WINAWER J Computational neuroimaging and population receptive fields
[J]. Trends in Cognitive Sciences , 2015 , 19 (6 ): 349 - 357
DOI:10.1016/j.tics.2015.03.009
[本文引用: 1]
[14]
REDMON J, FARHADI A. Farhadi. YOLO9000: better, faster, stronger [C] // Computer Vision and Pattern Recognition . Honolulu: IEEE, 2017: 7263-7271.
[本文引用: 3]
[15]
REDMON J, FARHADI A. YOLOv3: an incremental improvement [EB/OL]. (2018-04-08)[2019-02-26]. https://arxiv.org/abs/1804.02767.
[本文引用: 1]
[16]
HE K M, ZHANG X Y, REN S Q, et al. Delving deep into rectifiers: surpassing human-level performance on imagenet classification [C] // International Conference on Computer Vision . Santiago: IEEE, 2015: 1026-1034.
[本文引用: 1]
[17]
EVERINGHAM M, GOOL L V, WILLIAMS C K I, et al The pascal visual object classes (VOC) challenge
[J]. International Journal of Computer Vision , 2010 , 88 (2 ): 303 - 338
DOI:10.1007/s11263-009-0275-4
[本文引用: 1]
[18]
HUANG J, RATHOD V, SUN C, M, et al. Speed/accuracy trade-offs for modern convolutional object detectors [C] // Computer Vision and Pattern Recognition . Honolulu: IEEE, 2017: 3296-3297.
[本文引用: 1]
[19]
REN S Q, HE K M, GIRSHICK R, et al Faster R-CNN: towards real-time object detection with region proposal networks
[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence , 2017 , 39 (6 ): 1137 - 1149
DOI:10.1109/TPAMI.2016.2577031
[本文引用: 2]
[20]
BELL S, ZITNICK C L, BALA K, et al. Inside-outside net: detecting objects in context with skip pooling and recurrent neural networks [C] // Computer Vision and Pattern Recognition . Las Vegas: IEEE, 2016: 2874-2883.
[本文引用: 2]
[21]
DAI J F, LI Y, HE K M, et al. R-FCN: object detection via region-based fully convolutional networks [C] // Neural Information Processing Systems . Barcelona: [s. n.], 2016: 379-387.
[本文引用: 2]
[22]
ZHU Y S, ZHAO C Y, WANG J Q, et al. CoupleNet: coupling global structure with local parts for object detection [C] // International Conference on Computer Vision . Venice: IEEE, 2017: 4146-4154.
[本文引用: 1]
[23]
SHEN Z Q, LIU Z, LI J G, et al. DSOD: learning deeply supervised object detectors from scratch [C] // International Conference on Computer Vision . Venice: IEEE, 2017: 1937-1945.
[本文引用: 1]
[24]
ZHANG S F, WEN L Y, BIAN X, et al. Single-shot refinement neural network for object detection [C] // Computer Vision and Pattern Recognition . Salt Lake City: IEEE, 2018: 4203-4212.
[本文引用: 2]
4
... 本文基于有效感受野、语义分割和高性能目标检测网络RFB Net[1 ] ,提出强化上下文模型. 通过双空洞卷积结构强化上下文信息形成强化上下文模块(enhanced context module, ECM),来缓解网络浅层缺乏足够上下文信息导致检测精度不高的问题,同时相比特征融合方式,强化上下文模块方式更为灵活,对SSD[2 ] 等网络结构的破坏性较小. ...
... 如图1(c) 所示为强化上下文模块ECM,以文献[1 ]中的感受野模块(receptive field block,RFB)模型为基础,调整分支数目和各分支各层特征图通道数,并利用空洞卷积代替1个 $5 \times 5$ 或2个堆叠的 $3 \times 3$ 卷积,形成双空洞卷积结构,丢弃 $1 \times 3$ 和 $3 \times 1$ 卷积分支,全采用单条 $3 \times 3$ 卷积分支(前者虽然减少了卷积核参数,但增多了分支数). 双空洞卷积结构如图2(a) 所示,其中采样率 ${{b}} > a$ ,用于模拟文献[13 ]中人眼视觉系统中的群感受野机制,第一个空洞卷积模拟群感受野大小,第二个空洞卷积模拟视网膜图中的偏心率. 相比RFB中的模拟分支,双空洞卷积结构不仅能减少参数量,还能形成更大的有效感受野来强化上下文信息(若结构中 $s = c$ 忽略不写,则表示该层卷积默认采用 $c = 1$ 的步长). 双空洞卷积结构中的采样率以理论感受野计算公式为指导(见式(5)),在模拟群感受野的基础上以等间隔密集采样为原则进行设置: ...
... Parameters of each network and mean average precision on VOC2007 test set
Tab.4 方法 $\varPsi $ /106 $\varPhi $ /% 注:1)均值平均精度80.50%为文献[1 ]中所给的结果,自测结果只有80.42%,详见表6 倒数第二行; ${\rm{ECMNe}}{{\rm{t}}_{{\rm{no}} \,{\rm{rotation}}}}300$ 表示不含小角度旋转变换. ${\rm{SSD}}{300^{\rm{*}}}$ ~26.29 77.51 ${\rm{RFB}}\,{\rm{Net300}}$ ~34.19 80.501 ${\rm{ECMNe}}{{\rm{t}}_{{\rm{no}} \,{\rm{rotation}}}}300$ ~30.33 80.29 ${\rm{ECMNet}}300$ ~30.33 80.52
3.1.3. 小角度旋转变换 对小角度旋转变换数据增强进行初步实验,在训练策略相同的情况下,测试结果如表3 所示. 对于不含 $5 \times 5$ 独立模块的ECMNet,小角度旋转变换均值平均精度提升了0.13%;对于含 $5 \times 5$ 独立模块的ECMNet,均值平均精度提升了0.23%. 加入小角度旋转变换数据增强,能够提升网络对小角度旋转变换的鲁棒性,配合强化上下文模块ECM,进一步带来性能上的增益. ...
... Detection results of each object detector on VOC2007 test set
Tab.5 方法 骨干网络 框架 GPU 锚框数目 输入大小 v /(帧·s−1 ) $\varPhi $ /% 注:1)网络模型的官方版本使用Caffe实现,且硬件和环境配置与本文不同,为了公平比较检测速度,使用PyTorch重新实现SSD和FSSD模型,并在相同环境下进行测试;2)网络模型的硬件和环境配置也与本文不同,同样在相同环境下进行测试. Faster R-CNN[19 ] VGG16 Caffe K40 300 ~1 000×600 5.0 73.17 ION[20 ] VGG16 Caffe Titan X 3 000 ~1 000×600 1.3 75.55 R-FCN[21 ] ResNet-101 Caffe K40 300 ~1 000×600 5.9 79.51 CoupleNet[22 ] ResNet-101 Caffe Titan X 300 ~1 000×600 9.8 81.70 YOLOv2[14 ] Darknet-19 darknet Titan X − 352×352 81.0 73.70 YOLOv2[14 ] Darknet-19 darknet Titan X − 544×544 40.0 78.60 ${\rm{SSD}}{300^{\rm{*}}}$ [12 ] VGG16 Caffe Titan X 8 732 300×300 46.0 77.51 ${\rm{SSD}}{300^{1)}}$ VGG16 PyTorch 1080Ti 8 732 300×300 95.3 77.51 DSOD300[23 ] DS/64-192-48-1 Caffe Titan X 8 732 300×300 17.4 77.66 DSSD321[12 ] ResNet-101 Caffe Titan X 17 080 321×321 9.5 78.63 R-SSD300[5 ] VGG16 Caffe Titan X 8 732 300×300 35.0 78.50 FSSD300[6 ] VGG16 Caffe 1080Ti 11 570 300×300 65.8 78.77 ${\rm{FSSD}}300$ 1) VGG16 PyTorch 1080Ti 11 570 300×300 85.7 78.77 RefineDet320[24 ] VGG16 Caffe Titan X 6 375 320×320 40.3 79.97 RFB Net300[1 ] VGG16 PyTorch Titan X 11 620 300×300 83.0 80.50 ${\rm{RFB}}\,{\rm{Net30}}{\rm{0}}$ 2) VGG16 PyTorch 1080Ti 11 620 300×300 70.0 80.42 ECMNet300 VGG16 PyTorch 1080Ti 11 620 300×300 73.5 80.52
PASCAL VOC2007测试集上的完整结果如表6 所示. 可知,ECMNet在多个类别上达到最优平均精度,尤其是在小目标类别bottle上,将 ${\rm{SSD}}{300^{\rm{*}}}$ 的检测平均精度提升了11.3个百分点. ECMNet在另一小目标类别plant上也达到较高平均精度,比大部分一阶段网络检测结果都要好. ...
3
... 本文基于有效感受野、语义分割和高性能目标检测网络RFB Net[1 ] ,提出强化上下文模型. 通过双空洞卷积结构强化上下文信息形成强化上下文模块(enhanced context module, ECM),来缓解网络浅层缺乏足够上下文信息导致检测精度不高的问题,同时相比特征融合方式,强化上下文模块方式更为灵活,对SSD[2 ] 等网络结构的破坏性较小. ...
... 为了实现多尺度检测,目标检测方法,如SSD及其改进版本等[2 -7 ] ,都采用多层预测层进行检测,其中浅层预测层检测小目标,深层预测层检测大目标. 多层预测层方法中的浅层,由于缺乏足够的上下文信息,检测效果较差,特别是对于小目标,使得整体检测效果受到影响. ...
... 训练过程均在NVIDIA GeForce GTX 1080Ti上进行,基于PyTorch实现训练和测试. 训练遵循SSD,使用相同的匹配策略、训练目标、难分样本挖掘和默认框尺度及宽高比,详见文献[2 ]. 默认框单位数目有所不同,将SSD中的 $[4,6,6,6,4,4]$ 改为 $[6,6,6,6,4,4]$ ;数据增强策略稍有变化,除SSD所使用的数据增强方法外,加入小角度旋转变换(旋转角度范围为 $-{3^ \circ }\sim {3^ \circ }$ ). 这是首次将旋转变换引入到一阶段目标检测网络中. 如图4(c) 所示,小角度旋转变换公式如下(旋转后图像上留出的空白区域先用训练集上所有图像统计出的RGB均值进行填充,然后在缩放到统一输入图像大小的过程中图像上每一像素点都减去上述RGB均值): ...
3
... Luo等[3 ] 提出有效感受野,表征理论感受野中对神经元具有不可忽略影响的像素点区域. 有效感受野的大小可以粗略表示上下文信息的丰富程度,无论是目标分类、语义分割还是目标检测,都需要足够的上下文信息来减少错分的可能性. ...
... 根据文献[3 ],利用PyTorch的反向传播计算预测层输出中心点对应的有效感受野如图5 所示(所有网络的输入相同),其中第一行对应于 $19 \times 19$ 分辨率预测层,第二行对应于 $38 \times 38$ 分辨率预测层. 从图5(a) 、(b) 、(e) 中可以看出,ECM的有效感受野最大,而有效感受野的大小可以粗略表示上下文信息的丰富程度,即ECM中的双空洞卷积结构在强化上下文方面最优. 但从表4 中也可以看出,相比RFB Net,ECMNet在均值平均精度上提升不大,主要原因也是受限于有效感受野. 从图5(b) 、(e) 中可以看出,虽然ECM的双空洞卷积结构带来了更大的有效感受野,但有效感受野强度主要集中在中心一小块区域(与RFB Net类似),其他区域强度较小(强度越大表明该区域对当前神经元有着更大的影响). 根据文献[3 ]的结论,有效感受野大致呈高斯分布,通常会从中心快速衰减,要得到更大的大强度区域,势必要堆叠更多卷积层或增大卷积核实际有效的权重数量(即扩大普通卷积核大小,如用 $5 \times 5$ 、 $7 \times 7$ 甚至更大的卷积核),但这会引入很大的参数量,增加训练难度,同时影响模型速度. ...
... 中可以看出,虽然ECM的双空洞卷积结构带来了更大的有效感受野,但有效感受野强度主要集中在中心一小块区域(与RFB Net类似),其他区域强度较小(强度越大表明该区域对当前神经元有着更大的影响). 根据文献[3 ]的结论,有效感受野大致呈高斯分布,通常会从中心快速衰减,要得到更大的大强度区域,势必要堆叠更多卷积层或增大卷积核实际有效的权重数量(即扩大普通卷积核大小,如用 $5 \times 5$ 、 $7 \times 7$ 甚至更大的卷积核),但这会引入很大的参数量,增加训练难度,同时影响模型速度. ...
1
... 部分两阶段方法,如FPN[4 ] 等,采用多尺度特征融合方法来强化上下文信息. 近期的部分一阶段方法同样采用特征融合方式来增加上下文信息:R-SSD利用彩虹连接方式来强化上下文信息,提高小目标的检测精度,但特征融合效率低[5 ] ;FSSD采用先融合各层,再不断下采样的方式来进行检测,提升了精度和效率,但中间层上下文信息有所损失[6 ] . ...
2
... 部分两阶段方法,如FPN[4 ] 等,采用多尺度特征融合方法来强化上下文信息. 近期的部分一阶段方法同样采用特征融合方式来增加上下文信息:R-SSD利用彩虹连接方式来强化上下文信息,提高小目标的检测精度,但特征融合效率低[5 ] ;FSSD采用先融合各层,再不断下采样的方式来进行检测,提升了精度和效率,但中间层上下文信息有所损失[6 ] . ...
... Detection results of each object detector on VOC2007 test set
Tab.5 方法 骨干网络 框架 GPU 锚框数目 输入大小 v /(帧·s−1 ) $\varPhi $ /% 注:1)网络模型的官方版本使用Caffe实现,且硬件和环境配置与本文不同,为了公平比较检测速度,使用PyTorch重新实现SSD和FSSD模型,并在相同环境下进行测试;2)网络模型的硬件和环境配置也与本文不同,同样在相同环境下进行测试. Faster R-CNN[19 ] VGG16 Caffe K40 300 ~1 000×600 5.0 73.17 ION[20 ] VGG16 Caffe Titan X 3 000 ~1 000×600 1.3 75.55 R-FCN[21 ] ResNet-101 Caffe K40 300 ~1 000×600 5.9 79.51 CoupleNet[22 ] ResNet-101 Caffe Titan X 300 ~1 000×600 9.8 81.70 YOLOv2[14 ] Darknet-19 darknet Titan X − 352×352 81.0 73.70 YOLOv2[14 ] Darknet-19 darknet Titan X − 544×544 40.0 78.60 ${\rm{SSD}}{300^{\rm{*}}}$ [12 ] VGG16 Caffe Titan X 8 732 300×300 46.0 77.51 ${\rm{SSD}}{300^{1)}}$ VGG16 PyTorch 1080Ti 8 732 300×300 95.3 77.51 DSOD300[23 ] DS/64-192-48-1 Caffe Titan X 8 732 300×300 17.4 77.66 DSSD321[12 ] ResNet-101 Caffe Titan X 17 080 321×321 9.5 78.63 R-SSD300[5 ] VGG16 Caffe Titan X 8 732 300×300 35.0 78.50 FSSD300[6 ] VGG16 Caffe 1080Ti 11 570 300×300 65.8 78.77 ${\rm{FSSD}}300$ 1) VGG16 PyTorch 1080Ti 11 570 300×300 85.7 78.77 RefineDet320[24 ] VGG16 Caffe Titan X 6 375 320×320 40.3 79.97 RFB Net300[1 ] VGG16 PyTorch Titan X 11 620 300×300 83.0 80.50 ${\rm{RFB}}\,{\rm{Net30}}{\rm{0}}$ 2) VGG16 PyTorch 1080Ti 11 620 300×300 70.0 80.42 ECMNet300 VGG16 PyTorch 1080Ti 11 620 300×300 73.5 80.52
PASCAL VOC2007测试集上的完整结果如表6 所示. 可知,ECMNet在多个类别上达到最优平均精度,尤其是在小目标类别bottle上,将 ${\rm{SSD}}{300^{\rm{*}}}$ 的检测平均精度提升了11.3个百分点. ECMNet在另一小目标类别plant上也达到较高平均精度,比大部分一阶段网络检测结果都要好. ...
3
... 部分两阶段方法,如FPN[4 ] 等,采用多尺度特征融合方法来强化上下文信息. 近期的部分一阶段方法同样采用特征融合方式来增加上下文信息:R-SSD利用彩虹连接方式来强化上下文信息,提高小目标的检测精度,但特征融合效率低[5 ] ;FSSD采用先融合各层,再不断下采样的方式来进行检测,提升了精度和效率,但中间层上下文信息有所损失[6 ] . ...
... 由于骨干网络(如:VGG16等)自身结构上的特点,独立模块比特征融合方式更为灵活,且文献[6 ]已对特征融合模型进行了详细研究,本文不再对特征融合方式进行赘述,主要针对独立模块进行相关研究. ...
... Detection results of each object detector on VOC2007 test set
Tab.5 方法 骨干网络 框架 GPU 锚框数目 输入大小 v /(帧·s−1 ) $\varPhi $ /% 注:1)网络模型的官方版本使用Caffe实现,且硬件和环境配置与本文不同,为了公平比较检测速度,使用PyTorch重新实现SSD和FSSD模型,并在相同环境下进行测试;2)网络模型的硬件和环境配置也与本文不同,同样在相同环境下进行测试. Faster R-CNN[19 ] VGG16 Caffe K40 300 ~1 000×600 5.0 73.17 ION[20 ] VGG16 Caffe Titan X 3 000 ~1 000×600 1.3 75.55 R-FCN[21 ] ResNet-101 Caffe K40 300 ~1 000×600 5.9 79.51 CoupleNet[22 ] ResNet-101 Caffe Titan X 300 ~1 000×600 9.8 81.70 YOLOv2[14 ] Darknet-19 darknet Titan X − 352×352 81.0 73.70 YOLOv2[14 ] Darknet-19 darknet Titan X − 544×544 40.0 78.60 ${\rm{SSD}}{300^{\rm{*}}}$ [12 ] VGG16 Caffe Titan X 8 732 300×300 46.0 77.51 ${\rm{SSD}}{300^{1)}}$ VGG16 PyTorch 1080Ti 8 732 300×300 95.3 77.51 DSOD300[23 ] DS/64-192-48-1 Caffe Titan X 8 732 300×300 17.4 77.66 DSSD321[12 ] ResNet-101 Caffe Titan X 17 080 321×321 9.5 78.63 R-SSD300[5 ] VGG16 Caffe Titan X 8 732 300×300 35.0 78.50 FSSD300[6 ] VGG16 Caffe 1080Ti 11 570 300×300 65.8 78.77 ${\rm{FSSD}}300$ 1) VGG16 PyTorch 1080Ti 11 570 300×300 85.7 78.77 RefineDet320[24 ] VGG16 Caffe Titan X 6 375 320×320 40.3 79.97 RFB Net300[1 ] VGG16 PyTorch Titan X 11 620 300×300 83.0 80.50 ${\rm{RFB}}\,{\rm{Net30}}{\rm{0}}$ 2) VGG16 PyTorch 1080Ti 11 620 300×300 70.0 80.42 ECMNet300 VGG16 PyTorch 1080Ti 11 620 300×300 73.5 80.52
PASCAL VOC2007测试集上的完整结果如表6 所示. 可知,ECMNet在多个类别上达到最优平均精度,尤其是在小目标类别bottle上,将 ${\rm{SSD}}{300^{\rm{*}}}$ 的检测平均精度提升了11.3个百分点. ECMNet在另一小目标类别plant上也达到较高平均精度,比大部分一阶段网络检测结果都要好. ...
Fully convolutional networks for semantic segmentation
2
2015
... 为了实现多尺度检测,目标检测方法,如SSD及其改进版本等[2 -7 ] ,都采用多层预测层进行检测,其中浅层预测层检测小目标,深层预测层检测大目标. 多层预测层方法中的浅层,由于缺乏足够的上下文信息,检测效果较差,特别是对于小目标,使得整体检测效果受到影响. ...
... 在语义分割领域,逐像素分类对上下文信息的利用程度要求很高. FCN采用反卷积获取更多上下文信息[7 ] ;SegNet采用最大池化索引上采样和将可训练解码器与滤波器组合的方式来注入更多上下文信息[8 ] ;PSPNet采用金字塔池化来开拓全局上下文信息[9 ] ;DeeplLab v2/3采用空洞空间金字塔池化捕获多尺度上下文信息[10 -11 ] . 上述部分方法也被借鉴运用于目标检测领域,如DSSD[12 ] ,利用反卷积获取更多的上下文信息,显著提高精度,但速度上牺牲很多. ...
Segnet: a deep convolutional encoder-decoder architecture for image segmentation
1
2017
... 在语义分割领域,逐像素分类对上下文信息的利用程度要求很高. FCN采用反卷积获取更多上下文信息[7 ] ;SegNet采用最大池化索引上采样和将可训练解码器与滤波器组合的方式来注入更多上下文信息[8 ] ;PSPNet采用金字塔池化来开拓全局上下文信息[9 ] ;DeeplLab v2/3采用空洞空间金字塔池化捕获多尺度上下文信息[10 -11 ] . 上述部分方法也被借鉴运用于目标检测领域,如DSSD[12 ] ,利用反卷积获取更多的上下文信息,显著提高精度,但速度上牺牲很多. ...
2
... 在语义分割领域,逐像素分类对上下文信息的利用程度要求很高. FCN采用反卷积获取更多上下文信息[7 ] ;SegNet采用最大池化索引上采样和将可训练解码器与滤波器组合的方式来注入更多上下文信息[8 ] ;PSPNet采用金字塔池化来开拓全局上下文信息[9 ] ;DeeplLab v2/3采用空洞空间金字塔池化捕获多尺度上下文信息[10 -11 ] . 上述部分方法也被借鉴运用于目标检测领域,如DSSD[12 ] ,利用反卷积获取更多的上下文信息,显著提高精度,但速度上牺牲很多. ...
... 如图1(a) 所示为金字塔池化模块(pyramid pooling module,PPM). 图中,Ap为平均池化;Upsample表示双线性上采样;圆圈中的’+’表示逐元素相加,下同. 以文献[9 ]中的金字塔池化为基础,在每条分支前加入 $1 \times 1$ 卷积进行降维(每条分支的特征图通道数降到输入特征图通道数的 $1/4$ 或 $1/8$ ),去掉跳过连接(skip connection),加入ResNet中的快捷连接(shortcut connection)(快捷连接有助于独立模块训练,避免退化问题),并对每条分支输出特征图大小按预测层特征图大小进行修正,以适合预测网络,整体类似于金字塔结构,有助于形成多尺度上下文信息. ...
DeepLab: semantic image segmentation with deep convolutional nets, atrous convolution, and fully connected crfs
1
2017
... 在语义分割领域,逐像素分类对上下文信息的利用程度要求很高. FCN采用反卷积获取更多上下文信息[7 ] ;SegNet采用最大池化索引上采样和将可训练解码器与滤波器组合的方式来注入更多上下文信息[8 ] ;PSPNet采用金字塔池化来开拓全局上下文信息[9 ] ;DeeplLab v2/3采用空洞空间金字塔池化捕获多尺度上下文信息[10 -11 ] . 上述部分方法也被借鉴运用于目标检测领域,如DSSD[12 ] ,利用反卷积获取更多的上下文信息,显著提高精度,但速度上牺牲很多. ...
3
... 在语义分割领域,逐像素分类对上下文信息的利用程度要求很高. FCN采用反卷积获取更多上下文信息[7 ] ;SegNet采用最大池化索引上采样和将可训练解码器与滤波器组合的方式来注入更多上下文信息[8 ] ;PSPNet采用金字塔池化来开拓全局上下文信息[9 ] ;DeeplLab v2/3采用空洞空间金字塔池化捕获多尺度上下文信息[10 -11 ] . 上述部分方法也被借鉴运用于目标检测领域,如DSSD[12 ] ,利用反卷积获取更多的上下文信息,显著提高精度,但速度上牺牲很多. ...
... 如图1(b) 所示为空洞空间金字塔池化模块(atrous spatial pyramid pooling module,ASPPM). 在文献[11 ]的空洞空间金字塔池化基础上,在每条分支前加入 $1 \times 1$ 卷积进行降维,调整分支数目和分支空洞卷积采样率r (分支空洞卷积采样率以不超过输入特征图分辨率为原则,并按文献[11 ]中的等比数列形式进行设置,来捕获多尺度上下文信息,空洞卷积采样率过大会导致卷积核有效权重数量退化;分支数目根据空洞卷积采样率数目进行设置),并加入快捷连接. ...
... (分支空洞卷积采样率以不超过输入特征图分辨率为原则,并按文献[11 ]中的等比数列形式进行设置,来捕获多尺度上下文信息,空洞卷积采样率过大会导致卷积核有效权重数量退化;分支数目根据空洞卷积采样率数目进行设置),并加入快捷连接. ...
5
... 在语义分割领域,逐像素分类对上下文信息的利用程度要求很高. FCN采用反卷积获取更多上下文信息[7 ] ;SegNet采用最大池化索引上采样和将可训练解码器与滤波器组合的方式来注入更多上下文信息[8 ] ;PSPNet采用金字塔池化来开拓全局上下文信息[9 ] ;DeeplLab v2/3采用空洞空间金字塔池化捕获多尺度上下文信息[10 -11 ] . 上述部分方法也被借鉴运用于目标检测领域,如DSSD[12 ] ,利用反卷积获取更多的上下文信息,显著提高精度,但速度上牺牲很多. ...
... Detection results of each object detector on VOC2007 test set
Tab.5 方法 骨干网络 框架 GPU 锚框数目 输入大小 v /(帧·s−1 ) $\varPhi $ /% 注:1)网络模型的官方版本使用Caffe实现,且硬件和环境配置与本文不同,为了公平比较检测速度,使用PyTorch重新实现SSD和FSSD模型,并在相同环境下进行测试;2)网络模型的硬件和环境配置也与本文不同,同样在相同环境下进行测试. Faster R-CNN[19 ] VGG16 Caffe K40 300 ~1 000×600 5.0 73.17 ION[20 ] VGG16 Caffe Titan X 3 000 ~1 000×600 1.3 75.55 R-FCN[21 ] ResNet-101 Caffe K40 300 ~1 000×600 5.9 79.51 CoupleNet[22 ] ResNet-101 Caffe Titan X 300 ~1 000×600 9.8 81.70 YOLOv2[14 ] Darknet-19 darknet Titan X − 352×352 81.0 73.70 YOLOv2[14 ] Darknet-19 darknet Titan X − 544×544 40.0 78.60 ${\rm{SSD}}{300^{\rm{*}}}$ [12 ] VGG16 Caffe Titan X 8 732 300×300 46.0 77.51 ${\rm{SSD}}{300^{1)}}$ VGG16 PyTorch 1080Ti 8 732 300×300 95.3 77.51 DSOD300[23 ] DS/64-192-48-1 Caffe Titan X 8 732 300×300 17.4 77.66 DSSD321[12 ] ResNet-101 Caffe Titan X 17 080 321×321 9.5 78.63 R-SSD300[5 ] VGG16 Caffe Titan X 8 732 300×300 35.0 78.50 FSSD300[6 ] VGG16 Caffe 1080Ti 11 570 300×300 65.8 78.77 ${\rm{FSSD}}300$ 1) VGG16 PyTorch 1080Ti 11 570 300×300 85.7 78.77 RefineDet320[24 ] VGG16 Caffe Titan X 6 375 320×320 40.3 79.97 RFB Net300[1 ] VGG16 PyTorch Titan X 11 620 300×300 83.0 80.50 ${\rm{RFB}}\,{\rm{Net30}}{\rm{0}}$ 2) VGG16 PyTorch 1080Ti 11 620 300×300 70.0 80.42 ECMNet300 VGG16 PyTorch 1080Ti 11 620 300×300 73.5 80.52
PASCAL VOC2007测试集上的完整结果如表6 所示. 可知,ECMNet在多个类别上达到最优平均精度,尤其是在小目标类别bottle上,将 ${\rm{SSD}}{300^{\rm{*}}}$ 的检测平均精度提升了11.3个百分点. ECMNet在另一小目标类别plant上也达到较高平均精度,比大部分一阶段网络检测结果都要好. ...
... [
12 ]
ResNet-101 Caffe Titan X 17 080 321×321 9.5 78.63 R-SSD300[5 ] VGG16 Caffe Titan X 8 732 300×300 35.0 78.50 FSSD300[6 ] VGG16 Caffe 1080Ti 11 570 300×300 65.8 78.77 ${\rm{FSSD}}300$ 1) VGG16 PyTorch 1080Ti 11 570 300×300 85.7 78.77 RefineDet320[24 ] VGG16 Caffe Titan X 6 375 320×320 40.3 79.97 RFB Net300[1 ] VGG16 PyTorch Titan X 11 620 300×300 83.0 80.50 ${\rm{RFB}}\,{\rm{Net30}}{\rm{0}}$ 2) VGG16 PyTorch 1080Ti 11 620 300×300 70.0 80.42 ECMNet300 VGG16 PyTorch 1080Ti 11 620 300×300 73.5 80.52 PASCAL VOC2007测试集上的完整结果如表6 所示. 可知,ECMNet在多个类别上达到最优平均精度,尤其是在小目标类别bottle上,将 ${\rm{SSD}}{300^{\rm{*}}}$ 的检测平均精度提升了11.3个百分点. ECMNet在另一小目标类别plant上也达到较高平均精度,比大部分一阶段网络检测结果都要好. ...
... Complete detection results of each object detector on VOC2007 test set
Tab.6 方法 $\varPhi $ /% aero bike bird boat bottle bus car cat chair cow table dog horse mbike person plant sheep sofa train tv 注:部分论文中没有给出VOC2007测试集上的完整检测结果,1)网络模型是本文使用对应论文公开发布的权重文件的检测结果. Faster R-CNN[19 ] 73.17 76.5 79.0 70.9 65.5 52.1 83.1 84.7 86.4 52.0 81.9 65.7 84.8 84.6 77.5 76.7 38.8 73.6 73.9 83.0 72.6 ION[20 ] 75.55 79.2 83.1 77.6 65.6 54.9 85.4 85.1 87.0 54.4 80.6 73.8 85.3 82.2 82.2 74.4 47.1 75.8 72.7 84.2 80.4 R-FCN[21 ] 79.51 82.5 83.7 80.3 69.0 69.2 87.5 88.4 88.4 65.4 87.3 72.1 87.9 88.3 81.3 79.8 54.1 79.6 78.8 87.1 79.5 SSD300* [12 ] 77.51 79.5 83.9 76.0 69.6 50.5 87.0 85.7 88.1 60.3 81.5 77.0 86.1 87.5 84.0 79.4 52.3 77.9 79.5 87.6 76.8 ${\rm{DSOD30}}{{\rm{0}}}$ 1) 77.66 80.5 85.5 76.7 70.9 51.5 87.4 87.9 87.1 61.7 79.3 77.1 83.2 87.1 85.6 80.9 48.5 78.7 80.2 86.7 76.7 DSSD321[12 ] 78.63 81.9 84.9 80.5 68.4 53.9 85.6 86.2 88.9 61.1 83.5 78.7 86.7 88.7 86.7 79.7 51.7 78.0 80.9 87.2 79.4 ${\rm{FSSD}}{300}$ 1) 78.77 82.3 85.8 78.2 73.6 56.8 86.3 86.4 88.1 60.3 85.8 77.7 85.3 87.7 85.4 79.9 54.1 77.9 78.7 88.4 76.7 RefineDet320[24 ] 79.97 83.9 85.4 81.4 75.5 60.2 86.4 88.1 89.1 62.7 83.9 77.0 85.4 87.1 86.7 82.6 55.3 82.7 78.5 88.1 79.4 ${\rm{RFB}}\,{\rm{Net}}{300}$ 1) 80.42 83.7 87.6 78.9 74.8 59.8 88.8 87.5 87.9 65.0 85.0 77.1 86.1 88.4 86.6 81.7 58.1 81.5 81.2 88.4 80.2 ECMNet300 80.52 83.9 88.3 79.9 73.1 61.8 88.7 87.9 87.8 64.1 85.7 78.9 86.2 88.5 86.9 82.4 56.8 79.6 81.3 88.4 80.2
ECM独立模块的双空洞卷积结构减少了模型参数量,对检测速度的提升起到关键作用,在模拟群感受野机制的同时强化上下文,对检测性能的提升也起到关键作用,尤其是对小目标检测性能的提升. ...
... [
12 ]
78.63 81.9 84.9 80.5 68.4 53.9 85.6 86.2 88.9 61.1 83.5 78.7 86.7 88.7 86.7 79.7 51.7 78.0 80.9 87.2 79.4 ${\rm{FSSD}}{300}$ 1) 78.77 82.3 85.8 78.2 73.6 56.8 86.3 86.4 88.1 60.3 85.8 77.7 85.3 87.7 85.4 79.9 54.1 77.9 78.7 88.4 76.7 RefineDet320[24 ] 79.97 83.9 85.4 81.4 75.5 60.2 86.4 88.1 89.1 62.7 83.9 77.0 85.4 87.1 86.7 82.6 55.3 82.7 78.5 88.1 79.4 ${\rm{RFB}}\,{\rm{Net}}{300}$ 1) 80.42 83.7 87.6 78.9 74.8 59.8 88.8 87.5 87.9 65.0 85.0 77.1 86.1 88.4 86.6 81.7 58.1 81.5 81.2 88.4 80.2 ECMNet300 80.52 83.9 88.3 79.9 73.1 61.8 88.7 87.9 87.8 64.1 85.7 78.9 86.2 88.5 86.9 82.4 56.8 79.6 81.3 88.4 80.2 ECM独立模块的双空洞卷积结构减少了模型参数量,对检测速度的提升起到关键作用,在模拟群感受野机制的同时强化上下文,对检测性能的提升也起到关键作用,尤其是对小目标检测性能的提升. ...
Computational neuroimaging and population receptive fields
1
2015
... 如图1(c) 所示为强化上下文模块ECM,以文献[1 ]中的感受野模块(receptive field block,RFB)模型为基础,调整分支数目和各分支各层特征图通道数,并利用空洞卷积代替1个 $5 \times 5$ 或2个堆叠的 $3 \times 3$ 卷积,形成双空洞卷积结构,丢弃 $1 \times 3$ 和 $3 \times 1$ 卷积分支,全采用单条 $3 \times 3$ 卷积分支(前者虽然减少了卷积核参数,但增多了分支数). 双空洞卷积结构如图2(a) 所示,其中采样率 ${{b}} > a$ ,用于模拟文献[13 ]中人眼视觉系统中的群感受野机制,第一个空洞卷积模拟群感受野大小,第二个空洞卷积模拟视网膜图中的偏心率. 相比RFB中的模拟分支,双空洞卷积结构不仅能减少参数量,还能形成更大的有效感受野来强化上下文信息(若结构中 $s = c$ 忽略不写,则表示该层卷积默认采用 $c = 1$ 的步长). 双空洞卷积结构中的采样率以理论感受野计算公式为指导(见式(5)),在模拟群感受野的基础上以等间隔密集采样为原则进行设置: ...
3
... 目标检测常用目标分类网络作为骨干网络,如VGG16、ResNet、DarkNet19/51[14 -15 ] 等. 为了兼顾速度和可对比性,采用VGG16作为强化上下文网络的骨干网络. ...
... Detection results of each object detector on VOC2007 test set
Tab.5 方法 骨干网络 框架 GPU 锚框数目 输入大小 v /(帧·s−1 ) $\varPhi $ /% 注:1)网络模型的官方版本使用Caffe实现,且硬件和环境配置与本文不同,为了公平比较检测速度,使用PyTorch重新实现SSD和FSSD模型,并在相同环境下进行测试;2)网络模型的硬件和环境配置也与本文不同,同样在相同环境下进行测试. Faster R-CNN[19 ] VGG16 Caffe K40 300 ~1 000×600 5.0 73.17 ION[20 ] VGG16 Caffe Titan X 3 000 ~1 000×600 1.3 75.55 R-FCN[21 ] ResNet-101 Caffe K40 300 ~1 000×600 5.9 79.51 CoupleNet[22 ] ResNet-101 Caffe Titan X 300 ~1 000×600 9.8 81.70 YOLOv2[14 ] Darknet-19 darknet Titan X − 352×352 81.0 73.70 YOLOv2[14 ] Darknet-19 darknet Titan X − 544×544 40.0 78.60 ${\rm{SSD}}{300^{\rm{*}}}$ [12 ] VGG16 Caffe Titan X 8 732 300×300 46.0 77.51 ${\rm{SSD}}{300^{1)}}$ VGG16 PyTorch 1080Ti 8 732 300×300 95.3 77.51 DSOD300[23 ] DS/64-192-48-1 Caffe Titan X 8 732 300×300 17.4 77.66 DSSD321[12 ] ResNet-101 Caffe Titan X 17 080 321×321 9.5 78.63 R-SSD300[5 ] VGG16 Caffe Titan X 8 732 300×300 35.0 78.50 FSSD300[6 ] VGG16 Caffe 1080Ti 11 570 300×300 65.8 78.77 ${\rm{FSSD}}300$ 1) VGG16 PyTorch 1080Ti 11 570 300×300 85.7 78.77 RefineDet320[24 ] VGG16 Caffe Titan X 6 375 320×320 40.3 79.97 RFB Net300[1 ] VGG16 PyTorch Titan X 11 620 300×300 83.0 80.50 ${\rm{RFB}}\,{\rm{Net30}}{\rm{0}}$ 2) VGG16 PyTorch 1080Ti 11 620 300×300 70.0 80.42 ECMNet300 VGG16 PyTorch 1080Ti 11 620 300×300 73.5 80.52
PASCAL VOC2007测试集上的完整结果如表6 所示. 可知,ECMNet在多个类别上达到最优平均精度,尤其是在小目标类别bottle上,将 ${\rm{SSD}}{300^{\rm{*}}}$ 的检测平均精度提升了11.3个百分点. ECMNet在另一小目标类别plant上也达到较高平均精度,比大部分一阶段网络检测结果都要好. ...
... [
14 ]
Darknet-19 darknet Titan X − 544×544 40.0 78.60 ${\rm{SSD}}{300^{\rm{*}}}$ [12 ] VGG16 Caffe Titan X 8 732 300×300 46.0 77.51 ${\rm{SSD}}{300^{1)}}$ VGG16 PyTorch 1080Ti 8 732 300×300 95.3 77.51 DSOD300[23 ] DS/64-192-48-1 Caffe Titan X 8 732 300×300 17.4 77.66 DSSD321[12 ] ResNet-101 Caffe Titan X 17 080 321×321 9.5 78.63 R-SSD300[5 ] VGG16 Caffe Titan X 8 732 300×300 35.0 78.50 FSSD300[6 ] VGG16 Caffe 1080Ti 11 570 300×300 65.8 78.77 ${\rm{FSSD}}300$ 1) VGG16 PyTorch 1080Ti 11 570 300×300 85.7 78.77 RefineDet320[24 ] VGG16 Caffe Titan X 6 375 320×320 40.3 79.97 RFB Net300[1 ] VGG16 PyTorch Titan X 11 620 300×300 83.0 80.50 ${\rm{RFB}}\,{\rm{Net30}}{\rm{0}}$ 2) VGG16 PyTorch 1080Ti 11 620 300×300 70.0 80.42 ECMNet300 VGG16 PyTorch 1080Ti 11 620 300×300 73.5 80.52 PASCAL VOC2007测试集上的完整结果如表6 所示. 可知,ECMNet在多个类别上达到最优平均精度,尤其是在小目标类别bottle上,将 ${\rm{SSD}}{300^{\rm{*}}}$ 的检测平均精度提升了11.3个百分点. ECMNet在另一小目标类别plant上也达到较高平均精度,比大部分一阶段网络检测结果都要好. ...
1
... 目标检测常用目标分类网络作为骨干网络,如VGG16、ResNet、DarkNet19/51[14 -15 ] 等. 为了兼顾速度和可对比性,采用VGG16作为强化上下文网络的骨干网络. ...
1
... 训练过程使用MSAR[16 ] 初始化所有预测层,用于生成目标边界框坐标和置信度信息的检测层采用PyTorch中的默认初始化,并在VGG16预训练模型上进行微调. 训练细节将在第3章中说明. ...
The pascal visual object classes (VOC) challenge
1
2010
... 评价指标采用均值平均精度(mean average precision,mAP),记为 $\varPhi $ ,衡量模型在所有类别上的综合检测结果,通过“11点法”(11个等间距召回率 $[0,0.1,0.2,\cdots,1]$ 形成的11个采样点)[17 ] 来计算模型在每一种目标上的平均精度(average precision,AP),记为 $\phi $ ,在此基础上计算得到均值平均精度(式(9)中的20表示VOC数据集共有20类目标): ...
1
... 将ECMNet与部分经典和最先进目标检测器进行比较(测试不加入多尺度测试等任何技巧),如表5 所示. 可以看出,ECMNet300在 $300 \times 300$ 输入图像大小下,比 $1000 \times 600$ 输入图像大小的大部分两阶段网络的检测结果都要好,均值平均精度达到80.52%,检测速度v 全面远快于两阶段网络,达到73.5帧/s. 检测结果相比CoupleNet有一定差距,但CoupleNet采用ResNet-101作为骨干网络(性能优于VGG16),且输入图像大小约为 $1\;000 \times 600$ ,而输入图像大小对精度影响显著[18 ] . 相比于表5 中一阶段网络,ECMNet获得最高均值平均精度,检测速度相比RFB Net也有所提升. ...
Faster R-CNN: towards real-time object detection with region proposal networks
2
2017
... Detection results of each object detector on VOC2007 test set
Tab.5 方法 骨干网络 框架 GPU 锚框数目 输入大小 v /(帧·s−1 ) $\varPhi $ /% 注:1)网络模型的官方版本使用Caffe实现,且硬件和环境配置与本文不同,为了公平比较检测速度,使用PyTorch重新实现SSD和FSSD模型,并在相同环境下进行测试;2)网络模型的硬件和环境配置也与本文不同,同样在相同环境下进行测试. Faster R-CNN[19 ] VGG16 Caffe K40 300 ~1 000×600 5.0 73.17 ION[20 ] VGG16 Caffe Titan X 3 000 ~1 000×600 1.3 75.55 R-FCN[21 ] ResNet-101 Caffe K40 300 ~1 000×600 5.9 79.51 CoupleNet[22 ] ResNet-101 Caffe Titan X 300 ~1 000×600 9.8 81.70 YOLOv2[14 ] Darknet-19 darknet Titan X − 352×352 81.0 73.70 YOLOv2[14 ] Darknet-19 darknet Titan X − 544×544 40.0 78.60 ${\rm{SSD}}{300^{\rm{*}}}$ [12 ] VGG16 Caffe Titan X 8 732 300×300 46.0 77.51 ${\rm{SSD}}{300^{1)}}$ VGG16 PyTorch 1080Ti 8 732 300×300 95.3 77.51 DSOD300[23 ] DS/64-192-48-1 Caffe Titan X 8 732 300×300 17.4 77.66 DSSD321[12 ] ResNet-101 Caffe Titan X 17 080 321×321 9.5 78.63 R-SSD300[5 ] VGG16 Caffe Titan X 8 732 300×300 35.0 78.50 FSSD300[6 ] VGG16 Caffe 1080Ti 11 570 300×300 65.8 78.77 ${\rm{FSSD}}300$ 1) VGG16 PyTorch 1080Ti 11 570 300×300 85.7 78.77 RefineDet320[24 ] VGG16 Caffe Titan X 6 375 320×320 40.3 79.97 RFB Net300[1 ] VGG16 PyTorch Titan X 11 620 300×300 83.0 80.50 ${\rm{RFB}}\,{\rm{Net30}}{\rm{0}}$ 2) VGG16 PyTorch 1080Ti 11 620 300×300 70.0 80.42 ECMNet300 VGG16 PyTorch 1080Ti 11 620 300×300 73.5 80.52
PASCAL VOC2007测试集上的完整结果如表6 所示. 可知,ECMNet在多个类别上达到最优平均精度,尤其是在小目标类别bottle上,将 ${\rm{SSD}}{300^{\rm{*}}}$ 的检测平均精度提升了11.3个百分点. ECMNet在另一小目标类别plant上也达到较高平均精度,比大部分一阶段网络检测结果都要好. ...
... Complete detection results of each object detector on VOC2007 test set
Tab.6 方法 $\varPhi $ /% aero bike bird boat bottle bus car cat chair cow table dog horse mbike person plant sheep sofa train tv 注:部分论文中没有给出VOC2007测试集上的完整检测结果,1)网络模型是本文使用对应论文公开发布的权重文件的检测结果. Faster R-CNN[19 ] 73.17 76.5 79.0 70.9 65.5 52.1 83.1 84.7 86.4 52.0 81.9 65.7 84.8 84.6 77.5 76.7 38.8 73.6 73.9 83.0 72.6 ION[20 ] 75.55 79.2 83.1 77.6 65.6 54.9 85.4 85.1 87.0 54.4 80.6 73.8 85.3 82.2 82.2 74.4 47.1 75.8 72.7 84.2 80.4 R-FCN[21 ] 79.51 82.5 83.7 80.3 69.0 69.2 87.5 88.4 88.4 65.4 87.3 72.1 87.9 88.3 81.3 79.8 54.1 79.6 78.8 87.1 79.5 SSD300* [12 ] 77.51 79.5 83.9 76.0 69.6 50.5 87.0 85.7 88.1 60.3 81.5 77.0 86.1 87.5 84.0 79.4 52.3 77.9 79.5 87.6 76.8 ${\rm{DSOD30}}{{\rm{0}}}$ 1) 77.66 80.5 85.5 76.7 70.9 51.5 87.4 87.9 87.1 61.7 79.3 77.1 83.2 87.1 85.6 80.9 48.5 78.7 80.2 86.7 76.7 DSSD321[12 ] 78.63 81.9 84.9 80.5 68.4 53.9 85.6 86.2 88.9 61.1 83.5 78.7 86.7 88.7 86.7 79.7 51.7 78.0 80.9 87.2 79.4 ${\rm{FSSD}}{300}$ 1) 78.77 82.3 85.8 78.2 73.6 56.8 86.3 86.4 88.1 60.3 85.8 77.7 85.3 87.7 85.4 79.9 54.1 77.9 78.7 88.4 76.7 RefineDet320[24 ] 79.97 83.9 85.4 81.4 75.5 60.2 86.4 88.1 89.1 62.7 83.9 77.0 85.4 87.1 86.7 82.6 55.3 82.7 78.5 88.1 79.4 ${\rm{RFB}}\,{\rm{Net}}{300}$ 1) 80.42 83.7 87.6 78.9 74.8 59.8 88.8 87.5 87.9 65.0 85.0 77.1 86.1 88.4 86.6 81.7 58.1 81.5 81.2 88.4 80.2 ECMNet300 80.52 83.9 88.3 79.9 73.1 61.8 88.7 87.9 87.8 64.1 85.7 78.9 86.2 88.5 86.9 82.4 56.8 79.6 81.3 88.4 80.2
ECM独立模块的双空洞卷积结构减少了模型参数量,对检测速度的提升起到关键作用,在模拟群感受野机制的同时强化上下文,对检测性能的提升也起到关键作用,尤其是对小目标检测性能的提升. ...
2
... Detection results of each object detector on VOC2007 test set
Tab.5 方法 骨干网络 框架 GPU 锚框数目 输入大小 v /(帧·s−1 ) $\varPhi $ /% 注:1)网络模型的官方版本使用Caffe实现,且硬件和环境配置与本文不同,为了公平比较检测速度,使用PyTorch重新实现SSD和FSSD模型,并在相同环境下进行测试;2)网络模型的硬件和环境配置也与本文不同,同样在相同环境下进行测试. Faster R-CNN[19 ] VGG16 Caffe K40 300 ~1 000×600 5.0 73.17 ION[20 ] VGG16 Caffe Titan X 3 000 ~1 000×600 1.3 75.55 R-FCN[21 ] ResNet-101 Caffe K40 300 ~1 000×600 5.9 79.51 CoupleNet[22 ] ResNet-101 Caffe Titan X 300 ~1 000×600 9.8 81.70 YOLOv2[14 ] Darknet-19 darknet Titan X − 352×352 81.0 73.70 YOLOv2[14 ] Darknet-19 darknet Titan X − 544×544 40.0 78.60 ${\rm{SSD}}{300^{\rm{*}}}$ [12 ] VGG16 Caffe Titan X 8 732 300×300 46.0 77.51 ${\rm{SSD}}{300^{1)}}$ VGG16 PyTorch 1080Ti 8 732 300×300 95.3 77.51 DSOD300[23 ] DS/64-192-48-1 Caffe Titan X 8 732 300×300 17.4 77.66 DSSD321[12 ] ResNet-101 Caffe Titan X 17 080 321×321 9.5 78.63 R-SSD300[5 ] VGG16 Caffe Titan X 8 732 300×300 35.0 78.50 FSSD300[6 ] VGG16 Caffe 1080Ti 11 570 300×300 65.8 78.77 ${\rm{FSSD}}300$ 1) VGG16 PyTorch 1080Ti 11 570 300×300 85.7 78.77 RefineDet320[24 ] VGG16 Caffe Titan X 6 375 320×320 40.3 79.97 RFB Net300[1 ] VGG16 PyTorch Titan X 11 620 300×300 83.0 80.50 ${\rm{RFB}}\,{\rm{Net30}}{\rm{0}}$ 2) VGG16 PyTorch 1080Ti 11 620 300×300 70.0 80.42 ECMNet300 VGG16 PyTorch 1080Ti 11 620 300×300 73.5 80.52
PASCAL VOC2007测试集上的完整结果如表6 所示. 可知,ECMNet在多个类别上达到最优平均精度,尤其是在小目标类别bottle上,将 ${\rm{SSD}}{300^{\rm{*}}}$ 的检测平均精度提升了11.3个百分点. ECMNet在另一小目标类别plant上也达到较高平均精度,比大部分一阶段网络检测结果都要好. ...
... Complete detection results of each object detector on VOC2007 test set
Tab.6 方法 $\varPhi $ /% aero bike bird boat bottle bus car cat chair cow table dog horse mbike person plant sheep sofa train tv 注:部分论文中没有给出VOC2007测试集上的完整检测结果,1)网络模型是本文使用对应论文公开发布的权重文件的检测结果. Faster R-CNN[19 ] 73.17 76.5 79.0 70.9 65.5 52.1 83.1 84.7 86.4 52.0 81.9 65.7 84.8 84.6 77.5 76.7 38.8 73.6 73.9 83.0 72.6 ION[20 ] 75.55 79.2 83.1 77.6 65.6 54.9 85.4 85.1 87.0 54.4 80.6 73.8 85.3 82.2 82.2 74.4 47.1 75.8 72.7 84.2 80.4 R-FCN[21 ] 79.51 82.5 83.7 80.3 69.0 69.2 87.5 88.4 88.4 65.4 87.3 72.1 87.9 88.3 81.3 79.8 54.1 79.6 78.8 87.1 79.5 SSD300* [12 ] 77.51 79.5 83.9 76.0 69.6 50.5 87.0 85.7 88.1 60.3 81.5 77.0 86.1 87.5 84.0 79.4 52.3 77.9 79.5 87.6 76.8 ${\rm{DSOD30}}{{\rm{0}}}$ 1) 77.66 80.5 85.5 76.7 70.9 51.5 87.4 87.9 87.1 61.7 79.3 77.1 83.2 87.1 85.6 80.9 48.5 78.7 80.2 86.7 76.7 DSSD321[12 ] 78.63 81.9 84.9 80.5 68.4 53.9 85.6 86.2 88.9 61.1 83.5 78.7 86.7 88.7 86.7 79.7 51.7 78.0 80.9 87.2 79.4 ${\rm{FSSD}}{300}$ 1) 78.77 82.3 85.8 78.2 73.6 56.8 86.3 86.4 88.1 60.3 85.8 77.7 85.3 87.7 85.4 79.9 54.1 77.9 78.7 88.4 76.7 RefineDet320[24 ] 79.97 83.9 85.4 81.4 75.5 60.2 86.4 88.1 89.1 62.7 83.9 77.0 85.4 87.1 86.7 82.6 55.3 82.7 78.5 88.1 79.4 ${\rm{RFB}}\,{\rm{Net}}{300}$ 1) 80.42 83.7 87.6 78.9 74.8 59.8 88.8 87.5 87.9 65.0 85.0 77.1 86.1 88.4 86.6 81.7 58.1 81.5 81.2 88.4 80.2 ECMNet300 80.52 83.9 88.3 79.9 73.1 61.8 88.7 87.9 87.8 64.1 85.7 78.9 86.2 88.5 86.9 82.4 56.8 79.6 81.3 88.4 80.2
ECM独立模块的双空洞卷积结构减少了模型参数量,对检测速度的提升起到关键作用,在模拟群感受野机制的同时强化上下文,对检测性能的提升也起到关键作用,尤其是对小目标检测性能的提升. ...
2
... Detection results of each object detector on VOC2007 test set
Tab.5 方法 骨干网络 框架 GPU 锚框数目 输入大小 v /(帧·s−1 ) $\varPhi $ /% 注:1)网络模型的官方版本使用Caffe实现,且硬件和环境配置与本文不同,为了公平比较检测速度,使用PyTorch重新实现SSD和FSSD模型,并在相同环境下进行测试;2)网络模型的硬件和环境配置也与本文不同,同样在相同环境下进行测试. Faster R-CNN[19 ] VGG16 Caffe K40 300 ~1 000×600 5.0 73.17 ION[20 ] VGG16 Caffe Titan X 3 000 ~1 000×600 1.3 75.55 R-FCN[21 ] ResNet-101 Caffe K40 300 ~1 000×600 5.9 79.51 CoupleNet[22 ] ResNet-101 Caffe Titan X 300 ~1 000×600 9.8 81.70 YOLOv2[14 ] Darknet-19 darknet Titan X − 352×352 81.0 73.70 YOLOv2[14 ] Darknet-19 darknet Titan X − 544×544 40.0 78.60 ${\rm{SSD}}{300^{\rm{*}}}$ [12 ] VGG16 Caffe Titan X 8 732 300×300 46.0 77.51 ${\rm{SSD}}{300^{1)}}$ VGG16 PyTorch 1080Ti 8 732 300×300 95.3 77.51 DSOD300[23 ] DS/64-192-48-1 Caffe Titan X 8 732 300×300 17.4 77.66 DSSD321[12 ] ResNet-101 Caffe Titan X 17 080 321×321 9.5 78.63 R-SSD300[5 ] VGG16 Caffe Titan X 8 732 300×300 35.0 78.50 FSSD300[6 ] VGG16 Caffe 1080Ti 11 570 300×300 65.8 78.77 ${\rm{FSSD}}300$ 1) VGG16 PyTorch 1080Ti 11 570 300×300 85.7 78.77 RefineDet320[24 ] VGG16 Caffe Titan X 6 375 320×320 40.3 79.97 RFB Net300[1 ] VGG16 PyTorch Titan X 11 620 300×300 83.0 80.50 ${\rm{RFB}}\,{\rm{Net30}}{\rm{0}}$ 2) VGG16 PyTorch 1080Ti 11 620 300×300 70.0 80.42 ECMNet300 VGG16 PyTorch 1080Ti 11 620 300×300 73.5 80.52
PASCAL VOC2007测试集上的完整结果如表6 所示. 可知,ECMNet在多个类别上达到最优平均精度,尤其是在小目标类别bottle上,将 ${\rm{SSD}}{300^{\rm{*}}}$ 的检测平均精度提升了11.3个百分点. ECMNet在另一小目标类别plant上也达到较高平均精度,比大部分一阶段网络检测结果都要好. ...
... Complete detection results of each object detector on VOC2007 test set
Tab.6 方法 $\varPhi $ /% aero bike bird boat bottle bus car cat chair cow table dog horse mbike person plant sheep sofa train tv 注:部分论文中没有给出VOC2007测试集上的完整检测结果,1)网络模型是本文使用对应论文公开发布的权重文件的检测结果. Faster R-CNN[19 ] 73.17 76.5 79.0 70.9 65.5 52.1 83.1 84.7 86.4 52.0 81.9 65.7 84.8 84.6 77.5 76.7 38.8 73.6 73.9 83.0 72.6 ION[20 ] 75.55 79.2 83.1 77.6 65.6 54.9 85.4 85.1 87.0 54.4 80.6 73.8 85.3 82.2 82.2 74.4 47.1 75.8 72.7 84.2 80.4 R-FCN[21 ] 79.51 82.5 83.7 80.3 69.0 69.2 87.5 88.4 88.4 65.4 87.3 72.1 87.9 88.3 81.3 79.8 54.1 79.6 78.8 87.1 79.5 SSD300* [12 ] 77.51 79.5 83.9 76.0 69.6 50.5 87.0 85.7 88.1 60.3 81.5 77.0 86.1 87.5 84.0 79.4 52.3 77.9 79.5 87.6 76.8 ${\rm{DSOD30}}{{\rm{0}}}$ 1) 77.66 80.5 85.5 76.7 70.9 51.5 87.4 87.9 87.1 61.7 79.3 77.1 83.2 87.1 85.6 80.9 48.5 78.7 80.2 86.7 76.7 DSSD321[12 ] 78.63 81.9 84.9 80.5 68.4 53.9 85.6 86.2 88.9 61.1 83.5 78.7 86.7 88.7 86.7 79.7 51.7 78.0 80.9 87.2 79.4 ${\rm{FSSD}}{300}$ 1) 78.77 82.3 85.8 78.2 73.6 56.8 86.3 86.4 88.1 60.3 85.8 77.7 85.3 87.7 85.4 79.9 54.1 77.9 78.7 88.4 76.7 RefineDet320[24 ] 79.97 83.9 85.4 81.4 75.5 60.2 86.4 88.1 89.1 62.7 83.9 77.0 85.4 87.1 86.7 82.6 55.3 82.7 78.5 88.1 79.4 ${\rm{RFB}}\,{\rm{Net}}{300}$ 1) 80.42 83.7 87.6 78.9 74.8 59.8 88.8 87.5 87.9 65.0 85.0 77.1 86.1 88.4 86.6 81.7 58.1 81.5 81.2 88.4 80.2 ECMNet300 80.52 83.9 88.3 79.9 73.1 61.8 88.7 87.9 87.8 64.1 85.7 78.9 86.2 88.5 86.9 82.4 56.8 79.6 81.3 88.4 80.2
ECM独立模块的双空洞卷积结构减少了模型参数量,对检测速度的提升起到关键作用,在模拟群感受野机制的同时强化上下文,对检测性能的提升也起到关键作用,尤其是对小目标检测性能的提升. ...
1
... Detection results of each object detector on VOC2007 test set
Tab.5 方法 骨干网络 框架 GPU 锚框数目 输入大小 v /(帧·s−1 ) $\varPhi $ /% 注:1)网络模型的官方版本使用Caffe实现,且硬件和环境配置与本文不同,为了公平比较检测速度,使用PyTorch重新实现SSD和FSSD模型,并在相同环境下进行测试;2)网络模型的硬件和环境配置也与本文不同,同样在相同环境下进行测试. Faster R-CNN[19 ] VGG16 Caffe K40 300 ~1 000×600 5.0 73.17 ION[20 ] VGG16 Caffe Titan X 3 000 ~1 000×600 1.3 75.55 R-FCN[21 ] ResNet-101 Caffe K40 300 ~1 000×600 5.9 79.51 CoupleNet[22 ] ResNet-101 Caffe Titan X 300 ~1 000×600 9.8 81.70 YOLOv2[14 ] Darknet-19 darknet Titan X − 352×352 81.0 73.70 YOLOv2[14 ] Darknet-19 darknet Titan X − 544×544 40.0 78.60 ${\rm{SSD}}{300^{\rm{*}}}$ [12 ] VGG16 Caffe Titan X 8 732 300×300 46.0 77.51 ${\rm{SSD}}{300^{1)}}$ VGG16 PyTorch 1080Ti 8 732 300×300 95.3 77.51 DSOD300[23 ] DS/64-192-48-1 Caffe Titan X 8 732 300×300 17.4 77.66 DSSD321[12 ] ResNet-101 Caffe Titan X 17 080 321×321 9.5 78.63 R-SSD300[5 ] VGG16 Caffe Titan X 8 732 300×300 35.0 78.50 FSSD300[6 ] VGG16 Caffe 1080Ti 11 570 300×300 65.8 78.77 ${\rm{FSSD}}300$ 1) VGG16 PyTorch 1080Ti 11 570 300×300 85.7 78.77 RefineDet320[24 ] VGG16 Caffe Titan X 6 375 320×320 40.3 79.97 RFB Net300[1 ] VGG16 PyTorch Titan X 11 620 300×300 83.0 80.50 ${\rm{RFB}}\,{\rm{Net30}}{\rm{0}}$ 2) VGG16 PyTorch 1080Ti 11 620 300×300 70.0 80.42 ECMNet300 VGG16 PyTorch 1080Ti 11 620 300×300 73.5 80.52
PASCAL VOC2007测试集上的完整结果如表6 所示. 可知,ECMNet在多个类别上达到最优平均精度,尤其是在小目标类别bottle上,将 ${\rm{SSD}}{300^{\rm{*}}}$ 的检测平均精度提升了11.3个百分点. ECMNet在另一小目标类别plant上也达到较高平均精度,比大部分一阶段网络检测结果都要好. ...
1
... Detection results of each object detector on VOC2007 test set
Tab.5 方法 骨干网络 框架 GPU 锚框数目 输入大小 v /(帧·s−1 ) $\varPhi $ /% 注:1)网络模型的官方版本使用Caffe实现,且硬件和环境配置与本文不同,为了公平比较检测速度,使用PyTorch重新实现SSD和FSSD模型,并在相同环境下进行测试;2)网络模型的硬件和环境配置也与本文不同,同样在相同环境下进行测试. Faster R-CNN[19 ] VGG16 Caffe K40 300 ~1 000×600 5.0 73.17 ION[20 ] VGG16 Caffe Titan X 3 000 ~1 000×600 1.3 75.55 R-FCN[21 ] ResNet-101 Caffe K40 300 ~1 000×600 5.9 79.51 CoupleNet[22 ] ResNet-101 Caffe Titan X 300 ~1 000×600 9.8 81.70 YOLOv2[14 ] Darknet-19 darknet Titan X − 352×352 81.0 73.70 YOLOv2[14 ] Darknet-19 darknet Titan X − 544×544 40.0 78.60 ${\rm{SSD}}{300^{\rm{*}}}$ [12 ] VGG16 Caffe Titan X 8 732 300×300 46.0 77.51 ${\rm{SSD}}{300^{1)}}$ VGG16 PyTorch 1080Ti 8 732 300×300 95.3 77.51 DSOD300[23 ] DS/64-192-48-1 Caffe Titan X 8 732 300×300 17.4 77.66 DSSD321[12 ] ResNet-101 Caffe Titan X 17 080 321×321 9.5 78.63 R-SSD300[5 ] VGG16 Caffe Titan X 8 732 300×300 35.0 78.50 FSSD300[6 ] VGG16 Caffe 1080Ti 11 570 300×300 65.8 78.77 ${\rm{FSSD}}300$ 1) VGG16 PyTorch 1080Ti 11 570 300×300 85.7 78.77 RefineDet320[24 ] VGG16 Caffe Titan X 6 375 320×320 40.3 79.97 RFB Net300[1 ] VGG16 PyTorch Titan X 11 620 300×300 83.0 80.50 ${\rm{RFB}}\,{\rm{Net30}}{\rm{0}}$ 2) VGG16 PyTorch 1080Ti 11 620 300×300 70.0 80.42 ECMNet300 VGG16 PyTorch 1080Ti 11 620 300×300 73.5 80.52
PASCAL VOC2007测试集上的完整结果如表6 所示. 可知,ECMNet在多个类别上达到最优平均精度,尤其是在小目标类别bottle上,将 ${\rm{SSD}}{300^{\rm{*}}}$ 的检测平均精度提升了11.3个百分点. ECMNet在另一小目标类别plant上也达到较高平均精度,比大部分一阶段网络检测结果都要好. ...
2
... Detection results of each object detector on VOC2007 test set
Tab.5 方法 骨干网络 框架 GPU 锚框数目 输入大小 v /(帧·s−1 ) $\varPhi $ /% 注:1)网络模型的官方版本使用Caffe实现,且硬件和环境配置与本文不同,为了公平比较检测速度,使用PyTorch重新实现SSD和FSSD模型,并在相同环境下进行测试;2)网络模型的硬件和环境配置也与本文不同,同样在相同环境下进行测试. Faster R-CNN[19 ] VGG16 Caffe K40 300 ~1 000×600 5.0 73.17 ION[20 ] VGG16 Caffe Titan X 3 000 ~1 000×600 1.3 75.55 R-FCN[21 ] ResNet-101 Caffe K40 300 ~1 000×600 5.9 79.51 CoupleNet[22 ] ResNet-101 Caffe Titan X 300 ~1 000×600 9.8 81.70 YOLOv2[14 ] Darknet-19 darknet Titan X − 352×352 81.0 73.70 YOLOv2[14 ] Darknet-19 darknet Titan X − 544×544 40.0 78.60 ${\rm{SSD}}{300^{\rm{*}}}$ [12 ] VGG16 Caffe Titan X 8 732 300×300 46.0 77.51 ${\rm{SSD}}{300^{1)}}$ VGG16 PyTorch 1080Ti 8 732 300×300 95.3 77.51 DSOD300[23 ] DS/64-192-48-1 Caffe Titan X 8 732 300×300 17.4 77.66 DSSD321[12 ] ResNet-101 Caffe Titan X 17 080 321×321 9.5 78.63 R-SSD300[5 ] VGG16 Caffe Titan X 8 732 300×300 35.0 78.50 FSSD300[6 ] VGG16 Caffe 1080Ti 11 570 300×300 65.8 78.77 ${\rm{FSSD}}300$ 1) VGG16 PyTorch 1080Ti 11 570 300×300 85.7 78.77 RefineDet320[24 ] VGG16 Caffe Titan X 6 375 320×320 40.3 79.97 RFB Net300[1 ] VGG16 PyTorch Titan X 11 620 300×300 83.0 80.50 ${\rm{RFB}}\,{\rm{Net30}}{\rm{0}}$ 2) VGG16 PyTorch 1080Ti 11 620 300×300 70.0 80.42 ECMNet300 VGG16 PyTorch 1080Ti 11 620 300×300 73.5 80.52
PASCAL VOC2007测试集上的完整结果如表6 所示. 可知,ECMNet在多个类别上达到最优平均精度,尤其是在小目标类别bottle上,将 ${\rm{SSD}}{300^{\rm{*}}}$ 的检测平均精度提升了11.3个百分点. ECMNet在另一小目标类别plant上也达到较高平均精度,比大部分一阶段网络检测结果都要好. ...
... Complete detection results of each object detector on VOC2007 test set
Tab.6 方法 $\varPhi $ /% aero bike bird boat bottle bus car cat chair cow table dog horse mbike person plant sheep sofa train tv 注:部分论文中没有给出VOC2007测试集上的完整检测结果,1)网络模型是本文使用对应论文公开发布的权重文件的检测结果. Faster R-CNN[19 ] 73.17 76.5 79.0 70.9 65.5 52.1 83.1 84.7 86.4 52.0 81.9 65.7 84.8 84.6 77.5 76.7 38.8 73.6 73.9 83.0 72.6 ION[20 ] 75.55 79.2 83.1 77.6 65.6 54.9 85.4 85.1 87.0 54.4 80.6 73.8 85.3 82.2 82.2 74.4 47.1 75.8 72.7 84.2 80.4 R-FCN[21 ] 79.51 82.5 83.7 80.3 69.0 69.2 87.5 88.4 88.4 65.4 87.3 72.1 87.9 88.3 81.3 79.8 54.1 79.6 78.8 87.1 79.5 SSD300* [12 ] 77.51 79.5 83.9 76.0 69.6 50.5 87.0 85.7 88.1 60.3 81.5 77.0 86.1 87.5 84.0 79.4 52.3 77.9 79.5 87.6 76.8 ${\rm{DSOD30}}{{\rm{0}}}$ 1) 77.66 80.5 85.5 76.7 70.9 51.5 87.4 87.9 87.1 61.7 79.3 77.1 83.2 87.1 85.6 80.9 48.5 78.7 80.2 86.7 76.7 DSSD321[12 ] 78.63 81.9 84.9 80.5 68.4 53.9 85.6 86.2 88.9 61.1 83.5 78.7 86.7 88.7 86.7 79.7 51.7 78.0 80.9 87.2 79.4 ${\rm{FSSD}}{300}$ 1) 78.77 82.3 85.8 78.2 73.6 56.8 86.3 86.4 88.1 60.3 85.8 77.7 85.3 87.7 85.4 79.9 54.1 77.9 78.7 88.4 76.7 RefineDet320[24 ] 79.97 83.9 85.4 81.4 75.5 60.2 86.4 88.1 89.1 62.7 83.9 77.0 85.4 87.1 86.7 82.6 55.3 82.7 78.5 88.1 79.4 ${\rm{RFB}}\,{\rm{Net}}{300}$ 1) 80.42 83.7 87.6 78.9 74.8 59.8 88.8 87.5 87.9 65.0 85.0 77.1 86.1 88.4 86.6 81.7 58.1 81.5 81.2 88.4 80.2 ECMNet300 80.52 83.9 88.3 79.9 73.1 61.8 88.7 87.9 87.8 64.1 85.7 78.9 86.2 88.5 86.9 82.4 56.8 79.6 81.3 88.4 80.2
ECM独立模块的双空洞卷积结构减少了模型参数量,对检测速度的提升起到关键作用,在模拟群感受野机制的同时强化上下文,对检测性能的提升也起到关键作用,尤其是对小目标检测性能的提升. ...