<img src="https://www.zjujournals.com/eng/images/1008-973X/images/logo.png" class="img-responsive">

图 1 多尺度全卷积目标检测网络结构图

Fig.1 Structure chart of multi-scale and full convolution target detection network

将最后3级特征图通过侧连接构造成新特征金字塔，如图1中虚线部分所示. 在特征金字塔的3层特征图上进行3个不同尺度的卷积核的卷积操作. 这3个卷积核的尺度分别为9×9、 6×6、 3×3. 在对应的特征图上滑动这3个卷积核，则每像素生成一个512维的特征向量，取K个anchor（以该像素点为中心的矩形框）检测像素点周围的目标. 令K=15，组合自5类尺寸{512，256，128，64，32}和3类高宽比{1∶1，1∶2，2∶1}. 因此每个特征图有W×H×K个anchor.

卷积层完成操作之后，连接多任务学习模块，该模块内并行运行分类器和边框回归器，全连接输入为前述步骤生成的512维特征向量. 分类器共输出2K个结点，表示K个anchor检测到目标的概率. 边框回归器的输出共4K个结点，表示K个anchor平移变换及缩放变换.

2.1.1. 侧连接

Girshick等^[12]提出的方法（Fast-RCNN）和Ren等^[2]提出的方法（Faster-RCNN）直接在最后一级卷积特征图进行目标检测，忽略了其他层级特征，导致检测精度下降. 由于最后一层特征图的缩小及特征覆盖不全面，该方案在应用于检索微小目标时效果不佳；最后一层特征为高语义特征，而在古画等应用领域，其中的线条等低级语义特征对于目标检测的贡献很重要，不可忽略.

针对上述问题，基于侧连接方法构造新特征金字塔，步骤如下：

1）输入图像进入卷积网络，逐步池化，生成5个级别的卷积特征，每级最后一层的特征图代表该级别的特征.

2）按从后到前的顺序上对最后3级特征图实施采样操作，使得前、后两级特征图具有同样尺寸.

3）对前一级特征图进行卷积运算，卷积核大小为1×1，将卷积核数设为本级通道数.

4）将步骤2）、3）生成的特征图按像素求和，生成新特征图.

5）对每一级特征图，按从后到前的顺序，重复迭代步骤2）、3）、4），直到生成3张新特征图，组成新特征金字塔.

6）上采样操作会产生反走样误差，故对新特征金字塔每层特征图再卷积运算，卷积核为3×3，以减弱误差影响.

侧连接是指对步骤1）和4）中的上采样操作按像素进行求和操作.

2.1.2. 多尺度全卷积

无论新特征金字塔各层特征表达能力是否足够强，因各层特征图尺度有别，若使用固定尺寸的小型卷积网络进行全卷积滑动操作，则会导致滑动窗口对应的特征信息不均匀. 为了使每层具有均匀的特征信息，采用可变尺寸小型卷积网络策略. 如图1所示，小型全卷积网络卷积核尺寸分别为9×9、6×6、3×3. 全卷积操作后，各像素均得到512维的特征向量，用于输出到多任务学习模块. 全卷积滑动还生成一个训练样本anchor集合.

2.2. 网络训练策略与代价函数

网络训练需要对训练样本anchor中每个anchor打标签，根据anchor面积与真值窗口面积的交并比（intersection-over-union，IoU），可将anchor分为正样本和负样本. 本文采用小样本训练策略，令批大小(即每次用于样本训练的anchor数量) ${N_{{\rm{cls}}}}$=128，其中正、负样本各取64，若正样本的数量不到64，则负样本数量=128−正样本数量. 该样本集来源于新特征金字塔的3个anchor集合，按从下向上的顺序，数量比例为N_{cls_1}：N_{cls_2}：N_{cls_3}=1∶2∶4. 定义代价函数：

(1) $\begin{split} L(\{ p_i^j\} ,\{ t_i^j\} ) = & \sum\limits_{j = 1}^3 {\left\{ {{\beta _j}\left[ {\frac{1}{{{N_{{\rm{cls {_-} }}j}}}}\sum\limits_{i = 1}^{{N_{{\rm{cls {_-} }}j}}} {{L_{{\rm{cls}}}}(p_i^j,{\mathop p\limits^{\frown}} _i^j) + } } \right.} \right.} \\ & \left. {\left. {\lambda \frac{1}{{{N_{{\rm{reg {_-} }}j}}}}\sum\limits_{i = 1}^{{N_{{\rm{cls {_-} }}j}}} {\left( {{\mathop p\limits^{\frown}} _i^j{L_{{\rm{reg}}}}(t_i^j,{\mathop t\limits^{\frown}} _i^j)} \right)} } \right]} \right\}. \end{split}$

式中：N_{res_1}、N_{res_2}、N_{res_3}分别表示3个特征图包含的像素总数. j=1，2，3表示从下向上特征金字塔的层级；i=1，2， $ \cdots $， ${N_{{{\rm{cls}} {_-j} }}}$，表示第j层的第i个样本； ${\beta _j}$ 表示第j层的特征损失权重， ${\beta _{\rm{1}}}$=0.50， ${\beta _2}$=0.75， ${\beta _3}$=0.75，该权重描述样本为代价函数所作贡献； $p_i^j$ 为该样本被分类器预测为包含目标的概率； ${\mathop p\limits^{\frown}} _i^j$ 为布尔值，取值1或者0，分别表示该样本为正或者负； $t_i^j$ 表示该anchor窗口平移和缩放变换操作. ${\mathop t\limits^{\frown}} _i^j$ 表示样本到真值窗口需经历的变换操作， $t_i^j$、 ${\mathop t\limits^{\frown}} _i^j$ 分别表达为

(2) $\left. \begin{split} & \, t_x^j = (x - {x_{\rm a}})/{w_{\rm a}},\,\,\,\,\, t_y^j = (y - {y_{\rm a}})/{h_{\rm a}},\\ & \, t_w^j = \log\; (w/{w_{\rm a}}),\,\,\,\,\, t_h^j = \log\; (h/{h_{\rm a}}). \end{split} \right\}\quad$

(3) $\left. \begin{split} & {\mathop t\limits^{\frown}} _x^j = ({\mathop x\limits^{\frown}} - {x_{\rm a}})/{w_{\rm a}},\, {\mathop t\limits^{\frown}} _y^j = ({\mathop y\limits^{\frown}} - {y_{\rm a}})/{h_{\rm a}},\\ & {\mathop t\limits^{\frown}} _w^j = \log\; ({\mathop w\limits^{\frown}} /{w_{\rm a}}),\,\,\, {\mathop t\limits^{\frown}} _h^j = \log \;({\mathop h\limits^{\frown}} /{h_{\rm a}}). \end{split} \right\}$

其中，x、y、w、h分别为预测窗口的中心位置坐标以及宽、高； ${x_{\rm{a}}}$、 ${y_{\rm{a}}}$、 ${w_{\rm{a}}}$、 ${h_{\rm{a}}}$ 分别为anchor样本的中心位置坐标和宽、高； ${\mathop x\limits^{\frown}} $、 ${\mathop y\limits^{\frown}} $、 ${\mathop w\limits^{\frown}} $、 ${\mathop h\limits^{\frown}} $ 分别为真值窗口的中心位置坐标和宽、高.

式（1）中的 ${L_{{\rm{cls}}}}$ 为样本在分类器处的代价函数，数学表示如下：

(4) $ {L_{{\rm{cls}}}}\left( {p,u} \right) = - \log \;({P_{\rm{u}}}). $

其中， ${P_{\rm{u}}}$ 表示分类器在真值所在的类别处预测到的概率.

式（1）中的 ${L_{{\rm{reg}}}}$ 表示样本在边框回归器中的损失函数：

(5) $ {L_{{\rm{reg}}}} ( {t_i}, {{\mathop t\limits^{\frown}} _i} )= \sum\limits_{i \in \{ x,y,w,h\} }^{} {{\rm{smoot}}{{\rm{h}}_{{L_1}}}({t_i},{{{\mathop t\limits^{\frown}} }_i})}. $

(6) $ {\rm{smoot}}{{\rm{h}}_{{L_1}}}(x) = \left\{ {\begin{array}{l} {0.5{x^2},\;\;\;\;\;\;\;\;\;\left| x \right| < 1;}\\ {\left| x \right| - 0.5,\;\;\;\;{\text{其他}}.} \end{array}} \right. $

其中， ${\rm{smoot}}{{\rm{h}}_{{{{L}}_{\rm{1}}}}}$ 是鲁棒L₁范式损失函数，比L₂范式具有更强的适应性，对异常值不敏感.

如式（1）所示的代价的前半部分 ${L_{{\rm{cls}}}}$ 为分类器的代价，后半部分 ${L_{{\rm{reg}}}}$ 为边框回归器的代价，两者通过平衡因子 $\lambda $ 连接在一起，表示多任务学习的代价. 对金字塔不同层损失进行加权求和可降低各层样本对整体网络训练的影响.

2.3. 检测后处理

2.3.1. 非极大值抑制

上述目标检测过程将产生不分类目标，其中包含相互重叠的目标，若直接进行特征提取进一步检测，冗余计算较多. 本研究采用一种非极大值抑制算法过滤重叠目标. 由于只对不分类别的目标进行检测，忽略了目标的类别归属，采用高IoU阈值（0.9）过滤目标包围盒，最后只有极少的预测包围盒在目标附近保留，流程图如图2所示. 该非极大值抑制算法筛除了大量冗余目标窗口，保留了最接近真值的窗口，目标基本被覆盖，但误差仍然存在，需进行位置精修.

图 2

图 2 非极大值抑制算法流程图

Fig.2 Flowchart of non-maximum suppression algorithm

2.3.2. 位置精修

输入为目标包围盒映射到特征图上的特征，感兴趣区域（region of interest，ROI）池化层将不同尺度特征归一化为7×7×512维度，再连接卷积层，之后连接2个分别基于x和y轴池化的最大池化层，其后各连接1个全连接层产生条件概率，如图3所示.

图 3

图 3 包围盒位置精修模块

Fig.3 Bounding box location refinement module

精修步骤如下：

1）将目标窗口缩放得到区域R，缩放因子 $\gamma $=1.8，再将R在x、y轴上均分成M份，记为 ${R_{xi}}$， ${R_{yi}}$，i=1，2， $ \cdots $，M. 本研究设M=28.

2）将R映射到特征金子塔上的对应区域.

3）将各层区域中的特征进行RoI池化操作，得到归一化的7×7×512维特征向量.

4）将归一化的特征向量作一层卷积，分别在x、y轴作最大池化，得到7×1×512和1×7×512的特征向量.

5）x轴向量后接一个全连接层得到M×3个输出值，每3个输出值为一组，表示 ${R_{xi}}$ 位于真值窗口中的条件概率和真值窗口左右边界位于 ${R_{xi}}$ 中的条件概率，即 ${p_{\rm{x}}}$、 ${p_{\rm{l}}}$、 ${p_{\rm{r}}}$，下标“x”表示 ${R_{xi}}$ 位于真值窗口中，而下标“l”和“r”分别表示位于真值窗口的左边和右边. x轴向量同样后接一个全连接层产生M×3个输出值，表示 ${R_{yi}}$ 位于真值窗口中的条件概率和真值窗口上下边界位于 ${R_{yi}}$ 中的条件概率，即 ${p_{\rm{y}}}$、 ${p_{\rm{t}}}$、 ${p_{\rm{b}}}$，其中下标“y”表示 ${R_{yi}}$ 位于真值窗口中，而下标“t”和下标“b”分别表示 ${R_{yi}}$ 位于真值窗口的上边界和下边界.

6） $B = ({B_{\rm{l}}},{B_{\rm{t}}},{B_{\rm{r}}},{B_{\rm{b}}})$ 为精修后的窗口包围盒， ${B_{\rm{l}}}$ 表示左边界x坐标， ${B_{\rm{t}}}$ 表示上边界y坐标， ${B_{\rm{r}}}$ 表示右边界x坐标， ${B_{\rm{b}}}$ 表示下边界y坐标. 公式如下：

(7) ${L_{\rm{c}}}{\rm{(}}B{\rm{) = }}{L_{\rm{b}}}{\rm{(}}B{\rm{)}} \cdot {L_{{\rm{io}}}}{\rm{(}}B{\rm{)}}.$

(8) $ \begin{split} & {L_{{\rm{io}}}}{\rm{(}}B{\rm{) = }} \\ & \prod\limits_{i = \{ {{B}_{\rm l}},\cdots,{{B}_{\rm r}}\} } {{p_x}(i)} \prod\limits_{i = \{ {{B}_{\rm t}},\cdots,{{B}_{\rm b}}\} } {{p_y}(i)} \prod\limits_{i \ne \{ {{B}_{\rm l}},\cdots,{{B}_{\rm r}}\} } {{{\tilde p}_x}(i)} \prod\limits_{i \ne \{ {{B}_{\rm l}},\cdots,{{B}_{\rm r}}\} } {{{{\mathop p\limits^{\frown}} }_y}(i)} . \end{split} $

(9) ${L_{\rm{b}}}{\rm{(}}B{\rm{) = }}{p_{\rm{l}}}{\rm{(}}{B_{\rm{l}}}{\rm{)}}\;{p_{\rm{t}}}{\rm{(}}{B_{\rm{t}}}{\rm{)}}\;{p_{\rm{r}}}{\rm{(}}{B_{\rm{r}}}{\rm{)}}\;{p_{\rm{b}}}{\rm{(}}{B_{\rm{b}}}{\rm{)}}.$

式中： ${L_{\rm{b}}}{\rm{(}}B{\rm{)}}$ 表示B的4个边界所在的R分块是真值窗口边界的条件概率似然函数， ${L_{{\rm{io}}}}{\rm{(}}B{\rm{)}}$ 表示B所覆盖的R分块位于真值窗口中的条件概率似然函数，其中 $\tilde p = 1-p$. 对式（7）作最大似然估计就可以得到B的4个坐标，至此完成窗口位置精修.

该算法基于条件概率对窗口边界进行量化和调整，比边框回归预测方法更精确.

3. 实验结果与分析

采用基于特征金字塔的多尺度全卷积目标检测方法，在PASCAL VOC 2007、PASCAL VOC 2012标准数据集以及古代绘画图像数据集进行相关实验. 将在这3种数据集上的实验结果与采用Faster RCNN方法及Mask-RCNN方法得到的结果进行分析比较.

3.1. 实验环境

实验硬件配置：CPU为Intel（R）Core（TM）i5-4590 CPU @ 3.30GHz，GPU为NVIDIA GTX 1080Ti 显存11G，内存为16GB. 软件环境：操作系统为Linux系统，深度学习的框架为Tensorflow1.2.0，编程语言为Python 3.5，第三方库为OpenCV3.3-python以及CUDA8.0.

3.1.1. 实验数据集

实验所用的数据集共有3个：公开数据集PASCAL VOC 2007 和 PASCAL VOC 2012，其中PASCAL VOC 2007包含9 963幅图像和 24 640个标注信息，PASCAL VOC 2012包含11 530幅图像和27 450个标注信息；私有数据集古代绘画集，为作者实验室制作的图像集，包含2 890副图像和6 040个标注信息.

3.2. 网络参数

本文检测网络模型采用VGG16，卷积层用ImageNet预训练的参数初始化. 全卷积层、全连接层以及包围盒精修中的卷积层初始化为高斯分布，期望为0，方差为0.01. PASCASL VOC训练集网络训练的初始学习率为0.000 5，每进行3万次迭代\学习率下降10倍. 网络训练的动量因子为0.9，权值衰减系数为0.000 5，网络训练共进行10万次迭代. 在古代绘画数据集上，初始学习率不变，每1万次迭代学习率下降10倍，共进行4万次迭代.

3.3. 评价指标

本研究采用的评价指标是平均检测精度P_ave、召回率R和交并比IoU，是目标检测领域常见的重要评价指标.

1）召回率是指检测出的正确目标占图像中总的正确目标的比率，该指标用于衡量目标检测算法查全的能力.

2）精度是指检测出的目标中正确目标所占的比率，平均精度P_ave是指在不同召回率条件下，目标检测精度的平均值，该指标用于衡量目标检测算法在查准率和查全率上的平衡.

3）交并比是指检测到的包围盒与目标真值包围盒之间的交集与并集的比值，该指标用于衡量检测到的目标位置的精确度.

3.4. 标准数据集以及实验结果

在标准数据集及其并集上的实验P_ave值统计结果如表1所示. 可见，所提方法比Fater-RCNN方法精度高约2%，原因如下：1）多尺度全卷积网络采用了侧连接的特征金字塔结构使得每层都融合更多语义信息，增强了识别能力；2）在金字塔不同层上采用了不同尺度的全卷积操作，各层特征信息利用更均匀.

表 1 不同网络模型在标准数据集上的平均精度值比较

Tab.1 Comparisons of mean precision values of different network models on standard datasets

网络模型	数据集	P_ave / %
多尺度全卷积网络		71.2
Faster-RCNN	PASCAL VOC 2007	68.8
Mask-RCNN		69.36
多尺度全卷积网络		67.1
Faster-RCNN	PASCAL VOC 2012	66.5
Mask-RCNN		66.9
多尺度全卷积网络		74.8
Faster-RCNN	PASCAL VOC 2007 + 2012	72.5
Mask-RCNN		73.26

新窗口打开| 下载CSV

在标准数据集上，比较多尺度全卷机网络模型方法与Faster-RCNN方法的实验结果，如图4所示为IoU阈值区间[0.5,1.0]召回率的变化情况. 图4（a）~（c）分别为数据集PASCAL VOC 2007、2012、2007+2012上的召回率随IoU的变化结果. 从图4可见，在IoU=0.7~0.9时，本文方法比Faster-RCNN方法召回率更高. 原因如下：1）针对无类别的目标进行检测，所提方法能够检测到的目标种类更多；2）采用基于条件概率的边框精修，所提方法更能适应大幅度IoU变化.

图 4

图 4 多尺度全卷积网络与Faster-RCNN在标准数据集上的召回率随交并比（IoU）变化折线图

Fig.4 Recall rate variation line of Faster-RCNN and multi-scale full convolution network on standard dataset with intersection-over-union (IoU)

对微小目标检测的实验及对比如图5所示，结果表明：所提方法比Faster-RCNN方法检测效果更好。原因是多尺度全卷积网络在不同尺度的金字塔层级上进行不同尺度的全卷积操作，使得不同尺度目标的特征信息能够得到适当程度的挖掘和利用，对于信息的缺失和冗余控制更精确.

图 5

图 5 多尺度全卷积网络模型与Faster-RCNN方法的微小目标检测效果对比

Fig.5 Results comparison between multi-scale full convolution network model and Faster-RCNN method in micro-target detection

分析多金字塔特征提取以及目标包围盒位置精修对目标检测结果的影响，结果表明：多金字塔的特征提取与分析可使目标检测结果提升3%，而目标包围盒位置精修可使精度提高2%，表明多金字塔特征提取对目标检测具有较大的影响.

在私有古代绘画图像数据集上的实验结果显示，所提方法得到的P_ave值为60.32，而Faster-RCNN方法的P_ave值为55.78，Mask-RCNN方法的P_ave值为56.32. 在该数据集上，所提方法和Faster-RCNN方法的P_ave均明显下降，原因如下：1）数据样本量较小，模型的泛化能力变弱；2）古代绘画图像与自然图像存在较大的差异，古代绘画受创作者的风格和手法的影响，相同类型的目标在不同风格的绘画中差别较大，对检测精度有较大影响. 实验结果表明，所提检测方法比Faster-RCNN方法检测精度高约5%，在古代绘画图像上具有更强的扩展性. 统计2种目标检测方法在该数据集上的召回率，如图6所示，得到召回率的变化规律与在PASCAL VOC标准数据集上的实验结果基本一致.

图 6

图 6 古代绘画图像数据集上的召回率随IoU的变化

Fig.6 Variation of recall rate with IoU on ancient painting image dataset

在私有古代绘画图像数据集上对比所提方法与Faster-RCNN方法的微小目标检测能力，如图7所示，结果显示所提方法比Faster-RCNN方法检测效果更好。

图 7

图 7 多尺度全卷积网络模型与Fast-RCNN方法在古代绘画图像数据集上的目标检测效果对比

Fig.7 Results comparison between multi-scale full convolution network model and Fast-RCNN method in target detection on ancient painting image data sets

4. 结　语

本文主要介绍了一种特征金字塔多尺度全卷积目标检测算法. 该算法首先在RPN网络的基础上构建了一种特征金字塔多尺度网络结构. 该网络结构结合多尺度的全卷积操作能够完成多种尺度的不分类别的目标的检测任务，并采用侧连接技术构造了一种3层特征金字塔结构. 采用一种非极大值抑制算法过滤重叠目标，消除冗余目标窗口，对目标窗口进行位置精修，提高了不分种类目标检测的鲁棒性. 在PASCAL VOC 2007、PASCAL VOC 2012以及古代绘画数据集上进行了系列实验，并对实验结果进行了分析. 实验结果表明：提出的算法在微小目标检测、多尺度目标检测、不分种类的目标检测方面具有较好的平均检测精度、召回率和交并比.

参考文献

原文顺序

文献年度倒序

文中引用次数倒序

被引期刊影响因子

[1]

SERMANET P, EIGEN D, ZHANG X, et al. OverFeat: integrated recognition, localization and detection using convolutional networks [EB/OL]. preprint arXiv: 1312.6229.

[2]

REN S, HE K, GIRSHICK R, et al

Faster R-CNN: towards real-time object detection with region proposal networks

[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2015, 39 (6): 1137- 1149

[本文引用: 4]

[3]

PAPAGEORGIOU C P. A general framework for object detection [C] // Computer Vision and Pattern Recognition. Santa Barbara: IEEE, 1998: 511–562.

[4]

PAPAGEORGIOU C, POGGIO T

A trainable system for object detection

[J]. International Journal of Computer Vision, 2000, 38 (1): 15- 33

DOI:10.1023/A:1008162616689 [本文引用: 1]

[5]

VIOLA P, JONES M. Rapid object detection using a boosted cascade of simple features [C] // 2001 Proceedings of Computer Vision and Pattern Recognition. Kauai: IEEE, 2001: I-I.

DOI:10.1023/B:VISI.0000029664.99615.94 [本文引用: 1]

[6]

LOWE D G

Distinctive image features from scale-invariant keypoints

[J]. International Journal of Computer Vision, 2004, 60 (2): 91- 110

[7]

DALAL N, TRIGGS B. Histograms of oriented gradients for human detection[C] // IEEE Computer Society Conference on Computer Vision and Pattern Recognition. San Diego: IEEE, 2005: 886–893.

[8]

KRIZHEVSKY A, SUTSKEVER I, HINTON G E. ImageNet classification with deep convolutional neural networks [C] // International Conference on Neural Information Processing Systems. Lake Tahoe: Springer, 2012: 1097–1105.

[9]

GIRSHICK R, DONAHUE J, DARRELL T, et al. Rich feature hierarchies for accurate object detection and semantic segmentation [C] // Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Puerto: IEEE, 2014: 580–587.

[10]

FELZENSZWALB P F, MCALLESTER D A, RAMANAN D. A discriminatively trained, multiscale, deformable part model [C] // Computer Vision and Pattern Recognition. Hausdorff: IEEE, 2008: 1–8.

[11]

FELZENSZWALB P F, GIRSHICK R B, MCALLESTER D A, et al

Object detection with discriminatively trained part-based models

[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2010, 32 (9): 1627- 1645

DOI:10.1109/TPAMI.2009.167 [本文引用: 1]

[12]

GIRSHICK R B. Fast R-CNN [C] // International Conference on Computer Vision, Santiago: IEEE, 2015: 1440–1448.

[13]

HE K, ZHANG X, REN S, et al

Spatial pyramid pooling in deep convolutional networks for visual recognition

[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2015, 37 (9): 1904- 1916

[14]

LIN T Y, DOLLAR P, GIRSHICK R, et al. Feature pyramid networks for object detection [C] // IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas: IEEE, 2016: 936–944.

[15]

HE K, GKIOXARI G, DOLLAR P, et al. Mask R-CNN [C] // IEEE International Conference on Computer Vision. Venice: IEEE, 2017: 2980–2988.

[16]

REDMON J, DIVVALA S, GIRSHICK R, et al. You only look once: unified, real-time object detection [C] // Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas: IEEE, 2016: 779–788.

[17]

SIMONYAN K, ZISSERMAN A. Very deep convolutional networks for large-scale image recognition [EB/OL]. preprint arXiv: 1409.1556v6.

[18]

LIU W, ANGUELOV D, ERHAN D, et al. SSD: single shot multiBox detector [C] // European Conference on Computer Vision. Amsterdam: Springer, 2016: 21–37.

[19]

RUSSAKOVSKY O, DENG J, SU H, et al

ImageNet large scale visual recognition challenge

[J]. International Journal of Computer Vision, 2015, 115 (3): 211- 252

DOI:10.1007/s11263-015-0816-y [本文引用: 1]

[20]

GHIASI G, FOWLKES C C. Laplacian pyramid reconstruction and refinement for semantic segmentation [C] // European Conference on Computer Vision. Amsterdam: Springer, 2016: 519–534.

[21]

ZEILER M D, FERGUS R

Visualizing and understanding convolutional networks

[J]. European Conference on Computer Vision, 2013, 818- 833