浙江大学学报(工学版), 2019, 53(6): 1218-1224 doi: 10.3785/j.issn.1008-973X.2019.06.022

计算机与自动化技术

特征图聚集多尺度行人检测高效算法

陈昀,, 蔡晓东,, 梁晓曦, 王萌

Efficient multi-scale pedestrian detection algorithm withfeature map aggregation

CHEN Yun,, CAI Xiao-dong,, LIANG Xiao-xi, WANG Meng

通讯作者: 蔡晓东,男,教授. orcid.org/0000-0001-8505-1007. E-mail: caixiaodong@guet.edu.cn

收稿日期: 2018-05-9  

Received: 2018-05-9  

作者简介 About authors

陈昀(1991—),男,硕士生,从事深度学习和图像处理研究.orcid.org/0000-0001-8438-5734.E-mail:1655770801@qq.com , E-mail:1655770801@qq.com

摘要

针对使用人工设计特征训练的行人检测算法准确率和效率较低的问题,提出一种采用卷积神经网络特征图聚集多尺度行人检测高效算法. 设计一种特征图聚集网络,将高层次特征图与低层次特征图进行聚集,构造出有较好空间分辨和语义能力的特征图;构造特征延伸网络,提供用于多尺度行人检测的特征图;重新设计目标候选区域,构造多尺度行人检测网络,提升定位准确性,并将特征图聚集网络、特征延伸网络和多尺度行人检测网络组合进行端到端训练. 实验测试结果表明,该算法可以有效提高行人检测与定位准确性,并可在普通硬件设备条件下提供实时检测.

关键词: 特征图聚集 ; 行人检测 ; 多尺度 ; 空间分辨 ; 语义能力

Abstract

An efficient multi-scale pedestrian detection algorithm with convolutional neural network feature map aggregation was proposed for the problems of low accuracy and efficiency in pedestrian detection algorithm trained by manual design feature. An aggregation network was designed to gather high-level and low-level feature maps to construct a feature map with the ability of spatial resolution and semantic. And an extension network was constructed to provide feature maps for multi-scale detection. In addition, candidate areas were redesigned to construct a multi-scale detection network to improve positioning accuracy. The feature map aggregation network, extension network and multi-scale pedestrian detection network were combined for an end-to-end training. The experimental results show that, compared to algorithms based on manual design features, the proposed algorithm can effectively improve the accuracy of pedestrian detection and positioning. Under common hardware conditions, the proposed approach can provide real-time detection.

Keywords: feature map aggregation ; pedestrian detection ; multi-scale ; spatial resolution ; semantic ability

PDF (944KB) 元数据 多维度评价 相关文章 导出 EndNote| Ris| Bibtex  收藏本文

本文引用格式

陈昀, 蔡晓东, 梁晓曦, 王萌. 特征图聚集多尺度行人检测高效算法. 浙江大学学报(工学版)[J], 2019, 53(6): 1218-1224 doi:10.3785/j.issn.1008-973X.2019.06.022

CHEN Yun, CAI Xiao-dong, LIANG Xiao-xi, WANG Meng. Efficient multi-scale pedestrian detection algorithm withfeature map aggregation. Journal of Zhejiang University(Engineering Science)[J], 2019, 53(6): 1218-1224 doi:10.3785/j.issn.1008-973X.2019.06.022

行人检测是目标检测领域的一个重要分支,作为汽车安全[1]、视频监控[2-3]等现实应用的关键部分,行人检测技术受到了大量关注. 当前行人检测主要存在两类算法:基于机器学习的传统行人检测算法,基于深度学习的行人检测算法.

基于机器学习的传统行人检测算法[4-9]使用方向梯度直方图(histogram of oriented gradient,HOG)、局部二值模式(local binary pattern,LBP)、Haar-like等人工设计的特征训练SVM或者Adaboost算法[10]的级联分类器实现. 这类算法在一些场景简单的行人检测任务中有较好的检测准确率,然而在商场、街道等复杂场景中,由于存在姿态变化、遮挡、背景复杂等因素,人工难以设计一种具有极高鲁棒性的特征,检测效果往往不理想.

基于深度学习的行人检测算法的特征由计算机学习得到,这类特征同时具备轮廓、颜色、纹理等多种信息,具有极高的语义特征表达能力和鲁棒性. 近几年,许多基于深度学习的通用目标检测算法被提出. Girshick等[11]在RCNN算法[12]的基础上提出Fast R-CNN算法,实现了准确率和效率的大幅提升,该算法将每个用于特征提取的候选区域映射到卷积特征上而不是从原图直接获取,大幅减少了卷积运算,有效提升了候选区域特征的提取速度. 然而,Fast R-CNN仍没有解决Selective Search算法[13]选取候选区域慢的问题. 针对这个问题,Ren等[14]提出了Faster-RCNN算法,设计了区域生成网络(region proposal network,RPN)快速选取候选区域,实现了检测速度和精度的进一步提升,在Pascal VOC数据集的测试中准确率达到了76.4%,速度达到了2 帧/s。为了实现具备较高准确率和实时检测效率的通用目标检测,候选区域特征提取部分的计算量必须减少。Liu等[15]提出了SSD算法,Joseph等[16]提出了YOLOv2算法,实现了较高准确率下的实时目标检测。这2种算法的相同之处在于:都取消了区域生成网络,通过计算特征图滑动窗区域与真实区域的交并比寻找候选区域,并且候选区域直接作用于检测网络进行分类和定位。不同之处在于:SSD算法的滑动窗尺寸由人工确定,而YOLOv2算法的滑动窗尺寸由样本集边框标签进行K-means聚类得到;SSD算法使用不同层特征图生成候选区域,而YOLOv2算法只使用一层特征图生成候选区域。在Pascal VOC数据集测试中,SSD算法获得速度为46帧/s、平均准确率为74.3%的检测结果,YOLOv2算法获得速度为67帧/s、平均准确率为76.8%的检测结果。

行人检测属于目标检测的一种特殊情况,本文对目标检测SSD算法进行改进,提出一种高效的特征图聚集多尺度行人检测算法,通过提高SSD算法中用于检测部分特征的空间分辨和语义能力,实现高效和准确的行人检测. 当前,已有许多优秀的特征图聚集算法,其中Inception module算法[17-19]对不同感受野特征图进行融合,构造出的特征具有较高的空间信息,但是未使用具有较好语义信息的高层特征;交叉输入邻域差异化算法[20]通过单一较低层特征图互相减的运算可构造出具有差异化显著的类内与类间特征,但是所含语义信息较少. 本文进一步结合HpyerNet[21]算法,提出一种将高层次特征与低层次特征图进行聚集的网络,构造出具有较好空间分辨和语义能力的特征图,以提高检测准确性. 同时,为获得更好的行人定位准确性,本文构造多尺度行人检测网络,对SSD算法的候选区域根据行人长宽比例进行重新设计,使预测区域更加逼近真实区域.

1. 特征图聚集多尺度行人检测高效算法

1.1. 网络框架思想

特征图聚集多尺度行人检测高效算法其网络结构主要有2个部分.

第一部分为特征提取网络,由特征图聚集网络和特征延伸网络组成. 特征图聚集网络是针对SSD算法中特征提取网络视觉几何组(visual geometry group,VGG)[22]的一种改进,对其多个低层特征使用不同尺寸的池化层进行下采样,之后使用卷积核尺寸为3×3的卷积层处理加强语义能力,并对一个高层特征使用反卷积层[23]进行上采样,以此将不同层输出的特征图尺寸统一到38×38. 为防止数据过拟合使用局部响应归一化层(local response normalization,LRN)对这些特征图进行处理,并使用拼接层Concat进行通道拼接,形成具有较好空间分辨能力和语义能力的聚集特征图. 特征延伸网络是对特征图聚集网络卷积层组5的扩展,以形成多尺度特征图,用于预测不同尺度的行人位置.

第二部分为多尺度行人检测网络,该网络是SSD算法中检测网络部分在行人检测应用上的一种改进. 由于实际场景中行人多为站立、行走和跑步等状态,图片或视频中矩形行人区域的高宽比多为2.5∶1和3∶1. 对SSD算法的检测网络部分的候选区域进行重新设计,把高宽比小于1的候选区域全部去掉,同时增加高宽比为2.5∶1和3∶1的候选区域,以此来提高行人定位的准确性.

选取特征提取网络的卷积层组5、卷积层1、卷积层2、卷积层3、卷积层4和特征图聚集网络的输出作为多尺度行人检测网络的输入,构建基于特征图聚集的多尺度行人检测网络.

1.2. 特征图聚集网络

卷积神经网络的低层特征图具有较高的空间分辨能力,而高层特征图具有较高的语义能力,为了构造兼具这2种能力的特征图,对VGG网络中感受野差异较大的特征图进行聚集处理。由于使用池化层下采样处理后的特征图的感受野会产生较大变化,所以选择池化层2、池化层3、池化层4和池化层5之前的特征图进行聚集。同时,为了高效的行人检测将用于聚集的特征图下采样或上采样到统一尺寸38×38。网络结构如图1所示:对池化层2和池化层3之前的特征图分别使用1个滤波器尺寸为4×4步长为4和2×2步长为2的池化层对特征图进行下采样,之后使用1个卷积核尺寸为3×3步长为1的卷积层加强特征图语义能力。对池化层4之前的特征图使用1个卷积核尺寸为3×3步长为1的卷积层加强特征图语义能力。对池化层5的输出使用1个滤波器尺寸为4×4步长为2的反卷积层进行上采样。使用LRN层对通道拼接前的特征图进行处理,降低特征图中大尺寸行人区域对小尺寸行人区域的压制。

图 1

图 1   基于视觉几何组(VGG)网络的低层与高层特征图聚集结构

Fig.1   Low-level and high-level feature maps aggregation structure based on visual geometry group (VGG) network


1.3. 特征延伸网络

使用多个卷积层进行下采样生成多尺度特征图,网络结构如图2所示:输入为图1卷积层组5的输出,虚线处表示1个卷积层,其卷积核尺寸为1×1步长为1通道数为下一个卷积层1/2。

图 2

图 2   基于多尺度卷积的特征延伸网络结构

Fig.2   Feature extension network structure based on multi-scale convolution


1.4. 多尺度行人检测网络

SSD算法的检测网络部分存在高宽比为1∶2和1∶3的候选区域,而这些候选区域不适用于行人检测,因此本文构造的多尺度行人检测网络对候选区域进行重新设计,将候选区域的高宽比设为1∶1、2∶1、2.5∶1和3∶1. 选取卷积层组5、卷积层1、卷积层2、卷积层3、卷积层4和特征图聚集网络的输出作为多尺度行人检测网络的输入,这一部分网络结构如图3所示.

图 3

图 3   基于多尺度特征图候选区域分类和边框回归的行人检测网络结构

Fig.3   Pedestrian detection network structure based on candidate region classification and border regression of multi-scale feature maps


对输入多尺度行人检测网络的特征图提取候选区域,并将其与目标的真实区域进行匹配. 匹配策略如下:

$S{\rm{=}}\frac{{\left| {A \cap B} \right|}}{{\left| {A \cup B} \right|}}.$

式中:S为Jaccard相似度,A为目标真实区域的区域,B为候选区域的区域. 当S >50%时,认为候选区域中存在目标;否则,没有目标.

使用Softmax loss与Smooth L1 loss作为联合优化损失函数:

$L=\frac{1}{N}\left( {{L_1} + {L_2}} \right).$

式中:N为存在目标的候选区域的数量;L2为位置损失, 使用Smooth L1 loss对预测区域进行位置回归. L1为Softmax loss用于计算预测区域置信度损失;L2为Smooth L1 loss用于计算预测区域的位置损失。若N = 0,则L = 0. 使用Softmax loss计算每个与真实区域进行匹配的候选区域置信度.

${L_1}= - \sum\nolimits_{i=1}^N {\log\; \frac{{\exp \left( {{{W}}_i^{\rm{T}}{{{x}}^{\left( i \right)}} + {{{b}}_i}} \right)}}{{\sum\nolimits_{l=1}^k {\exp \left( {{{W}}_l^{\rm{T}}{{{x}}^{\left( i \right)}} + {{{b}}_l}} \right)} }}} .$

式中:k为检测类别数,k=2.

${L_2}=\sum\nolimits_i^N {\sum\nolimits_{{{m}} \in \left\{ {{{{x}}_{\rm{c}}}{\rm{,}}{{{y}}_{\rm{c}}}{{,w,h}}} \right\}} {{L_3}\left( {v_i^{{m}} - u_i^{{m}}} \right)} } .$

$ {L_3}\left( x \right) = \left\{ \begin{array}{l} 0.5{x^2},\quad\quad\left| x \right| < 1;\\ \left| x \right| - 0.5,\quad{\text{其他}}. \end{array} \right. $

$u_i^{{m}}{\rm{=}}\left\{ \begin{gathered} u_i^{{{{x}}_{\rm{c}}}}{\rm{=}}{{\left( {{{g}}_j^{{{{x}}_{\rm{c}}}} - {{d}}_i^{{{{x}}_{\rm{c}}}}} \right)} / {d_i^{{w}}}}, \\ u_i^{{{{y}}_{\rm{c}}}}{\rm{=}}{{\left( {{{g}}_j^{{{{y}}_{\rm{c}}}} - {{d}}_i^{{{{y}}_{\rm{c}}}}} \right)} / {d_i^{{h}}}}, \\ u_i^{{w}}=\log\; \left( {{{{{g}}_j^{{w}}} / {d_i^{{w}}}}} \right), \\ u_i^{{h}}=\log \;\left( {{{{{g}}_j^{{h}}} / {d_i^{{h}}}}} \right) . \end{gathered} \right.$

式中:m为区域属性集合,xcyc分别为候选区域d和真实区域g的中心坐标,wh分别为区域宽度和高度,v为预测区域相对真实区域的偏移,u为候选区域相对真实区域的偏移,j为与候选区域匹配的真实区域.

2. 实验数据与实验结果分析

2.1. 实验环境

训练部分配置:Intel i3-4130 CPU(3.40 GHz×4)、8 GB内存、GTX980ti显卡、ubuntu14.04操作系统、Caffe深度学习开源框架. 测试部分配置:Intel i3-4130 CPU(3.40 GHz×4)、8 GB内存、GTX980ti显卡、ubuntu14.04操作系统、Caffe深度学习开源框架.

2.2. 训练和验证数据集

INRIA行人检测数据集[8]:由法国国家信息与自动化研究所公开,该数据集训练样本包括614个正样本(包含2 416个行人)和1 218个负样本,测试样本包括288个正样本(包含1 126个行人)和453个负样本,如图4所示。该数据集训练样本包括614个正样本(包含2 416个行人)和1 218个负样本,测试样本包括288个正样本(包含1 126个行人)和453个负样本. 图片中人体大部分为站立姿势且高度大于100个像素.

图 4

图 4   INRIA行人数据集中的不同场景图片示例

Fig.4   Examples for different scene images from INRIA pedestrian dataset


ETH行人检测数据集[24]:由苏黎世联邦理工大学公开,该数据集的帧率和分辨率分别为13~14 帧/s 和640×480,由3种不同光线的街道场景组成,其中强光照场景包含354张图片,阴天场景包含999张图片,正常光照场景包含446张图片,如图5所示. 该数据集由3个具有不同光线的街道场景的子数据集构成,帧率和分辨率分别为13~14帧/s和640×480,其中左侧为强光照场景包含354张图片,中间为阴天场景包含999张图片,右侧为正常光照场景包含446张图片.

图 5

图 5   ETH行人数据集中的不同场景图片示例

Fig.5   Examples for different scene images from ETH pedestrian dataset


2.3. 实验结果及分析

采用目标检测Pascal竞赛评估标准,当预测区域与真实区域的Jaccard相似度大于50%时,判定为正确匹配.

行人检测的准确性采用漏检率Mr与平均每幅图像误检率fp构成的曲线图作为评价标准,曲线越低检测准确率越高。主要比较2个关键指标Mr1(平均每幅图像误检率为0.1时的漏检率)值和Mr2(平均每幅图像误检率为0.01时的漏检率值。

${M_{\rm{r}}}=1 - \frac{{{N_{\rm{p}}}}}{{{N_{\rm{p}}} + {N_{\rm{n}}}}}.$

式中:Np为样本中行人区域被正确检出的,Nn为样本中行人区域未被正确检出的数量.

${f_{\rm{p}}}={{{N_{\rm{f}}}}}/{n}.$

式中:Nf为样本中背景区域被误检测为行人区域的数量,n为测试样本总数.

行人定位准确性的评价数据为检测召回率R和预测区域与真实区域的Jaccard相似度.

$R=\frac{{{N_{\rm{p}}}}}{{{N_{\rm{p}}} + {N_{\rm{n}}}}}.$

2.3.1. 算法检测准确性分析

(1)关于INRIA行人数据集实验分析,选择INRIA行人数据训练集中的614个正样本作为网络训练样本,288个正样本作为网络测试样本. 当网络输出的预测区域与测试样本的真实区域的Jaccard相似度大于0.5时,判为正确检测;否则为错误检测,实验结果如图6所示.

图 6

图 6   INRIA行人数据集中漏检率与每幅图像平均误检率变化曲线

Fig.6   Curve of missing detection rate change with average false detection rate per image on INRIA pedestrian dataset


本文算法的Mr1=12.1%,相比SSD算法降低了2.8%,Mr2=33.8%,相比SSD算法降低了1.8%;并且准确性评价曲线低于SSD.

在关键指标Mr1值的评估上,本文算法检测准确率优于使用手工提取特征的算法[25-28],并且优于取消区域生成网络的深度学习算法YOLOv2[16]和SSD,与使用区域生成网络的SAF R-CNN[29]相比存在一定差距。具体指标如表1所示。这表明在行人检测应用中,本文对SSD算法的改进是有效的且行人检测准确性更好。

表 1   INRIA行人数据集中不同方法的检测准确性对比

Tab.1  Accuracy of detection in different methods on INRIA pedestrian datasets

算法 Mr1/% 算法 Mr1/%
LDCF[25] 13.8 SAF R-CNN[29] 8.0
SketchTokens[26] 13.3 YOLOv2[16] 13.0
Roerei[27] 13.5 SSD 14.9
RandForest[28] 15.4 本文算法 12.1

新窗口打开| 下载CSV


(2)关于ETH行人数据集实验分析,本文使用由INRIA行人数据集训练得到的检测模型,分别对ETH行人数据集的3个子数据集进行测试,实验结果如图7所示.

图 7

图 7   ETH行人数据集中漏检率与每幅图像平均误检率变化曲线

Fig.7   Curve of missing detection rate change with average false detection rate per image on ETH pedestrian dataset


本文算法在强光场景的测试中,Mr1为58.2%,相比SSD算法降低了21%,Mr2为78%,相比SSD算法降低了13.5%,并且在fp值相等的条件下Mr值大幅度低于SSD.

本文算法在阴天场景的测试中,Mr1为76.9%,相比SSD算法降低了2.2%,Mr2为90.5%相比SSD算法降低了2.1%. 在fp为0.01~1.00时,即检测器常用阈值范围内,本文算法Mr值优于SSD算法.

本文算法在正常光线场景的测试中,Mr1为76.1,相比SSD算法降低了1.8%,Mr2为92%,相比SSD算法增加0.9%. 在fp为0.01~0.04时,本文算法Mr值略高于SSD算法. 在fp为0.04~1.00时,本文算法Mr值相比SSD算法下降的更快.

这表明,在这三种场景中,本文算法相比SSD具有更好的行人检测准确性以及泛化能力.

2.3.2. 算法定位准确性分析

本文算法在INRIA行人数据集上的定位准确性评估如表2所示. 预测区域与真实区域的Jaccard 相似度J为0.5~0.9,本文算法召回率P相比SSD算法召回率Q平均高于对方1.34%. 这表明本文算法的定位准确性要优于SSD算法.

表 2   INRIA行人数据集中本文算法与SSD算法的定位准确性

Tab.2  Location accuracy of proposed method and SSD method on INRIA pedestrian datasets

J/% P/% Q/% J/% P/% Q/%
50 94.9 95.5 80 53.6 55.0
60 91.3 92.3 90 13.7 14.9
70 78.6 81.1

新窗口打开| 下载CSV


2.3.3. 算法效率分析

本文算法效率评估方式为每秒检测大小为640×480图片的数量. 由于有些算法使用CPU实现,有些使用GPU实现,因此,本实验不区分各个算法的硬件环境. 本文算法与当前一些优秀行人检测算法每秒可检测图片数量Nper-sec的比较,如表3所示. 本文算法在检测单张图片的时间上相比基于手工提取特征的行人检测算法LDCF[25]、SketchTokens[26]、Roerei[27]和RandForest[28]大幅度减少,相比深度学习的SSD算法略有增加,与YOLOv2[16]算法有一定的差距,与基于RCNN[12]多尺度特征融合的SAF R-CNN[29]算法大幅度减少. 这表明本文算法相比人工提取特征训练的行人检测算法效率明显提升,并且满足实时检测的要求.

表 3   不同算法每秒检测图片的数量对比

Tab.3  Comparison of number of detected pictures per second in different methods

算法 Nper-sec 算法 Nper-sec
LDCF[25] 1.7 SAF R-CNN[29] 1.7
SketchTokens[26] 1.0 YOLOv2[16] 67
Roerei[27] 1.0 SSD 35
RandForest[28] 4.6 本文算法 33

新窗口打开| 下载CSV


3. 结 语

本文提出了特征图聚集多尺度行人检测高效算法,通过将高、低层次的特征图进行聚集,使网络提取到的特征具有更好的空间分辨能力和语义能力;并根据行人数据集的特点,改进SSD算法的候选区域设计,将高宽比小于1的候选区域去除,增加高宽比大于1的候选区域,有效提升行人定位准确性. 与一些优秀的传统算法相比,本文算法具有更高的行人检测与定位准确率;相比YOLOv2算法具有更高的检测准确性,相比SAF R-CNN算法具有更高的检测效率;并可在一般设备上达到实时性应用的要求. 进一步研究可以结合模型压缩算法在保持准确性有限下降的情况下大幅度提高效率.

参考文献

许言午, 曹先彬, 乔红

行人检测系统研究新进展及关键技术展望

[J]. 电子学报, 2008, 36 (5): 962- 968

DOI:10.3321/j.issn:0372-2112.2008.05.023      [本文引用: 1]

XU Yan-wu, CAO Xian-bin, QIAO hong

Survey on the latest development of pedestrian detection system and its key technologies expectation

[J]. Acta Electronica Sinica, 2008, 36 (5): 962- 968

DOI:10.3321/j.issn:0372-2112.2008.05.023      [本文引用: 1]

王素玉, 沈兰荪

智能视觉监控技术研究进展

[J]. 中国图象图形学报, 2008, 36 (5): 962- 968

[本文引用: 1]

WANG Su-yu, SHEN Lan-sun

intelligent visual surveillance technology: a survey

[J]. Journal of Image and Graphics, 2008, 36 (5): 962- 968

[本文引用: 1]

乔传标, 王素玉, 卓力, 等

智能视觉监控中的目标检测与跟踪技术

[J]. 测控技术, 2008, 27 (5): 22- 24

DOI:10.3969/j.issn.1000-8829.2008.05.007      [本文引用: 1]

QIAO Chuan-biao, WANG Su-yu, ZHUO Li, et al

Object detection and tracking for intelligent video surveillance

[J]. Measurement and Control Technology, 2008, 27 (5): 22- 24

DOI:10.3969/j.issn.1000-8829.2008.05.007      [本文引用: 1]

PAPAGEORGIOU C, POGGIO T

A trainable system for object detection

[J]. International Journal of Computer Vision, 2000, 38 (1): 15- 33

DOI:10.1023/A:1008162616689      [本文引用: 1]

VIOLA P, JONES M J

Robust real-time face detection

[J]. International Journal of Computer Vision, 2004, 57 (2): 137- 154

DOI:10.1023/B:VISI.0000013087.49260.fb     

VIOLA P, JONES M J, SNOW D

Detecting pedestrians using patterns of motion and appearance

[J]. International Journal of Computer Vision, 2005, 63 (2): 153- 161

DOI:10.1007/s11263-005-6644-8     

VIOLA P, JONES M J, SNOW D. Detecting pedestrians using patterns of motion and appearance [C] // 9th IEEE International Conference on Computer Vision. Nice: IEEE, 2003: 734-741.

DALAL N, TRIGGS B. Histograms of oriented gradients for human detection [C] // Computer Vision and Pattern Recognition. San Diego: IEEE, 2005: 886-893.

[本文引用: 1]

WANG X Y, HAN T X, YAN S. An HOG-LBP human detector with partial occlusion handling [C] // 2009 IEEE 12th International Conference on Computer Vision. Kyoto: IEEE, 2009: 32-39.

[本文引用: 1]

FREUND Y, SCHAPIRE R E. Experiments with a new boosting algorithm [C] // International Conference on Machine Learning. Bari: ICML, 1996: 148-156.

[本文引用: 1]

GIRSHICK R B. Fast R-CNN [C] // IEEE International Conference on Computer Vision. Santiago: IEEE, 2015: 1440-1448.

[本文引用: 1]

GIRSHICK R B, DONAHUE J, DARRELL T, et al. Rich feature hierarchies for accurate object detection and semantic segmentation [C] // IEEE Conference on Computer Vision and Pattern Recognition. Columbus: IEEE, 2014: 580-587.

[本文引用: 2]

UIJLINGS J R R, VANDESANDE K E A, GEVERS T, et al

Selective search for object recognition

[J]. International Journal of Computer Vision, 2013, 104 (2): 154- 171

DOI:10.1007/s11263-013-0620-5      [本文引用: 1]

REN S Q, HE K M, GIRSHICK R B, et al. Faster R-CNN: towards real-time object detection with region proposal networks [C] // Neural Information Processing Systems. Montreal: NIPS, 2015: 91-99.

[本文引用: 1]

LIU W, ANGUELOV D, ERHAN D. SSD: single shot multibox detector [C] // European Conference on Computer Vision. Amsterdam: ECCV, 2016: 21-37.

[本文引用: 1]

JOSEPH R, ALI F. YOLO9000: better, faster, stronger [C] // IEEE Conference on Computer Vision and Pattern Recognition. Honolulu: IEEE, 2017: 6517-6525.

[本文引用: 5]

SZEGEDY C, LIU W, JIA Y Q, et al. Going deeper with convolutions [C] // IEEE Conference on Computer Vision and Pattern Recognition. Boston: IEEE, 2015: 1-9.

[本文引用: 1]

SZEGEDY C, IOFFE S, VANHOUCKE V. Inception-v4, Inception-ResNet and the impact of residual connections on learning [C] // Association for the Advancement of Artificial Intelligence. San Francisco: AAAI, 2017: 4278-4284

SZEGEDY C, VANHOUCKE V, IOFFE S, et al. Rethinking the inception architecture for computer vision [C] // IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas: IEEE 2016: 2818-2826.

[本文引用: 1]

AHMED E, JONES M and MARKS T K. An improved deep learning architecture for person re-identification [C] // IEEE Conference on Computer Vision and Pattern Recognition. Boston: IEEE, 2015: 3908-3916.

[本文引用: 1]

KONG T, YAO A B, CHEN Y R, et al. HyperNet: towards accurate region proposal generation and joint object detection [C] // IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas: IEEE, 2016: 845-853.

[本文引用: 1]

IOFFE S, SZEGEDY C. Batch normalization: accelerating deep network training by reducing internal covariate shift [C] // International Conference on Machine Learning. Lille: ICML, 2015: 448-456.

[本文引用: 1]

LONG J, SHELHAMER E, DARRELL T. Fully convolutional networks for semantic segmentation [C] // IEEE Conference on Computer Vision and Pattern Recognition. Boston: IEEE, 2015: 3431-3440.

[本文引用: 1]

ESS A, LEIBE B, VAN GOOL L. Depth and appearance for mobile scene analysis [C] // IEEE International Conference on Computer Vision. Rio de Janeiro: IEEE, 2007: 1-8.

[本文引用: 1]

NAM W, DOLLAR P, HAN J H. Local decorrelation for improved pedestrian detection [C] // Neural Information Processing Systems. Montreal: NIPS, 2014: 424-432.

[本文引用: 4]

LIM J, ZITNICK C, DOLLAR P. Sketch tokens: a learned mid-level representation for contour and object detection [C] // IEEE Conference on Computer Vision and Pattern Recognition. Portland: IEEE, 2013: 3158-3165.

[本文引用: 3]

BENENSON R, MATHIAS M, TUYTELAARS T. Seeking the strongest rigid detector [C] // IEEE Conference on Computer Vision and Pattern Recognition. Portland: IEEE, 2013: 3666-3673.

[本文引用: 3]

MARIN J, VAZQUEZ D, LOPEZ A, et al. Random forests of local experts for pedestrian detection [C] // IEEE International Conference on Computer Vision. Sydney: IEEE, 2013: 2592-2599.

[本文引用: 4]

LI J N, LIANG X D, SHEN S M, et al

Scale-aware fast R-CNN for pedestrian detection

[J]. IEEE Transactions on Multimedia, 2018, 20 (4): 985- 996

[本文引用: 4]

/