基于残差单发多框检测器模型的交通标志检测与识别

doi:10.3785/j.issn.1008-973X.2019.05.015

基于残差单发多框检测器模型的交通标志检测与识别

张淑芳^,, 朱彤

Traffic sign detection and recognition based on residual single shot multibox detector model

ZHANG Shu-fang^,, ZHU Tong

收稿日期: 2018-04-11

Received: 2018-04-11

作者简介 About authors

张淑芳(1979—)，女，副教授，从事图像视频质量评价、图像识别等研究.orcid.org/0000-0002-9888-2587.E-mail：shufangzhang@tju.edu.cn , E-mail：shufangzhang@tju.edu.cn

摘要

针对现有目标检测方法仅适用于大尺寸、少量特定种类交通标志的检测，且对复杂交通场景图像检测效果不佳的问题，以抗退化性能较强的ResNet101为基础网络，增加若干卷积层构建残差单发多框检测器（SSD）模型，对高分辨率的交通图像进行多尺度分块检测。为了加快检测速度，采取由粗到精的策略，省略对纯背景图像块的预测. 利用中等尺度图像块的初检结果缩小目标范围；对目标范围内的其他图像块进行检测；将所有图像块结果映射回原图像，并结合非极大值抑制实现精准识别。实验结果表明，该模型在公开的交通标志数据集Tsinghua-Tencent 100K上取得了94%的总体准确率和95%的总体召回率，对多分辨率图像中不同大小和形态的交通标志都具有良好的检测能力，鲁棒性较强。

关键词： 交通标志 ; 残差单发多框检测器(SSD)模型 ; 多尺度分块 ; 检测 ; 由粗到精

Abstract

The existing target detection methods were only suitable for large size and few specific types of traffic signs, and showed poor performance on complex traffic scene images. The ResNet101 with strong anti-degradation performance was used as basic network, and then a residual single shot multibox detector (SSD) model added with a number of convolution layers was proposed, in order to conduct multi-scale block detection on high resolution traffic images. A strategy Coarse-to-Fine was adopted to omit the prediction of pure background image blocks, in order to speed up. The target range was narrowed by the initial detection results of the medium scale image block. The other blocks within the target range were detected. All the block results were mapped back to the original image and non-maximum suppression was used to realize accurate recognition. Experiment results showed that the proposed method achieved 94% overall accuracy and 95% overall recall on the public traffic sign dataset Tsinghua-Tencent 100K. The detection ability on traffic sign with different sizes and shapes in multi-resolution images was strong and the proposed model was robust.

Keywords： traffic sign ; residual single shot multibox detector (SSD) model ; multi-scale block ; detection ; Coarse-to-Fine

PDF (1907KB) 元数据多维度评价相关文章导出 EndNote| Ris| Bibtex 收藏本文

本文引用格式

张淑芳, 朱彤. 基于残差单发多框检测器模型的交通标志检测与识别. 浙江大学学报(工学版)[J], 2019, 53(5): 940-949 doi:10.3785/j.issn.1008-973X.2019.05.015

ZHANG Shu-fang, ZHU Tong. Traffic sign detection and recognition based on residual single shot multibox detector model. Journal of Zhejiang University(Engineering Science)[J], 2019, 53(5): 940-949 doi:10.3785/j.issn.1008-973X.2019.05.015

交通标志的检测与识别是无人驾驶技术的重点研究领域之一，为安全驾驶和行车导航提供有效信息，对规范驾驶员行为、保障交通顺畅和安全出行起到至关重要的作用. 传统的机器学习方法一般通过分割感兴趣区域提取图像特征，利用单一或几种分类算子对目标进行识别. 主要依据的特征有3种：图像的浅层信息如颜色、形状等^[1-2]，视觉显著性信息如混合颜色、亮度、朝向等多个特征的特征图等^[3]，局部不变特征信息如梯度直方图等^[4]. 尽管相应的分类器检测速度较快，但由于特征表达片面而单一，不具有普适性，在复杂的背景或是干扰物众多、标志本身存在扭曲损坏的情况下，误检率漏检率极高.

深度卷积神经网络（deep convolution neural network，DCNN）^[5]的出现打破了图像语义表达的局限，被广泛应用于交通标志的检测与识别. 现有的主流网络可以分为2种：使用区域建议的网络如RCNN^[6]、FastR-CNN^[7]、FasterR-CNN^[8]、R-FCN^[9]，以及不使用区域建议的网络如YOLO (you only look once)^[10]、单发多框检测器 (single shot multibox detector, SSD)^[11]等. 尽管总体上这些模型在ImagenetILSVRC^[12]、PASCALVOC^[13]等大型数据库中能取得不错的检测效果，但对于小目标的识别效果依然有待提高. 这是卷积神经网络分辨率和语义化程度之间的矛盾所造成的. Fast R-CNN等网络利用语义化程度大的顶层进行预测，分类效果较好，但顶层特征图像素点对应的感受野较大，分辨率较低，降低了回归预测的精细度，在小目标检测问题上尤为突出. SSD网络试图利用感受野小、分辨率高的浅层预测小目标，但由于浅层语义化程度不够高，抽象特征不够丰富，对于小目标分类的效果较差. 图像分块是解决小目标检测问题的重要技术，通过将图像分解成图像块，提高目标的相对尺寸比例，实现小目标向大目标的转化. 但简单单尺度分块的提升效果仍有限. 为此，本研究提出多尺度分块方法，进一步适应不同尺寸目标的检测.

此外，针对德国(GTSDB^[14]、GTSRB^[15])、比利时(Belgium TS^[16])等国家的交通标志数据集的研究成果较好，但这些数据集图片与真实交通场景相差较大，不能满足实际任务的需要. 例如，GTSDB中仅有4类标志；GTSRB中的标志在整幅图像中占比大于80%，而在真实场景中捕获的交通标志很可能只占整幅图像的很小比例. 近期，清华大学与腾讯联合实验室公开了他们制作的交通标志数据集Tsinghua-Tencent 100K^[17]，该数据集的图片取自中国不同地区的多个交通场景，图像具有较高的分辨率和亮度差异，更符合我国道路交通情况. 本研究选择在Tsinghua-Tencent 100K数据集上进行实验.

选用多尺度图像块代替原始图像作为输入，不过不同于Meng等^[18]提出的图像下采样方式，本研究通过对原始图像使用更小的尺寸和步长进行分块以提高检测精度. 鉴于ResNet网络^[19]在解决深度引起的退化问题以及速度上的优势，用ResNet101代替原始版本中的VGGNet^[20]作为SSD的基础网络，并相应修改附加卷积层的个数以及网络参数. 采用由粗到精的策略进行检测，之后将图像块层级的结果映射到原图像层级. 分别在图像块级和原图像级采用非极大值抑制加以筛选，优化检测结果.

1. 方法设计

1.1. 残差SSD模型

SSD模型是由基础特征提取网络以及若干辅助卷积层构成的前馈卷积神经网络. 利用一组离散的默认大小的边框来匹配不同特征图中的对象，计算属于各类别的分数，并且对边框进行不断调整以更好地近似对象包围框，实现多目标的检测. 原始版本SSD使用VGGNet作为前置基础网络，通过减小卷积核，增加网络深度来获取目标多层次特征，模型复杂度较高；VGGNet采取的堆叠滤波器的方式会在网络顶层带来梯度弥散现象，致使模型性能退化. 深度残差网络能够通过在卷积层之间增加短路连接，降低超参数数量，将网络延拓至较深，同时抑制退化现象. 采用残差网络ResNet101代替原VGGNet作为SSD的基础网络，构建残差SSD模型，如图1所示. 图中，虚线框内为残差结构层；Conv2~Conv5为添加的辅助卷积层；Conv：1×1×256表示使用256个大小为1×1的卷积核对特征图进行卷积，同理类推.

图 1

新窗口打开| 下载原图ZIP| 生成PPT

图 1 残差单发多框检测器模型图

Fig.1 Diagram of residual single shot multibox detector model

残差SSD模型综合基础网络的最后几层以及辅助层上的输出结果进行预测，具体特征如下. 1)多尺度特征图检测. 在ResNet101的最顶层Res5c之后依次添加4组卷积层，构成更加丰富的特征图. 特征图的尺寸逐级减小，为多尺度检测提供了可能. 2)卷积滤波器用于预测. 与YOLO等网络使用全连接层滤波器不同，SSD使用卷积滤波器进行预测，产生目标属于每一类的分数以及与默认框的相对位置偏移量. 将Res3b3、Res5c、Pool6以及新添加的Conv2、Conv3、Conv4、Conv5作为预测结果输出的卷积层. 3)不同宽高比默认框的使用. 将默认框与顶层网络每个特征图单元相关联. 通过默认框与特征图的卷积运算，使每个默认框相对于各单元格位置固定. 计算每个特征图单元相对于每个框实例位置的偏移量，以及所有的类别分数. 具体来说，对于每个特征图单元，计算q个类别分数和相对于k个默认框的4个偏移量，从而每个特征图单元需要（q+4）k个滤波器，对于m×n的特征图就会产生（q+4）kmn个输出. 不同宽高比默认框的使用，可以有效离散输出框的形状，提高匹配的可能性和速度.

1.2. 数据预处理

为了减轻图形处理器(graphics processing unit，GPU）内存负担，实现对各种尺寸标志尤其是小型标志的检测，采取多尺度分块方法，如图2所示. 图中，w、h、s分别为标志的宽、高、面积. 对输入的高分辨率（如2 048×2 048像素）的图像，使用滑窗法划分出大小分别为256×256、320×320、384×384、448×448、512×512像素的图像块，滑动步长依次为64、96、128、160、256，记为尺度1~5. 小型标志在低分辨率图像块中所占面积比例较大，因而在分块时选用较小的步长来获得更多的低分辨率图像. 为了加快网络收敛速度，将所有输入图像块大小统一为512×512，以便进行数据批处理. 同时将默认包围框的4个坐标值限制在[0，512]，超出部分舍弃.

图 2

新窗口打开| 下载原图ZIP| 生成PPT

图 2 多尺度分块示意图

Fig.2 Schematic diagram of multiscale box

1.3. 模型训练

利用多尺度分块后的图像块数据对残差SSD模型进行训练，优化网络超参数以提高网络的泛化能力. 由于滑窗法产生的图像块数量庞大，且多为背景信息，不宜将其全部输入网络训练. 残差SSD网络已对输入图像进行了数据扩充处理，并且提出了有效的负样本挖掘方法，所以可将所有包含标志的图像块全部投入网络，并随机筛选一部分不包含标志的图像块进行训练以实现网络对背景区域的识别（两者数量比例约为1∶2）. 判定图像块是否包含标志的方法如下：对每个图像块进行搜索，当存在某个标志包围框50%以上的面积区域落在此图像块上时，认为此图像块包含该标志，保留此图像块，否则舍弃. 同一个图像块中可能包含多个标志.

残差SSD网络学习策略如下.

1）选择默认框尺度和宽高比. 研究表明，低层特征图含有更丰富的细节信息，对小目标的检测较有用^[21-22]；高层特征图有助于平滑分割结果，适用于大目标的检测^[23]. 综合使用来自7个不同尺度层的特征图进行预测，实现多尺度检测与识别. Res5c之后每个特征图上的默认框尺度（像素除以512）表达式为

(1) $ {s_k} = {s_{\min }} + ({{{s_{\max }} - {s_{\min }}}})(k - 1)/5;\;k \in [1,\;5]. $

式中： $ {s_{\min }}$、 ${s_{\max }} $分别为Res5c和最顶层Pool6中默认框的尺度，分别设为0.04、0.49，中间各层的尺度在此范围内等差间隔. 选择Res3b3层默认框的尺度为0.01. 此外，为了使默认框更好地拟合目标框的形状，还须设置不同的宽高比 $a $，7个尺度层的宽高比均设为 $ a \in \{ 1,{\rm{ }}2,{\rm{ }}3,{1}/{2},{1}/{3}\} $. 相应默认框的宽、高表达式分别为

(2) $ w = {s_k}\sqrt a ,\;h = {s_k}/\sqrt a . $

除此之外，还在每层增加一组 $a = 1 $，尺度为 ${s_k}^\prime = \sqrt {{s_k}{s_{k + 1}}}$ 的默认框. 设置默认框的中心为 $ (({{{i + 0.5}})/{{{L_k}}},\;({{j + 0.5}})/{{{L_k}}}} )$，其中 ${L_k} $ 为第k层上方形特征图的尺寸， $ i,j \in [0,\;{L_k})$. 由此可以得到最后一层特征图包含默认框的数量为5，其他各层特征图上默认框的数量为 $6{L_k}^2 $，网络产生的默认框总数为32 765.对于512×512的图像块，利用上述默认框能够检测出尺寸大小为(5，273)的标志，与数据集标志的大小范围一致.

2）匹配策略. 使用Jaccard overlap策略来匹配目标框和默认框. 对每一个目标框，找到与其Jaccard overlap计算值最大的默认框，作为最佳匹配；为了简化学习，计算每个默认框与目标框的Jaccard overlap，当其大于某个阈值时，认为此默认框与目标框相匹配. Jaccard overlap表达式为

(3) $ J(A,B) = \frac{{\left| {A \cap B} \right|}}{{\left| {A \cup B} \right|}}. $

式中：A、B分别为默认框、目标框内所有像素组成的集合区域. Jaccard overlap的阈值设为0.5.

3）目标函数. 模型训练的目标函数为预测总误差，通过减小预测总误差，达到优化训练的目的. 预测总误差由分类与检测的误差通过加权求和得到，表达式为

(4) $ L(x,c,l,g) = [{L_{\rm{c}}}(x,c) + \alpha {L_{\rm{l}}}(x,l,g)]/N. $

式中：L为总误差； ${L_{\rm{c}}} $、 ${L_1} $ 分别为分类和检测误差，特指Softmax Loss、Smooth L1 Loss；权值α=1；x为每个预测框与目标框的匹配标志，x=1表示匹配，x=0表示不匹配；c为类别预测的分数（置信度）；l、g分别为预测框和目标框中像素的值；N为默认框数量，若N=0，认为总误差L=0.

${L_{\rm{c}}} $、 ${L_1} $表达式分别为

(5) $\left.\begin{split} {L_{\rm{c}}}(x,c) = & - \sum\limits_{i \in {\rm{Pos}}}^{} {x_{ij}^p}\; \ln\; \mathop {c_i^p}\limits^ \wedge - \sum\limits_{i \in {\rm{Neg}}} {\ln }\; \mathop {c_i^0}\limits^ \wedge ,\\ & \mathop {c_i^p}\limits^ \wedge = {{\exp \;c_i^p}}\Big/{{\sum\limits_p {\exp \;c_i^p} }}, \end{split}\right\}$

(6) $\left. \begin{array}{c} {L_{\rm{l}}}(x,l,g) \!=\! \displaystyle\sum\limits_{i \in {\rm{Pos}}}^N {\displaystyle\sum\limits_{m \in ( {{\rm{cx,\;cy,\;w,\;h}}})} {x_{ij}^k{\rm{smoot{h}}}} _{L1}} (l_i^m \!\!-\!\! \mathop {g_j^m}\limits^ \wedge ),\\ \mathop {g_j^{\rm cx}}\limits^ \wedge = (g_j^{\rm cx} - d_i^{\rm cx})/d_i^{\rm w},\;\mathop {g_j^{\rm cy}}\limits^ \wedge = (g_j^{\rm cy} - d_i^{\rm cy})/d_i^{\rm h},\\ \mathop {g_j^{\rm w}}\limits^ \wedge = \ln\;( {{g_j^{\rm w}}}/{{d_i^{\rm w}}},\;\mathop {g_j^{\rm h}}\limits^ \wedge ) = \ln \;({{{g_j^{\rm h}}}/{{d_i^{\rm h}}}}). \end{array}\right\}$

式中： $ x_{ij}^p$ 为类别为p的第i个默认框与第j个目标框的匹配度，例如 $ x_{ij}^p = 1$ 表示类别为p的第i个默认框与第j个目标框相匹配；Pos为前景；Neg为背景； $ c_{i}^p $ 为第i个默认框属于类别p的置信度； $ c_{i}^0 $ 为第i个默认框属于背景类的置信度； $ \mathop {c_i^p}\limits^ \wedge $、 $ \mathop {c_i^0}\limits^ \wedge $ 分别为 $ c_{i}^p $、 $ c_{i}^0 $ 归一化后的置信度； $ l_{i}^m $为第i个预测框的预测坐标； $g^m_j $为第j个目标框的坐标； $ d_{i}^{\rm cx}$、 $ d_{i}^{\rm cy} $、 $ d_{i}^{\rm w} $、 $ d_{i}^{\rm h} $ 分别为第i个默认框的左上角横坐标、左上角纵坐标、宽度、高度； $ g_{j}^{\rm cx} $、 $ g_{j}^{\rm cy} $、 $ g_{j}^{\rm w} $、 $ g_{j}^{\rm h} $ 分别为第i个目标框的左上角横坐标、左上角纵坐标、宽度、高度； $ \mathop {g_j^{\rm cx}}\limits^ \wedge $、 $ \mathop {g_j^{\rm cy}}\limits^ \wedge $、 $ \mathop {g_j^{\rm w}}\limits^ \wedge $、 $ \mathop {g_j^{\rm h}}\limits^ \wedge $ 分别为 $ g_{j}^{\rm cx} $、 $ g_{j}^{\rm cy} $、 $ g_{j}^{\rm w} $、 $ g_{j}^{\rm h} $ 的相对对数.

4) 数据扩充. 为了训练出适应各种大小和形状输入的健壮模型，对训练图像块进行以下任一随机抽样处理：a) 使用原始图像块；b) 对原始图像块进行采样，使得采样后的图像块与原图像块的Jaccard overlap分别为0.1、0.3、0.5、0.7、0.9；c) 对原始图像块随机采样. 上述操作共同遵循的规则如下：采样后的图像块是原图像块大小的0.1~1.0倍，宽高比为0.5~2.0. 当目标框的中点落在采样后的图像块中时，裁去目标框落在图像块外面的部分，并在该图像块中将裁剪后的目标框标记为一个正样本；否则标记为负样本. 最后将所有图像块大小统一为512×512，并添加水平翻转和失真.

5)负样本挖掘. 正负样本数量的平衡对维持模型稳定至关重要. 为此，在每次迭代之后对所有默认框的 $ {L_{{\rm{c}}}}$ 进行排序，将 $ {L_{{\rm{c}}}}$ 最大的若干默认框标记为负样本，使得正、负样本的数量比例保持为1∶3.

1.4. 测试

对于一幅高分辨率的交通图像（w>512，h>512）进行多尺度分块. 考虑到当采用滑窗法滑动至图像宽、高方向的边界时，残留图像块的面积可能小于滑窗面积，而测试图像在边缘处一般不存在标志，此时不再滑动，将不完整的块丢弃. 另外，多尺度图像块数量庞大，且多为背景信息，全部放入网络检测相当耗时. 因此，采取由粗到精的策略：对中等尺度下的全部图像块进行初步检测；将置信度高于0.3的结果映射回原图；对于其他4个尺度下的图像块，若其与初检预测框重叠，则将其选中投入网络检测，否则舍弃；将以上2步的结果进行综合，在原图像上再次利用非极大值抑制进行筛选，完成检测与识别. 所有图像块以及标签信息在测试步骤之前已全部生成，而坐标映射以及重叠率计算可在较短时间内完成，降低了检测的额外开销. 检测流程如图3所示.

图 3

新窗口打开| 下载原图ZIP| 生成PPT

图 3 由粗到精的检测流程图

Fig.3 Flow chart of Coarse-to-Fine detection

2. 实验与分析

2.1. 实验环境与参数设置

模型的训练和测试都在Linux PC端进行，包括1台32 GB内存的Intel i7-7700K CPU和2台11 G显存的NVIDIA GeForce GTX 1080Ti GPU. 训练的初始学习率设置为0.001，在40 000次迭代之后降到0.000 1，之后以0.000 1的学习率继续迭代40 000次停止. 动量、取值衰减率分别设为0.900 0、0.000 5. 在CAFFE^[24]架构上进行实验，每训练20 000次进行一次测试.

2.2. Tsinghua-Tencent 100K数据集

Tsinghua-Tencent 100K数据集由10 000张分辨率为2 048×2 048像素的自然交通图像组成，包含100类交通标志，且每个标志只占图像的很小比例. 图像取自中国5个不同的城市各10个区域真实的交通场景，互相之间具有明显的亮度和天气差异. 标签记录了图像中每个标志的包围框坐标、边界顶点坐标和类别信息. 训练集和测试集的图片数量比例约为2∶1. 数据集原作者^[17]选取45类出现次数大于100的标志作为检测与识别目标，对应的类别名称如图4所示.

图 4

新窗口打开| 下载原图ZIP| 生成PPT

图 4 45类交通标志图像以及相应的类别名称

Fig.4 Images of 45 classes of traffic signs and corresponding classification names

2.3. 方法对比

为了便于和其他算法的结果进行对比，本研究对上述45类标志进行识别，将包围框坐标、类别分别作为检测与识别的标签，对数据进行如1.2节所述的预处理. 为了检验模型对不同尺寸标志的检测能力，将标志尺寸按照面积进行划分，分别为小 $\left( {s \leqslant {{32}^2}} \right) $、中 $\left( {{{32}^2} < s \leqslant {{96}^2}} \right) $、大 $\left( {{{96}^2} < s \leqslant {{400}^2}} \right) $，在测试集上进行由粗到精的检测，提取所有置信度≥0.01的结果. 采用MicrosoftCOCO的评价指标^[25]，将评估结果与Zhu等^[17-18]的结果进行对比，如图5所示. 其中，图5(a)、5(b)、5(c)分别为本研究所提出的方法与其他2种方法对小、中、大标志的召回率r-精确度a曲线，scale为s取平方根后的像素尺寸. 可以看出，所提出的方法对不同尺寸的标志均取得了较优的检测结果.

图 5

新窗口打开| 下载原图ZIP| 生成PPT

图 5 所提方法与其他方法对不同尺寸标志的检测性能比较

Fig.5 Comparison of detection performance of proposed method and other methods in different sizes of signs

通过统计所有置信度≥0.5的结果，得出所提出的方法与其他2种方法的总体精确度和召回率对比，如表1所示. 表中，a_t、r_t分别为总体精确度和总体召回率. 由表1可以看出，所提出的方法在总体性能上明显优于其他2种方法. 相比于Zhu等^[17]使用的区域建议网络，本研究中的初步检测采用与精检相同的网络，避免了额外开销且对感兴趣区域的提取效果更好. 相比于Meng等^[18]采用的图像下采样分块方式，本研究在原图像上采用不同尺度进行划分，并减小搜索步长，使得图像块中标志的占比更高，结合ResNet网络可提取到更为丰富的特征. 相比于Zhu等^[17]、Meng等^[18]在单一网络层上进行检测与定位的模型，本研究采用的残差SSD模型可在多个不同的网络层上进行特征匹配，适应各种尺寸的检测目标，鲁棒性更强.

表 1 本研究方法和其他方法总体精确度和召回率对比

Tab.1 Comparison of overall accuracy and recall between proposed method and other methods

方法	a_t	r_t
文献[17]方法	0.88	0.91
文献[18]方法	0.90	0.93
本研究方法	0.94	0.95

新窗口打开| 下载CSV

2.4. 横向性能和耗时指标比较

为了进一步检验残差SSD网络以及多尺度分块检测在性能和时间上的优势，进行以下实验. 使用基础SSD网络（以VGG16作为前置，在Conv5之后附加相同的卷积层，在Conv4、Conv5、Pool6以及新添加的卷积层上进行预测，参量与前文一致）、残差SSD网络分别对5组单尺度图像块、全部多尺度图像块以及通过由粗到精策略筛选出的多尺度图像块进行检测，将图像块结果映射回原图，分别计算总体精确度、召回率和耗时，统计结果如表2所示. 表中，t为检测一张图像的平均耗时，并且所有图像块均已归一化至大小为512×512.

表 2 不同方法横向性能和耗时对比

Tab.2 Comparison of lateral performance and time consumed of different methods

网络类型	图像块类型	a_t	r_t	t/s
基础SSD网络	尺度1	0.77	0.81	59.99
	尺度2	0.82	0.84	25.18
	尺度3 （中等尺度）	0.84	0.84	13.75
	尺度4	0.84	0.86	8.40
	尺度5	0.78	0.78	3.37
	全部多尺度分块	0.88	0.89	111.61
	由粗到精+ 多尺度分块	0.88	0.88	27.74
残差SSD网络	尺度1	0.79	0.83	45.75
	尺度2	0.84	0.86	13.80
	尺度3 （中等尺度）	0.87	0.87	7.50
	尺度4	0.86	0.87	4.64
	尺度5	0.79	0.80	1.90
	全部多尺度分块	0.94	0.95	73.60
	由粗到精+ 多尺度分块	0.94	0.95	13.60

新窗口打开| 下载CSV

由表2可以看出，残差SSD网络结构以及多尺度图像分块方法对检测性能的提升均有直接作用. 与基础SSD网络相比，残差SSD网络的应用使得总体精确度和召回率提升约6%. 相对单尺度分块，多尺度分块使得总体精确度和召回率提升近10%. 由粗到精的策略，将每张图像块的检测时间缩短75%，采用残差SSD网络的检测速度约为采用基础SSD网络的一半. 事实上，He等^[19]指出ResNet110参数量为1.7 M（ResNet101更少），远小于VGG16的参数量（约为138.0 M）^[20]；而ResNet101^[19]和VGG16^[20]在ImageNet数据集上的每秒浮点操作（floating point operations per second，FLOP）分别为7.6、153.0亿，表明ResNet101模型的时间复杂度远低于VGG16. 实验结果和相关研究依据都充分说明了所提出方法的有效性. 本实验中残差SSD网络对512×512图像块的检测速度约为0.038秒/帧，多尺度分块和非极大值抑制的时间可忽略不计，但由于多尺度图像块数量庞大，总体检测速度达到13.600秒/帧. 可见所提出方法在减少多尺度图像块的数量，缩短检测时间上仍有较大的提升空间.

如图6、7所示分别为在有遮挡和无遮挡2种不同环境下，基础SSD网络和残差SSD网络在多尺度以及各单一尺度下的检测结果对比（取置信度大于等于0.5的结果）. 图6、7中，图(a)为原图像中标志牌的位置以及类别信息，图(b)为基础SSD网络采用多尺度分块的检测结果（根据预测坐标截取出的标志牌区域以及类别和置信度），图(d)、(f)、(h)、(j)、(l)分别为基础SSD网络仅采用尺度1~5分块的检测结果，图(c)为残差SSD网络采用多尺度分块的检测结果，图(e)、(g)、(i)、(k)、(m)分别为残差SSD网络仅采用尺度1~5分块的检测结果.

图 6

新窗口打开| 下载原图ZIP| 生成PPT

图 6 无遮挡光线良好环境下不同方法的检测结果对比

Fig.6 Comparison of detection results of different methods under unsheltered well-lit environment

图 7

新窗口打开| 下载原图ZIP| 生成PPT

图 7 有遮挡光线较差的环境下不同方法的检测结果对比图

Fig.7 Comparison of detection results of different methods under sheltered environment with poor light

由图6可知，当标志牌处于无遮挡、视线良好的环境下，采用所提出的残差SSD网络结合多尺度检测的方法能够将所有标志牌全部检测出来并正确识别. 基础SSD网络结合多尺度检测的方法则出现了错检现象，误将条纹状的柱子识别为pne禁止驶入标志，且未能检测出最小尺寸的pl5标志（标志①）. 这是由于基础SSD网络的vgg16网络层超参数数量远小于残差SSD网络使用的ResNet101网络层超参数数量，相同尺寸的特征图上包含的信息量较少，特征提取不够充分，对于一些形似标志牌的物体无法准确判别；网络后端随着网络层数加深，出现梯度弥散的现象，尤其对微小物体而言，特征图分辨率会降到较低，无法将其检测出来. 由于ResNet具有的较好的跳跃性结构和抗退化能力，残差SSD网络对不同尺寸的标志均取得了较好的检测结果. 此外，可以看出采用单一尺度往往只能检测出部分尺寸的标志牌，而且采用尺度1~5能够检测出的标志尺寸大致呈上升趋势，即尺度1对小标志检测效果较好，对大标志检测效果则稍差；反之，尺度5对大标志检测效果较好，对小标志检测效果较差. 使用多尺度检测能够克服单一尺度检测漏检的问题，且由于其融合了所有尺度的检测结果，标志类别的置信度更高，位置更加准确.

由图7可以看出，所提出的方法在有遮挡、光线较差的环境下也能取得较好的检测效果，鲁棒性较强. 图中pn和p11标志边缘都受到少量树叶的遮挡，而pl40标志的中部则被路灯杆挡住，且图中3个标志尺寸均约为15像素×15像素，位置也较偏，人眼观察都十分困难. 在这样的条件下，残差SSD结合多尺度分块的方法检测出了所有标志，且位置更加准确，类别置信度更高；基础SSD结合多尺度分块的方法则未能检测出遮挡较为严重的标志③，抗干扰能力较差. 单一尺度相比多尺度检测，劣势更加明显，由于图7中标志牌较小，在尺度5上甚至没有能检测出任何标志. 可见在单一尺度下能够检测出的标志牌尺寸范围较小，结合所有尺度结果的多尺度分块方法更为可靠.

3. 结　语

在Tsinghua-Tencent 100K数据集上进行研究，提出残差SSD模型，实现对自然交通场景中多类标志牌的检测与识别. 通过对图像块级进行检测并将结果映射到原图像级别，解决了GPU在处理超高分辨率图像（如2 048×2 048像素）时内存受限的问题. 通过多尺度分块以及构造更加丰富的卷积层，实现了对不同尺寸标志牌的检测，提高了识别准确度. 采取由粗到精的策略，大大降低了计算损耗. 此外，实验表明所提出的模型在不同的环境下均具有较好的检测效果，鲁棒性较强. 本研究中多尺度分块方式采用的是滑窗搜索法，耗时较长. 如何进行更快速有效的分块以及将初次检测后的缩小目标区域范围处理移植到GPU上进行，形成端对端的网络体系，将是今后研究的重点.

参考文献

原文顺序

文献年度倒序

文中引用次数倒序

被引期刊影响因子

[1]

RUTA A, LI Y M, LIU X H. Detection, tracking and recognition of traffic signs from video input [C]// Proceedings of the 11th International IEEE Conference on Intelligent Transportation Systems. Beijing: IEEE, 2008: 55–60.