<img src="https://www.zjujournals.com/eng/images/1008-973X/images/logo.png" class="img-responsive">

图 1 传统复制的增强方法

Fig.1 Enhancement methods of traditional replication

1.1. 行人可存在区域数据标注

为了使复制增强后的目标位置合理，需要区分图像中的行人可存在区域. 一般的目标检测数据集没有区域分割的标注，无法判断区域合理性，故需要对已有数据集进行标注，划分行人可存在区域. 对不同水平面上的行人可存在区域需要用不同标签标注，标注后的效果如图2所示.

图 2

图 2 添加标注后的效果

Fig.2 Effect after adding dimensions

1.2. 消隐点获取

为了使模型更好地利用数据增强后的目标上下文信息，避免复制增强后的目标错误尺寸影响分类器对目标种类的判断，需要计算原目标在图像中行人可存在区域内不同坐标处的大小，对目标进行复制粘贴并缩放，以符合其在图片中的位置.

在相机投影模型中，三维世界中一组平行的直线在映射到二维的图像上后，将会在二维平面内交汇于一点，该点称为消隐点（vanishing points，VP）. 与消隐点类似，三维世界中的各个互相平行的平面在映射于二维图像上时会交汇于一条直线，即消隐线. 该直线上任意一点所引出的多条直线在三维世界中都互相平行^[15]. 如图3中A、B、C这3点即为消隐点，在计算图像中不同对象相对大小时，通常使用三消隐点模型（three vanishing points model），即选用水平面上的消隐线BC与竖直方向上的消隐点A以分析.

图 3

图 3 三消隐点模型中竖直方向消隐点A与水平方向消隐线BC

Fig.3 Vertical vanishing point A and horizontal vanishing line BC in the three vanishing points model

为了获得图像中的消隐点，采用基于极坐标的二线最小解集穷举的消隐点检测法^[16]. 该方法的鲁棒性较好，能够应对消隐点数量不同的场景，同时时间复杂度较低，速度较快，穷举也能达成一定精度内的全局最优，其过程如下.

1）使用线段检测器（line segment detector，LSD）直线检测法，检测图像中的直线段.

2）构建极坐标网络. 将平面坐标根据光心与焦距转化成等效球体，建立以经纬度表示的极坐标，并以1°为间隔建立90×360的网格空间. 对于图像中的每个线段对 ${l_1}$与 ${l_2}$，计算其交点的网格权值：

(1) $ \varsigma (\phi ,\lambda )=\varsigma (\phi ,\lambda )+\left|\right|{l}_{1}\left|\right| \left|\right|{l}_{2}\left|\right| \mathrm{sin}\;(2\theta ) . $

式中： $ \varsigma (\phi ,\lambda ) $为经纬度 $(\phi ,\lambda )$对应的网格结点的权值，初始值为0； $ \theta $为2条线段小于90°的夹角. 通过式（1），长度更长、夹角更接近45°的线段对所对应的交点将被赋予更大的权值.

3）建立第1个消隐点的最小解集（minimal solution set，MSS），假设所有线段中有50%属于噪声，则第1个消隐点的选择迭代105次即可达到0.999 9的置信度^[16]. 根据正交约束可知，第2个消隐点必定在第1个消隐点的正交圆上. 以1°为间隔在该圆上取360个点，将360个点作为每个第一消隐点对应的360种第2个消隐点可能. 第3个消隐点由前2个消隐点的向量正交即可获得.

4）对所有105×360种消隐点组合计算其网格权值的和，选择最高的一组，作为最终解. 根据每条线段与每个消隐点的角度偏差，可以对每条线段进行分类. 如图4所示为消隐点的检测效果，不同线型的线代表其归属于不同的消隐点.

图 4

图 4 消隐点的检测结果

Fig.4 Detection result of vanishing point

1.3. 仿射变换矩阵

在获取图像的消隐点后，可以计算目标复制到新坐标的仿射变换矩阵，如图5所示.

图 5

图 5 空间目标在平面上投影示意图

Fig.5 Schematic diagram of projection of space target on plane

已知空间中一条线段MN在平面P上的投影M'N'，若是将MN水平移动至EF处，使其投影末端M'点落在E'处，为了获得移动后的投影另一端N'的位置，可在水平面P中找到该面的消隐线BC与竖直方向上的消隐点A. 使E'M'交BC于点V，VN'交AE'于点F'，E'F'即为MN移动后在平面P的投影. 设M点坐标为 $ \left( {x,y} \right) $，M'点坐标为 $(x',y')$，可以获得点V坐标，设其为 $ \left( {{x_V},{y_V}} \right) $，同时， $ \angle VN'M' $与 $ \angle M'AE' $也可以获得，分别设为 $\alpha $与 $\theta $，则可得图像移动后的大小缩放比例为

(2) $ {r}_{\text{scale}}=\frac{\sqrt{{(x{'}-{x}_{V})}^{2}+{(y{'}-{y}_{V})}^{2}}}{\sqrt{{(x-{x}_{V})}^{2}+{(y-{y}_{V})}^{2}}} \frac{\mathrm{sin}\;\alpha }{\mathrm{sin}\;({\text{π}} -\theta -\alpha )} . $

式中：r_scale为待复制目标移动后的大小缩放比例.

根据以上变换规律与缩放比例，可以得出目标复制后的仿射变换矩阵. 对于目标内部，考虑到标记框的形状与图像投影关系无关，恒为矩形，且目标在图像中占比通常较小，故不考虑目标内部的相对变换. 对于任意目标，若底部中点坐标为 $ \left( {x,y} \right) $，则复制到任意一点 $(x',y')$后，该目标内部任意一点 $ K\left( {m,n} \right) $的变换可表示为

(3) $ {{\boldsymbol{k}}'} = {\boldsymbol{SR k}} + {\boldsymbol{t}} . $

式中： ${\boldsymbol{k}} $与 $ {{\boldsymbol{k}}'} $分别为变换前后K点的齐次坐标向量，S为缩放矩阵，R为旋转矩阵， $ {\boldsymbol{ t}} $为平移向量. 该仿射变换过程使用齐次坐标可以为

(4) $ \left[ {\begin{array}{*{20}{c}} {m'} \\ {n'} \\ 1 \end{array}} \right] = \left[ {\begin{array}{*{20}{c}} {{r_{{\text{scale}}}}\cos\; \theta }&{ - {r_{{\text{scale}}}}\sin\; \theta }&{x' - x} \\ {{r_{{\text{scale}}}}\sin \;\theta }&{{r_{{\text{scale}}}}\cos \;\theta }&{y' - y} \\ 0&0&1 \end{array}} \right]\left[ {\begin{array}{*{20}{c}} m \\ n \\ 1 \end{array}} \right] . $

式中： $ m' $和 $ n' $为K点变换后对应点的横、纵坐标.

1.4. 目标映射坐标概率生成

为了能够生成更多小目标，并减少对原有目标特征的影响，新坐标被映射的概率应满足以下条件.

1) 新坐标被选择的概率随映射到该坐标上的新对象面积的减小而增大.

2) 若新坐标上映射的目标覆盖了其他目标，则该坐标被选择的概率应随覆盖面积的增长而快速下降.

为了满足以上条件，对于任意坐标点 $ (x,y) $，定义映射点的评估权重为

(5) $ W = {W_{{\text{area}}}}{W_{{\text{over}}}} . $

式中： $ {W_{{\text{area}}}} $为面积评估值函数， $ {W_{{\text{over}}}} $为覆盖重叠补正函数.

对于 $ {W_{{\text{area}}}} $，采用相对法定义小目标，即采用目标在整张图片中的占比来判定目标大小的性质. 定义目标大小系数为 $\tau $，其值为目标自身面积与整张图像面积之比. 为了避免频繁出现新生成的目标过小而丢失大量特征信息，在目标大小下降到一定阈值时，评估值随面积减小而增加的速度需放缓，由此可得

(6) $ {W_{{\text{area}}}}{\text{ = }}\left\{ \begin{gathered} \frac{1}{{{r_{{\text{scale}}}}\tau }},\qquad\qquad\qquad\;\; {r_{{\text{scale}}}}\tau > T; \\ \frac{1}{T}+{\beta}(T - {r_{{\text{scale}}}}\tau ),\qquad {r_{{\text{scale}}}}\tau \leqslant T. \\ \end{gathered} \right. $

式中：T为阈值， β为系数. T、β的取值与数据集图像大小与图像中小目标尺寸占比有关.

在所使用的数据集中，自身面积占图像整体面积之比小于2%的目标占所有标注目标数量的75.51%，小于1%的占59.98%，小于0.5%的占43.99%，小于0.1%的占12.48%，可认为面积占比小于0.1%且边长不小于5个像素的目标为该数据集的合适小目标样本. 当数据集中取部分样本，输入尺寸为320×320时，对于多个T值和β值进行实验. 当T=0.01、β=10 000时，可以使得新生成的合适小目标样本最多.

对于 $ {W_{{\text{over}}}} $，若复制后的其他目标被覆盖，则被覆盖面积越大，其特征损失越大，评估值越低；重叠面积过大也会影响新生成目标对上下文特征的提取，故定义重叠补正函数为

(7) $ {W_{{\text{over}}}} = \prod\limits_{i = 1}^n {\left(1 - \frac{{{S_{{\text{over,}}i}}}}{{{S_i}}}\right)} \left(1 - \beta \frac{{{S_{{\text{over,}}i}}}}{{{S_{{\text{new}}}}}}\right) . $

式中： $ {S_i} $为第i个已有目标的面积， $ {S_{{\rm{over}},i}} $为第i个已有目标与新生成目标重叠的面积， $ {S_{{\rm{new}}}} $为新生成目标的面积. 根据每个像素点的权值，可以绘制出每个坐标映射概率的热力图，如图6所示.

图 6

图 6 目标映射坐标概率的热力图

Fig.6 Thermodynamic diagram of target mapping coordinate probability

1.5. 增强图像生成

根据以上规则，对单个目标进行合理的增广. 对于图像中的多个目标，在选择需要复制的对象时，须选择未和其他目标重叠或重叠面积较小的目标. 对所有符合条件的目标进行至多2次复制粘贴，并在目标映射后使用高斯卷积核处理其边缘，使得新目标与背景过渡更加平滑. 最终生成的图像效果如图7所示，增强后的图像与原图比较增加了许多目标，其中大部分是小目标，并且新生成的目标基本没有对原有目标产生影响.

图 7

图 7 小目标行人数据增强的效果图

Fig.7 Rendering of data augmentation for small target pedestrians

2. 基于改进沙漏结构与上下文特征融合的网络结构

2.1. 小目标细节特征增强的坐标注意力机制

基于神经网络的目标检测任务中，应用注意力机制，能引导网络关注图像中被检测物体重要内容，由此可以获取更多小目标的特征信息^[17]. 传统注意力机制往往只关注通道或者空间维度的信息权重融合，对网络性能的提升较有限. 本研究采用融合通道与空间的注意力机制（coordinate attention，CA）^[18]. 坐标注意力CA以通道注意力为基础，在通道维度进行编码的同时准确捕获到图像空间坐标信息，有利于模型对小目标细节的捕获与利用，同时也能充分利用所用数据增强后的新目标的合理背景与上下文信息.

对于通道数为C，高与宽分别为H、W的输入特征图 ${\boldsymbol{X}} \in {{\bf{R}}^{C \times H \times W}}$. 使用水平与垂直方向尺寸分别为 $\left( {H,1} \right)$和 $\left( {1,W} \right)$的自适应池化层对各个通道进行编码操作，得到一对方向感知注意力图 ${{\boldsymbol{X}}_{\text{h}}} \in {{\bf{R}}^{C \times H \times 1}}$， ${{\boldsymbol{X}}_{\text{w}}} \in {{\bf{R}}^{C \times 1 \times W}}$；将得到的特征图进行维度变换与级联操作，并进行通道数为 $C/r$的1 $* $1卷积（Convolution，Conv）变换，其中r为控制block大小的缩减率. 将变换后的特征图在空间维度切分成2个张量 ${{\boldsymbol{F}}_{\text{h}}} \in {{\bf{R}}^{C/r \times H \times 1}}$， ${{\boldsymbol{F}}_{\text{w}}} \in {{\bf{R}}^{C/r \times W \times 1}}$，将切分的张量分别经过卷积、快速激活（hard swish，h-Swish）、维度扩展得到2个注意力权重，模型如图8所示.

图 8

图 8 坐标注意力机制结构

Fig.8 Coordinate attention mechanism structure

CA注意力机制本身的参数量较少，对于轻量化网络十分友好，CA注意力机制可以为重要特征分配较多的关注度，使得模型在骨干提取阶段可以更加关注轮廓细节信息，而这些特征都有利于小目标行人的检测. 在MobileNeXt的基础上添加坐标注意力机制，由于MobileNeXt本身具有20个卷积块，网络深度相比于大型网络还不成规模. 在所有带短接层的卷积块中添加坐标注意力机制，能很好地提升模型复杂度，一定程度上缓解了原网络欠拟合的问题.

2.2. 基于通道分离与重排的轻量化沙漏结构

MobileNeXt中提出的沙漏结构（sandglass block）解决了原MobileNet-V2中残差结构容易引起梯度弥散或梯度爆炸的问题，然而应对小目标检测仍存在不足. 为了提升对小目标的特征提取能力，参考跨阶段局部网络结构(cross stage partial, CSP)^[19]的思想，对沙漏结构进行改进. 原沙漏结构与改进的结构分别如图9(a)、(b)所示，将改进后的沙漏结构命名为T-Sandglass，其中步长s在需要降采样时取值为2，其余情况下为1.

图 9

图 9 基于跨阶段局部网络的沙漏结构T-Sandglass

Fig.9 T-Sandglass structure based on cross stage local network

输入该结构的特征图，将其所有通道对半分割为part1和part2，分割后的两路是一路经过1 $* $1卷积，变换通道维度为输出通道的一半，另一路流经原始沙漏结构. 两路的输出特征在通道维度拼接，并经3 $* $3深度可分离卷积按需保持或降低分辨率，最后进行通道重排操作并流入随后卷积层. 改进后的沙漏结构本质上是一种分层特征融合机制，通过通道分割，特征图中仅有一半的通道的信息进入原本的沙漏结构中，大幅减少了计算开销，梯度路径得以扩展. 两路通道拼接的方式替换了原本的逐元素求和操作，能够有效地减少内存访问消耗. 梯度在传播时经过不同的网络通路，模型可以获得更加丰富的梯度组合. 将特征图分为两部分有效截断梯度流，降低了网络在信息整合过程中学习重复梯度的可能性，增强了网络的整体学习能力. 通道重排能够让网络在不增加额外参数的情况下充分流通特征图各个通道之间的信息，从而提升特征提取能力.

在改进的沙漏结构中，第1层3 $* $3卷积是对信息的初次提取，而后的2个1 $* $1卷积则对通道进行降维. 在添加坐标注意力机制时，在首个3 $* $3卷积后添加，这种方式可以对最多数量的通道进行信息流控制.

2.3. 基于特征增强与重生成的上下文特征融合

小目标行人自身的特征信息少，通过上下文特征融合，可以利用背景和全局特征辅助模型训练^[20]. 在原始的SSD骨干网络中，输出的2层特征与瓶颈输出的4层特征直接相连，6层特征之间以单路2倍放缩金字塔逐层传递信息，每层特征单独输出进行预测. 这种结构的预测网络感受野过于单一，不同大小的物体只能根据一层固定大小的检测层进行检测，模型无法从上下文判别背景信息. 单特征输出会导致瓶颈层对来自骨干层网络的语义信息的编码能力不足.

针对以上问题，为了尽可能使用较少的网络参数，获取较大的感受野以及可以有效融合特征瓶颈网络，设计了全局特征融合颈部网络（global feature fusion neck，GFF-neck），如图10所示. 该网络分为2个部分，分别为全局上下文特征增强部分与特征重生成部分. 在上下文特征增强网络中，设计单独的一层自适应池化层作用于最深层特征中，骨干网络输出二层不同大小的特征层 ${m_1}$和 ${m_2}$， ${m_1}$的分辨率为 ${m_2}$的2倍. 改变通道数输出为 $m_1^{\text{e}}$、 ${m_2}$特征依次经过通道变换卷积与最近邻上采样得到 $m_2^{\text{e}}$，与 $m_1^{\text{e}}$保持分辨率一致. ${m_2}$经过一次自适应全局平均池化与通道卷积，得到1 $* $1大小、通道数与 $m_1^{\text{e}}$相同的 ${m_3}$，其中使用平均池化层代替传统特征融合模块中常用的全局池化层，可以减少特征信息的流失，并对小分辨率输入特征图更友好. ${m_3}$通过广播机制扩展后得到 $m_3^{\text{e}}$， $m_3^{\text{e}}$与 $m_1^{\text{e}}$、 $m_2^{\text{e}}$逐元素相加，相加完后经过斜率为0.1的LeakyReLU激活函数进行输出，经过全局上下文特征增强后可以获得，分辨率与 ${m_1}$相同的特征图 ${m_4}$. 输出特征图 ${m_4}$接着进入特征重生成网络部分. 以 ${m_4}$为起点，依次生成若干个分辨率不断下降的新特征图.

图 10

图 10 全局特征融合颈部网络

Fig.10 Global feature fusion neck

改进的瓶颈结构使用元素直接相加的方式，融合不同尺度的特征层. 与传统融合方法相比，融合时各尺度都以输入最大分辨率为依据，整体效率更高. 该网络对最后一个输入层进行全局自适应平均池化，输入的末尾层已经历过较多卷积层，感受信息范围跨越网络上下文，应用自适应平均池化可以在空间维度上总览全局，保留更多的前景以及背景信息，为小目标行人的检测识别提供额外信息. 特征重生成网络可以根据实际需求输出不同数量的特征图，同时全局上下文特征增强网络的输入也可以是多个不同尺度的特征. 重生成的特征包含更多细节信息，可以有效帮助网络对各类目标进行有效定位，从而有助于小目标的检测.

2.4. 改进骨干网络与上下文特征融合的整体网络结构

在骨干网络上使用MobileNeXt的基础上，添加T-Sandglass模块与坐标注意力机制，将改进后的骨干网络命名为MobileNeXt+. 搭配改进的GFF-neck作为瓶颈层，这种模型搭配方式可以使2个部分网络的学习潜力得到充分发挥，有利于梯度的平滑传播获得最佳的检测性能，整体网络模型结构如图11所示.

图 11

图 11 整体网络模型结构

Fig.11 Overall network model structure

3. 实验及分析

3.1. 实验环境与数据集

实验硬件配置如下：Intel i5-9400CPU，英伟达RTX2070显卡，8G显存. 软件环境如下：Ubuntu18.04操作系统，python环境为python3.8，使用pytorch深度学习框架，版本为1.8.0. 针对行人检测任务有较多的公开数据集，选取众多数据集中检测难度较大、人群密集、包含多种尺度目标的WiderPerson数据集，其中包含5个类别，分别是行人、骑行者、遮挡人物、假人以及密集人群. 该数据集涉及公路、运动场、广场等多个常见的室外场景,包含的行人种类繁多，特别是有较多小目标人物以及遮挡目标人物，提取这些小目标行人的特征信息难度较大. 在训练过程中，共有8 000张图片用于训练，有1 000张图片用于测试. 数据集的部分图片如图12所示.

图 12

图 12 WiderPerson数据集部分样本

Fig.12 Some samples of WiderPerson dataset

WiderPerson数据集的RGB 3个通道均值分别为131.64、120.22、115.58，方差分别为71.03、70.35、72.83，数据集输入端首先统计均值与方差，然后进行随机色彩抖动、随机翻转操作以增强模型泛化性能. 模型优化器选为SGD，初始学习率设置为0.015，初始动量设置为0.9，应用余弦退火学习策略. 在WiderPerson数据集中，对密集人群、遮挡人物的标注标准不一，对这些类的判断难以有效果，故在实验时仅对行人一类进行训练和推理.

3.2. 网络改进有效性实验

3.2.1. 骨干网络改进模块消融实验

模型中不同骨干网络会对结果造成不同影响，实验中对原始SSD的VGG网络、MobileNet-V2网络、MobileNext网络与添加CA注意力模块和T-glass结构的MobileNext网络从准确率与参数量2个角度进行对比，当输入尺寸在320和512时得到的结果分别如表1、2所示. 表中N_p为参数量，Flops为每m浮点运算次数，v为帧率. 推理速度根据实验硬件条件(RTX2070)获得.

表 1 输入尺寸为320时不同骨干网络性能

Tab.1 Performance of each backbone network when input size is 320

网络	N_p/10⁶	Flops/10⁹	v/（帧·s⁻¹）	AP/%
VGG	26.35	31.44	72.2	74.25
MobileNet-V2	3.43	0.72	378.1	69.03
MobileNeXt	3.48	0.76	360.3	70.55
MobileNeXt+CA	3.82	0.76	326.5	70.63
MobileNeXt+T-Sandglass	3.46	0.73	369.4	70.92
MobileNeXt+CA+T-Sandglass	3.80	0.73	332.4	71.46

表 2 输入尺寸为512时不同骨干网络的性能

Tab.2 Performance of each backbone network when input size is 512

网络	N_p/10⁶	Flops/10⁹	v/（帧·s⁻¹）	AP/%
VGG512	27.19	90.39	44.3	77.93
MobileNet-V2	3.43	1.85	203.2	75.02
MobileNeXt	3.48	1.93	145.8	74.89
MobileNeXt+CA	3.82	1.94	142.6	75.13
MobileNeXt+T-Sandglass	3.46	1.90	177.8	75.52
MobileNeXt+CA+T-Sandglass	3.80	1.91	161.6	76.03

从表中对比结果可以看出，在相同的SSD检测器下，对MobileNeXt骨干网络单独添加坐标注意力后，当输入分辨率为320、512时，模型整体精度分别提升了0.08%和0.24%. 由于坐标注意力模型产生轻微的过拟合，导致在单独骨干网络中，添加坐标注意力机制对模型整体效果提升十分有限. 在MobileNeXt的基础上，改进原沙漏结构为T-Sandglass后，当输入分辨率为320、512时，模型整体精度分别提升了0.37%和0.63%，参数量与计算量均有所下降. 这说明跨阶段局部网络有效拓展梯度传播路径，并且通道重排将特征之间的信息进行充分交换，使得模型整体性能得到优化，另外改进的卷积块融合方式使得模型结构得到缩减.

在MobileNeXt基础上同时添加坐标注意力机制以及T-Sandglass结构，2种尺寸下的精度都高于单独添加其中一项或原版MobileNeXt. 这说明T-Sandglass结构提升了模型的可学习潜力，帮助注意力机制发挥了本身的优越性. 从整体来看，同时添加坐标注意力与T-Sandglass结构后相对于MobileNeXt参数量增加了约9%，2种分辨率输入时精度分别提升了0.91%、1.14%，在精度上有较大优势.

3.2.2. 瓶颈网络性能对比实验

为了对所提优化的全局特征增强融合网络进行验证，实验针对不同瓶颈网络设计相关消融实验，在输入尺寸为320时，对原始SSD瓶颈层、改进的全局特征增强融合结构GFF-neck进行实验比较，如表3所示. 所用的骨干网络分别为ShuffleNetV2^[21]、MobileNetV2与MobileNeXt.

表 3 2种瓶颈结构在不同骨干网络中的性能

Tab.3 Performance of two bottleneck structures in different backbone networks

骨干网络	颈部网络	N_p/10⁶	Flops/10⁹	v/（帧·s⁻¹）	AP/%
ShuffleNet-V2	SSD-neck	1.70	0.71	123.5	68.21
ShuffleNet-V2	GFF-neck	1.44	1.32	100.6	74.62
MobileNet-V2	SSD-neck	3.43	0.76	378.1	69.03
MobileNet-V2	GFF-neck	3.04	2.95	151.0	76.31
MobileNeXt	SSD-neck	3.48	0.76	360.3	70.55
MobileNeXt	GFF-neck	3.14	3.14	138.5	77.28

从表3可以看出，在使用改进的GFF-neck后，相对于原SSD颈部网络，3种不同的骨干网络基线精度分别提升了6.41%，7.28%以及6.73%. GFF-neck参数量与SSD-neck相比要略小，但计算量较大，导致模型计算速度下降较多，但是仍符合实时性要求. 总体来看，所提的GFF-neck瓶颈网络以一定的计算量代价换取巨大的精度增益，并且具有较低的参数量，因此以GFF-neck单独作为瓶颈网络可以为整体检测网络带来明显的性能提升.

3.2.3. 经典网络与改进整体网络对比

为了验证本研究改进的整体网络有效性，与不同的经典算法MobileNetV2-SSD、MobileNetV2-YOLOv3进行对比实验，检测结果如图13所示. 可以看出，原始MobileNetV2-SSD网络检测效果相对于其他2种网络稍显逊色，远景中有较多的小目标行人出现漏检的情况，部分中型大小目标并未检出. 改进网络与MobileNetV2-YOLOv3在检测效果上较为相近，对中大型目标基本没有出现漏检的情况，然而MobileNetV2-YOLOv3网络遗漏了一小部分小目标行人，且锚框的定位精度稍差. 从比较结果来看，所提算法具有一定的优势. 不同网络的精度如表4所示. 所提的整体网络(MobileNeXt+GFF-neck)与其他经典网络相比有极高的精度，与MobileNetV2-SSD网络相比提升了9.02%的AP，同时有最小的参数量，十分适合布置到移动端，检测速度也符合实时性要求，具有较大的优势.

图 13

图 13 经典网络与改进网络检测效果对比

Fig.13 Comparison of detection effect between classical network and improved network

表 4 经典网络与改进网络的检测效果

Tab.4 Detection effect of classical network and improved network

骨干网络	颈部网络	输入大小	N_p/10⁶	v/（帧·s⁻¹）	AP/%
VGG	SSD-neck	300×300	26.35	72.2	74.25
MobileNetV2	YOLOv3	320×320	22.02	140.3	74.07
MobileNetV2	SSD-neck	320×320	3.43	378.1	69.03
MobileNeXt+	GFF-neck	320×320	3.18	128.6	78.05

3.2.4. 其他公开数据集实验

为了进一步比较所提方法的性能，在目标检测常用公开数据集VOC中进行实验，结果如表5所示. 从实验结果可以看出，改进网络与其他经典网络相比，精度大幅度提高，MobileNetV2-SSD网络提升了8.64%的mAP，且参数量较少. 虽然速度有所减缓，但是仍满足实时性要求，证明所提网络具有较好的鲁棒性.

表 5 VOC数据集中不同网络的检测结果

Tab.5 Detection results of different networks in VOC dataset

骨干网络	颈部网络	输入大小	N_p/10⁶	v/（帧·s⁻¹）	mAP/%
VGG	SSD-neck	300×300	26.35	72.2	76.82
MobileNetV2	YOLOv3	320×320	22.02	140.3	76.13
MobileNetV2	SSD-neck	320×320	3.43	378.1	71.64
MobileNeXt+	GFF-neck	320×320	3.18	128.6	80.28

3.3. 数据增强有效性实验

3.3.1. 数据集实验

为了验证本研究数据增强效果的有效性，针对所使用的WiderPerson数据集，对其使用传统的随机复制增强与自适应增殖数据增强，并使用经典网络(MobileNetV2-SSD)与所改进网络(MobileNeXt+-GGF)进行训练，比较测试集的测试效果，结果如表6所示. 可以看出，在使用2个复制增强方法后，训练后的网络模型准确率都有上升. 当输入尺寸分别为320、512时，所提的自适应增殖数据增强方法的AP值在经典网络上与未使用复制增强比较提升了1.22%与1.87%，对比传统的随机复制增强提升了0.47%与0.84%. 在使用改进网络模型时，对于2种输入尺寸，自适应数据增殖方法AP值与未使用增殖方法的比较提升了1.56%和2.48%，与随机复制的比较提升了0.80%和1.12%. 所提的数据增强方法与图1所示的传统随机复制方法比较有一定的提升，并且输入尺寸较大时提升更明显，当应用小目标检测的改进网络时，其提升幅度更加明显.

表 6 小目标行人数据增强对识别精度的提升效果

Tab.6 Effect of data enhancement of small target pedestrians on improving recognition accuracy

输入大小	数据增强	AP/%
输入大小	数据增强	MobileNetV2-SSD	MobileNeXt+-GGF
320×320	未使用复制	69.03	78.05
320×320	随机复制	69.78	78.81
320×320	自适应增殖	70.25	79.61
512×512	未使用复制	75.02	81.86
512×512	随机复制	76.05	83.32
512×512	自适应增殖	76.89	84.34

3.3.2. 其他数据集实验

为了验证所提数据增强方法的泛化性能，使用常用行人公开数据集CityPersons与Caltech进行实验. CityPersons包含2 975张训练集图片与500张验证集图片；Caltech数据集在set00-set05选择3 000张图片用于训练，并在set06-set08选择1 000张用于验证. 2个数据集的输入尺寸皆为512×512. 结果如表7所示.

表 7 CityPersons及CalTech进行数据增强的效果

Tab.7 Data enhanced performance on CityPersons and CalTech

数据集	数据增强	AP/%
CityPersons	未使用复制	45.04
	随机复制	46.61
	自适应增殖	48.43
Caltech	未使用复制	68.34
	随机复制	69.52
	自适应增殖	71.13

根据表7数据可知，所提自适应增殖数据增强方法与图1所示的传统随机复制方法比较有一定的提升，对于数据量较少的CityPersons和部分的Caltech数据集，所提自适应增殖数据增强方法有更大的提升效果，从中可以证明所提数据增强方法有较强的泛用性.

3.4. 实际环境测试

为了检测模型在真实环境中的检测效果，搭建实验测试系统对多个真实环境进行采集并对行人进行检测，如图14所示. 在现场测试中，利用TurtleBot2移动机器人搭载 MicroSoft Kinect V1相机与华硕A556U笔记本电脑，在实际场景中采集87张图片，使用在WiderPerson数据集上训练的不同网络模型测试，结果如图15所示. 对行人进行标注，计算不同模型检测的准确率，结果如表8所示.

图 14

图 14 实际环境的实验平台及测试

Fig.14 Experimental platform and testing of detection effect

图 15

图 15 实际环境下行人的检测效果

Fig.15 Detection effect of pedestrian under actual environment

表 8 实际环境下的检测准确率

Tab.8 Detection accuracy under actual environment

网络模型	AP/%
MobileNetV2-SSD	81.13
MobileNetV2-YOLOv3	85.53
MobileNeXt+-GGF	88.26
MobileNeXt+-GGF(自适应数据增强)	90.07

从图15中可以看出，所提算法在不同类型的行人中均有不错的检测结果. 对于近距离大的目标，经典算法与所提算法检测效果相差不大，但是对远处较小的目标而言，MobileNetV2-SSD很少检测到；MobileNetV2-YOLOv3 虽然能够检测到远处一部分小目标行人，但是仍然遗漏了一小部分小目标行人，并且该算法的参数量非常大；所提算法对小目标则有最好的检测效果，基本没有遗漏. 从表8中数据也能看出，所提网络模型与数据增强方法的准确率在实际环境测试中仍有较大的提升.

4. 结　语

本研究提出基于消隐点自适应增殖数据增强的上下文特征融合小目标行人检测方法. 采用数据增强方法，能够有效生成大小符合当前位置的目标，并能将大目标转化为小目标，有效解决了小目标自身特征不足的问题. 当输入尺寸为320和512时，该方法应用在WiderPerson数据集中的AP值分别提高了1.55%和2.48%. 在骨干网络中使用跨阶段局部网络优化了沙漏结构，并进行了轻量化处理，能够有效提升模型的可学习潜力，借助坐标注意力机制融合通道和空间信息，进一步提升模型精度. 本研究设计了全局特征融合颈部网络，极大地提高了整体网络精度. 改进的整体网络在WiderPerson数据集上的AP值与SSD-MobileNetV2网络比较提升了9.02%. 在公开数据集上，所提算法相对于经典算法也取得了最高的精度及较小的参数量. 在实际环境测试中，所提算法相比其他算法也能识别出更多的小目标行人，体现出了较强的鲁棒性.

参考文献

原文顺序

文献年度倒序

文中引用次数倒序

被引期刊影响因子

[1]

张娜, 戚旭磊, 包晓安, 等

基于优化预测定位的单阶段目标检测算法

[J]. 浙江大学学报: 工学版, 2022, 56 (4): 783- 794

ZHANG Na, QI Xu-lei, BAO Xiao-an, et al

Single-stage object detection algorithm based on optimizing position prediction

[J]. Journal of Zhejiang University: Engineering Science, 2022, 56 (4): 783- 794

[2]

鞠默然, 罗海波, 王仲博, 等

改进的YOLOV3算法及其在小目标检测中的应用

[J]. 光学学报, 2019, 39 (7): 0715004

DOI:10.3788/AOS201939.0715004 [本文引用: 1]

JU Mo-ran, LUO Hai-bo, WANG Zhong-bo, et al

Improved YOLOV3 algorithm and its application in small target detection

[J]. Acta Optica Sinica, 2019, 39 (7): 0715004

DOI:10.3788/AOS201939.0715004 [本文引用: 1]

[3]

BELL S, ZITNICK C L, BALA K, et al. Inside-outside net: detecting objects in context with skip pooling and recurrent neural networks [C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. New York: IEEE, 2016: 2874-2883.

[4]

KONG T, YAO A, CHEN Y, et al. Hypernet: towards accurate region proposal generation and joint object detection [C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. New York: IEEE, 2016: 845-853.

[5]

FAN D, LIU D, CHI W, et al. Improved SSD-based multi-scale pedestrian detection algorithm [C]// Advances in 3D Image and Graphics Representation, Analysis, Computing and Information Technology. Singapore: Springer, 2020: 109-118.

DOI:10.20009/j.cnki.21-1106/TP.2021-0183 [本文引用: 1]

[6]

潘昕晖, 邵清, 卢军国

基于CBD-YOLOv3的小目标检测算法

[J]. 小型微型计算机系统, 2022, 43 (10): 2143- 2149

PAN Xi-hui, SHAO Qing, LU Jun-guo

Small object detection algorithm based on CBD-YOLOv3

[J]. Journal of Chinese Computer Systems, 2022, 43 (10): 2143- 2149

DOI:10.20009/j.cnki.21-1106/TP.2021-0183 [本文引用: 1]

[7]

KISANTAL M, WOJNA Z, MURAWSKI J, et al. Augmentation for small object detection [EB/OL]. [2019-02-19]. https://arxiv.org/pdf/1902.07296.pdf.

[本文引用: 2]

[8]

LIN T, DOLLAR P, GIRSHICK R, et al. Feature pyramid networks for object detection [C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Honolulu: IEEE, 2017: 2117-2125.

[9]

TAN M, PANG R, LE Q. Efficientdet: scalable and efficient object detection [C]// Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. Seattle: IEEE, 2020: 10781-10790.

[10]

QIAO S, CHEN L, YUILLE A. Detectors: detecting objects with recursive feature pyramid and switchable atrous convolution [C]// Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. Nashville: IEEE, 2021: 10213-10224.

[11]

汝承印, 张仕海, 张子淼, 等

基于轻量级MobileNet-SSD和MobileNetV2-DeeplabV3+的绝缘子故障识别方法

[J]. 高电压技术, 2022, 48 (9): 3670- 3679

RU Cheng-yin, ZHANG Shi-hai, ZHANG Zi-miao, et al

Fault identification method for high voltage power grid insulator based on lightweight mobileNet-SSD and mobileNetV2-DeeplabV3+ network

[J]. High Voltage Engineering, 2022, 48 (9): 3670- 3679

[12]

SANDLER M, HOWARD A, ZHU M, et al. MobileNet V2: inverted residuals and linear bottlenecks [C]// Proceedings of IEEE Conference on Computer Vision and Pattern Recognition. Washington D. C. : IEEE, 2018: 4510-4520.

[13]

ZHOU D, HOU Q, CHEN Y, et al. Rethinking bottleneck structure for efficient mobile network design [C]// European Conference on Computer Vision. Cham: Springer, 2020: 680-697.

[14]

YE K, FANG Z, HUANG X, et al. Research on small target detection algorithm based on improved YOLOv3 [C]// 5th International Conference on Mechanical, Control and Computer Engineering. Harbin: IEEE, 2020: 1467-1470.

[15]

SONG J, SONG H, WANG S

PTZ camera calibration based on improved DLT transformation model and vanishing point constraints

[J]. Optik-International Journal for Light and Electron Optics, 2021, 225 (7): 165875

[16]

LU X, YAO J, LI H, et al. 2-line exhaustive searching for real-time vanishing point estimation in manhattan world [C]// IEEE Winter Conference on Applications of Computer Vision. Santa Rosa: IEEE, 2017: 345-353.

[本文引用: 2]

[17]

HU J, SHEN L, SUN G. Squeeze-and-excitation networks [C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Salt Lake City: IEEE, 2018: 7132-7141.

[18]

HOU Q, ZHOU D, FENG J. Coordinate attention for efficient mobile network design [C]// Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. Nashville: IEEE, 2021: 13713-13722.

[19]

WANG C, LIAO H, WU Y, et al. CSPNet: a new backbone that can enhance learning capability of CNN [C]// Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition Workshops. Seattle: IEEE, 2020: 390-391.

[20]

董红召, 方浩杰, 张楠

旋转框定位的多尺度再生物品目标检测算法

[J]. 浙江大学学报: 工学版, 2022, 56 (1): 16- 25

DONG Hong-zhao, FANG Hao-jie, ZHANG Nan

Multi-scale object detection algorithm for recycled objects based on rotating block positioning

[J]. Journal of Zhejiang University: Engineering Science, 2022, 56 (1): 16- 25

[21]

MA N, ZHANG X, ZHENG H T, et al. ShuffleNet V2: practical guidelines for efficient CNN architecture design [C]// Proceedings of European Conference on Computer Vision. Berlin: Springer, 2018: 116-131.