<img src="https://www.zjujournals.com/eng/images/1008-973X/images/logo.png" class="img-responsive">

图 1 基于注意力和自适应权重的车辆重识别网络结构

Fig.1 Vehicle re-identification network structure based on attention mechanism and adaptive weight

1.2. 主干网络

主干网络采用ResNet50_ibn网络结构. ResNet50^[13]中大量采用批过一化（batch normalization, BN），对每一通道层的同批次数据进行归一化，增强图像语义特征之间的差异性. BN层易受光照情况和摄像头视角的干扰，导致泛化能力较差，影响网络的表达能力.

IN层对单个样本的同一通道特征进行归一化，过滤图像中的颜色、光照、视角等干扰特征，使网络学习到关于目标的不变性特征，提升网络的泛化能力^[14]. 融合上述2种归一化方法，通过IN层替代ResNet50中BN层的一半通道结构，得到ibn结构改进ResNet50中的归一化层. 搭建ResNet50_ibn主干网络模型，网络的残差块结构如图2所示. 仅对第1个归一化层进行改进，防止出现恒等映射路径和残差路径特征不对齐的问题. 在网络高层即最后一个残差块中，仅使用BN层，防止网络高层的语义信息判别性被破坏.

图 2

图 2 改进的残差块结构

Fig.2 Improved residual block structure

1.3. 基于多头注意力的组表示网络

经过主干网络提取的初步特征各个通道间相互独立，无法准确地提取车辆特征. 为了解决该问题，搭建基于多头注意力机制的组表示网络GroupNet，通过网络自动地将特征信息进行聚类，提取不同分组的特征信息，学习特征间的依赖关系. 多头注意力机制根据实例特征信息计算目标图像属于不同分组的概率预测，鼓励网络从不同类别的车辆特征中学到更加丰富的特征信息.

组表示网络分为2条支路，融合得到最终的语义增强特征. 第1条支路是实例级表示支路，即传统的车辆重识别模型中的单头结构. 第2条支路是组表示支路，通过8个并行的全连接层得到每个组的特征表示. 组概率计算基于多头注意力机制，计算得到每个分组的概率分布，决定了各头部特征对最终编码的贡献，特征表示为

(1) $ {\boldsymbol{V}} = {{\boldsymbol{V}}_X}{\text+}\sum\limits_{k \in K} {p({G_k}|{\boldsymbol{X}})} {\boldsymbol{V}}_X^{({G_k})} . $

式中： ${k}$表示不同分组类别， ${\boldsymbol{X}}$为全局池化层的输出向量， ${\boldsymbol{V}}_X^{({G_k})}$为 ${G_k}$支路的向量表示， ${{\boldsymbol{V}}_X}$为实例级表示支路的向量表示， $p({G_k}|{\boldsymbol{X}})$为输入图像属于类别 $k$的分组概率预测值.

多头注意力机制基于实例特征进行学习，得到目标属于不同分组的概率预测，决定不同分组特征对最终编码的重要性，鼓励网络从不同类型车辆特征中学到更多的特征信息. 在图像检索阶段，网络模型通过组表示概率预测和注意力机制得到最终编码，使得相似的目标从相同的分组表示中提取到更多的特征信息，有助于缩小搜索范围，提升系统的性能.

1.4. 损失函数

在网络训练阶段，采用多损失函数策略和自适应损失权重计算损失函数，优化和训练网络模型相似性计算模块的结构如图3所示.

图 3

图 3 相似性计算模块的结构图

Fig.3 Structure diagram of similarity calculation module

为了提升重识别检测的准确率，采用标签平滑的交叉熵损失和监督对比损失（supervised contrastive loss, SupCon）^[15]的多损失函数策略，通过自适应损失权重进行损失融合. 交叉熵损失（cross entropy loss, CE loss）函数的表达式为

(2) $ {{{L}}_{{\text{ID}}}} = \sum\limits_{i = 0}^N { - {q_i}\, \ln {p_i}} . $

式中： $ {p_i} $为目标属于类别 $i$的概率预测值； ${q_i}=0 $表示负样本， ${q_i}=1 $表示正样本. 采用标签平滑，对交叉熵损失函数中的 ${q_i}$进行改进，计算公式如下：

(3) $ {q_i} = \left\{ {\begin{array}{*{20}{c}} {{\varepsilon }/{N},}&{y \ne i;} \\ {1 - {{(N - 1)}}\varepsilon /{N} ,}&{y = i.} \end{array}} \right. $

式中： $\varepsilon $为平滑控制常数， $N$为车辆类别数， $y$为真实的车辆类别标签. 通过标签平滑降低模型预测的自信度，防止模型过拟合，提升模型的鲁棒性.

监督对比损失在训练时基于每个输入批次的所有图像，表达式为

(4) $ {{{L}}_{{\text{Sup}}}} = \sum\limits_{i \in I} \left(\frac{{ - 1}}{{\left| {P(i)} \right|}} \sum\limits_{p \in P(i)} {\ln \frac{{\exp \left({{{{\boldsymbol{z}}_i}\cdot{{\boldsymbol{z}}_p}}} / {\tau }\right)}}{{\displaystyle\sum\limits_{a \in A(i)} {\exp \;\left({{{{\boldsymbol{z}}_i}\cdot{{\boldsymbol{z}}_a}}} / {\tau }\right)} }}} \right) . $

式中： $I$为同一批次中所有图像组成的集合； ${{\boldsymbol{z}}_i}$为用于对比的锚点图像 $i$的特征向量； $P(i) \equiv \{ p \in A(i), {y_p} = {y_i}\} $为该批次中的所有正样本对组成的集合， $\left| {P(i)} \right|$为该集合中元素的个数； ${{\boldsymbol{z}}_p}$为正样本对图像 $p$的特征向量； $A(i) \equiv I\backslash \{ i\} $表示除 $i$外的所有图像，包含所有的正样本和所有的负样本图像； ${{\boldsymbol{z}}_a}$为图像 $a$的特征向量； $\tau $为距离控制系数.

现有的车辆重识别模型通常使用固定的超参数进行权重分配. 2种损失的分布是不一致的，因此设计自适应的损失权重计算损失函数. 在训练过程中，根据2组损失的标准差对权重进行更新. 更新规则如下.

(5) $ {\lambda _1} = \left\{ {\begin{array}{*{20}{c}} \alpha {\lambda _1}+\dfrac{{{\sigma _1}}}{{{\sigma _1}+{\sigma _2}}}{\lambda _1},&{{\sigma _1} \geqslant {\sigma _2};} \\ \alpha {\lambda _1}+\dfrac{{{\sigma _2}}}{{{\sigma _1}+{\sigma _2}}}{\lambda _1},&{{\sigma _1} < {\sigma _2}.} \end{array}} \right. $

(6) $ {\lambda _2} = \left\{ {\begin{array}{*{20}{c}} \alpha {\lambda _2}+\dfrac{{{\sigma _2}}}{{{\sigma _1}+{\sigma _2}}}{\lambda _2},&{{\sigma _1} \geqslant {\sigma _2};} \\ \alpha {\lambda _2}+\dfrac{{{\sigma _1}}}{{{\sigma _1}+{\sigma _2}}}{\lambda _2},&{{\sigma _1} < {\sigma _2}.} \end{array}} \right. $

式中： $ {\lambda _1} $、 ${\lambda _2}$分别为分类损失权重和度量损失权重， ${\sigma _1}$为分类损失的标准差， ${\sigma _2}$为度量损失的标准差， $\alpha $为动量因子.

采用自适应损失权重将两部分损失联合起来，最终的联合损失函数可以表示为

(7) $ {{L}} = {\lambda _1}{L_{{\text{ID}}}}+{\lambda _2}{L_{{\text{SUP}}}} . $

2. 实验结果与分析

2.1. 实验数据集及训练参数设置

通过在公开的数据集VeRi776^[16]和VehicleID^[17]进行消融实验和对比实验，给出每个数据集上的首位击中率（Rank-1）、平均精度均值（mean average precision, mAP）指标，验证算法模型的有效性. VeRi776数据集包含了776辆车的50 000余张图像，其中576辆车用于训练，200辆车用于测试. VehicleID数据集，包含26 267辆车的221 763张图像，其中训练集由13 182辆车的100 182张图像组成，测试集由2 400辆车的19 777张图像组成. 为了防止过拟合情况的发生，训练阶段采用随机翻转、随机裁剪和随机擦除等数据增强操作.

本文车辆重识别模型均运行在具有NVIDIA Tesla P40显卡的主机上，软件环境是Ubuntu 18.04，所有的实验都是基于PyTorch1.3深度学习框架. 算法中使用的网络在ImageNet公开数据集上进行预训练. 网络更新采用Adam^[18]优化算法，学习率采用余弦退火的衰减策略，初始值为0.000 35. 距离控制系数τ设置为0.1，初始分类损失和度量损失权重均设置为1，动量因子 $\alpha $设置为0.5. 训练过程中批尺寸设置为64，包含16个车辆ID的各4张车辆图像，网络共训练24个数据集循环.

2.2. 消融实验

为了比较搭建网络中不同模块的贡献，在VeRi776数据集上对主干网络和组表示网络进行消融实验. 采用交叉熵损失和三元组损失进行损失度量，损失权重设置为1∶1，实验结果如表1所示. 表中，Rank-5为前5位击中率. 基于多头注意力的组表示网络可以使算法mAP和Rank-1分别提升2.2%和1.7%，表明组表示网络能够提升算法性能. 组表示网络与单头结构相比更具有鲁棒性，引入多头结构和注意力机制，网络将输入实例特征进行分组聚类，融合特征间的依赖关系，学习得到不同属性类别的语义增强特征，提取更加丰富的特征信息. 通过ibn结构改进ResNet50残差块，模型mAP和Rank-1分别提升了5.6%和4.5%. ibn结构通过实例归一化对同一实例的单个特征进行归一化处理，消除视角、光照差异，解决类内差异性和类间相似性对图像特征的影响，学习关于类别的不变性特征. 保留部分批归一化结构，提升对高层语义信息的判别能力，提高算法的特征表示能力.

表 1 不同模块对算法性能的影响

Tab.1 Effectiveness of various designs

%
方法	Rank-1	Rank-5	mAP
ResNet50	84.2	88.1	65.6
ResNet50+GroupNet	85.9	89.6	67.8
ResNet50_ibn	88.7	92.1	71.2
ResNet50_ibn+GroupNet	90.4	94.6	72.9

为了对比不同的损失函数选择对检测效果的影响，主干网络选择ResNet50_ibn并通过组表示网络改进特征表示，损失权重设置为1∶1，在VeRi776数据集上的实验结果如表2所示. 实验结果表明，采用标签平滑的方式改进交叉熵损失，算法的mAP提升了0.9%. 标签平滑操作缓解了错误标签带来的影响，降低模型预测的自信度，防止模型过拟合，提升模型的鲁棒性和检索准确率. 监督对比损失对算法准确率的提升更明显，mAP提升了1.5%. 监督对比损失融合了同一批次的所有图像信息，避免了三元组损失分组选择的随机性，隐含难样本挖掘的思想，利用图像特征，提升系统的鲁棒性. 利用2种方法改进损失函数后，算法模型的mAP和Rank-1分别提升了2.3%和2.1%.

表 2 不同损失函数的实验结果

Tab.2 Experimental results of different loss function

%
损失函数	Rank-1	Rank-5	mAP
CE+Triplet	90.4	94.6	72.9
CE+SupCon	91.8	96.0	74.4
Label smoothing CE+Triplet	91.2	95.3	73.8
Label smoothing CE+SupCon	92.5	96.6	75.2

为了验证自适应损失权重对算法性能的影响，选择主干网络ResNet50_ibn并加入组表示网络. 采用标签平滑的交叉熵损失和监督对比损失进行损失度量，在VeRi776数据集上设置不同的损失权重，实验结果如表3所示. 利用自适应损失权重的方法，使得重识别模型的mAP和Rank-1分别提升了4.4%和3.4%. 实验结果表明，根据损失分布的标准差计算损失权重，调整损失函数，能够提升算法性能. 在网络训练过程中，分类损失通常比度量损失大得多，导致损失不平衡并影响训练结果. 手动设置固定的损失权重，对算法的性能提升作用有限. 在迭代过程中自动更新损失权重，在不增加计算成本的前提下平衡训练损失，解决损失分布的不一致性问题，通过超参数进行控制，增强训练稳定性.

表 3 不同损失权重的实验结果

Tab.3 Experimental results of different loss weight

%
损失权重	Rank-1	Rank-5	mAP
1∶1	92.5	96.6	75.2
1∶2	93.8	97.2	76.7
0.5∶0.5	94.5	97.7	77.8
自适应损失权重	96.0	98.6	79.8

2.3. 对比实验

为了验证本文算法的有效性，与多种主流算法分别在VeRi776数据集与VehicleID数据集上进行对比实验. 在VeRi776数据集上的实验结果如表4所示.

表 4 VeRi776数据集下与主流算法的结果对比

Tab.4 Comparison of results with mainstream algorithms in VeRi776 datasets

%
方法	Rank-1	Rank-5	mAP
OIFE+ST^[19]	92.4	—	51.4
VAMI+STR^[20]	85.9	91.8	61.3
PNVR^[21]	94.3	98.3	74.3
MRL^[22]	94.3	97.3	78.5
UMTS^[6]	95.8	—	75.9
SPAN^[9]	93.9	97.6	68.6
PVEN^[23]	95.6	98.4	79.5
TBE^[24]	96.0	98.5	79.5
本文方法	96.0	98.6	79.8

本文算法的mAP和Rank-1分别为79.8%和96.0%，超过了其他优秀的算法. OIFE和VAMI算法基于先验经验提取局部区域特征和视角特征，因此算法的特征提取能力不足，重识别性能一般. SPAN和PNVR算法虽然具有较高的Rank-1指标，但算法缺少对特征信息的融合，而且2种算法使用三元组损失作为损失函数，缺少对难样本信息的挖掘，本文算法的mAP指标与上述算法相比分别提升了5.5%和11.2%. 相较于UMTS算法，在Rank-1提升0.2%的情况下，mAP提升了3.9%，能够检索出更多的难样本，通过多头结构对特征间依赖关系进行学习，提升了算法性能. 相较于TBE算法，在相同Rank-1的情况下，Rank-5指标有所提升，mAP提升了0.4%. 以上对比结果表明，本文算法对容易样本的检索性能优异，具有更高的难样本检测准确率，体现出多头组表示网络和监督对比损失的设计对难样本图像的信息挖掘作用.

如表5所示，在VehicleID数据集的3个尺寸测试集中，本文算法与其他主流方法相比，具有更高的重识别精度，在VehicleID-Large上本文算法的mAP和Rank-1分别为80.9%和81.5%. 相较于其他算法，TBE^[23]方法与本文算法具有明显的性能提升，因为2种方法都引入了多头结构和注意力机制融合特征间的依赖关系，提升了车辆的特征提取能力. 本文算法通过自适应损失函数和监督对比损失，挖掘难样本信息. 相比于Rank-1指标，本文算法的mAP指标的提升更明显，体现出算法具有更高的难样本检测能力和较强的鲁棒性，能够避免类内差异性和类间相似性的影响. 实验结果表明，利用提出的车辆重识别模型，能够提取车辆图像的判别性特征，提升车辆重识别的准确率.

表 5 VehicleID数据集下与主流算法的结果对比

Tab.5 Comparison of results with mainstream algorithms in VehicleID datasets

%
方法	小尺度		中尺度		大尺度
方法	Rank-1	mAP	Rank-1	mAP	Rank-1	mAP
OIFE^[19]	—	—	—	—	67.0	—
VAMI^[20]	63.1	—	52.9	—	47.3	—
PNVR^[21]	78.4	—	75.0	—	74.2	—
MRL^[22]	75.7	78.3	71.6	75.4	66.5	68.2
UMTS^[6]	74.4	80.4	72.4	77.1	69.8	75.2
PVEN^[23]	78.4	78.3	75.0	78.3	74.2	78.3
TBE^[24]	86.0	—	82.3	—	80.7	—
本文方法	84.5	85.3	82.5	82.6	81.5	80.9

2.4. 可视化结果

使用本文算法和baseline方法，对VeRi776数据集图像进行车辆重识别检测. baseline方法主干网络采用ResNet50，损失函数使用交叉熵损失和三元组损失，相似性排序的结果如图4所示.

图 4

图 4 重识别检测结果的对比

Fig.4 Comparison of re-identification detection results

对于每张查询集图像，检索出相似性最大的5张图像，检测错误图像用矩形框标出. 通过可视化结果可以看出，baseline方法受到图像视角的影响极大，检测结果中相同摄像头拍摄的图像具有更高的排序，对于类间相似的车辆检测准确率较低. 本文算法对baseline方法的检测结果具有一定的纠正作用，引入批归一化方法和组表示网络，避免了摄像头视角的干扰，提取车辆目标的判别性特征进行重识别检测，大幅提升了准确率.

3. 结　语

本文提出基于注意力机制和自适应损失权重的车辆重识别检测模型. 采用实例归一化方法对ResNet50的残差块进行改进，克服颜色、视角和光照等客观因素的干扰. 搭建组表示网络学习特征间的依赖关系，嵌入注意力机制，融合实例特征与分组特征，提取语义增强特征. 采用多损失函数策略，挖掘难样本信息，提升模型鲁棒性，引入自适应损失权重，增强模型的泛化能力. 在公开数据集上的实验结果表明，本文算法模型相较于其他主流算法，具有更好的综合性能和更高的检测准确率. 今后的研究内容重点考虑在利用数据集中图像信息的同时，融合空间信息和时序信息，使得算法可以更好地应用于更复杂的环境.

参考文献

原文顺序

文献年度倒序

文中引用次数倒序

被引期刊影响因子

[1]

LIU X, WU L, MA H, et al. Large-scale vehicle re-identification in urban surveillance videos [C]// Proceedings of the IEEE International Conference on Multimedia and Expo. Seattle: IEEE, 2016: 1-6.

[2]

ZAPLETAL D, HEROUT A. Vehicle re-identification for automatic video traffic surveillance [C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition Workshops. California: IEEE, 2016: 1568-1574.

[3]

CORMIER M, SOMMER L W, TEUTSCH M. Low resolution vehicle re-identification based on appearance features for wide area motion imagery [C]// Proceedings of the IEEE Winter Applications of Computer Vision Workshops. New York: IEEE, 2016: 1-7.

[4]

LUO H, GU Y, LIAO X, et al. Bag of tricks and a strong baseline for deep person re-identification [C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition Workshops. Long Beach: IEEE, 2019: 1487-1495.

[5]

ZHENG Z, RUAN T, WEI Y, et al. VehicleNet: learning robust visual representation for vehicle re-identification [C]// Proceedings of the IEEE Transactions on Multimedia. New York: IEEE, 2021: 2683-2693.

[6]

JIN X, LAN C, ZENG W, et al. Uncertainty-aware multi-shot knowledge distillation for image-based object re-identification [C]// Proceedings of the AAAI Conference on Artificial Intelligence. New York: AAAI, 2020: 11165-11172.

[本文引用: 3]

[7]

KIM Y, PARK W, ROH M C, et al. GroupFace: learning latent groups and constructing group-based representations for face recognition [C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. New York: IEEE, 2020: 5620-5629.

[8]

谢秀珍, 罗志明, 连盛, 等

一种融合表观与属性信息的车辆重识别方法

[J]. 厦门大学学报: 自然科学版, 2021, 60 (1): 72- 79

XIE Xiu-zhen, LUO Zhi-ming, LIAN Sheng, et al

A vehicle re-identification method by fusing the vehicle appearance and attribute information

[J]. Journal of Xiamen University: Natural Science Edition, 2021, 60 (1): 72- 79

[9]

CHEN T S, LIU C T, WU C W. et al. Orientation-aware vehicle re-identification with semantics-guided part attention network [C]// European Conference on Computer Vision. Amsterdam: Elsevier, 2020: 330–346.

[10]

刘晗煜, 黄宏恩, 郑世宝

基于视角一致性三元组损失的车辆重识别技术

[J]. 测控技术, 2021, 40 (8): 47- 53

DOI:10.19708/j.ckjs.2021.08.009 [本文引用: 1]

LIU Han-yu, HUANG Hong-en, ZHENG Shi-bao

View consistency triplet loss for vehicle re-identification

[J]. Measurement and Control Technology, 2021, 40 (8): 47- 53

DOI:10.19708/j.ckjs.2021.08.009 [本文引用: 1]

[11]

NGUYEN B X, NGUYEN B D, DO T, et al. Graph-based person signature for person re-identifications [C]// Proceedings of the 2021 IEEE/CVF Conference on Computer Vision and Pattern Recognition Workshops. New York: IEEE, 2021: 3487-3496.

[12]

HUYNH S V, NGUYEN N H, NGUYEN N T, et al. A strong baseline for vehicle re-identification [C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition Workshops. New York: IEEE, 2021: 4142-4149.

[13]

HE K, ZHANG X, REN S, et al. Deep residual learning for image recognition [C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas: IEEE, 2016: 770-778.

[14]

WU Y, HE K

Group normalization

[J]. International Journal of Computer Vision, 2018, 128: 742- 755

[15]

PRANNAY K, PIOTR T, CHEN W, et al. Supervised contrastive learning [EB/OL]. [2022-04-20]. https://arxiv.org/abs/2004.11362.

[16]

LIU X, LIU W, MEI T, et al

PROVID: progressive and multimodal vehicle reidentification for large-scale urban surveillance

[J]. IEEE Transactions on Multimedia, 2019, 20 (3): 645- 658

[17]

LIU H, TIAN Y, WANG Y, et al. Deep relative distance learning: tell the difference between similar vehicles [C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas: IEEE, 2016: 2167-2175.

[18]

KINGMA D, BA J. Adam: a method for stochastic optimization [C]// International Conference on Learning Representations. San Diego: [s. n.], 2015: 1412-1426.

[19]

WANG Z, TANG L, LIU X, et al. Orientation invariant feature embedding and spatial temporal regularization for vehicle reidentification [C]// Proceedings of the IEEE International Conference on Computer Vision. Venice: IEEE, 2017: 832-837.

[20]

YI Z, LING S. Viewpoint-aware attentive multi-view inference for vehicle re-identification [C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Salt Lake City: IEEE, 2017: 6489-6498.

[21]

HE B, LI J, ZHAO Y, et al. Part-regularized near-duplicate vehicle re-identification [C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Long Beach: IEEE, 2019: 3992-4000.

[22]

LIN W, Y LI, YANG X, et al. Multi-view learning for vehicle re-identification [C]// IEEE International Conference on Multimedia and Expo. Shanghai: IEEE, 2019: 832-837.