浙江大学学报(工学版), 2021, 55(5): 948-956 doi: 10.3785/j.issn.1008-973X.2021.05.015

计算机与控制工程

基于大边距度量学习的车辆再识别方法

张师林,, 马思明, 顾子谦

北方工业大学 城市道路交通智能控制技术北京市重点实验室,北京 100144

Large margin metric learning based vehicle re-identification method

ZHANG Shi-lin,, MA Si-ming, GU Zi-qian

Beijing Key Laboratory of Traffic Intelligent Control, North China University of Technology, Beijing 100144, China

收稿日期: 2020-06-29  

基金资助: 国家自然科学基金资助项目(61403002);北方工业大学优秀青年人才资助项目

Received: 2020-06-29  

Fund supported: 国家自然科学基金资助项目(61403002);北方工业大学优秀青年人才资助项目

作者简介 About authors

张师林(1980—),男,副教授,从事人工智能研究.orcid.org/0000-0003-3034-1538.E-mail:zhangshilin@126.com , E-mail:zhangshilin@126.com

摘要

在目前的车辆再识别方法中,车辆在拍摄过程中的多视角会导致特征嵌入空间中决策边界附近样本较难区分. 针对该问题,提出通过最大化边界距离提升车辆再识别准确率. 在特征表示阶段,设计了大边界损失度量函数,可以有效处理相似车辆的混淆问题;采用入侵叛逃采样策略,可以在训练样本中找出更容易混淆的难样本以更有针对性地训练网络,并加快网络的训练速度. 在车辆检索阶段,提出基于核函数的重排序方法,可以提高车辆再识别的准确率. 在3个公共数据集上的实验结果显示,车辆再识别的准确率得到提高,同时训练和推理效率得到改善. 理论分析和实验表明,大边距度量学习通过挖掘决策边界的难样本,可以有效解决车辆再识别中的多视角问题.

关键词: 车辆再识别 ; 特征嵌入 ; 度量学习 ; 损失函数 ; 采样策略 ; 核函数

Abstract

In the present vehicle re-identification methods, it is hard to separate the samples near the decision boundaries in the embedding feature space because of the multi-view vehicle appearance. A large margin metric learning method was proposed to tackle the above problem. In the representation stage, a large margin loss function was presented to tackle the identity confusion issue among similar vehicles effectively. Meanwhile, an invader-defector sampler was adopted, which was used to find the hard samples in the training dataset to train the network specifically and speed up the training process. A kernelized re-rank method was adopted to further enhance the re-identification performance in the retrieval stage. Experiments on three common databases show that the proposed method can achieve a higher vehicle re-identification accuracy, and at the same time the time cost of training and the inference procedure are improved. Theoretical analysis and experiments also indicate that, the large margin metric learning method can mine the hard samples near the decision boundaries, and can solve the multi-view issue in the vehicle re-identification domain.

Keywords: vehicle re-identification ; feature embedding ; metric learning ; loss function ; sampling strategy ; kernel function

PDF (891KB) 元数据 多维度评价 相关文章 导出 EndNote| Ris| Bibtex  收藏本文

本文引用格式

张师林, 马思明, 顾子谦. 基于大边距度量学习的车辆再识别方法. 浙江大学学报(工学版)[J], 2021, 55(5): 948-956 doi:10.3785/j.issn.1008-973X.2021.05.015

ZHANG Shi-lin, MA Si-ming, GU Zi-qian. Large margin metric learning based vehicle re-identification method. Journal of Zhejiang University(Engineering Science)[J], 2021, 55(5): 948-956 doi:10.3785/j.issn.1008-973X.2021.05.015

车辆再识别[1-2],对于城市交通管理和智慧城市建设具有重要意义. 在城市交叉口,由于相机安装高度和角度的限制以及车牌遮挡等原因,车牌信息的获取有时候会遇到一定的困难. 因此,基于视觉特征的车辆再识别更具有一般意义,近些年受到较多研究者的关注. 车辆再识别的目标是判断多个视域不重叠相机所拍摄的车辆是否为同一车辆. 随着视觉技术的飞速发展,车辆再识别,作为车牌识别的有效补充,可以为城市道路安全和交通管理提供重要技术支撑.

基于卷积神经网络和三元组损失的车辆再识别方法[3]在该领域取得了较大进展. 通过卷积神经网络,细粒度的特征可以被提取出来,比如车辆挡风玻璃前的饰物、车辆外身的划痕. 三元组损失和交叉熵损失可以使得卷积神经网络模型将不同身份的车辆嵌入到不同特征空间中. 借助于特征嵌入,一个车辆可以被表达为一个区分度较高的高维向量. 在检索车辆时,嵌入特征被用来计算检索车辆和数据库车辆之间的相似度. 不过,目前的车辆再识别方法仍然存在一定的问题. 首先,随着车辆数量的增加,不同身份的车辆在其分类边界附近混淆度较高;其次,在网络的训练过程中,不同样本对于模型优化的影响不同,若对于所有样本同等对待,会导致网络训练效率过低;最后,现有车辆再识别方法普遍关注准确率的提升,较少关注网络模型规模的大小和运行效率的问题.

本研究的基础网络分别采用OSNet[4](2.7 M网络参数)和Resnet50[5](24.0 M参数);提出大边距度量学习方法,该方法重点关注分类边界附近的样本以较好地区分这些混淆样本;为了提高训练的效率,采用入侵叛逃采样策略以发现分类边界处的难样本;提出基于核函数的重排序方法以进一步提高车辆再识别性能.

1. 车辆再识别相关技术

1.1. 基于卷积神经网络的特征提取

针对车辆再识别问题,Liu等[1-2]构建Veri-776数据集,并较早地提出基于深度学习的车辆再识别方法. Bai等[6]构建更大规模的VehicleID. 在近几年,大量的车辆再识别工作在这些公开数据集上得以陆续开展.

特征提取是车辆再识别流程中最为关键的步骤. 随着深度学习的兴起,各种卷积神经网络借助于不同尺度的卷积核以及逐层的提炼,最终获得区分度较高的嵌入特征. 随着网络参数的增多,复杂的结构往往性能更好,比如VGG[7],被用作GSTE[6]中的基础网络,取得了较好的车辆再识别性能. 残差网络Resnet50的出现,成为后来很多车辆再识别方法的基础网络. 近几年,在确保特征表达能力的同时,规模更小的网络结构逐渐被设计出来,比如OSNet的参数大小仅为2.7 M. OSNet设计了不同尺度的卷积核,可以自主学习这些不同尺度信息的权重并加以融合,因此它可以更好地捕获从宏观到微观的一系列图像信息. 由于车辆再识别特征一般从前端摄像机上提取,特征匹配在后端服务器上完成,对前端网络模型的规模提出了要求,更小的网络模型更加符合实际应用场景.

较多学者在现有网络结构之上,对嵌入特征进行改造以获得区分度更好的特征表达. VANet[8]根据车辆视角的不同设计不同的网络分支,以处理不同视角的车辆. AAVER[9] 采用类似的策略,通过多分支网络结构提高嵌入特征的辨别能力. 但是,多分支网络在提高识别准确率的同时,也难以避免地带来网络参数规模的增加. Part-Reg[10]通过引入目标检测技术确定车辆部件,再利用增强的局部特征提高准确率. 但是这种特征提取的方式,必须引入其他监督信息. QD-DLF[11] 通过对卷积层输出的原始特征,进行不同方向的切片和重组,得到表达能力更好的特征. 本研究采用OSNet作为基础网络,没有引入视角、部件监督信息,因而其对前端处理能力要求更低,较小的网络模型和计算复杂度更加适应车辆再识别的具体应用场景.

1.2. 深度度量学习方法

车辆图像经过卷积神经网络层之后成为高维空间的嵌入特征,但这个特征在各个维度上的表达能力并不相同. 传统度量学习利用训练集标注样本,定义样本距离如下:

$d({{{x}}_i},{{{x}}_j}) = ({{{x}}_i} - {{{x}}_j}){{M}}{({{{x}}_i} - {{{x}}_j})^{\rm{T}}}.$

式中: ${{M}}$为半正定矩阵,是在全部训练集标注样本上通过度量学习得到的, ${{M}} = {{L}}\,{{{L}}^{\rm{T}}}$,为矩阵与矩阵自身转置的乘积; ${{{x}}_i}{\text{、}}{{{x}}_j}$为2个训练样本的特征. 相同的样本距离更近,不同样本距离更远. 式(1)即为马氏距离,是更加一般化的相似性度量.

经过线性变换的图像特征,可以比原来具有更好的特征表达能力. 在卷积神经网络中,分类层前边的全连接层所提供的线性变换等价于度量学习. 但是深度度量学习一般是在一个批次内完成的,导致全局训练集标注信息未被度量学习充分利用. 三元组损失是深度度量学习方法:

$L{_{{\rm{tri}}}} = \sum\limits_{{{a}},{{p}},{{n}}} {{\rm{max}}\;\{\;d({{a}},{{p}}) + {{m}} - d({{a}},{{n}}),\;0\} .} $

式中:m为人工定义的阈值,一般取0.3;a为参考样本;p为与a同标签的正样本;n为与a不同标签的负样本. 近些年取得较高准确率的车辆再识别方法[12-14]均采用三元组损失函数. 交叉熵损失和三元组损失经常被结合起来训练神经网络模型. 在三元组损失的基础上,提出各种变形方法[15]以进一步约束类内距离,确保类内距离小于各类之间距离. 区别于一般计算三元组点对点的方式,基于点对集合[15],通过将正样本扩充为正样本集,负样本扩充为负样本集,以更好地提高训练效率. 然而三元组损失及其变形算法,依然存在一定的局限性. 首先,在车辆再识别领域,同一类的样本其特征更加分散,因此对于参考样本的选择较敏感;其次,三元组作为度量学习方法,其训练过程是在一个批样本上完成的,因而全局样本的度量信息没有得到充分利用;最后,三元组损失的训练过程较大程度上受限于样本采样策略,因为多数样本对于网络模型的训练并无贡献,从而导致网络训练效率较低,尤其是在训练的最后阶段. 为了弥补现有方法的不足,提出基于大边距度量学习的车辆再识别方法,可以对分类边界附近的样本进行重点学习,以实现较高准确率的车辆再识别.

2. 本研究方法

2.1. 算法整体框架

本研究方法基于OSNet,并在原有网络基础之上增加了网络头部结构全连接与批规范化层(full connection layer and batch normalization layer,FC+BN). 该网络头部结构包括一个全连接层和一个1维的批规范化层,其整体上作为一个度量学习的结构. 为了表示方便,将上述头部结构记为BN,完整的算法流程如图1所示.

图 1

图 1   大边距度量学习整体网络结构图

Fig.1   Overall network structure of large margin metric learning


网络训练所采用的样本基于入侵叛逃的采样策略,从而确保训练过程可以高效完成,其详细流程见3.3节. 在每个训练批次中,入侵叛逃采样策略会采样若干正样本和等量的负样本,输入到OSNet,每个车辆图像会被嵌入为一个512维的向量,这一部分就是图1中的特征学习过程.

度量学习的功能是由如图1所示的网络头部BN部分完成的,可以认为该部分的参数提供了度量学习的能力. 该网络头部结构对嵌入特征进行线性特征转换,假设 ${{{x}}_i}{\text{、}}{{{x}}_j}$为2个样本的嵌入特征,两者的距离度量经过该网络头部之后如下:

$\begin{split} d({{{x}}_i},{{{x}}_j}) =& {\left[ {{{({{W}}{{{x}}_i} - {{W}}{{{x}}_j})}^{\rm{T}}}({{W}}{{{x}}_i} - {{W}}{{{x}}_j})} \right]^{1/2}} =\\ & {\left[ {{{({{{x}}_i} - {{{x}}_j})}^{\rm{T}}}{{{W}}^{\rm{T}}}{{W}}({{{x}}_i} - {{{x}}_j})} \right]^{1/2}} = \\ & {\left[ {{{({{{x}}_i} - {{{x}}_j})}^{\rm{T}}}{{M}}\;({{{x}}_i} - {{{x}}_j})} \right]^{1/2}} . \end{split} $

式中: ${{W}}$为网络头部中不带偏置的全连接层的参数. 由式(3)可以看出,网络头部结构参数空间可以提供度量学习的能力.

为了方便后续大边距度量学习,图1中“特征存储库”内存结构存储了第1阶段训练过程中所有样本的特征向量,用于在大边界度量学习阶段计算不同类别样本的分类边界. 大边距损失(large margin loss,LML)函数,就是根据所存储的不同类别的样本特征,首先计算其分类边界,然后获得一个训练批次中的所有样本到达该边界的距离之和,并将该结果进一步表达为损失函数的形式,用以训练网络模型.

2.2. 大边界度量学习

在传统车辆再识别方法中,分类边界处的嵌入特征较难区分开,这是由于车辆存在多视角问题,导致不同身份的车辆混淆程度更高. 如图2所示,Veri-776数据集中编号为497和529的车辆,当其特征投影到二维空间时,两者并没有清晰的分类边界. 对于图2中存在的这种现象,本研究提出大边距度量学习方法,首先须找到不同样本的分类边界,然后定义混淆样本到分类边界的距离,并进一步借助反向传播最大化该距离,从而确保不同身份的车辆可以被分开得更远,以获得区分度更好的嵌入特征.

图 2

图 2   不同样本在二维特征空间中的分类边界

Fig.2   Decision boundary in two dimensional feature space between different samples


为了实现上述目标,首先须找到分类边界. 将不同身份的2种车辆视为二分类问题,使用传统支持向量机[16]找到该分类边界. 具体实现方法为,在一个批训练样本中,采集一定数量的正样本和负样本,借助于二次规划方法找出其分类边界. 二次规划表达式为

$\mathop {{\rm{min}}}\limits_{{{w}} \in {{\bf{R}}^n},\;{{b}} \in {\bf{R}}} = \frac{1}{2}||{{w}}|{|^2} - \sum\limits_{i = 1}^{{n}} {{\alpha _i}({y_i}(\langle {{w}},{{{x}}_i}\rangle + {{b}}) - 1)} .$

式中: ${\alpha _i}$为拉格朗日乘子,用来约束那些线性不可分的样本;w为分类平面的方向向量; ${{b}}$为分类界面的常数项; ${y_i}$为样本的标签,在一个训练批次中只有2种类别,即正样本和负样本. 得到2类样本的分类边界之后,可以计算得到一个批次中所有的正样本和负样本到该分类界面的距离之和,并最大化该距离实现网络模型的进一步优化. 因此,总的距离之和可以表达为

$ d = \sum\limits_{{{{x}}_i} \in {\rm{ batch}}} {\frac{{{y_i}(\langle {{w}},{{{x}}_i}\left. {\!} \right\rangle + {{b}})}}{{||{{w}}||}}} . $

为了计算SVM分类界面,正样本为某类样本,负样本为容易与本类混淆的其他类别样本. 算法过程如图3所示.

图 3

图 3   大边距度量学习示例

Fig.3   Large margin metric learning example


为了规范化上述距离函数并使之符合损失函数的形式,定义LML损失如下:

$L = {{\rm{exp}}\;\left( {{ - d/\sigma }} \right)}.$

式中: $\sigma $用于控制距离的分布,起到归一化的作用. 该损失函数关注分类界面附近的样本并使之更好地区分,结合传统的交叉熵损失函数,总的损失函数定义如下:

$\frac{{\partial L}}{{\partial {{{x}}_i}}} = \frac{{\partial L}}{{\partial {{W}}}}\frac{{\partial {{W}}}}{{\partial f( \cdot )}}.$

式中: $f( \cdot )$为卷积神经网络特征提取层的参数空间. 本研究方法的参数优化过程,只须计算样本特征对于该参数的梯度,与分类界面没有关系,因而其优化过程更加简单.

2.3. 入侵叛逃采样策略与基于核函数的重排序

普通的训练批次采样策略,须遍历所有的样本. 为了使得2.2节提出的大边距度量损失更有效率地训练网络模型,提出入侵叛逃采样策略,用以发现分类界面附近的难样本. 该方法的作用是,通过计算样本和各类别中心的距离,找出分界面附近这些样本,使网络模型重点在这些样本上训练.

图4所示,距离某类样本特征中心太近的异类样本为入侵者,而远离本类中心的同类样本为叛逃者. 根据全部样本到某类中心的距离升序排序,并假设该类别包含n个样本,那么如果前n个排序中出现非本类样本即判定存在入侵者,须被采样为负样本,而前n个之外的同类样本被采样为正样本,即叛逃者. 在第1阶段使用其他损失函数训练的基础上,通过该采样策略,可以让大边距度量学习进一步微调第1阶段训练好的网络模型,使之重点关注分类界面附近的样本,以进一步提高识别的准确率. 称该采样策略为入侵叛逃采样策略(invader-defector sampler,IDS).

图 4

图 4   入侵叛逃采样策略

Fig.4   Invader-defector sampling strategy


重排序方法[17]在车辆再识别领域是较好的后期处理技术. 但是,由于嵌入特征的分散性,重排序的准确率提升较有限. 因此,本研究提出基于核函数的重排序方法. 该方法将所有类别的中心特征定义为核,并使用核函数对车辆特征进行转换:

${{K}}({{{x}}_i},{{{c}}_j}) = {{\rm{exp}}\;\left[ {{ - \;\,||\;{{{x}}_i} - {{{c}}_j}\;||\;/\;\left( {2{\eta ^2}} \right)}} \right]}.$

式中: ${{{c}}_j}$为第j类特征中心向量, $\eta $为规范化系数. 为了计算某个样本到所有类别中心向量的距离,定义如下变换:

${{{\xi}} _i} = K({{{x}}_i},{{C}}).$

式中: ${{C}}$为所有类别的中心向量矩阵,其行数为数据集中类别的个数, ${{{c}}_j}$为其中第j行. 通过该变换,车辆特征最终表示为一个核函数转换之后的新特征 ${{{\xi}} _i}$,每一个维度表示到某一类类别中心向量的距离,然后再用来进行车辆的再识别. 该方法被命名为核化重排序(kernelized re-ranking,KER).

3. 实验与分析

3.1. 数据库与基本设置

在3个主流数据库上开展对比试验,包括VehicleID[6]、Veri-776 [1-2]以及百万级大型数据库VERI-Wild[18]. 将VehicleID中110178张图片用作训练集,其中包含13134个不同车辆;另外111585张图片用作测试集,其中包含13113个不同的车辆. 将VehicleID测试集按照数据库规模大小分为3类,分别为Small、Medium、Large测试子集. Veri-776数据集包含50000张图片,来自于20个不同摄像机所拍摄的776个不同的车辆,将其中576个车辆的37778张图片用作训练集,另外200个车辆的11579张图片作为被检索数据集,另外1664张图片作为检索图片. VERI-Wild数据集是最大的数据集,包含由174个摄像机拍摄的416314张图片,来自40671个不同的车辆. 将VERI-Wild测试集,按照规模大小也分为3类,分别为Small、Medium、Large测试子集. 对于VehicleID和VERI-Wild数据集,对每类随机采样一个样本,所有采样样本构成gallery数据集,剩余部分作为query数据集,并在算法评估过程中重复10次取平均值作为最终结果,所采取的策略来自文献[19].

在Veri-776数据集上,检索集和测试集样本来自于不同摄像机. 累积匹配特性(cumulative matching characteristic,CMC)被用来评价各个数据库上的检索性能,其中Rank1、Rank5和平均精度均值(mean average precision,mAP)被本研究采纳为实验对比的具体评价指标.

在训练阶段,所有图片被缩放为256×128,数据增强方法包括随机擦除和随机翻转. 优化方法采用Adam,并使用默认参数. 初始学习率为0.0015,并在第80轮处分别缩小10倍,该参数取值借鉴了基准模型[4],可以较快地训练基准网络. 在训练的第1阶段,采用三元组损失. 在训练的第2阶段,利用大边距度量损失替换三元组损失,并提前计算好各个样本的特征以及各个类别的中心向量,采用在线的方式在第2阶段更新上述特征. 在第2阶段的训练过程中,每一个批次采样32个正样本、32个负样本. 将该阶段学习率调整为0.00001,实验表明该设置可以让网络较快收敛,又能避免过拟合. 设置LML的权重设为0.5,式(5)中规范化因子δ=2,式(7)核函数中的规范化因子η=1.

本研究算法的实现基于Pytorch平台,其中分类界面的计算采用的是Sklearn中的SVM算法. 在一个批训练样本中,首先利用detach方法把样本从“梯度计算图”上分离,然后计算得到类别之间的分类界面. 从而,在反向传播过程中只须最大化训练样本到分类界面的距离,但是分类界面本身是不参与反向传播过程的. 这确保了算法的整体实现较为简单.

3.2. 消融分析

为了评价算法各个组成部分的作用,开展一系列消融分析以确定本研究算法中每个部分的贡献. 基准网络采用OSNet,并和Resnet50作为基准网络进行对比,如表1所示,这2个网络分别表示为OS和Res. 这里的基线方法采用Triplet损失函数以及对应的难样本挖掘采样方法.

表 1   在不同数据集上的消融分析

Tab.1  Ablation study on different datasets

数据库 方法 Rank1 Rank5 mAP
Veri-776 Res 94.35 97.30 72.10
OS 94.61 97.50 72.50
OS+BN 95.40 97.90 74.50
OS+BN+LML 95.60 97.95 75.10
OS+BN+LML+IDS 96.45 98.68 80.55
OS+BN+LML+IDS+KER 96.81 98.95 80.95
VehicleID Res 85.45 94.93 77.22
OS 85.62 95.05 77.41
OS+BN 85.92 95.12 78.45
OS+BN+LML 85.95 95.15 80.58
OS+BN+LML+IDS 88.25 97.45 86.88
OS+BN+LML+IDS+KER 88.35 98.22 88.78

新窗口打开| 下载CSV


网络头部BN、大边距度量损失LML、入侵叛逃采样策略IDS以及基于核函数的重排序方法KER被分别添加和评估. 为了更加客观地反应各个组件的功能,该消融分析分别在Veri-776和VehicleID 2个数据库上分别开展对比研究. 对比实验是在VehicleID数据库中Small子集上进行的. 在Veri-776和VehicleID数据集上的实验表明,OSNet上的mAP、Rank1和Rank5指标均比Resnet50的高约0.2%,因此后续的消融分析实验是在OSNet基准网络上展开的.

相对于基准模型,BN使识别准确率得到提升,这在2个数据库上均得到了验证,mAP分别增加了2.00%和1.04%. LML和IDS在算法上是一体的,相互配合可以有效提高整个算法的性能,比如在2个数据库上,在使用LML+IDS后,mAP指标分别提高了6.05%和8.43%. 仅引入LML对于整体性能提升较有限,因为原有Triplet损失函数对应的采样方法是困难样本挖掘方法,并不适合LML方法,而将采样方法替换为IDS采样方法后,准确率会得到较大提升,在2个数据集上分别提高了1.05%和2.33%. 说明LML和IDS是不可分割的2个组成部分,一个用于采样边界样本,一个用于将边界样本更好地分开. 基于核函数的重排序方法可以进一步提高模型的性能,这在2个数据库中都得到了验证.

为了更直观地展示本研究方法的效果,对于嵌入特征通过t-SNE[20]进行了三维可视化. 如图5所示,在使用所提方法之前,原有嵌入特征异类之间混淆程度较高,而通过本研究方法,分类界面比原先更加清晰. 图5中2类样本是在Veri-776数据库中随机选择的.

图 5

图 5   三维空间车辆嵌入特征可视化

Fig.5   Visualization of vehicle embedding features in three dimensional space


3.3. 与同类方法的对比

为了验证本研究方法的有效性,在3个数据库上开展相关实验,分别和该领域最近几年的方法进行广泛对比. 在Veri-776和VehicleID数据库上,对比方法包括VANet [8]、GSTE[6]、AAVER[9]、QD-DLF [11]和Part-Reg[10]. 这些方法采用Resnet50作为基础网络,因此本研究方法也采用相同的基础网络以保证比较的公平性. 在Veri-776上的比较结果如表2所示. 考虑到其他方法有些并未使用重排序方法,为了比较的公平性,本研究分别列出了重排序前后的结果. 加粗部分表示最好结果,加下划线部分表示次优结果.

表 2   Veri-776数据库上本研究方法与同类方法的准确率对比

Tab.2  Accuracy comparison of proposed method with other methods on Veri-776 dataset

方法 mAP Rank1 Rank5
QD-DLF[11] 61.83 88.50 94.40
Part-Reg[10] 74.30 94.30 98.70
AAVER[9] 61.20 88.97 94.70
GSTE[6] 59.40 96.24 98.97
VANet[8] 66.34 89.78 95.99
LML(IDS) 80.55 96.45 98.68
LML(IDS)+KER 80.95 96.81 98.95

新窗口打开| 下载CSV


表2可以看出,本研究方法只有在Rank5指标上略微低于GSTE,这是因为GSTE使用聚类方法对特征空间进行结构学习,其Rank5得到了较大提升. 本研究LML(IDS)方法的mAP比排名次优的Part-Reg高6.25%,表明大边距度量学习对于仅考虑部件特征的方法有更好的特征嵌入和检索性能. 在Rank1指标上,LML(IDS)比次优方法GSTE的96.24高出0.19%. 本研究方法相对于多分支网络,网络参数个数更少,其特征嵌入的质量更好,显示出大边距度量学习在嵌入特征的优化方面更具有优势.

VehicleID数据库样本数量规模更大,在该数据库上,分别对不同规模大小的3个测试子集进行对比实验,如表3所示.可以看出,本研究方法LML(IDS)+KER在3个测试子集上都一致性地表现出比同类方法更好的性能. 基于核函数的重排序LML(IDS)+KER比LML(IDS)在性能提升上有一定的提升. 为了比较的公平性,此处列出了LML(IDS)方法,而不使用LML(IDS)+KER进行比较. 在Large测试集上,本研究方法在Rank1指标上比VANet低0.02%,在mAP上比次优的GSTE高5.98%. 在Medium测试集上,本研究方法在Rank1上比次优方法VANet高0.25%,在mAP上比次优的Part-Reg高8.98%. 在Small数据集上,本研究方法同样领先次优方法VANet和Parg-Reg. 在这个相对规模更大的数据集上,考虑视角差异的多分支网络VANet和Parg-Reg,相对于Veri-776数据集性能表现更好. 本研究方法从优化特征空间的分类界面入手,使得同类样本的特征分布更加紧致,特征嵌入的质量得到提高,从而表现出了更好的再识别性能. 为了进一步验证本研究方法的有效性,在更大的数据集VERI-Wild上,分别对其3个不同规模大小的测试子集进行对比实验,如表4所示. 在该数据集上的对比方法包括DRDL[21]、FDA-Net[18]和MLSL[22]. 相比次优方法FDA-Net[18]和MLSL[22],本研究方法较大地提高了再识别的性能. 本研究方法LML(IDS)通过重点关注决策边界处的混淆样本,通过微调网络模型以优化特征的嵌入质量,从而表现出比同类方法更好的性能. 通过上述一系列实验,在这3个不同规模的数据集上,本研究方法表现出了比同类方法更好的特征学习和特征嵌入的能力,其车辆再识别的准确率也比同类方法更高.

表 3   VehileID数据集上本研究方法与同类方法的识别准确率对比

Tab.3  Accuracy comparison of proposed method with other methods on VehicleID dataset

方法 Small Medium Large
mAP Rank1 mAP Rank1 mAP Rank1
QD-DLF[11] 74.69 68.62 63.54
Part-Reg[10] 76.54 72.32 74.63 70.66 68.41 64.14
AAVER[9] 61.50 78.40 75.00 74.20
GSTE[6] 75.40 75.90 74.30 74.80 72.40 74.00
VANet[8] 88.12 83.17 80.35
LML(IDS) 86.60 88.25 83.55 83.42 78.38 80.33
LML(IDS)+
KER
88.75 88.31 84.45 83.85 80.68 80.75

新窗口打开| 下载CSV


表 4   VERI-Wild数据集上本研究方法与同类方法的识别准确率对比

Tab.4  Accuracy comparison of proposed method with other methods on VERI-Wild dataset

方法 Small Medium Large
mAP Rank1 mAP Rank1 mAP Rank1
DRDL[21] 22.50 57.00 19.30 51.90 14.80 44.60
FDA-Net[18] 35.10 64.00 29.80 57.80 68.41 49.40
MLSL[22] 46.30 78.40 42.40 83.00 22.80 77.50
LML(IDS) 86.47 95.94 82.85 94.61 76.63 90.75
LML(IDS)+
KER
87.45 96.28 83.35 95.15 77.35 91.85

新窗口打开| 下载CSV


3.4. 检索结果可视化

为了更加直观地显示检索效果,利用LMS(IDS)在OSNet网络上训练的模型,在Veri-776数据集上对检索结果进行可视化展示. 如图6所示,按照和被检索图片的距离关系分析检索结果. 可以看出,在检索结果中,样本呈现出了不同视角的变化,说明本研究方法可以适应不同视角的变化. 比如第1行的第8个样本具有和被检索车辆完全不重合的视角,仍然被正确地检索出来. 最后一行的被检索样本,具有复杂背景,但是所有检索结果都是正确的. 若不采用本研究的算法,这些样本均不能被正确检索到.

图 6

图 6   车辆检索结果的可视化

Fig.6   Visualization of retrieval results


尽管本研究方法取得了较好的检索结果,但仍然有些错误的匹配发生,如图7所示,底部加小三角的图片表示检索错误的结果. 第1行前3个均为错误匹配,这是由于卡车上的帆布被当作了背景,导致不能正确匹配. 第2行第7~10个图像检索错误,这是因为被检索图像不够清晰,不能够提供足够多的细节信息. 第3行的错误匹配是由于被检索图像在检测阶段定位不够精确导致部位缺失. 第4行第7个图像的检索错误是由于多个车辆叠加而导致不能精确匹配. 因此,为了进一步提高检索的准确度,后续的研究方向可以从提高检测阶段的精确车辆分割、生成高分辨率图像方向继续开展相关研究.

图 7

图 7   车辆检索错误匹配样例分析

Fig.7   Failure case analysis of vehicle retrieval


3.5. 算法运行效率分析

为了评估本研究算法的运行效率,对比所提出方法与同类方法的参数规模、训练轮数以及图片特征提取时间,如表5所示. 表中,p为参数数量,e为训练次数,v为计算速度 . 该对比在Veri-776数据集上进行. 本研究方法采取了4种配置,基础网络分别采用Resnet50和OSNet,分别采用三元组损失中难样本挖掘方法Hard和本研究的入侵叛逃方法IDS. 本研究方法LML(IDS)所需要的训练时间最短,为110轮,而其他方法如VANet则须训练200轮. 训练后的模型图片提取时间,基于OSNet的本研究方法可以达到1.12 ms/image(GPU 2080Ti),优于同类方法. 采用OSNet作为基础网络,在保持性能的同时,网络参数更少,使得本研究方法的整体性能达到最好.

表 5   本研究算法与同类算法运行效率的比较分析

Tab.5  Time efficiency comparison of proposed method with other methods

方法 mAP p /M e v /(ms·image−1)
QD-DLF[11] 61.83 24 11.19
Part-Reg[10] 74.30 48 130
AAVER[9] 61.20 48 120
GSTE[6] 59.40 24
VANet[8] 66.34 24 200
LML(Res,Hard) 80.35 24 150 1.67
LML(Res,IDS) 80.50 24 110 1.67
LML(OS,Hard) 80.46 2.7 150 1.12
LML(OS,IDS) 80.55 2.7 110 1.12

新窗口打开| 下载CSV


4. 结 语

所提出的大边距度量学习方法在现有方法的基础之上可以进一步提高车辆识别的准确率. 通过挖掘决策边界附件的难样本,大边距损失函数可以有效地为网络训练过程提供监督信息,使得嵌入空间中不同身份的车辆彼此之间能够形成较为明显的分类界面. 本研究方法仅需要车辆的身份作为监督信息,因而算法的鲁棒性和适应性更好. 在满足准确率的同时,本研究方法可以更好地适应车辆识别具体应用场景. 后续工作须进一步研究车辆图像的超分辨率增强、完善车辆检测阶段的精确语义分割内容.

本研究方法在3个公共数据集上进行了对比试验,下一步计划在地铁、交叉口公共空间采集数据,探索开放空间下行人再识别技术的相关问题.

参考文献

LIU X C, LIU W, MA H D, et al. Large-scale vehicle re-identification in urban surveillance videos [C]// IEEE International Conference on Multimedia and Expo. Seattle: IEEE, 2016: 1-6.

[本文引用: 3]

LIU X C. A deep learning-based approach to progressive vehicle re-identification for urban surveillance [C]// 2016 European Conference on Computer Vision. Netherlands: Springer, 2016: 869-884.

[本文引用: 3]

ZHANG Y, LIU D, ZHA Z J. Improving triplet-wise training of convolutional neural network for vehicle re-identification [C]// 2017 IEEE International Conference on Multimedia and Expo. Hongkong: IEEE, 2017: 1386-1391.

[本文引用: 1]

ZHOU K Y, YANG Y X, CAVALLARO A, et al. Omni-scale feature learning for person re-identification [C]// 2019 International Conference of Computer Vision. Seoul: IEEE, 2019: 3701-3711.

[本文引用: 2]

HE K M, ZHANG X Y. Deep residual learning for image recognition [C]// 2016 IEEE Conference on Computer Vision and Pattern Recognition. Nevada: IEEE, 2016: 770-778.

[本文引用: 1]

BAI Y, LOU Y H, GAO F, et al

Group-sensitive triplet embedding for vehicle re-identification

[J]. IEEE Transactions on Multimedia, 2018, 2385- 2399

URL     [本文引用: 7]

SIMONYAN K, ZISSERME N. Very deep convolutional networks for largescale image recognition [C]// 2015 International Conference on Learning Representations. San Diego: IEEE, 2015: 1-14.

[本文引用: 1]

CHU R H, SUN Y F. Vehicle re-identification with viewpoint-aware metric learning [C]// 2019 International Conference of Computer Vision. Seoul: IEEE, 2019: 8281-8290.

[本文引用: 5]

PIRAZ K. A dual-path model with adaptive attention for vehicle re-identification [C]// 2019 International Conference of Computer Vision. Seoul: IEEE, 2019: 6131-6140.

[本文引用: 5]

HE B. Part-regularized near-duplicate vehicle re-identification [C]// 2019 International Conference of Computer Vision and Pattern Recognition. Long Beach: IEEE, 2019: 3992-4000.

[本文引用: 5]

ZHU J Q

Vehicle re-identification using quadruple directional deep learning features

[J]. IEEE Transactions on Intelligent Transportation System, 2019, 21 (1): 410- 420

URL     [本文引用: 5]

GUO H, ZHAO C. Learning coarse-to-fine structured feature embedding for vehicle re-identification [C]// 2018 the 32nd AAAI Conference on Artificial Intelligence. New Orleans: AAAI, 2018: 6853-6860.

[本文引用: 1]

ZHENG Z, ZHENG L, YANG Y

A discriminatively learned cnn embedding for personre-identification

[J]. ACM Transactions on Multime-dia Computing, Communications, and Applications, 2017, 14 (1): 1- 20

LIU X, LIU W

Provid: progressive and multimodal vehicle reidentification for large-scale urban surveillance

[J]. IEEE Transactions on Multimedia, 2018, 20 (3): 645- 658

DOI:10.1109/TMM.2017.2751966      [本文引用: 1]

YU R, DOU Z, BAI S

Hard-aware point-to-set deep metric for person re-identification

[J]. Lecture Notes in Computer Science, 2018, 196- 212

URL     [本文引用: 2]

CORTES C, VAPNIK V

Support-vector networks

[J]. Machine Learning, 1995, 20 (3): 273- 297

[本文引用: 1]

ZHONG Z, ZHENG L. Re-ranking person re-identification with k-reciprocal encoding [C]// 2017 International Conference of Computer Vision and Pattern Recognition. Honolulu: IEEE, 2019: 3652-3661.

[本文引用: 1]

LOU Y, BAI Y. Veri-wild: a large dataset and anew method for vehicle re-identification in the wild [C]// 2019 IEEE Conference on Computer Vision and Pattern Recognition. Honolulu: IEEE, 2019: 3230-3238.

[本文引用: 4]

LIU H, TIAN Y. Deep relative distance learning: tell the difference between similar vehicles [C]// 2016 IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas: IEEE, 2019: 2167–2175.

[本文引用: 1]

MAATEN L, HINTON G

Visualizing data using t-SNE

[J]. Journal of Machine Learning Review, 2008, 9: 2579- 2605

URL     [本文引用: 1]

LIU Y, TIAN Y. Deep relative distance learning: tell the difference between similar vehicles [C]// 2016 IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas: IEEE, 2019: 2167-2175.

[本文引用: 2]

ALFASLY S, HU Y, LI H, et al

Multi-label-based similarity learning for vehicle re-identification

[J]. IEEE Access, 2019, 7: 162605- 162616

DOI:10.1109/ACCESS.2019.2948965      [本文引用: 3]

/