浙江大学学报(工学版), 2022, 56(7): 1416-1424 doi: 10.3785/j.issn.1008-973X.2022.07.017

土木工程、水利工程、交通工程

基于能量模型的行人与车辆再识别方法

张师林,, 郭红南, 刘轩

北方工业大学 城市道路交通智能控制技术北京市重点实验室,北京 100144

Person and vehicle re-identification based on energy model

ZHANG Shi-lin,, GUO Hong-nan, LIU Xuan

Beijing Key Laboratory of Traffic Intelligent Control, North China University of Technology, Beijing 100144, China

收稿日期: 2021-07-6  

基金资助: 国家自然科学基金资助项目(61403002);北方工业大学优秀青年人才资助项目

Received: 2021-07-6  

Fund supported: 国家自然科学基金资助项目(61403002);北方工业大学优秀青年人才资助项目

作者简介 About authors

张师林(1980—),男,副教授,从事人工智能的研究.orcid.org/0000-0003-3034-1538.E-mail:zhangshilin@126.com , E-mail:zhangshilin@126.com

摘要

为了解决行人再识别以及车辆再识别算法中网络训练过程对计算资源的消耗过大且准确率较低的问题,提出基于能量模型的目标分类和度量学习方法. 利用样本特征空间中同类样本的低能量分布特性, 设计对比能量损失函数,形式上表达为训练样本在真实目标类别上的损失函数响应和非目标类别上的响应之差,可以更准确地增大目标响应,抑制非目标响应, 提高了分类准确率,使得同类样本特征更聚集、异类样本特征更远离. 在多个行人再识别和车辆再识别数据集上的测试结果显示, 相对于Soft-max和Triplet混合损失函数, 利用能量模型可以提升网络训练效率,提高目标再识别准确率.

关键词: 车辆再识别 ; 能量模型 ; 行人再识别 ; 损失函数 ; 三元组损失

Abstract

An energy-based object detection and metric learning method was proposed in order to solve the intensive computational cost and low accuracy issues in the training process of person re-identification and vehicle re-identification (re-ID) algorithms. A contrastive energy-based loss was designed based on the low energy characteristic of the same samples in the feature space, which took the form of the difference between samples’ true target response and non-target response of the training loss. The target response can be increased more accurately, and the non-target response can be suppressed. The classification accuracy can be improved, and the features within the same categories can stay more compact while different identities keep a distance away. Experiments on several person re-ID and vehicle re-ID databases showed that the efficiency of the training process was improved and the object re-ID accuracy was enhanced compared to the fused loss of Soft-max and Triplet.

Keywords: vehicle re-identification ; energy model ; person re-identification ; loss function ; Triplet loss

PDF (1265KB) 元数据 多维度评价 相关文章 导出 EndNote| Ris| Bibtex  收藏本文

本文引用格式

张师林, 郭红南, 刘轩. 基于能量模型的行人与车辆再识别方法. 浙江大学学报(工学版)[J], 2022, 56(7): 1416-1424 doi:10.3785/j.issn.1008-973X.2022.07.017

ZHANG Shi-lin, GUO Hong-nan, LIU Xuan. Person and vehicle re-identification based on energy model. Journal of Zhejiang University(Engineering Science)[J], 2022, 56(7): 1416-1424 doi:10.3785/j.issn.1008-973X.2022.07.017

目标再识别包括行人再识别和车辆再识别,利用布设在城市道路上不同路口的监控摄像机, 实现跨区域的行人、车辆身份识别. 该技术对于道路交通和智慧城市建设都具有重要的研究和应用价值.

近些年来,随着深度学习的发展, 复杂的卷积神经网络及注意力模型极大地促进了该领域的发展. 对于网络训练的损失函数, Soft-max[1]是该领域不可替代的方案. Soft-max形式简单, 可以较好地区分不同类别, 但是不能保证每个类别特征的高内聚性. 超球体嵌入方法[2]具有良好的空间可解释性, 将样本特征投射到超球面上,较好地区分不同类别. 为了实现同类样本的内聚性, 角度边距[3]方法使得同类样本之间的夹角更小, 异类之间的夹角大于一定的阈值. 上述方法均取得了较好的目标再识别效果, 但是特征区分度较低,限制了目标再识别的精度进一步提升. 为了实现区分度更好的目标再识别, 三元组损失函数往往和Soft-max集成到一起,以训练神经网络. 多种损失函数一起训练神经网络的方法是目前该领域较多采用的策略. 多种损失函数融合带来新的挑战, 一方面,样本采样过程较复杂,训练效率较低;另一方面,多种损失函数在训练过程中存在不一致的情况,即一种损失函数增大而另一种损失函数减小,如何给它们赋以恰当的权重是较难解决的问题.

本文提出可以提高训练效率、识别精度优于Soft-max和Triplet混合损失的方法. 能量模型[4-8]是生成模型, 可以很好地对样本特征的概率空间密度进行表达. 在异常点检测、目标分类校准及神经网络模型样本对抗攻击等方面, 能量模型表现出了较优异的性能. 能量模型是对样本特征空间更本质的表述[6], 是对样本特征空间概率密度的直接表示. 通过计算样本的目标响应和非目标响应之间的能量差异, 能量模型定义基于对比能量的损失函数. 该损失函数在训练过程中不需要通过固定采样类别N和每类样本数K生成训练集样本对, 只需要随机采样, 可以成倍地提高训练效率. 本文方法可以使得相同类别样本在特征空间中更加聚集而不同类别的样本在特征空间中距离更远, 以提高目标再识别的精度.

本文的创新点如下. 1) 设计适用于目标分类和目标再识别任务的对比能量损失函数, 从能量的角度实现神经网络的训练, 准确率提高了1%以上, 训练效率得到了提升. 2) 将Soft-max和Triplet混合损失函数表达为对比能量损失函数的形式, 实现分类和度量学习的功能. 3)在多个行人再识别和车辆再识别数据集上均取得了最优的结果, 训练过程比同类方法更加高效.

1. 能量模型

在深度学习模型流行之前, 能量模型作为一种生成模型被深入研究[4]. 能量模型将特征空间中概率分布较高的区域定义为低能量区域,低概率区域为高能量区域. 由于能量模型在计算过程中须确定特征空间中的能量,即概率密度, 而该数值的计算一般须借助蒙特卡洛采样完成, 所以复杂的计算限制了蒙特卡洛方法在机器学习领域的进一步发展和应用. Taesup等[5-6]提出辅助深度模型及摊派渐进采样策略,更好地计算能量模型中的概率密度. 由于能量模型直接对应特征空间中的概率分布密度及逐渐完善的样本采样策略, 能量模型近些年来得到越来越多的关注. Rithesh等[7]将能量模型的定义进一步具体化, 把高维特征空间中的一个点表达为一个标量值, 称为能量. 能量模型和概率密度函数相对应, 一个点的能量和该点的概率密度函数值负相关, 能量越低,密度越高.该概率密度函数为吉布斯分布:

$ p(x) = \frac{{{\exp\;\left({ - E(x;f)/T}\right)}}}{{\int_x {{\exp\;\left({ - E(x;f)/T}\right){\rm{d}}x}} }} . $

式中:f为神经网络特征提取器, x为样本, E为能量函数, T为取正值的温度参数. 式(1)中的分母部分称为配分函数, 可以起到规范化的作用, 使得概率密度为0~1.0. 能量函数的定义为

$ {\text{ }}E{\text{(}}x{\text{)}} = - T {\text{ }}\ln\int_y {{{\text{exp}}\;({ - E{\text{(}}x,y{\text{)}}/T}){\rm{d}}y}} . $

式中:y 为样本x所对应的真实类别标签. 式(2)中省略了f. 上述能量函数称为亥姆霍兹能量函数[8]. x对于目标类别响应的能量为

$ E{\text{(}}x,y{\text{)}} = - {f_y}{\text{(}}x{\text{)}} , $

即卷积神经网络的特征输出在y这个类别上的响应值. 直接计算式(1)中的概率密度函数, 因为分母上的配分函数难以计算, 导致该密度的数值很难获得. Soft-max函数和能量函数存在一定的内在联系:

$ p{\text{(}}y|x{\text{)}} = \frac{{{{\rm{e}}^{{f_t}{\text{(}}x{\text{)}}}}}}{{\displaystyle\sum\nolimits_{i=1}^K {{{\rm{e}}^{{f_i}{\text{(}}x{\text{)}}}}} }} = \frac{{{{\rm{e}}^{-{ \text{ }}E(x,t)}}}}{{\displaystyle\sum\nolimits_{i=1}^K {{{\rm{e}}^{^{-{\text{ }}E(x,i)}}}} }} . $

式中:t为样本x的真实标签,K 为总的样本类别个数, i为类别累加变量. 从Soft-max函数可以直接获得样本在所有类别上的能量. 本文模型直接利用现有网络结构的最后一层, 即分类层, 计算样本分布能量.

2. 对比能量损失函数

对比能量损失函数具备Soft-max损失函数的分类功能和Triplet损失函数的度量学习功能. 从对比能量损失函数的数学表达和模型整体网络结构2个部分, 阐述对比能量损失函数及其具体实现.

2.1. 对比能量损失函数

计算神经网络损失函数对于训练样本在真实目标类别(ground truth target label)上的响应值和非目标类别上的响应值,根据两者之差定义提出的对比能量的损失函数. 其中目标类别响应值可以计算如下:

$ p{\text{(}}t|x{\text{)}} = \frac{{{\exp\;({ - E{\text{(}}x,t{\text{)}}/T})}}}{{{\exp\;({ - E{\text{(}}x{\text{)}}/T})}}} . $

式中:t为样本x的实际目标类别. 非目标类别响应值为

$ p{\text{(}}n|x{\text{)}} = \frac{{{\exp\;({ - E{\text{(}}x,n{\text{)}}/T})}}}{{{\exp\;({ - E{\text{(}}x{\text{)}}/T})}}} . $

式中:n为非目标类别. 由于分母部分难以计算,式(5)、(6)中的2个响应值无法直接得到. 根据式(5)、(6)可知, 若p(t|x)大于p(n|x), 则E(x,t)必须小于E(x,n). 对比能量损失函数进一步表达为

$ {L_{\text{E}}} = \max \left\{E{\text{(}}x,t{\text{)}} - E{\text{(}}x,n{\text{)}},\;0\right\} . $

目标类别响应值和非目标类别响应值定义为

$ \left.\begin{gathered} E{\text{(}}x,t{\text{)}} = - {f_t}{\text{(}}x{\text{)}}, \\ E{\text{(}}x,n{\text{)}} = - T \ln \sum\limits_{i=1,i \ne t}^K {{\exp\;({{f_i}{\text{(}}x{\text{)}}/T})}}. \\ \end{gathered} \right\}$

式中:K为行人身份类别数目.

定义对比能量损失函数的目的如下:通过数值优化方法使得样本在真实目标类别上的神经网络响应值最大,抑制样本在非目标类别上的响应值. 通过最大化 E(x,t)−E(x,n)之间的相对差异, 在样本的特征空间中, 同一类样本的特征距离更近, 异类样本的特征距离更远. 若E(x,t)−E(x,n)较小, 则说明两者的概率分布密度相近, 即该样本所对应的真实目标类别易于和非目标类别混淆.

为了便于后续对比能量损失函数的表达,定义对数累加指数 (log sum exponent,LSE) 函数如下:

$ \text{LSE}({x}_{1},{x}_{2},\cdots ,{x}_{n})=\mathrm{ln}{\displaystyle \sum _{i=1}^n\mathrm{exp}\;{x}_{i}} . $

该函数具有严格的上下界,

$ \max {\text{(}}{x_i}{\text{)}} < {\text{LSE(}}{x_{\text{1}}}{\text{,}}{x_{\text{2}}}{\text{, }} \cdots ,{x_{{n}}}{\text{)}} \leqslant \max {x_i}+\ln \;n{} . $

式(7)中所定义的对比能量损失函数, 包括样本在真实目标类别上的响应值和非目标类别上的响应值,可以更方便地强化目标类别响应并抑制非目标响应. 对比能量损失函数和传统Soft-max的交叉熵损失函数具有一定的内在联系.

式(8)中的T可以精确地控制非目标类别的最大响应值.

$ E{\text{(}}x,n{\text{)}} = - T\ln \sum\limits_{i=1,i \ne t}^K {{\exp\;({{f_i}{\text{(}}x{\text{)}}/{{T}}})}} \leqslant - \max\; {f_i}{\text{(}}x{\text{)}} + T\ln K . $

式(11)利用LSE函数的性质给出非目标响应值的最大上界. 非目标响应值的最大下界如下所示:

$ E{\text{(}}x,n{\text{)}} > - \max\; {}{f_i}{\text{(}}x{\text{)}}. $

综合式(11)、(12)可知, 当T趋于0时, 样本在非目标类别上的响应值是 $- \max \;{}{f_i}{\text{(}}x{\text{)}}$. T可以设置为非常小的数值, 比如10−6,对比损失衡量函数取得下界值.

式(7)定义的对比能量损失函数相对于Soft-max损失函数, 可以分成2部分并分别进行控制, 从而可以更加灵活地调节神经网络的训练过程. 对于行人和车辆再识别任务, 不同身份的样本之间须在特征空间中相隔一定的距离, 而本文的对比能量损失函数通过引入2个调节变量αβ, 使得同类样本在特征空间中更加聚集,异类样本相距更远.

$ {L_{\rm{E}}} = \max \left\{ - \alpha {f_t}{\text{(}}x{\text{)}}+T\ln \sum\limits_{i=1,i \ne t}^K {{\exp\;\left[{ - \beta {f_i}{\text{(}}x{\text{)/}}T}\right]}} ,0\right\} . $

式(13)中, 变量α可以控制样本在真实目标类别上的响应值, 起到增强目标类别响应值的作用. 当α取值变小时, 损失函数值变大, 可以更有效率地训练神经网络. β可以控制反传梯度在所有非目标类别上的分配, 较小的数值可以使得梯度更均匀地分配到各个非目标类别上,从而使得不同类别样本之间的距离更远. 这2个变量αβ可以精确地控制样本嵌入特征的概率密度分布, 这是Soft-max函数所不具备的. 对比能量损失函数对于2种响应值的导数如下:

$ \left.\begin{gathered} \frac{{\partial {L_{\rm{E}}}}}{{\partial {f_t}}} = - \frac{{{\exp\;({ - {f_t}{\text{(}}x{\text{)}}+E{\text{(}}x,n{\text{)}}})}}}{{1+{\exp\;({ - {f_t}{\text{(}}x{\text{)}}+E{\text{(}}x,n{\text{)}}})}}}, \\ \frac{{\partial {L_{\rm{E}}}}}{{\partial {f_{i,i \ne t}}}} = \frac{{\partial {L_{\rm{E}}}}}{{\partial {f_t}}}\frac{{{\exp\;({{f_i}{\text{(}}x{\text{)/}}T})}}}{{\displaystyle\sum\nolimits_{i=1,i \ne t}^k {{\exp\;({{f_i}{\text{(}}x{\text{)/}}T})}} }}. \\ \end{gathered} \right\} $

通过调节αβ的取值, 同类样本在特征空间中的距离更近, 异类样本间的距离更远. 能量模型既可以起到Soft-max损失函数的分类作用, 又可以起到Triplet损失函数的度量学习作用. 实验3.3节对训练样本的特征进行可视化, 进一步表明能量模型具有度量学习的作用. 对比能量损失函数中的αβ提供了网络训练的灵活设置, 分别控制回传梯度和回传梯度在非目标类别上的分布. 若不考虑αβ的调节作用, 则能量模型两部分可以合并, 当T = 1时,式(13)为Soft-max 交叉熵损失函数.

2.2. 能量模型的网络结构

能量模型的网络结构采用OSNet[9]. 该网络仅有2.7×106个参数, 是行人再识别领域的轻量级网络. 整体的网络结构如图1所示.

图 1

图 1   基于对比能量模型的网络训练过程整体框架

Fig.1   Overall structure of contrastive energy-based method in network training process


利用传统卷积神经网络的最后一层, 即分类层, 定义能量函数. 该层的输出是K个类别的网络输出响应值. 传统Soft-max函数利用该K个响应值得到K个归一化的概率,输出最大值作为预测结果. 利用现有的网络结构,前边各层均保持不变. 为了便于公平比较,各方法的前端网络均相同.

3. 实验与分析

3.1. 数据库与基本设置

在3个行人再识别数据集(Market1501[10]、 DukeMTMC-reID[11]及MSMT[12]数据集)上,开展一系列实验. Market1501数据集包括32 688 图片, 由6个不同摄像机拍摄, 包括1 501个不同的行人. 其中查询数据集包含3 368张图片, 检索数据集包含15 913张图片. DukeMTMC-reID数据集包含16522 个训练图片, 其中2 228张查询图像及17 661 张检索库图像. MSMT包含32 621 个图像, 其中有11 659 个查询样本及 82 161 个检索库样本.

车辆再识别数据集Veri-776[13]中有50 000个样本图片, 来自于20个不同摄像机所拍摄的776个不同的车辆. 其中576个车辆的37 778张图片作为训练集, 另外200个车辆的11 579张图片作为被检索数据集, 测试集中有1 664张图片. 车辆再识别数据集VehicleID中有110 178张图片用以网络训练, 其中包含13 134个不同车辆;111 585张图片被用作测试集, 包含13 113个不同的车辆. VehicleID中的测试集按照规模大小分为3类, 分别是Small、Medium、Large测试子集. 累计匹配特性 (cumulative matching characteristic,CMC)[14] 用来评价不同算法在各个数据库上的检索性能. 累计匹配特性包括Rank1、Rank5和平均准确率 (mean average precision,mAP), 是本文实验对比的性能评价指标. 在训练阶段,所有的图片被统一缩放为256×128像素, 数据增强方法包括随机擦除和随机翻转. 神经网络输出均为512维向量. 优化方法采用Adam,使用默认参数. 初始学习率为0.001 5,在第80和150轮训练时学习率分别缩小10倍, 一共训练200轮. 在训练的第2阶段, 学习率设置为0.001 5,训练50轮. 本文算法的实现基于Pytorch平台.

3.2. 消融分析

对比能量的损失函数包括若干参数, 分别为温度项T、梯度控制项α及梯度分配项β. 为了分析每个参数的具体作用及对行人再识别性能的影响, 在Market1501数据集上开展一系列消融分析实验, 结果如表1所示. T只能取很小的数值. α在实际网络训练中只能取1或者稍小一点的数值, 具有明确的物理含义. β可以根据数据集的复杂程度,赋予一个小于1的数值. 这3个变量可取的数值范围有限, 为网络模型的训练提供了灵活的控制策略. 为了分析这3个变量的控制作用, 如表1所示,开展实验对比分析.

表 1   对比能量损失中各参数在Market1501数据集上对行人再识别性能的影响

Tab.1  Parameter influences on performance of person re-ID on Market1501 in relative energy loss

T α β Rank1/% mAP/%
1 1 1 94.2 84.0
10−3 1 1 94.4 84.5
10−6 1 1 94.5 85.1
10−6 0.5 0.5 94.8 86.1
10−6 0.5 0.3 94.8 86.7
10−6 0.3 0.5 95.1 87.8
10−6 0.3 0.3 95.2 88.1
10−6 0.1 0.3 95.0 87.6
10−6 0.1 0.1 94.8 86.5

新窗口打开| 下载CSV


表1所示, 当T从1变化到10−6的过程中, Rank1和mAP指标均持续地得到了提升. 当T趋于0时, 非目标响应能量逼近负的最大非目标响应值. 温度项的引入使得训练过程更好地抑制最大的非目标响应值, 否则两者之间存在偏差. 该偏差在本实验中为log2 751, 751为Market1501中的类别个数. 这说明相对于传统Soft-max损失函数, 基于对比能量的损失函数能够最大化目标类别的网络输出响应值, 更精确地抑制最大的非目标类别的网络输出响应值. 从表1可知,当T取极小值,即最优值时, 识别效果最好. 在能量模型训练结束后, 若不借助控制变量, 则目标响应和非目标响应之间的对比能量较小,反向传播过程中的梯度逐渐趋于0. 对比能量可以看作训练过程中网络拟合程度的指标量. 对比能量越小,说明训练集在网络模型上的拟合程度越高. α具有明确的物理含义,可以根据损失函数的变化情况适当减小. β控制梯度的分配, 当β取1.0时, 最大的非目标类别响应获得最多的反向传播梯度, 较小的β可以确保其他非目标类别得到足够的梯度,因此特征分布更加均衡, 避免样本特征位于目标类别和非目标类别之间的边界上. 当β从0.5变化到0.3时, Rank1和mAP分别增大了0.3%和1.3%. 为了说明控制变量对特征嵌入的效果,对能量模型的嵌入特征进行可视化,如图2所示. αβ的取值为0~1.0,当β从1.0变化到0.3时,目标识别准确率得到提高;当β < 0.3时, 识别性能下降.

图 2

图 2   随机采样的车辆样本的特征分布

Fig.2   Feature distribution of randomly selected vehicles


采集10类样本进行可视化, 如图2所示为能量模型对类内样本的收缩作用. 如图2所示为5类样本的球面可视化效果图. 图中,不同样本表示为不同深浅的颜色,坐标尺度为单位特征空间距离. 如图2(a)所示为Soft-max所训练的网络模型的特征嵌入, 如图2(b)所示为提出的能量模型的特征嵌入, 如图2(c)所示为Soft-max和Triplet混合损失所实现的特征嵌入, 如图2(d)所示为本文带控制变量的能量模型的特征嵌入.

本文方法使得不同类别样本之间的分类边界更加清晰, 类内样本更加聚集. 能量模型通过调整具有可解释性的αβ, 可以灵活控制样本特征的分布聚集特性, 实现了目标识别的准确性和鲁棒性.

3.3. 不同损失函数和不同基础网络的对比

为了验证本文方法在不同网络结构上的通用性, 网络分别替换为ResNet50[15]、ResNet50-NL(增加了Non-Local[16]模块),测试目标再识别的性能差异. 对于每种基础网络, 将其他损失函数和本文方法进行比较, 验证本文方法相对于其他损失函数的优势. 将本文方法与Soft-max、AM-Soft-max[3]、 Arc-Soft-max[2]、Soft-max+Center[17]及Soft-max+Triplet[18]方法进行Rank1和mAP性能比较. 实验采用的数据集为Market1501.

表2中, 在Rank1和mAP指标上, 本文方法均超过了Soft-max系列方法. 与Soft-max和Triplet 的混合损失函数相比, 本文方法的准确率和训练效率更高. 在mAP指标上, 本文方法优于Soft-max和Triplet的混合损失. 混合损失函数在训练时的效率低于单个损失函数. Center Loss表现较差, 因为人脸识别任务中存在明显的特征脸,行人识别和车辆识别由于图片多角度的原因不存在明显的特征人和特征车,例如车辆的前身和后身图像甚至没有任何像素上的交集. 在网络结构的对比上, 随着网络参数的增多, 目标再识别的整体性能获得提升. 本文在ResNet50的基础上增加了Non-Local[16]的自注意力机制模块, 进一步测试本文方法在该网络模型上的性能. 鉴于OSNet仅有2.7×106个参数, 相对于2.4×107个参数的ResNet50和2.5×107个参数的ResNet50-NL, 综合表现更好. 实验说明, 能量模型的性能与采用的神经网络结构无关. 本文对OSNet卷积神经网络结构的最后一层进行可视化. 如图3所示, 第1列为Market1501中的原始图像, 第2列和第3列为能量损失所产生的特征热力图和原始图像与热力图叠加后的图像, 第4列和第5列为三元组与Soft-max混合损失所产生的特征热力图及原始图像与热力图叠加后的图像. 能量模型实现了区分度较高的特征激活, 比如书包的背带、鞋子、头肩部特征等.三元组与Soft-max混合损失的激活区域缺乏目标识别的针对性, 当数据集中的行人身份增加时, 特征区分度会下降.

表 2   不同损失函数在不同基础网络上的性能比较

Tab.2  Performance comparison of different loss functions over different networks

%
网络 损失函数 Rank1 mAP
OSNet Soft-max 93.2 83.5
OSNet AM-Soft-max 94.1 84.5
OSNet Arc-Soft-max 94.3 84.9
OSNet Soft-max+Center 94.8 85.1
OSNet Soft-max+Triplet 95.3 87.5
OSNet Energy-Loss 95.7 88.1
ResNet50 Soft-max 93.6 83.8
ResNet50 AM-Soft-max 94.4 84.7
ResNet50 Arc-Soft-max 94.7 85.2
ResNet50 Soft-max+Center 94.9 86.2
ResNet50 Soft-max+Triplet 95.4 88.1
ResNet50 Energy-Loss 95.9 88.5
ResNet50-NL Soft-max 94.3 84.2
ResNet50-NL AM-Soft-max 94.5 85.3
ResNet50-NL Arc-Soft-max 95.1 85.9
ResNet50-NL Soft-max+Center 95.2 86.8
ResNet50-NL Soft-max+Triplet 95.6 88.2
ResNet50-NL Energy-Loss 96.1 88.7

新窗口打开| 下载CSV


图 3

图 3   网络模型在对比能量损失和混合损失条件下所生成的图像特征图

Fig.3   Feature maps produced by energy loss and fused loss based network


3.4. 行人再识别数据集方法的对比

表3所示,在3个行人再识别数据集Market1501、 DukeMTMC-ReID和MSMT上, 比较能量模型和目前其他主流方法的识别性能. 性能指标采用Rank1和mAP. Camstyle[19]和PN-GAN[20]属于数据增强类方法, 本文仅采用随机反转和随机擦除的基本数据增强方法;其他方法均对网络结构进行改进,如增加了多分支网络、注意力机制, 本文仅采用基础ResNet50. 重排序[31]可以大幅度提高性能,同类方法中大多未使用该方法, 因此本文为了公平比较,不列出重排序后的结果. 更高的图像分辨率可以提高性能, 为了排除该影响, 限定所采用的图像分辨率为256×128像素. 在Market1501数据集上, MGN[21]方法取得了Rank1的第一名, 达到95.7%, 但在mAP指标上,本文方法超过了MGN. 在DukeMTMC-ReID数据集上, Pyramid[22]综合表现最好, 但和本文方法相比差别不大. 能量模型凭借简单的网络结构在性能表现上优势明显. 表4中,最佳方法用黑体表示, 次优方法加下划线表示. 在大规模数据集MSMT上, 将能量模型与其他方法进行对比. 在Camstyle[19]训练过程中,需要对每个相机生成新样本, 因而综合性能较低, 在Market1501上mAP低于本文方法8.3%. 本文方法与PCB[24]方法相比, Rank1和mAP均表现出较大的优势, 在3个数据集上, Rank指标分别高出2.1%、 9.0%和17.3%. 与最新的无卷积网络模型TransReID[30] 相比,本文方法的模型参数远远少于TransReID, 在mAP指标上表现出优势,仅在MSMT数据集的Rank1指标上低于TransReID 0.68%.

表 3   在3个行人再识别数据集上与同类方法的Rank1 和mAP指标对比

Tab.3  Rank1 and mAP performance comparison with state of art methods on three person re-ID datasets

%
方法 Market1501 DukeMTMC-ReID MSMT
Rank1 mAP Rank1 mAP Rank1 mAP
Camstyle[19] 88.1 68.7 75.3 53.5
PN-GAN[20] 89.4 72.6 73.6 53.2
MGN[21] 95.7 86.9 88.7 78.4
Pyramid[22] 95.7 88.2 89.0 79.0
ABD-Net[23] 95.6 88.3 88.3 78.6
PCB[24] 93.8 81.6 83.3 69.2 68.2 40.4
SPReID[25] 92.5 81.3 84.4 71.0
MaskReID[26] 90.0 75.3 78.8 61.9
SCPNet[27] 91.2 75.2 80.3 62.6
HA-CNN[28] 91.2 75.7 80.5 63.8
SVDNet[29] 82.3 62.1 76.7 56.8
TransReID[30] 95.2 89.5 91.1 82.1 86.20 69.4
Energy-Loss 95.9 89.9 92.3 83.5 85.52 70.9

新窗口打开| 下载CSV


表 4   在VehicleID 数据集上与最好方法的Rank1 和mAP指标对比

Tab.4  Rank1 and mAP performance comparison with state of art methods on VehicleID

%
方法 VehicleID Small VehicleID Medium VehicleID Large
Rank1 mAP Rank1 mAP Rank1 mAP
CLVR[32] 62.00 56.10 50.60
VANet[33] 88.12 83.17 80.45
RAM[34] 75.20 72.30 67.70
ABLN[35] 52.63
VAMI[36] 63.12 52.87 47.34
NuFACT[37] 48.90 43.64 38.63
AAVER[38] 74.69 68.62 63.54
QD-DLF[39] 72.32 76.54 70.66 74.63 64.14 68.41
Part-Reg[40] 78.40 61.50 75.00 74.20
GSTE[41] 75.90 75.40 74.80 74.30 74.00 72.40
Energy-Loss 89.75 85.82 84.58 81.35 81.15 77.68

新窗口打开| 下载CSV


为了说明本文方法的识别效果, 在Market1501数据集上,列出行人再识别的检索匹配结果,如图4所示. 第1列为待检索的行人图像, 后面10列为其他摄像头所拍摄的行人图像. 浅色框内表示检索出的行人与待检索图像属于同一身份, 深色框表示不同身份的图像. 从图4可以看出,本文方法在大多数情况下均能够正确地识别行人身份. 当其他摄像头所拍摄的图像存在行人检测定位不准、检测不完整、检测图像模糊等情况时, 本文方法出现了识别错误的情形. 为了解决该类问题, 需要提高行人定位的准确率及拍摄清晰度.

图 4

图 4   能量模型下行人再识别结果的可视化

Fig.4   Visualization of person re-identification under energy model


3.5. 车辆再识别数据集方法的对比

在车辆再识别VehicleID上, 将能量模型与同类方法进行对比,说明能量模型的通用性. 车辆再识别和行人再识别属于同一类问题, 但是车辆再识别的难度更大. 这是因为车辆的款式和颜色有限, 相对于行人的各种衣着和各种姿态, 车辆的特征编码空间有限, 导致大规模的车辆再识别混淆程度较高. VehicleID数据集包含数十万张图片, 测试集划分为Small、Medium、Large 3部分. 能量模型采用ResNet50基础网络, 微调能量损失中的参数,得到最佳性能. 在这3个不同规模的测试集上,各种方法的性能指标如表4所示. 与行人再识别存在较大区别的是车辆再识别的类内方差较大. ResNet50网络在训练结束后, 能量损失仍能维持较大的数值. 即使是ResNet50拥有2.4×107个参数空间, 也不能完全拟合训练集. 鉴于测试集和训练集的偏差, 如何恰当地在训练集上拟合网络结构,以在测试集上获得最佳的性能, 比行人再识别任务更具有挑战性. 能量模型中的α在第2阶段训练中保持为1, 因为第1阶段的剩余损失较大. β取值不能过小, 否则影响分类性能,无法达到收缩类内距离的作用. 表4中,最佳方法用黑体表示, 次优方法用下划线表示. VANet[28]在Rank1指标上略优于本文方法, 这是因为VANet借助于复杂的网络结构, 采用了多分支网络. 表4表明,在单分支网络中本文方法的各项指标均最好. GSTE方法利用特征聚类实现了目标再识别的目标, 与本文方法的原理类似, 但本文方法在训练效率上优于特征聚类方法, 在准确率上具有较大的优势, 在mAP上分别提高了10.42%、7.05%和5.28%.

3.6. 算法运行效率的分析

与基于Triplet和Soft-max的混合损失函数相比, 本文方法不需要借助于复杂采样方法生成样本对, 大大节省了批训练中的采样时间. 本文方法的损失函数计算过程较简单, 梯度回传过程的速度较快,网络训练效率较Triplet和Soft-max高. 整体上, 能量模型的训练效率相对于Triplet和Soft-max混合损失提高了50%以上.

4. 结 语

本文提出能量模型, 以解决目标再识别问题. 通过最大化样本在真实目标类别上的响应和非目标类别上的响应之差, 从能量的角度实现了分类和度量学习的方法.利用提出的能量模型,能够增大不同类别样本特征之间的距离, 缩小类内样本特征方差, 实现更好的特征内聚性. 与Soft-max和Triplet混合损失函数相比, 本文方法在提高准确率的同时, 训练效率得到较大的提高.在多个行人数据库和车辆数据库上开展实验, 本文方法的识别性能和训练效率更高. 能量模型在行人再识别和车辆再识别领域具有较好的应用前景.

参考文献

LIU W, WEN Y, YU Z, et al. Sphere face: deep hypersphere embedding for face recognition [C]// Proceedings of the Computer Vision and Pattern Recognition. Hawaii: IEEE, 2017: 6738-6746.

[本文引用: 1]

DENG J K, GUO J, XUE N N, et al. Arcface: additive angular margin loss for deep face recognition [C]// Proceedings of the Computer Vision and Pattern Recognition. Long Beach: IEEE, 2019: 4685-4694.

[本文引用: 2]

WANG F, CHENG L, LIU W

Additive margin Soft-max for face verification

[J]. IEEE Signal Processing Letters, 2018, 25 (7): 926- 930

DOI:10.1109/LSP.2018.2822810      [本文引用: 2]

JIQUAN N, CHEN Z H, PANG W, et al. Learning deep energy models [C]// Proceedings of the 28th International Conference on Machine Learning, Washington: Omnipress, 2011: 1105-1112.

[本文引用: 2]

TAESUP K , YOSHUA B. Deep directed generative models with energy-based probability estimation [C]// Proceedings of the European Conference of Computer Vision. Amsterdam: Springer, 2016: 123-130.

[本文引用: 1]

YANN L, SUMIT C, RAIA H. A tutorial on energy-based learning [M]// Predicting structured data. Boston: MIT Press, 2006.

[本文引用: 2]

RITHESH K, ANIRUDH G, AARON C, et al. Maximum entropy generators for energy based models [C]// Proceedings of the International Conference on Computer Vision. Seoul: IEEE, 2019: 1701-1711.

[本文引用: 1]

LIU W T, WANG X Y, OWENS J. Energy-based out-of-distribution detection [C]// Proceedings of the Neural Information Processing System. Canada: IEEE, 2020: 112-123.

[本文引用: 2]

ZHOU K Y, YANG Y X, CAVALLARO A. Omni-scale feature learning for person re-identification [C]// Proceedings of the International Conference on Computer Vision. Seoul: IEEE, 2019: 3701-3711.

[本文引用: 1]

ZHENG L, SHEN L Y, TIAN L. Scalable person re-identification: a benchmark [C]// Proceedings of the Computer Vision and Pattern Recognition. Boston: IEEE, 2015: 1116-1124.

[本文引用: 1]

RISTANI E, SOLERA F, ZOU R, et al. Performance measures and a data set for multi-target, multi-camera tracking [C]// Proceedings of the European Conference of Computer Vision. Amsterdam: Springer, 2016: 17-35.

[本文引用: 1]

WEI L H, ZHANG S L, GAO W, et al. Person transfer gan to bridge domain gap for person re-identification [C]// Proceedings of the Computer Vision and Pattern Recognition. Utah: IEEE, 2018: 79-88.

[本文引用: 1]

LIU X C, LIU W, MEI T. A deep learning-based approach to progressive vehicle re-identification for urban surveillance [C]// Proceedings of the European Conference of Computer Vision. Amsterdam: Springer, 2016: 123-130.

[本文引用: 1]

LIU H Y, TIAN Y H, WANG Y W. Deep relative distance learning: tell the difference between similar vehicles [C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Nevada: IEEE, 2016: 2167-2175.

[本文引用: 1]

HE K M, ZHANG X Y, REN S Q, et al. Deep residual learning for image recognition [C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Nevada: IEEE, 2016: 116-124.

[本文引用: 1]

WANG X, GIRSHICK R, GUPTA A, et al. Non-local neural networks [C]// Proceedings of the Computer Vision and Pattern Recognition. Utah: IEEE, 2018: 7794-7803.

[本文引用: 2]

WEN Y, ZHANG K, LI Z. A discriminative feature learning approach for deep face recognition [C]// Proceedings of the European Conference of Computer Vision. Amsterdam: Springer, 2016: 23-30.

[本文引用: 1]

ALEXANDER H, LUCAS B, BASTIAN L. In defense of the triplet loss for person re-identification [C]// Proceedings of the International Conference on Computer Vision. Seoul: Springer, 2018: 1132-1139.

[本文引用: 1]

ZHONG Z, ZHENG L, ZHENG Z D, et al

Camstyle: a novel data augmentation method for person re-identification

[J]. IEEE Transactions on Image Processing, 2019, 28 (3): 1176- 1190

DOI:10.1109/TIP.2018.2874313      [本文引用: 3]

QIAN X L, FU Y W, XIANG T, et al. Pose-normalized image generation for person re-identification [C]// Proceedings of the European Conference of Computer Vision. Munich: Springer, 2018: 1123-1132.

[本文引用: 2]

WANG G S, YUAN Y F, CHEN X, et al. Learning discriminative features with multiple granularities for person re-identification [C]// Proceedings of the ACM Multimedia Conference on Multimedia Conference. Seoul: ACM, 2018: 1123-1132.

[本文引用: 2]

ZHENG F, DENG C, SUN X, et al. Pyramidal person re-identification via multi-loss dynamic training [C]// Proceedings of the Computer Vision and Pattern Recognition. Long Beach: IEEE, 2019: 134-143.

[本文引用: 2]

CHEN T S, XU M X, HUI X L, et al. Learning semantic-specific graph representation for multi-label image recognition [C]// Proceedings of the International Conference on Computer Vision. Seoul: Springer, 2019: 2132-2139.

[本文引用: 1]

SUN Y F, ZHENG L, YANG Y. Beyond part models: person retrieval with refined part pooling and a strong convolutional baseline [C]// Proceedings of the European Conference of Computer Vision. Munich: Springer, 2018: 25-32.

[本文引用: 2]

KAKAYEH M M, BASRARN E. Human semantic parsing for person re-identification [C]// Proceedings of the Computer Vision and Pattern Recognition. Utah: IEEE, 2018: 99--107.

[本文引用: 1]

LEI Q, JING H, LEI W, et al. Maskreid: a mask based deep ranking neural network for person re-identification [C]// Proceedings of the International Conference of Multimedia Exposition. Shanghai: IEEE, 2019: 1138-1145.

[本文引用: 1]

FAN X, LUO H, ZHANG X, et al. SCPNet: spatial-channel parallelism network for joint holistic and partial person re-identification [C]// Proceedings of the Asian Conference of Computer Vision. Kyoto: IEEE, 2019: 2351-2359.

[本文引用: 1]

LI W, ZHU X T, GONG S G. Harmonious attention network for person re-identification [C]// Proceedings of the Computer Vision and Pattern Recognition. Utah: IEEE, 2018: 1324—1332.

[本文引用: 2]

SUN Y F, ZHENG L, DENG W J, et al. SVDNet for pedestrian retrieval[C]// Proceedings of the Computer Vision and Pattern Recognition. Utah: IEEE, 2018: 99-107.

[本文引用: 1]

HE S, LUO H, WANG P C, et al. TransReID: transformer-based object re-identification [C]// Proceedings of the Computer Vision and Pattern Recognition. Nashville: IEEE, 2021: 151-159.

[本文引用: 2]

ZHONG Z, ZHENG L, CAO D L, et al. Re-ranking person re-identification with k-reciprocal encoding [C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Hawaii: IEEE, 2017: 345-352.

[本文引用: 1]

LIU X C, LIU W, MEI T, et al. A deep learning-based approach to progressive vehicle re-identification for urban surveillance [C]// Proceedings of the European Conference of Computer Vision. Amsterdam: Springer, 2016: 123-130.

[本文引用: 1]

CHU R H, SUN Y F, LI Y D, et al. Vehicle re-identification with viewpoint aware metric learning [C]// Proceedings of the International Conference on Computer Vision. Seoul: Springer, 2019: 1132-1139.

[本文引用: 1]

LIU X B, ZHANG S L, HUANG Q M, et al. Ram: a region-aware deep model for vehicle re-identification [C]// Proceedings of the International Conference of Multimedia Exposition. San Diego: IEEE, 2018: 138-145.

[本文引用: 1]

ZHOU Y, SHAO L. Vehicle re-identification by adversarial bi-directional LSTM network [C]// Proceedings of the IEEE Winter Conference on Applications of Computer Vision. Salt Lake City: IEEE, 2018: 1123-1132.

[本文引用: 1]

ZHOU Y, SHAO L. Viewpoint-aware attentive multi-view inference for vehicle re-identification [C]// Proceedings of the Computer Vision and Pattern Recognition. Utah: IEEE, 2018: 324-332.

[本文引用: 1]

LIU X C, LIU W, MEI T, et al

PROVID: progressive and multimodal vehicle reidentification for large-scale urban surveillance

[J]. IEEE Transactions on Multimedia, 2018, 20 (3): 645- 658

DOI:10.1109/TMM.2017.2751966      [本文引用: 1]

KHORRAMSHAHI P, KUMAR A, PERI N, et al. A dual-path model with adaptive attention for vehicle re-identification [C]// Proceedings of the International Conference on Computer Vision. Seoul: Springer, 2019: 132-139.

[本文引用: 1]

ZHU J Q, ZENG H Q, HUANG J C, et al

Vehicle re-identification using quadruple directional deep learning features

[J]. IEEE Transactions on Intelligent Transportation Systems, 2019, 21 (1): 1- 11

[本文引用: 1]

HE B, LI J, ZHAO Y, et al. Part-regularized near-duplicate vehicle re-identification [C]// Proceedings of the Computer Vision and Pattern Recognition. Long Beach: IEEE, 2019: 154-163.

[本文引用: 1]

BAI Y, LOU Y H, GAO F, et al

Group-sensitive triplet embedding for vehicle re-identification

[J]. IEEE Transaction on Multimedia, 2018, 20 (9): 2385- 2399

DOI:10.1109/TMM.2018.2796240      [本文引用: 1]

/