浙江大学学报(工学版), 2025, 59(5): 929-937 doi: 10.3785/j.issn.1008-973X.2025.05.006

计算机技术、信息工程

多方引导前景增强的行人重识别方法

刘俊婧,, 郑宛露, 郭子强, 王少荣,

1. 北京林业大学 信息学院,北京 100083

2. 国家林业草原林业智能信息处理工程技术研究中心,北京 100083

3. 北京市虚拟仿真与可视化工程技术研究中心,北京 100871

Person re-identification method based on multi-part guided foreground enhancement

LIU Junjing,, ZHENG Wanlu, GUO Ziqiang, WANG Shaorong,

1. School of Information Science and Technology, Beijing Forest University, Beijing 100083, China

2. Engineering Research Center for Forestry-oriented Intelligent Information Processing of National Forestry and Grassland Administration, Beijing 100083, China

3. Beijing Virtual Simulation and Visualization Engineering Center, Beijing 100871, China

通讯作者: 王少荣,男,副教授. orcid.org/0000-0001-8955-6854. E-mail: shaorongwang@hotmail.com

收稿日期: 2024-07-6  

Received: 2024-07-6  

作者简介 About authors

刘俊婧(1999—),女,硕士,从事计算机视觉的研究.orcid.org/0000-0001-8800-8194.E-mail:L_JunJing@bjfu.edu.cn , E-mail:L_JunJing@bjfu.edu.cn

摘要

为了解决行人重识别模型性能对背景环境因素过于依赖的问题, 提出多方引导前景增强的行人重识别方法. 该方法通过掩码引导增强和自增强策略,提升了模型对行人前景的关注,同时保留一定的背景信息,有效减轻了对背景信息的依赖,增强了模型的泛化能力. 在骨干网络中引入瓶颈优化模块,利用空洞卷积,在保持原有参数规模的前提下,有效增大了模型的感受野,提升了模型的整体性能. 实验结果表明, 提出的模型在Market1501和DukeMTMC_reID数据集上分别取得了95%和88.3%的Rank-1准确率. 验证了多方引导前景增强的行人重识别方法的有效性,通过前景增强并结合一定的背景信息,有效提升了基线模型的性能.

关键词: 行人重识别 ; 人体解析 ; 背景变化 ; 前景增强 ; 掩码引导增强

Abstract

A multi-part guided foreground enhancement method for person re-identification was proposed in order to solve the problem that the performance of person re-identification model was overly depend on background environmental factors. The model’s attention to the person’s foreground was enhanced by employing mask-guided enhancement and self-enhancement strategies, while retaining some background information. This effectively reduced the model’s dependence on background information and improved its generalization ability. A bottleneck optimization module was integrated into the backbone network, utilizing dilated convolutions to enlarge the model’s receptive field while maintaining the original parameter scale, thereby improving the overall performance of the model. The experimental results demonstrated that the proposed model achieved Rank-1 accuracies of 95% and 88.3% on the Market1501 and DukeMTMC_reID datasets, respectively. The effectiveness of the multi-part guided foreground enhancement method was verified, which strengthened the foreground while incorporating appropriate background information, and significantly enhanced the performance of the baseline model.

Keywords: person re-identification ; human parsing ; background change ; foreground enhancement ; mask-guided enhancement

PDF (1236KB) 元数据 多维度评价 相关文章 导出 EndNote| Ris| Bibtex  收藏本文

本文引用格式

刘俊婧, 郑宛露, 郭子强, 王少荣. 多方引导前景增强的行人重识别方法. 浙江大学学报(工学版)[J], 2025, 59(5): 929-937 doi:10.3785/j.issn.1008-973X.2025.05.006

LIU Junjing, ZHENG Wanlu, GUO Ziqiang, WANG Shaorong. Person re-identification method based on multi-part guided foreground enhancement. Journal of Zhejiang University(Engineering Science)[J], 2025, 59(5): 929-937 doi:10.3785/j.issn.1008-973X.2025.05.006

行人重识别技术通过分析监控场景下的行人服装、体态、步态等特征,实现行人身份的识别. 广义的行人重识别任务包括行人检测、特征提取、相似度度量及排序优化几个步骤. 现有的基于深度学习的行人重识别方法大致可以分为3类[1]:基于特征表示学习的方法、基于度量学习的方法和排名优化的方法. 特征表示学习侧重于设计特征构建策略, 充分挖掘图像中的有用信息,包括全局特征[2]、局部特征[3-4]和辅助特征[57]表示学习. 深度度量学习旨在通过不同的损失函数或采样策略优化训练目标,常用的损失函数有身份损失[8]、验证损失[9]和三元组损失[10]. 排名优化则聚焦优化检索到的排名列表[11].

准确的行人检测是有效重识别的前提. 由于行人没有固定的外形,行人图像通常需要从视频或图像数据中截取,这不可避免地引入了背景信息. 在公开的行人重识别数据集中,训练集和测试集通常来自固定位置的摄像头,这导致背景高度相似, 限制了行人的活动范围,导致摄像头捕捉到的行人图像背景相似度较高. 即使不同行人在视觉上存在差异,背景的相似性有时也会导致不同行人的图像看起来非常相似.

在这种背景高度相似的情况下,尽管训练集和测试集中的图像理论上没有交集,由于背景的相似性, 模型可能误将背景相似的行人图像判定为相似图像,从而降低重识别的准确性. 现有的深度学习方法通常将整张行人图像作为输入,图像中的每个像素对训练过程的影响相同. 由于行人与背景的相似性,模型可能会过多地关注背景信息,削弱了对行人前景特征的关注,影响了识别性能.

在实际应用中,同一行人在不同摄像头下的图像往往伴随着不同的背景,这要求行人重识别模型能够适应背景的变化. Tian等[12]在实验中证明,背景对模型的识别过程有影响,背景偏差是导致过拟合和模型迁移能力差的重要原因. 为此,Song等[10]利用二元掩码消除图像中的背景信息. 本文实验表明,行人前景作为主要的识别特征应赋予较高的权重,而背景作为辅助信息应赋予较低的权重. 完全消除背景信息,可能会对模型性能产生负面影响.

针对这一问题,本文提出基于多方引导前景增强的行人重识别方法. 该方法通过引入行人掩码图作为网络附加输入,引导网络强化对前景区域的学习. 通过这一策略,模型能够更加专注于行人的前景特征,提升在不同背景下的迁移能力和重识别准确性.

1. 行人重识别中的背景因素

1.1. 基于人体解析算法的行人图像预处理

目前, 已有多种方法用于实现像素级的人体解析,其中基于高分辨率保持的策略 (如减少下采样操作或在编码器中捕获更高层次的语义信息) 和基于上下文信息嵌入的策略 (如特征金字塔) 是2种主流方法[13] . 在此基础上, 刘俊婧等[14]提出新的人体解析模型DAEC. 该模型在基线网络的基础上, 结合特征提取网络、金字塔池化模块以及高分辨率保持结构, 引入双重模块[15]和边缘约束分支, 以进一步提升网络在细粒度人体解析任务中的表现.

模型采用ResNet101作为特征提取网络,并在输入大小为256×128的条件下进行训练. 图1展示了模型生成的人体二值掩码图,体现了模型在解析过程中对人体前景的精准分离.

图 1

图 1   人体解析预测的示例图

Fig.1   Example of human parsing prediction


利用现有数据集及二值掩码图,通过进一步处理,可以分别得到以下3种类型的图像.

1) 原始图像,记为Original.

2) 前景区域不变,使用像素值0填充背景区域,将所得到的图像记为Foreground.

3) 背景区域不变,使用像素值0填充前景区域,将所得到的图像记为Background.

图2所示为行人图像的处理过程. 针对每个行人重识别数据集,都可以生成以上3种不同类型的图像. 这些图像随后被用于训练深度神经网络,通过重识别任务来分析背景信息对模型性能的具体影响.

图 2

图 2   行人图像处理

Fig.2   Pedestrian image processing


1.2. 背景信息影响实验

选取Luo等[16]设计的强基线网络作为实验的基础网络架构. 该网络引入归一化瓶颈结构BNNeck,整体的网络结构如图3所示.

图 3

图 3   强基线网络

Fig.3   Strong baseline network


为了探讨背景信息对行人重识别网络性能的影响,在3种不同类型图像的数据集上对该网络进行训练:Original、Foreground和Background. 通过这种训练方式,分析背景信息在行人重识别任务中的作用. 这些实验有助于更好地理解背景信息对模型性能的影响,为模型的进一步改进提供了重要的实验依据.

在实验结果中,使用Rank-k(正确匹配结果出现在前k位的概率)、平均精度均值mAP来评估行人重识别模型的性能.

1.2.1. 以Original图像作为训练数据

实验1和实验2分别采用Market1501和DukeMTMC的Original图像组成的数据集作为训练集,对行人重识别基础模型进行训练,随后分别在对应的Original、Foreground及Background 3种图像组成的测试集上进行测试,结果分别如表12所示. 实验结果表明,当训练集和测试集同源时,模型在以Original图像为主的测试集上性能更高. 即使前景信息相同,背景的差异也会对模型的性能产生显著影响.

表 1   使用Market1501数据集原始图像的训练结果

Tab.1  Experimental result of training with original image from Market1501 dataset %

测试类型${\mathrm{Rank}} {\text{-}} 1 $${\mathrm{Rank}} {\text{-}} 5 $${\mathrm{Rank}} {\text{-}} 10 $${\mathrm{mAP}} $
Original93.297.798.784.1
Foreground74.887.090.851.8
Background4.38.812.51.4

新窗口打开| 下载CSV


表 2   使用DukeMTMC数据集原始图像的训练结果

Tab.2  Experimental result of training with original image from DukeMTMC dataset %

测试类型${\mathrm{Rank}} {\text{-}} 1 $${\mathrm{Rank}} {\text{-}} 5 $${\mathrm{Rank}} {\text{-}} 10 $${\mathrm{mAP}} $
Original85.393.496.074.6
Foreground52.267.172.431.5
Background6.313.518.02.5

新窗口打开| 下载CSV


当在Background组成的数据集上测试时,模型的rank-1达到4.3%,这一准确率远高于随机猜测的水平. 这一结果证实了背景信息在行人重识别中的重要性,暗示了模型可能在训练过程中学习到背景特征,能够在一定程度上仅凭背景信息区分不同的行人.

分析实验结果可知,Original图像组成的测试集与Foreground图像组成的测试集之间的性能差距可能归因于模型对背景外观信息的过度拟合. 当使用Original图像训练网络模型时,模型不仅学习行人的前景特征,还会学习图像中的背景特征,这些特征对网络学习过程的影响是相同的. 由于训练数据中存在相似的背景,模型可能会过度关注背景外观之间的相似性,从而在预测时过分依赖这些背景信息. 当使用Foreground图像进行测试时,由于去除了相似的背景信息,模型在测试时只能依赖于行人前景的相似性来识别目标行人. 由于模型在训练时过度关注了背景信息,在去除背景的测试图像上表现不佳,导致测试性能下降. 即使现有的方法在原始数据集上能够取得良好的性能,但在实际应用中,由于背景环境的多样性,这些方法可能会遇到性能下降的问题.

1.2.2. 以Background图像作为训练数据

实验3和实验4分别使用Market1501和DukeMTMC数据集的Background图像作为训练集,对行人重识别基础模型进行训练. 分别在对应的Original、Foreground及Background 3种图像组成的测试集上进行测试,结果如表34所示.

表 3   使用Market1501数据集背景图像的训练结果

Tab.3  Experimental result of training with background image from Market1501 dataset %

测试类型${\mathrm{Rank}} {\text{-}} 1 $${\mathrm{Rank}} {\text{-}}5 $${\mathrm{Rank}} {\text{-}} 10 $${\mathrm{mAP}} $
Original35.153.061.617.3
Foreground31.348.456.113.1
Background18.437.647.78.8

新窗口打开| 下载CSV


表 4   使用DukeMTMC数据集背景图像的训练结果

Tab.4  Experimental result of training with background image from DukeMTMC dataset %

测试类型${\mathrm{Rank}}{\text{-}} 1 $${\mathrm{Rank}} {\text{-}} 5 $${\mathrm{Rank}} {\text{-}} 10 $${\mathrm{mAP}} $
Original52.569.475.135.7
Foreground31.145.751.615.9
Background39.859.667.722.6

新窗口打开| 下载CSV


实验结果表明,当使用Background图像训练网络时,模型对前景信息的学习被抑制,导致在Original图像和Foreground图像上的测试性能显著下降. 即使在这种情况下,模型的正确率仍然高于随机猜测的水平,这表明背景信息在行人重识别过程中具有一定的识别价值.

1.2.3. 以Foreground图像作为训练数据

实验5、6分别采用Market1501和DukeMTMC的Foreground图像组成的数据集作为训练集,对行人重识别基础模型进行训练. 随后分别在对应的Original、Foreground及Background 3种图像组成的测试集上进行测试,结果分别如表56所示.

表 5   使用Market1501数据集前景图像的训练结果

Tab.5  Experimental result of training with foreground image from Market1501 dataset %

测试类型${\mathrm{Rank}} {\text{-}}1 $${\mathrm{Rank}} {\text{-}} 5 $${\mathrm{Rank}} {\text{-}} 10 $${\mathrm{mAP}} $
Original68.486.391.345.4
Foreground90.696.197.775.5
Background2.04.35.80.7

新窗口打开| 下载CSV


表 6   使用DukeMTMC数据集前景图像的训练结果

Tab.6  Experimental result of training with foreground image from DukeMTMC dataset %

测试类型${\mathrm{Rank}} {\text{-}} 1 $${\mathrm{Rank}} {\text{-}}5 $${\mathrm{Rank}} {\text{-}} 10 $${\mathrm{mAP}} $
Original57.974.579.839.3
Foreground77.187.090.160.1
Background2.35.98.41.0

新窗口打开| 下载CSV


与实验1相比,实验5在Foreground图像上的测试效果有了显著的提升. 实验1中,模型在Foreground图像上测试的Rank-1为74.8%,实验5测试的Rank-1为90.6%,提高了约16%. 实验6在Foreground图像上的测试效果优于实验2. 这些结果表明,在实验5和实验6中,模型受到背景信息的影响更小,能够更加专注于前景信息的学习.

实验5在Original图像上测试的Rank-1为68.4%,显著优于实验3的测试效果. 这一结果表明,在行人重识别的过程中,与背景信息相比,前景信息起着更关键的作用. 实验5在Original图像上的测试性能低于实验1,这表明尽管前景信息在识别过程中占据主导地位,背景信息仍具有不可忽视的辅助作用. 这一结论在实验2、实验4与实验6的对比分析中得到了进一步的验证.

1.2.4. 模型训练与测试结果的分析

1)当使用相同的数据集作为训练集和测试集时,以Market1501数据集为例,使用Original图像训练集得到的模型在Background图像测试集上的Rank-1准确率为4.3%,在Foreground图像测试上的性能明显低于在Original图像测试集上的性能. 这表明当前模型的性能在一定程度上依赖于相似背景的存在,当背景信息发生剧烈变化时,模型泛化性能下降很大.

2) 与使用Original图像训练的模型相比,使用Foreground图像训练的模型在Foreground图像上性能更高,而在Original图像上的性能相对更低. 此外,使用Foreground图像训练的模型的性能优于使用Background图像训练的模型. 实验结果表明,在行人重识别任务中,前景信息相较于背景信息具有更高的特征重要性. 通过去除背景信息,模型能够更好地适应复杂多变的背景环境,但适度保留背景信息对模型性能具有显著的增益.

2. 方法简介

设计在保留背景信息的同时,增强对前景信息关注度的行人重识别方法. 具体而言,提出基于多方引导前景增强的算法,旨在提高行人图像的前景信息识别度,从而在保留必要背景信息的基础上,显著提升行人重识别的准确性和效率.

2.1. 网络概述

基于多方引导前景增强(multi-part guided foreground enhancement,MGFE)的行人重识别网络的总体框架如图4所示. 该框架除基线网络中所包含的ResNet50特征提取网络外,还引入瓶颈优化模块(bottleneck optimization module,BOM) 以多方引导分支(multi-part guidance,MPG) . 其中多方引导分支包含掩码引导增强(mask-guided enhancement,MGE)和自增强(self enhancement,SE)2个模块. 将BOM模块嵌入到ResNet50网络中,将Resnet50每一个阶段的输出作为BOM模块的输入,并将该输出视为一个特征提取单元RB.

图 4

图 4   基于多方引导前景增强的行人重识别模型

Fig.4   Person re-identification model based on multi-part guided foreground enhancement


具体来说,输入图片经过由RB特征提取单元组成的特征提取网络进行特征提取. 在多方引导分支,将掩码图分别调整至与${{\boldsymbol{h}}_2}$${{\boldsymbol{h}}_3}$同大小,得到${{\boldsymbol{m}}_2}$${{\boldsymbol{m}}_3}$,将${{\boldsymbol{m}}_2}$${{\boldsymbol{h}}_2}$${{\boldsymbol{m}}_3}$${{\boldsymbol{h}}_3}$分别输入掩码引导增强模块中,得到输出${{\boldsymbol{u}}_2}$${{\boldsymbol{u}}_3}$; 将${{\boldsymbol{h}}_5}$送入自增强模块中,得到输出${\boldsymbol{E}}$,将${{\boldsymbol{u}}_2}$${{\boldsymbol{u}}_3}$调整至与${{\boldsymbol{h}}_5}$同大小,再与${\boldsymbol{E}}$${{\boldsymbol{h}}_5}$进行拼接,作为最终的行人特征.

2.2. 多方引导分支

为了在强调前景信息的同时保留部分背景信息,多方引导分支将行人掩码图作为额外输入,引导模型更加关注行人图像的前景部分. 具体来说,多方引导分支包含2个引导模块,分别是掩码引导增强MGE模块和自增强SE模块.

每个MGE模块将行人掩码图和特征提取单元RB的输出${\boldsymbol{h}}$作为输入,该操作旨在增强${\boldsymbol{h}}$特征中与掩码图前景区域相同位置的信息. 为了方便在掩码图与${\boldsymbol{h}}$特征之间执行逐元素的相乘,通过双线性插值的方法调整行人掩码图的大小至与${\boldsymbol{h}}$相同,利用$1 \times 1$的卷积调整通道数,${\bf{mask}}$指导${{\boldsymbol{h}}_2}$特征的过程如下所示:

$ {{\boldsymbol{u}}_2} = {{\boldsymbol{h}}_2}+{\mathrm{Con}}{{\mathrm{v}}^{1 \times 1}}(R({\bf{mask}})) \times {{\boldsymbol{h}}_2}. $

同理,mask指导${{\boldsymbol{h}}_3}$特征的具体过程如下所示:

$ {{\boldsymbol{u}}_3} = {{\boldsymbol{h}}_3}+{\mathrm{Con}}{{\mathrm{v}}^{1 \times 1}}(R({\bf{mask}})) \times {{\boldsymbol{h}}_3}. $

自增强模块以特征提取单元RB5的输出${{\boldsymbol{h}}_5}$作为输入,对该输出执行特征增强操作. 对于输入特征${{\boldsymbol{h}}_5} \in {{\bf{R}}^{C \times H \times W}}$,将输入特征通过2个分支分别重塑为${{\boldsymbol{q}}_1} \in {{\bf{R}}^{C \times HW}}$以及${{\boldsymbol{q}}_2} \in {{\bf{R}}^{HW \times C}}$,利用式(3)计算${{\boldsymbol{q}}_1}$${{\boldsymbol{q}}_2}$的相似性矩阵${\bf{sim}}$.

$ {\bf{sim}} = {{{{\boldsymbol{q}}_1} \times {{\boldsymbol{q}}_2}} \mathord{\left/ {\vphantom {{{q_1} \times {q_2}} {({\mathrm{norm}}\;(}}} \right. } {({\mathrm{norm}}\;(}}{{\boldsymbol{q}}_1}) \times {\mathrm{norm}}\;({{\boldsymbol{q}}_2})+\varepsilon ). $

式中:${\mathrm{norm}}\;({{\boldsymbol{q}}_1})$${\mathrm{norm}}\;({{\boldsymbol{q}}_2})$分别为${{\boldsymbol{q}}_1}$${{\boldsymbol{q}}_2}$${L_2}$范数;$\varepsilon $为常数,本文取值为10−7. 将$ {{\boldsymbol{h}}_5} $重塑为${{\bf{R}}^{HW \times C}}$后与${\bf{sim}}$相乘,再经过调整得到最终的特征${\boldsymbol{E}}$. 调整过程如下所示:

$ {\boldsymbol{E}} = {\mathrm{Con}}{{\mathrm{v}}^{1 \times 1}}(T(R(R(T({{\boldsymbol{h}}_5})) \times {\bf{sim}}))). $

2.3. 瓶颈优化模块

Resnet模型在处理大尺度特征图时存在计算复杂度高和信息丢失的问题,导致提取的特征次优且效率不高. 引入瓶颈优化模块BOM[17],结构如图5所示. 该模块由2个分支组成,分别是通道优化分支及感受野优化分支.

图 5

图 5   瓶颈优化模块

Fig.5   Bottleneck optimization module


通道优化 (channel optimization) 分支用于自适应地调整每个通道的特征响应. 对输入特征$f$的每个通道的特征图执行全局平均池化,将$C \times H \times W$的输入特征压缩为$C \times 1 \times 1$,其中每个通道的特征图都被池化为一个标量值,该标量值表示该通道特征的全局重要性. 将全局平均池化结果${{\boldsymbol{f}}_{\text{g}}}$通过2个全连接层,得到通道优化分支的结果${{\boldsymbol{f}}_{\mathrm{c}}}$. 第1个全连接层将特征通道维度由$C$转换为$C'$,第2个全连接层将特征通道由$C'$转换为$C$,目的是在节省参数开销的同时学习加权每个通道的特征响应. $ C' = {C \mathord{\left/ {\vphantom {C r}} \right. } r} $,其中$ r $为通道缩减比. ${{\boldsymbol{f}}_{\text{c}}}$的计算过程如下所示:

$ {{\boldsymbol{f}}_{\text{c}}} = {\text{FC(FC(AvgPool (}}{\boldsymbol{f}}{\text{)))}}. $

式中:${\text{FC}}$表示全连接层、批归一化层和${\text{RELU}}$激活的组合.

合理地利用上下文信息,有利于准确了解特征图中应该被着重关注的空间位置,而拥有一个大的感受野对有效利用上下文是十分重要的. 与标准的卷积相比,空洞卷积在卷积核中加入空洞空间,有助于构建更有效的空间映射.

感受野优化 (receptive-field optimization) 分支引入空洞卷积来增大感受野,在节省参数数量的同时节省了计算开销. 具体来说,使用1×1的标准卷积将输入特征${\boldsymbol{f}} \in {{\bf{R}}^{C \times H \times W}}$进行降维,通道数由$C$降至${C \mathord{\left/ {\vphantom {C r}} \right. } r}$,实现了在通道维度上对特征映射进行整合和压缩,之后将压缩后的特征送入2个串连的$3 \times 3$的空洞卷积层中,用于聚合拥有更大感受野的上下文信息. 利用$1 \times 1$的卷积将特征再次压缩,得到特征${{\boldsymbol{f}}_{\mathrm{r}}} \in {{\bf{R}}^{1 \times H \times W}}$,计算过程如下所示:

$ {{\boldsymbol{f}}_{\mathrm{r}}} = {\text{Con}}{{\text{v}}^{1 \times 1}}({\text{Dcon}}{{\text{v}}^{3 \times 3}}({\text{Dcon}}{{\text{v}}^{3 \times 3}}({\text{Con}}{{\text{v}}^{1 \times 1}}({\boldsymbol{f}})))). $

式中:${\text{Conv}}$表示标准卷积操作,${\text{Dconv}}$表示空洞卷积操作,上标表示卷积核的大小. $1 \times 1$的卷积用于通道缩减,$3 \times 3$的空洞卷积则用于聚合具有更大感受野的上下文信息.

将2个分支的输出特征${{\boldsymbol{f}}_{\text{c}}}$${{\boldsymbol{f}}_{\text{r}}}$使用逐元素相乘的方式进行结合. 由于${{\boldsymbol{f}}_{\text{c}}}$${{\boldsymbol{f}}_{\text{r}}}$的形状不同,在结合之前将其扩展为${{\bf{R}}^{C \times H \times W}}$大小,使用${\text{sigmoid}}$函数将它们的范围约束在0~1.0,以表示每个通道的权重. 这些权重用于调整通道特征响应,$ {{\boldsymbol{f}}_{\mathrm{f}}} $的计算过程如下所示:

$ {{\boldsymbol{f}}_{\mathrm{f}}} = {\rm{sigmoid}}\;(R({{\boldsymbol{f}}_{\mathrm{c}}}) \times R({{\boldsymbol{f}}_{\mathrm{r}}})) . $

$ {{\boldsymbol{f}}_{\mathrm{f}}} $与输入特征图进行逐元素的相乘再相加, 得到优化后的特征$ {\boldsymbol{h}} $. 计算过程如下所示:

$ {\boldsymbol{h}} = {\boldsymbol{f}}+{\boldsymbol{f}} \times {{\boldsymbol{f}}_{\mathrm{f}}} . $

2.4. 损失函数

为了监督行人重识别模型,使用带有标签平滑的身份损失和三元组损失进行联合训练。身份损失${{L}_{\text{id}}} $为预测值$\text{cls } \_ \text{ score} $和真实值的交叉熵。引入定义三元组损失,使得正样本对之间的距离小于负样本对之间的距离,且小于预定义的阈值。对于三元组${\boldsymbol{x}}_i\;{\boldsymbol{x}}_j\;{\boldsymbol{x}}_k $,其中,${\boldsymbol{x}}_j $${\boldsymbol{x}}_i $为同一类别,${\boldsymbol{x}}_k $${\boldsymbol{x}}_i $为不同类别。$d_{ij} $${\boldsymbol{x}}_i $${\boldsymbol{x}}_j $之间的欧氏距离,$\rho $为边距参数。该三元组的损失${\mathrm{Tri}}\_{\mathrm{loss}} $定义为

$ \text{Tri } \_ \text{ loss}(i,j,k)=\max \;\{\rho +{{d}_{ij}}+{{d}_{ik}},0\}. $

根据生成的类别$\text{global } \_ \text{ feat} $,定义${{L}_{\text{tri}}} $为所有三元组$\text{Tri } \_ \text{ loss} $损失的平均值。将本文模型的损失函数定义为$L={{L}_{\text{id}}}+{{L}_{\text{tri}}} $.

3. 实验分析

3.1. 数据集和评价指标

Market1501[18]为目前行人重识别领域最常用的数据集之一. 行人图片采集自清华大学校园中的6个摄像头,共标注了1 501个行人身份. 其中,751个行人标注用于训练过程,750个行人标注用于测试过程,两者间没有重复的行人身份.

DukeMTMC_reID[19] (简写为DukeMTMC)采集于Duke校园的8个静态摄像头,共包括36 411张图片,属于标注的1 812个行人身份. 其中,408个行人仅由单一摄像头拍摄到,存在于单个图片中. DukeMTMC数据集按照Market1501数据集的结构进行组织,主要包括训练集、测试集和query 3个子集. 训练集包括702个行人的16 522张图片,测试集包括702个行人和408个干扰项的共17 661张图片,query集包含测试集中的702个行人. 每个摄像头中为702个行人随机选择的一张图片,共2228张图片.

为了对实验结果进行有效地评估,使用行人重识别方向最常用的指标累计匹配特征CMC[20]和平均精度mAP[18],对行人重识别系统进行评估. CMC-K(又称为Rank-k)匹配精度表示算法返回的排序列表中,排名前k的检索结果中出现正确匹配的概率,选取Rank-1作为参考. mAP可以反映检索正确的图片在排序表中的靠前程度.

3.2. 实验环境设置和参数设置

提出的行人重识别模型基于Pytorch框架实现. 具体的硬件和软件环境配置如表7所示. 采用该配置进行模型训练时,预计训练时间约为3 h.

表 7   行人重识别模型的实验硬件与软件环境配置

Tab.7  Experimental hardware and software environment configuration of person re-identification model

硬件/软件型号/版本号
CPUIntel Xeon Silver 4210R@2.40 GHz
存储14 TB SATA
内存256 GB DDR4-2933
GPU4*NVIDIA RTX 3090 24 GB
操作系统Ubuntu 20.04.3
GPU驱动510.47.03
CUDA11.7
CUDNN8.5.0
Python3.8.0
Pytorch1.13.1+cu117

新窗口打开| 下载CSV


采用ResNet50作为骨干网络,在256×128像素的输入下对模型进行训练,其他参数的设置如表8所示.

表 8   行人重识别模型训练参数的配置

Tab.8  Configuration of training parameter of person re-identification model

参数数值
训练次数(epoch)120
批大小(batch_size)64
初始学习率(lr)3.5×10−4
学习衰减率(lr_decay)0.1
优化函数(optimizer)Adam
动量大小(momentum)0.9
权重衰减系数(weight_decay)0.000 5
随机水平翻转概率(random horizontal flip probability)0.5
随机擦除概率(erase_probability)0.5

新窗口打开| 下载CSV


3.3. 对比实验

表9所示,利用提出的基于多方引导前景增强的行人重识别模型,分别在Market1501和DukeMTMC上进行实验和测试,并与现有的其他行人重识别方法进行比较,验证该模型的有效性. 表中,ARP为基于属性学习的方法,JLML将局部信息和全局信息进行结合,AlignedReID[24]和PCB[26]为基于局部特征的方法,HA-CNN[25]和Mancs[27]为基于注意力机制的方法,OSNet为基于专用模型的方法[28],Auto-ReID支持自动化的搜索方法[29],HOReid通过学习高阶关系和拓扑信息实现鲁棒对齐[30],CBDB-Net采用连续批处理的方法[31],DRL-Net基于transformer完成了模型的搭建[32]. 提出的模型在Market1501数据集上的Rank-1和mAP分别为95.0%和87.5%,在DukeMTMC数据集上的Rank-1和mAP分别为88.3%和77.9%,与上述的流行方法相比取得了更优的识别性能.

表 9   提出方法与现有行人重识别方法的性能对比

Tab.9  Performance comparison of proposed method with existing person re-identification method %

方法Market1501DukeMTMC
Rank-1mAPRank-1${\mathrm{mAP}} $
TriNet[21]84.969.172.453.5
ARP[22]87.066.973.955.5
JLML[23]85.165.5
AlignedReID[24]92.682.181.267.4
HA-CNN[25]91.275.780.563.8
PCB[26]93.881.683.369.2
Mancs[27]93.182.384.971.8
OSNet[28]94.884.987.673.5
Auto-ReID[29]94.585.188.575.1
HOReid[30]94.284.986.975.6
CBDB-Net[31]94.485.087.774.3
DRL-Net[32]94.786.988.176.6
MGFE(本文方法)95.087.588.377.9

新窗口打开| 下载CSV


3.4. 消融实验

为了验证提出模型中各模块的有效性,将强基线网络作为Baseline,依次添加多方引导分支MPG和瓶颈优化模块BOM进行实验.

3.4.1. 各模块对提升模型对前景信息的关注度的有效性实验

表10所示为使用不同的模块组合分别在Market1501和DukeMTMC的Original类型的图像上进行训练,并在对应的Foreground图像上进行测试. 实验结果表明,MPG和BOM均能够提升模型在前景图像上的识别准确性. 与Baseline相比,两者的组合MGFE在Rank-1上分别实现了4.4%和3.1%的性能提升. 这表明优化后的模型能够更加关注到行人图像的前景信息,对背景信息的依赖性降低.

表 10   模块组合对模型前景识别性能的影响

Tab.10  Impact of module combination on model’s foreground recognition performance

训练集->测试集方法${\mathrm{Rank}} \text{-} 1 $/%${\mathrm{mAP}} $/%
Market1501(Original)->
Market1501(Foreground)
Baseline74.851.8
+MPG77.956.2
+BOM78.256.6
MGFE78.856.9
DukeMTMC(Original)->
DukeMTMC(Foreground)
Baseline52.231.5
+MPG54.534.6
+BOM54.834.9
MGFE55.335.5

新窗口打开| 下载CSV


3.4.2. 各模块对提升模型识别性能的有效性实验

表11所示为使用不同的模块组合分别在Market1501和DukeMTMC数据集的Original图像上进行训练和测试的性能表现. 实验结果显示,Baseline在2个数据集上的测试结果的Rank-1分别为93.2%和85.3%,mAP分别为84.1%和74.6%. 在Baseline的基础上添加多方引导MPG分支后,Rank-1分别提升了1.1%和0.7%,mAP分别提升1.6%和0.4%. 在Baseline的基础上添加瓶颈优化模块BOM后,Rank-1分别提升了1.3%和2.1%,mAP分别提升了1.8%和2.3%. MGFE表示将多方引导分支和瓶颈优化模块均添加到网络模型中,在2个数据集上分别实现了95.0%和88.3%的Rank-1、87.5%和77.9%的mAP性能. 这表明多方引导分支和瓶颈优化模块均能够有效提高模型的识别准确率,融合后效果更佳.

表 11   各模块对提升模型识别性能的有效性实验结果

Tab.11  Experimental result of effectiveness of each module in improving model recognition performance

训练集->测试集方法${\mathrm{Rank}} \text{-} 1 $/%${\mathrm{mAP}} $/%
Market1501(Original)->
Market1501(Original)
Baseline93.284.1
+MPG94.385.7
+BOM94.585.9
MGFE95.087.5
DukeMTMC(Original)->
DukeMTMC(Original)
Baseline85.374.6
+MPG86.075.0
+BOM87.476.9
MGFE88.377.9

新窗口打开| 下载CSV


3.4.3. 各模块对提升模型泛化性的有效性实验

表12所示为使用不同的模块组合在跨数据集上进行训练和测试的性能表现. 实验结果显示,MPG和BOM均能够提升模型在跨数据集上的性能. 相较于Baseline,两者组合得到的MGFE模型在Market1501到DukeMTMC的迁移实验及DukeMTMC到Market1501的迁移实验上,Rank-1分别实现了3.3%和3.5%的性能提升. 这表明,优化后的模型的泛化性能更优.

表 12   各模块对提升模型泛化性的有效性实验结果

Tab.12  Experimental result of effectiveness of each module in improving model generalization

训练集->测试集方法${\mathrm{Rank}} \text{-} 1 $/%${\mathrm{mAP}} $/%
Market1501(Original)->
DukeMTMC(Original)
Baseline28.115.1
+MPG30.715.9
+BOM30.016.4
MGFE31.416.9
DukeMTMC(Original)->
Market1501(Original)
Baseline41.217.2
+MPG42.918.5
+BOM43.819.7
MGFE44.720.2

新窗口打开| 下载CSV


4. 结 语

本文利用人体解析模型生成新的前景图和背景图,对背景因素进行探讨. 结果表明,当前模型的识别性能在一定程度上依赖于相似背景的存在. 此外,尽管前景信息在识别过程中扮演着更关键的角色,但保留一定程度的背景信息对于提升模型的整体性能是有益的. 基于此,本文提出基于多方引导前景增强的行人重识别方法. 该方法将行人掩码图作为行人重识别模型的额外输入,参与到模型的训练过程中,旨在增强模型对行人前景区域的关注度,降低背景信息的影响. 实验结果显示,本文提出的方法不仅提升了模型的识别性能,而且有效减少了模型对背景信息的依赖,增强了模型的鲁棒性.

本文采用的两阶段方法需要先生成行人掩码图,这使得模型的性能在一定程度上受到掩码图质量的影响. 此外,由于采用两阶段处理流程,模型的整体效率可能受到一定制约. 尽管当前模型针对基础模型中的背景因素进行了优化,提高了识别性能,未来的研究可考虑以下两个方向:一方面,使用更鲁棒的基础模型可能进一步提升模型在各种场景下的适应能力与效率;另一方面,采用端到端的训练方法可减少中间处理步骤,从而提高模型的整体运算效率,降低对背景因素的依赖,以实现更好的性能表现.

参考文献

YE M, SHEN J, LIN G, et al

Deep learning for person re-identification: a survey and outlook

[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2022, 44 (6): 2872- 2893

DOI:10.1109/TPAMI.2021.3054775      [本文引用: 1]

ZHENG L, ZHANG H, SUN S, et al. Person re-identification in the wild [C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition . Honolulu: IEEE, 2017: 1367-1376.

[本文引用: 1]

YAO H, ZHANG S, HONG R, et al

Deep representation learning with part loss for person re-identification

[J]. IEEE Transactions on Image Processing, 2019, 28 (6): 2860- 2871

DOI:10.1109/TIP.2019.2891888      [本文引用: 1]

ZHAO L, LI X, ZHUANG Y, et al. Deeply-learned part-aligned representations for person re-identification [C]// Proceedings of the IEEE/CVF International Conference on Computer Vision . Venice: IEEE, 2017: 3219-3228.

[本文引用: 1]

SU C, ZHANG S, XING J, et al. Deep attributes driven multi-camera person re-identification [C]// Proceedings of the European Conference on Computer Vision . Amsterdam: Springer, 2016: 475-491.

[本文引用: 1]

LIN Y, ZHENG L, ZHENG Z, et al

Improving person re-identification by attribute and identity learning

[J]. Pattern Recognition, 2019, 95: 151- 161

DOI:10.1016/j.patcog.2019.06.006     

MATSUKAWA T, SUZUKI E. Person re-identification using CNN features learned from combination of attributes [C]// 23rd International Conference on Pattern Recognition . Cancun: IEEE, 2016: 2428-2433.

[本文引用: 1]

HUANG H, LI D, ZHANG Z, et al. Adversarially occluded samples for person re-identification [C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition . Salt Lake City: IEEE, 2018: 5098-5107.

[本文引用: 1]

VARIOR R R, SHUAI B, LU J, et al. A siamese long short-term memory architecture for human Re-identification [C]// Proceedings of the European Conference on Computer Vision . Amsterdam: Springer, 2016: 135-153.

[本文引用: 1]

SONG C, HUANG Y, OUYANG W, et al. Mask-guided contrastive attention model for person re-identification [C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Salt Lake City: IEEE, 2018: 1179-1188.

[本文引用: 2]

YE M, LIANG C, WANG Z, et al. Ranking optimization for person re-identification via similarity and dissimilarity [C]// Proceedings of the ACM International Conference on Multimedia. Brisbane: ACM, 2015: 1239-1242.

[本文引用: 1]

TIAN M, YI S, LI H, et al. Eliminating background-bias for robust person re-identification [C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition . Salt Lake City: IEEE, 2018: 5794-5803.

[本文引用: 1]

ZHANG X, ZHU X, TANG M, et al. Deep learning for human parsing: a survey [EB/OL]. (2023-01-29)[2024-07-06]. https://arxiv.org/pdf/2301.12416.

[本文引用: 1]

刘俊婧, 郑宛露, 王少荣. 基于双重注意力及边缘约束的人体解析方法[EB/OL]. (2024-04-26)[2024-07-06]. https://github.com/shaorongwang/HumanParsing/blob/main/Human%20Parsing.pdf.

[本文引用: 1]

FU J, LIU J, TIAN H, et al. Dual attention network for scene segmentation [C]// Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition . Long Beach: IEEE, 2019: 3146-3154.

[本文引用: 1]

LUO H, JIANG W, GU Y, et al

A strong baseline and batch normalization neck for deep person re-identification

[J]. IEEE Transactions on Multimedia, 2019, 22 (10): 2597- 2609

[本文引用: 1]

PARK J, WOO S, LEE J Y, et al. BAM: bottleneck attention module [C]// Proceedings of the British Machine Vision Conference . London: BMVA Press, 2018: 147-160.

[本文引用: 1]

ZHENG L, SHEN L, TIAN L, et al. Scalable person re-identification: a benchmark [C]// Proceedings of the IEEE/CVF International Conference on Computer Vision . Santiago: IEEE, 2015: 1116-1124.

[本文引用: 2]

ZHENG Z, ZHENG L, YANG Y. Unlabeled samples generated by GAN improve the person re-identification baseline in vitro [C]// Proceedings of the IEEE/CVF International Conference on Computer Vision . Venice: IEEE, 2017: 3754-3762.

[本文引用: 1]

WANG X, DORETTO G, SEBASTIAN T, et al. Shape and appearance context modeling [C]// IEEE 11th International Conference on Computer Vision . Rio de Janeiro: IEEE, 2007: 1-8.

[本文引用: 1]

HERMANS A, BEYER L, LEIBE B. In defense of the triplet loss for person re-identification [C]// IEEE/CVF Conference on Computer Vision and Pattern Recognition Workshops. Long Beach: IEEE, 2019: 1526-1535.

[本文引用: 1]

LI W, ZHAO R, XIAO T, et al. Deepreid: deep filter pairing neural network for person re-identification [C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition . Columbus: IEEE, 2014: 152-159.

[本文引用: 1]

LI W, ZHU X, GONG S. Person re-identification by deep joint learning of multi-loss classification [C]// Proceedings of the 26th International Joint Conference on Artificial Intelligence. Melbourne: IJCAI Press, 2017: 2194-2200.

[本文引用: 1]

LI W, ZHU X, GONG S. Person re-identification by deep joint learning of multi-loss classification [C]// Proceedings of the 26th International Joint Conference on Artificial Intelligence . Melbourne: IJCAI Press, 2017: 2194-2200.

[本文引用: 1]

ZHANG X, LUO H, FAN X, et al. AlignedReID: surpassing human-level performance in person re-identification [EB/OL]. (2018-01-31)[2024-07-06]. https://arxiv.org/pdf/1711.08184.

[本文引用: 2]

LI W, ZHU X, GONG S. Harmonious attention network for person re-identification [C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition . Salt Lake City: IEEE, 2018: 2285-2294.

[本文引用: 2]

SUN Y, ZHENG L, YANG Y, et al. Beyond part models: person retrieval with refined part pooling (and a strong convolutional baseline [C]// Proceedings of the European Conference on Computer Vision . Munich: Springer, 2018: 480-496.

[本文引用: 2]

WANG C, ZHANG Q, HUANG C, et al. Mancs: a multi-task attentional network with curriculum sampling for person re-identification [C]// Proceedings of the European Conference on Computer Vision . Munich: Springer, 2018: 365-381.

[本文引用: 2]

ZHOU K, YANG Y, CAVALLARO A, et al. Omni-scale feature learning for person re-identification [C]// Proceedings of the IEEE/CVF International Conference on Computer Vision . Seoul: IEEE, 2019: 3702-3712.

[本文引用: 2]

QUAN R, DONG X, WU Y, et al. Auto-reid: searching for a part-aware convnet for person re-identification [C]// Proceedings of the IEEE/CVF International Conference on Computer Vision . Seoul: IEEE, 2019: 3750-3759.

[本文引用: 2]

WANG G, YANG S, LIU H, et al. High-order information matters: learning relation and topology for occluded person re-identification [C]// Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition . Seattle: IEEE, 2020: 6449-6458.

[本文引用: 2]

TAN H, LIU X, BIAN Y, et al

Incomplete descriptor mining with elastic loss for person re-identification

[J]. IEEE Transactions on Circuits and Systems for Video Technology, 2021, 32 (1): 160- 171

[本文引用: 2]

JIA M, CHENG X, LU S, et al

Learning disentangled representation implicitly via transformer for occluded person re-identification

[J]. IEEE Transactions on Multimedia, 2022, 2 (6): 1294- 1305

[本文引用: 2]

/