浙江大学学报(工学版), 2026, 60(1): 71-80 doi: 10.3785/j.issn.1008-973X.2026.01.007

计算机技术

姿态引导的双分支换装行人重识别网络

周思瑶,, 夏楠,, 江佳鸿

大连工业大学 信息科学与工程学院,辽宁 大连 116034

Pose-guided dual-branch network for clothing-changing person re-identification

ZHOU Siyao,, XIA Nan,, JIANG Jiahong

School of Information Science and Engineering, Dalian Polytechnic University, Dalian 116034, China

通讯作者: 夏楠,男,副教授,博士. orcid.org/0009-0000-6591-0572. E-mail:xianan@dlpu.edu.cn

收稿日期: 2025-01-24  

基金资助: 教育部产学合作协同育人资助项目(220603231024713).

Received: 2025-01-24  

Fund supported: 教育部产学合作协同育人资助项目(220603231024713).

作者简介 About authors

周思瑶(2000—),女,硕士生,从事行人重识别研究.orcid.org/0009-0005-9352-443X.E-mail:220520854000543@xy.dlpu.edu.cn , E-mail:220520854000543@xy.dlpu.edu.cn

摘要

针对换装行人重识别任务中由复杂环境和行人服装变化等因素导致的识别精度下降的问题,提出姿态引导的双分支换装行人重识别网络PGNet,该网络采用以外观特征为基础、由姿态特征引导的双分支结构. 为了有效去除服装相关信息的干扰,降低其对模型性能的影响,同时保留深度表征特征,设计多层次特征融合模块;构建动作关联和自然拓扑邻接矩阵,组合为双重矩阵后输入图卷积网络,并引入邻接矩阵加权机制以增强模型对姿态特征的捕捉能力;采用双线性多特征池化方法增强姿态与外观特征的互补性,从而提升识别精度. 实验结果表明,PGNet在换装数据集PRCC、VC-Clothes、Celeb-reID以及Celeb-reID-light上的mAP指标分别为60.5%、84.7%、15.7%、22.6%,Rank-1指标分别为63.7%、93.3%、59.5%、41.2%,优于SirNet等其他对比方法,验证了所提方法能够有效降低服装变化的影响,并显著提高识别精度.

关键词: 换装行人重识别 ; 姿态引导 ; 特征融合 ; 图卷积网络 ; 注意力机制

Abstract

A pose-guided dual-branch clothing-changing person re-identification network (PGNet) was proposed to address the issue of reduced recognition accuracy in the clothing-changing person re-identification tasks caused by complex environments and clothing variations. The network adopted a dual-branch architecture based on appearance features and guided by pose features. To effectively remove the interference of clothing-related information, reduce its impact on model performance, and preserve the deep representational features, a multi-level feature fusion module was designed. An action-related adjacency matrix and a natural topology adjacency matrix were constructed and combined to form a dual adjacency matrix, which was input into the graph convolutional network. An adjacency matrix weighting mechanism was introduced to enhance the model’s ability to capture pose features. A bilinear multi-feature pooling method was adopted to enhance the complementarity between the pose features and the appearance features, thereby improving the recognition accuracy. Experimental results demonstrated that the PGNet achieved mAP values of 60.5%, 84.7%, 15.7%, 22.6%, and Rank-1 accuracies of 63.7%, 93.3%, 59.5%, 41.2% on the clothing-changing datasets of PRCC, VC-Clothes, Celeb-reID, and Celeb-reID-light, respectively, outperforming other comparative methods such as SirNet. The proposed method can effectively reduce the impact of clothing variations and significantly improve the recognition accuracy.

Keywords: clothing-changing person re-identification ; pose guide ; feature fusion ; graph convolutional network ; attention mechanism

PDF (1117KB) 元数据 多维度评价 相关文章 导出 EndNote| Ris| Bibtex  收藏本文

本文引用格式

周思瑶, 夏楠, 江佳鸿. 姿态引导的双分支换装行人重识别网络. 浙江大学学报(工学版)[J], 2026, 60(1): 71-80 doi:10.3785/j.issn.1008-973X.2026.01.007

ZHOU Siyao, XIA Nan, JIANG Jiahong. Pose-guided dual-branch network for clothing-changing person re-identification. Journal of Zhejiang University(Engineering Science)[J], 2026, 60(1): 71-80 doi:10.3785/j.issn.1008-973X.2026.01.007

行人重识别是计算机视觉领域的重要任务,旨在对不同监控视角下的目标行人进行关联匹配[1-2],相关技术被广泛应用于智能监控[3]、安防[4]等领域. 现有研究大多关注于短时间跨度[5-6]内行人不改变自身着装的情况下的匹配,所用方法通常以目标外观特征为主要判别依据. 然而,当进行时间跨度大的行人检索时,季节更替、气候变化或者特定情况下的人为换装等因素导致外观特征不稳定,这使得过度依赖外观特征信息进行判别的模型可能会产生错误匹配的情况.

为了解决上述问题,引入换装行人重识别任务,专注于应对换装场景下的行人检索[7-9]. 主要采用特征解耦和多特征融合2类方法. 在第1类方法中,Wang等[10]利用生成对抗网络生成服装变化图像,引导模型学习与服装无关的特征;由于这种方法可能在生成过程中引入无关的噪声特征,通过特征重构的方法解耦服装特征,即分离出服装相关特征并重建与服装无关的特征表示. Yang等[11]提出与采样无关的鲁棒特征表示网络,从样本中学习解耦的特征嵌入. Gu等[12]通过抑制模型对服装的预测能力,削弱服装相关信息的干扰. 第2类方法通过引入与服装无关的显式特征,如人体骨架结构[13]、行走姿态[14]、面部特征[15]等,削弱对服装特征的依赖,增强模型在不同换装场景下的鲁棒性. Zhu等[16]通过生成人体部位的伪标签,在特征图上进行分组学习,以强调人体部位等不变特征. Liu等[17]通过对服装以外的局部区域特征进行相关性计算,对不变特征进行加权以削弱服装敏感性. Mu等[18]提出身体形状引导模块,利用空间注意力机制引导模型聚焦于身体形状区域. Zhang等[19]通过引入多生物特征分支,提取人脸、颈部、肩部等部位的特征来抵抗着装变化的影响. Li[20]利用轮廓和人脸特征信息提取与服装无关的特征. Nguyen等[21]构建关系形状嵌套分支,结合人体姿态关键点和图注意力网络来提取局部和全局的身体形状信息. 然而,上述对于局部区域相关性的计算方法忽略了全局特征的整合,可能导致其判别能力受限;而仅针对单一局部或整体骨架特征建模的方法未能充分挖掘骨架节点间的关联性.

受Nguyen等[21]工作的启发,进一步关注人体关键点之间的拓扑结构关系. 通过提取人体骨架信息,挖掘潜在的结构特征,并引入图卷积网络(graph convolutional network, GCN),利用其强大的建模能力对人体姿态特征进行深层次表征,增强模型对人体骨架信息的表达能力. 图卷积网络因其能够有效捕捉数据中节点间的复杂关系,已被广泛应用于姿态估计[22-23]、动作识别[24]等任务. 许多研究尝试将其应用于行人重识别任务. Sun等[25]提出基于小波函数的图卷积模块,利用从图像中提取的语义局部特征,结合图卷积模块聚合高阶特征,从而在受污染的图像中增强人体结构信息的鲁棒性. Huang等[26]为了解决遮挡问题,设计推理调优图注意网络,通过计算特征相似性生成注意力得分,指导图卷积网络抑制遮挡区域的噪声干扰. Lian等[27]基于图结构进行局部特征建模,构建重叠图和相似度图,以整合行人图像间的局部特征关系. 尽管这些方法在捕捉人体关键点拓扑关系方面有一定优势,但是在处理复杂的关键点关系时仍然存在不足,且未能充分利用人体骨架中关键点之间的全局空间关联性. 因此,选择以行人骨架为图节点,结合与行人动作相关的拓扑结构构建邻接矩阵,通过图卷积网络自适应建模关键点之间的空间关联性,削弱着装变化的干扰,进一步提升模型的判别能力.

尽管关于多特征融合方法的研究已有一定进展,但是在复杂的换装场景下,仍然面临以下难点:1)在换装场景下,如果环境复杂,模型在提取行人特征时会受到无关因素的干扰,如何减少这些干扰并充分挖掘潜在特征信息;2)在显式特征提取过程中,目标特征可能与服装区域的浅层像素信息相互干扰,导致提取效果不佳,影响匹配精度.

针对以上2个问题,提出姿态引导的双分支换装行人重识别网络PGNet,主要工作包括:1)提出姿态引导的双分支结构,分别从人体结构以及以人脸特征为主的外观特征2个视角进行特征信息提取,强化模型对服装无关信息的学习能力. 2)在姿态特征引导分支中,利用高分辨率网络提取人体关键点特征,并结合图卷积神经网络,设计邻接矩阵加权模块(adjacency matrix weighting module, AMWM),以加强局部细节捕获能力并丰富全局特征表达. 3)外观特征分支采用语义分割模型对图像进行语义解析,擦除服装区域,弱化服装干扰. 同时,提出多层次特征融合模块(aggregated feature fusion module, AFFM),以避免在改变服装区域像素信息时影响深层语义特征的表达. 采用双线性多特征池化(bilinear multi-feature pooling, BMFP)方法,通过捕获高阶特征相关性,增强特征区分能力,提升模型性能.

1. 研究方法

1.1. 整体框架

在换装行人重识别任务中,行人着装的变化容易导致模型过度关注服装区域特征,进而影响身份判别的准确性. 为此,提出姿态引导的换装行人重识别网络PGNet,整体结构如图1所示. 网络主要由姿态特征引导分支和以人脸特征为主的外观特征分支2部分组成.

图 1

图 1   姿态引导的双分支换装行人重识别网络PGNet的整体结构图

Fig.1   Overall structure diagram of pose-guided dual-branch network (PGNet) for clothing-changing person re-identification


为了弱化服装特征对模型的干扰,在PGNet中引入人体骨架结构特征,通过辅助建模提取与服装无关的判别信息. 考虑到高分辨率网络(high-resolution network, HRNet)[28]在高分辨率特征提取,特别是多尺度分支融合和人体关键点检测方面的突出表现,选择ImageNet[29]预训练的HRNet作为2个分支的主干网络. HRNet在高分辨率特征学习过程中,能够保留关键点和边缘等人体结构信息,从而引导模型关注与服装无关的判别特征. 在数据预处理阶段,使用在LIP(look in to person)数据集上预训练的人体解析自矫正(self-correction for human parsing, SCHP)[30]模型对行人图像进行语义分割,将解析区域分为着装区和着装无关区域,并对着装区域进行擦除操作. 将处理后的图像输入到外观特征分支中,通过HRNet进行特征提取,提取着装无关区域的判别特征如头、手、脚等,同时将原始行人图像输入到姿态特征引导分支中,提取人体的17个关键点信息,并通过基于图卷积网络的姿态特征增强模块,强化骨架节点间的结构关联性. 在特征提取阶段,设计多层次特征融合模块AFFM,实现姿态与外观特征的联合表达,有效补充因服装区域擦除而缺失的深层特征信息. 最终,采用双线性多特征池化方法对2个分支的融合特征进行深度关联建模,并在预测阶段利用批归一化(batch normalization, BN)层输出的特征表示进行身份识别.

1.2. 姿态特征引导分支

为了充分挖掘和利用人体结构特征,设计姿态特征引导分支. 该分支由人体关键点信息增强和基于GCN的姿态特征聚合2个核心部分组成,其中姿态特征聚合包括双重邻接矩阵加权以及基于GCN的全局特征增强.

首先,将原始行人图像${\boldsymbol{I }}\in {{\mathbf{R}}^{H \times W \times C}}$输入至HRNet网络中,得到最深层次的特征图$ {{\boldsymbol{F}}_{\text{c}}} \in {{\mathbf{R}}^{H \times W \times C}} $,其中$H$$W$$C$分别为图像的高、宽以及通道数. 通过1个$1 \times 1$卷积生成17个关节点的热图${{\boldsymbol{H}}_{\text{c}}} \in {{\mathbf{R}}^{H \times W \times V}}$$V$为提取的人体关键点个数,本研究中$V$=17. 随后,将关键点热图与提取的特征图逐点相乘:

$ {{\boldsymbol{F}}_{{\text{in}}}} = {{\boldsymbol{F}}_{\text{c}}} \odot {{\boldsymbol{H}}_{\text{c}}}. $

式中:$ \odot $表示逐元素相乘运算,${{\boldsymbol{F}}_{{\text{in}}}} \in {{\mathbf{R}}^{H \times W \times V}}$为经过增强后的特征图,${{\boldsymbol{F}}_{\text{c}}}$为通过HRNet网络得到的特征图,${{\boldsymbol{H}}_{{{\mathrm{c}}}}}$中的每个通道对应于1个关键点的空间响应. 这一操作在空间位置上强调了人体关键点所在区域的特征,抑制了背景与非关键点区域的干扰.

传统研究中的图卷积网络通常依据人体自然拓扑结构构建邻接矩阵. 对于人体骨架节点,不同姿态估计方法有不同的定义方式. 本研究使用的HRNet算法输出17个人体关键点,再根据连接方式构建边. 一般这种基于节点一阶邻接的构建方式只考虑与中心节点的欧氏距离为1的邻居节点,忽略了人体骨架中非直接相邻的节点之间的潜在关系. 为此,结合行人重识别任务中的典型行为模式,提出双重邻接矩阵构建策略并设计邻接矩阵加权模块AMWM,以突出关键骨架节点之间的联系. 一方面,基于人体骨架的自然拓扑结构,构建标准邻接矩阵$ {{\boldsymbol{A}}_{\text{b}}} \in {{\mathbf{R}}^{V \times V}} $. 具体而言,如果关键点在人体骨架结构中直接相连,则矩阵对应位置为1,否则为0. 该矩阵反映了人体关键点的物理连接,能够有效捕获局部骨架信息. 另一方面,考虑到人体在行走、站立等常见行为中的动态运动特性,设计动作关联邻接矩阵${{\boldsymbol{A}}_{\text{m}}} \in {{\mathbf{R}}^{V \times V}}$,将鼻、腕、膝、踝对应节点相互连接;如果2个节点之间存在连接关系,矩阵中对应位置为1,否则为0. 自然拓扑邻接矩阵和动作关联邻接矩阵的构建方式如图2所示.

图 2

图 2   邻接矩阵构建示意图

Fig.2   Schematic diagram of adjacency matrix construction


仅构建动作相关节点的连接不足以准确建模姿态信息,且由于引入了额外的邻接矩阵,拓扑结构中的节点连接关系变得更加复杂,图卷积操作可能引入无关或冲突的信息. 为了解决该问题,设计邻接矩阵加权模块AMWM,以动态调整节点间的连接强度,并针对关键点增强后的特征图${{\boldsymbol{F}}_{{\text{in}}}}$实现对邻接矩阵的自适应加权,突出关键骨架节点之间的重要联系,AMWM结构如图3所示. 将进行关键点增强后的特征图${{\boldsymbol{F}}_{{\text{in}}}}$的维度展平,得到1个向量表示${\boldsymbol{X}} \in {{\mathbf{R}}^{N \times V}}$,其中$ N = H \times W $;并通过2个线性层对特征进行处理. 具体而言,首先通过线性层对节点特征进行投影,增强特征表示能力,其中第1个线性层的输出${{\boldsymbol{W}}_1} \in {{\mathbf{R}}^{N \times V}}$和第2个线性层的输出${{\boldsymbol{W}}_2} \in {{\mathbf{R}}^{N \times V}}$分别为映射到2个不同线性空间得到的节点之间的权重关系.对第2个线性层的输出进行转置操作,将原始节点特征投影到新的特征空间以增强表示能力,接着计算节点之间的相似度,通过内积计算特征相似性.

图 3

图 3   邻接矩阵加权模块结构图

Fig.3   Structure diagram of adjacency matrix weighting module


$ \boldsymbol{S}= \boldsymbol{W}_2^{\mathrm{T}}\otimes \boldsymbol{W}_1 . $

式中:${\boldsymbol{S}} \in {{\mathbf{R}}^{V \times V}}$表示节点之间的特征相似性. 对${\boldsymbol{S}}$进行Softmax归一化处理,得到注意力矩阵${\boldsymbol{W}}\in {{\mathbf{R}}^{V \times V}}$

$ \boldsymbol{W}=\operatorname{softmax}\;(\boldsymbol{S}). $

${\boldsymbol{W}}$应用到2个邻接矩阵${{\boldsymbol{A}}_{\text{b}}}$${{\boldsymbol{A}}_{\text{m}}}$上:

$ \boldsymbol{A}=\boldsymbol{W} \cdot \boldsymbol{A}_{\mathrm{b}} \cdot \boldsymbol{W}^{\mathrm{T}}+\boldsymbol{W} \cdot \boldsymbol{A}_{\mathrm{m}} \cdot \boldsymbol{W}^{\mathrm{T}} , $

$ {\boldsymbol{A}}_{\mathrm{ad}}=\operatorname{softmax}\;({\boldsymbol{A}}) . $

式中:$ {\boldsymbol{A}}、{{\boldsymbol{A}}}_{\text{ad}}\in {{\bf{R}}}^{V\times V} $${\boldsymbol{A}}$为自然拓扑邻接矩阵与动作关联邻接矩阵加权融合后的邻接矩阵,${{\boldsymbol{A}}_{{\text{ad}}}}$由Softmax权重归一化处理后得到. 通过矩阵${\boldsymbol{W}}$重新加权节点连接,再通过${{\boldsymbol{W}}^{\text{T}}}$汇总特征,捕获节点之间的双向依赖,最后将人体拓扑和动作相关拓扑信息融合,使用Softmax函数进行标准化处理.

最后,将融合后的邻接矩阵${{\boldsymbol{A}}_{{\text{ad}}}}$${\boldsymbol{X}}$输入到GCN中进行特征学习.

$ \boldsymbol{F}_{\mathrm{gcn}}=\operatorname{GCN}\left(\boldsymbol{X}, \boldsymbol{A}_{\mathrm{ad}}\right) . $

式中:${{\mathrm{GCN}}} \left( \cdot \right)$表示图卷积网络对输入的节点特征进行邻域特征聚合处理,${{\boldsymbol{F}}_{{\text{gcn}}}} \in {{\mathbf{R}}^{N \times V}}$为经过GCN得到的姿态增强特征. GCN结构包括2个图卷积层,每层先通过图卷积计算节点特征,再对输出特征应用ReLU激活函数及Dropout操作来进行非线性变换和正则化处理,以增强模型的泛化能力.

1.3. 外观特征分支

由于服装区域的浅层像素信息可能在特征提取过程中引入噪声干扰,即使在削弱服装特征的前提下,模型的表征能力仍然可能受到影响. 为了应对此问题,设计外观特征分支,重点强化以人脸为主的特征信息表达. 该分支由3部分组成,包括图像去衣预处理、局部区域特征提取以及特征融合预测. 在特征提取部分设计多层次特征融合模块AFFM,该模块聚合了来自2个分支的多尺度深层特征,能够增强局部与全局特征的协同表达. 采用双线性池化方法融合姿态特征和外观特征,使融合后的特征经过BN层,最终生成用于行人重识别预测的特征表示.

为了有效去除输入图像中的服装特征,引入人体解析模型,用于精确分割服装区域. 具体而言,LIP数据集中定义了20个语义标签,包括“上层服装”、“连衣裙”、“外套”、“裤子”等与服装相关的关键类别. 使用在LIP数据集上预训练的SCHP模型对输入图像进行语义分割处理,提取所有与服装有关的像素区域,并执行像素擦除操作,将所有服装区域的像素值置零,以最小化服装纹理和颜色信息对模型特征提取过程的干扰. 考虑到去衣处理可能导致服装区域的深层特征被破坏,设计AFFM,用于补充服装区域擦除后潜在的深度特征. AFFM的结构如图4所示.

图 4

图 4   多层次特征融合模块结构图

Fig.4   Structure diagram of aggregated feature fusion module


经去衣处理后的行人图像${{\boldsymbol{I}}_{{\text{cc}}}} \in {{\mathbf{R}}^{H \times W \times C}}$被输入HRNet网络中. 为了确保有效的特征补充,从HRNet的第2、3阶段的第1分支提取外观特征$ {{\boldsymbol{G}}_i} \in {{\mathbf{R}}^{H \times W \times C}} (i = 2,3)$. 同理,从姿态特征引导分支提取第2、3阶段的第1分支的输出特征$ {{\boldsymbol{F}}_i} \in {{\mathbf{R}}^{H \times W \times C}}(i = 2,3) $,并与${{\boldsymbol{G}}_i}$共同作为AFFM的输入. 首先,沿通道维度将姿态特征与外观特征拼接,形成联合特征表示${\boldsymbol{F}} \in {{\mathbf{R}}^{H \times W \times 2C}}$.

$ \boldsymbol{F}=\operatorname{concat}\;\left(\boldsymbol{F}_i, \boldsymbol{G}_i\right) . $

式中:${{\mathrm{concat}}}\; ( \cdot )$表示矩阵通道维度连接操作. 针对拼接后的特征图执行平均池化和最大池化操作,生成平均注意力图与最大注意力图并进行拼接,增强全局结构和局部细节的捕获能力.

$ \boldsymbol{F}_{\text {cat }}=\operatorname{concat}\;\left[\operatorname{MeanPool}\;(\boldsymbol{F}), \operatorname{MaxPool}\;(\boldsymbol{F})\right] . $

式中:${{\boldsymbol{F}}_{{\text{cat}}}} \in {{\mathbf{R}}^{1 \times 1 \times 4C}}$为拼接后的池化特征,$ {{\mathrm{MeanPool}}}\; ( \cdot ) $表示平均池化操作,${{\mathrm{MaxPool}}}\; ( \cdot )$全局最大池化操作. 其次,利用深度可分离卷积进一步提取特征关联性,通过Sigmoid激活函数学习自适应权重,以动态调整不同特征的重要性.

$ \boldsymbol{M}=\sigma\left(\operatorname{DSConv}_{7 \times 7}\left(\boldsymbol{F}_{\mathrm{cat}}\right)\right) . $

式中:${{{\mathrm{DSConv}}} _{7 \times 7}}\; (\cdot )$表示深度可分离卷积操作,$ \sigma\; (\cdot ) $为Sigmoid激活函数,${\boldsymbol{M}} \in {{\mathbf{R}}^{1\times 1 \times C}}$为学习到的自适应权重. 将加权结果与输入特征进行逐元素相乘后相加,实现特征的自适应增强. 通过$3 \times 3$卷积层、批归一化层以及ReLU激活函数对加权融合后的特征进行进一步的调整,生成最终的深度特征输出${{\boldsymbol{H}}_i} \in {{\mathbf{R}}^{H \times W \times C}}(i = 2,3)$. AFFM在保留重识别所需的深度特征信息的同时,有效抑制了与服装颜色和纹理等相关的浅层冗余信息. 输入图像${{\boldsymbol{I}}_{{\text{cc}}}}$经过特征提取网络后,得到深层次特征图${{\boldsymbol{F}}_{\text{s}}} \in {{\mathbf{R}}^{H \times W \times C}}$.

为了有效融合姿态特征${{\boldsymbol{F}}_{{\text{gcn}}}}$和外观特征${{\boldsymbol{F}}_{\text{s}}}$,采用双线性池化方法[31]融合特征,充分挖掘2种特征的联合表示. 为了确保特征维度对齐,首先采用双线性插值法将姿态特征${{\boldsymbol{F}}_{{\text{gcn}}}}$调整至与外观特征${{\boldsymbol{F}}_{\text{s}}}$的空间分辨率一致,得到$ {\boldsymbol{F}}'_{{\text{gcn}}} \in {{\mathbf{R}}^{H \times W \times V}} $. 随后对调整后的姿态特征与外观特征进行逐元素外积运算,获得联合特征表示:

$ \boldsymbol{F}_{\mathrm{b}}=\boldsymbol{F}_{\mathrm{gcn}}^{\prime} \otimes \boldsymbol{F}_{\mathrm{s}} . $

式中:$ \otimes $表示逐元素外积运算;$ {{\boldsymbol{F}}_{\text{b}}} \in {{\mathbf{R}}^{H \times W \times {C'}}} $为得到的特征,其中$ {C'} = C \times V $. 将联合特征表示${{\boldsymbol{F}}_{\text{b}}}$展平并进行混合池化操作,得到全局平均池化特征${{\boldsymbol{F}}_{{\text{GAP}}}} \in {{\mathbf{R}}^{1 \times 1 \times {C'}}}$和全局最大池化特征${{\boldsymbol{F}}_{{\text{GMP}}}} \in {{\mathbf{R}}^{1 \times 1 \times {C'}}}$,并生成多尺度全局特征:

$ \boldsymbol{F}_{\mathrm{p}}=\boldsymbol{F}_{\mathrm{GAP}} \oplus \boldsymbol{F}_{\mathrm{GMP}}. $

式中:$ \oplus $表示逐元素相加运算,${{\boldsymbol{F}}_{{\text{GAP}}}}$${{\boldsymbol{F}}_{{\text{GMP}}}}$分别为${{\boldsymbol{F}}_{\text{b}}}$经过全局平均池化和全局最大池化后的特征, ${{\boldsymbol{F}}_{\text{p}}} \in {{\mathbf{R}}^{1 \times 1 \times {C'}}}$为融合后的特征. 最后,为了进一步增强模型表达能力,引入空间注意力机制,通过Sigmoid函数得到表示每个通道重要性的注意力图${{\boldsymbol{W}}_{\text{s}}} \in {{\mathbf{R}}^{1 \times 1 \times {C'}}}$,并将空间注意力图与双线性池化后的特征图进行逐元素相乘,得到加权后的特征图${{\boldsymbol{F}}_{\text{t}}} \in {{\mathbf{R}}^{H \times W \times {C'}}}$.

1.4. 损失函数

在模型训练过程中,采用三元组损失和交叉熵损失函数来提高模型对行人重识别任务的识别精度.

三元组损失函数通过约束样本间的特征空间距离,缩小同一个身份样本之间的特征距离,同时增大不同身份样本之间的特征距离,增强身份特征的判别能力,其数学表达式为

$ L_{\mathrm{tpl}}=\frac{1}{B} \sum_{i=1}^B \max \left\{d_{\mathrm{p}}-d_{\mathrm{n}}+m, 0\right\}. $

式中:$B$为批量大小,${d_{\text{p}}}$为锚点样本与正样本间的欧氏距离,${d_{\text{n}}}$为锚点样本与负样本间的欧氏距离,$m$为正负样本距离的最小间隔常数. 本研究中设置m=0.3.

交叉熵损失函数一般用于分类任务,通过最大化正确类别的预测概率来优化分类性能,其表达式为

$ {L_{{\text{id}}}} = - \sum\limits_{i = 1}^N {{y_i}\ln\; ({p_i})} . $

式中:$N$表示类别数;${y_i}$为真实类别的指示函数,当类别匹配时取值为1,否则为0;${p_i}$为模型预测的输入样本属于第i个身份类别的概率.

最终的损失函数由三元组损失与交叉熵损失组成,旨在同时优化样本间的特征距离和分类性能,定义为

$ {L_{{\text{total}}}} = {L_{{\text{id}}}}+{L_{{\text{tpl}}}}. $

2. 实 验

2.1. 数据集及评价指标

分别在数据集PRCC[32]、VC-Clothes[33]、Celeb-reID[34]以及Celeb-reID-light[34]上对PGNet进行性能验证. PRCC数据集包含221个行人身份的33 698张图像,涵盖A、B、C共3个摄像视角,包含2次着装变化,并涉及光线变化、图像模糊等挑战,适合用于全面评估换装行人重识别模型的鲁棒性. VC-Clothes数据集中有512个行人身份,提供4个视角,其中第2、3视角中的图像保持同一套服装,第1、4视角下行人更换2套不同服装. 相较于PRCC数据集,VC-Clothes数据集的场景更加多样化,每个行人身份包含4种不同环境的图像. Celeb-reID数据集包含1 052个行人身份,其中更换服装的图像占比为70%. 该数据集中不仅行人数量多而且服装更换较为频繁,同一行人的换衣风格差距大,使得模型在识别过程中需要有效区分不同服装特征下的行人身份. Celeb-reID-light数据集为Celeb-reID的子集,训练和测试图像均涉及服装变化. 相比于前2个数据集,其环境更复杂,如人群密集的街道场景,增加了模型准确识别行人的难度.

采用平均精度均值(mean average precision, mAP)和Rank-n这2个评价指标来评估模型性能. 其中,mAP用于衡量检索目标在图库中正确图像的排名靠前程度,通过对所有检索目标的平均精度取均值,反映模型的整体检索性能;Rank-n表示在检索结果中按照相似度由高到低排序时,前n个结果中包含正确匹配的概率,常用指标如Rank-1.

2.2. 实验设置

在NVIDIA GeForce RTX3090 GPU的环境下,基于Pytorch框架进行模型训练与评估. 输入图像的尺寸调整为256×128. 在数据增强方面,应用随机水平翻转、随机擦除和随机填充等操作,以增强模型的鲁棒性与泛化能力. 在模型训练过程中,将批量大小设置为64,并使用Adam优化器. 初始学习率设为$3.5 \times {10^4}$,其中学习率在第40和第60个周期时分别缩小到原来的10%. 模型训练总共持续80个周期. 在测试阶段,从模型最后的批归一化层中提取深度特征向量,作为行人图像的特征表示. 在图像匹配过程中,通过计算查询图像和图库图像之间的特征欧氏距离来完成行人身份检索.

2.3. 对比实验

采用mAP和Rank-1指标,在PRCC、VC-Clothes、Celeb-reID以及Celeb-reID-light数据集上对模型性能进行全面评估,重点分析模型在常规和换衣情况下的表现. 选取的对比算法主要涵盖传统行人重识别方法、基于RGB图像的换装行人重识别方法以及基于姿态特征引导的换装行人重识别方法,其中PCB、AGW、TransReID为具有代表性的传统行人重识别算法;在换装条件下的行人重识别算法中,CAL、CRE+BSGA、SCNet、CDM+GCA、IRM、IMS-GEP、SirNet、RCSANet依赖RGB图像进行身份判别,不利用其他生物特征;PGAL、ACID、MBUNet进一步引入姿态特征信息以提升模型在服装变化场景下的鲁棒性. 如表1所示,对所提方法和现有主流方法在PRCC和VC-Clothes数据集上进行性能对比,其中最优结果以粗体表示,次优结果由下划线标出. 由于部分方法的源码未公开,无法复现实验结果,对比时采用论文中提供的数据,对于未提供的数据项,表1中以“—”标出. 在PRCC常规场景下,所提方法的mAP达到99.2%,Rank-1指标为99.8%,展现出在常规场景下的优秀性能,表明所提方法能够满足常规场景下行人重识别任务的高精度需求. 在PRCC换衣场景下,测得所提方法的mAP为60.5%,Rank-1为63.7%,展现出在应对行人换衣场景时的特征提取能力,验证了其在复杂换衣场景下的优势.

表 1   不同方法在PRCC和VC-Clothes数据集上的性能对比

Tab.1  Performance comparison of different methods on PRCC and VC-Clothes datasets

方法PRCC常规场景PRCC换衣场景VC-Clothes常规场景VC-Clothes换衣场景
mAP/%Rank-1/%mAP/%Rank-1/%mAP/%Rank-1/%mAP/%Rank-1/%
PCB[2]97.099.838.741.874.687.462.262.0
AGW[5]89.097.837.139.789.791.182.192.0
CAL[12]99.2100. 055.855.295.395.187.292.9
TransReID[6]97.098.245.042.993.892.481.090.4
CRE+BSGA[18]97.399.658.761.888.294.484.384.5
SCNet[15]97.8100. 059.961.389.694.984.490.1
IMS-GEP[1]99.899.765.857.394.994.781.781.8
CDM+GCA[7]94.399.361.364.892.893.182.783.7
IRM[4]52.354.280.190.1
PGAL[14]58.759.5
PGNet99.299.860.563.791.395.484.793.3

新窗口打开| 下载CSV


在VC-Clothes数据集上,所提方法在换衣场景中表现优异,Rank-1为93.3%,优于其他对比方法,相较于次优方法CAL提升了0.4个百分点,验证了其在应对换衣场景时的表征能力. 在常规场景中,所提方法测得的Rank-1指标为95.4%,较次优方法SCNet提升了0.5个百分点;在mAP指标上,测得结果为91.3%,体现了模型在无着装变化场景下的高检索准确率. 总体而言,提出的PGNet在涉及复杂服装变化的行人重识别任务中具有较大的优势,同时在常规场景下也保持了较高的准确率. 此外,所提方法在PRCC常规数据集和换装数据集上的结果相差较大,而在VC-Clothes数据集中两者差距并不明显,这种现象可以从2个方面进行分析. 从场景复杂度来看,PRCC数据集场景相对单一且简洁,因此模型在PRCC常规数据集中的结果比在VC-Clothes数据集中的结果略好;但是从更换服装样式的角度来对比时,PRCC数据集中行人更换的服装样式差异大,且不同行人可能穿着相同颜色或相似款式的服装,导致测试难度增大,而VC-Clothes数据集中服装更换样式相对固定,因此模型在其换装数据集与常规数据集上的性能差距较小.

在Celeb-reID和Celeb-reID-light数据集上的性能结果如表2所示. 所提方法在Celeb-reID数据集上的mAP指标为15.7%,较其余对比方法均有提升,相比于次优方法PGAL的mAP提升了0.4个百分点;Rank-1指标为59.5%,验证了PGNet在识别首位匹配时,依然能保持较高的准确率. 在Celeb-reID-light数据集上PGNet的Rank-1指标达到41.2%,超越次优方法PGAL 0.8个百分点,进一步验证了所提方法在复杂环境和频繁换装的情况下依然能够保持较高的准确率.

表 2   不同方法在Celeb-reID和Celeb-reID-light数据集上的性能对比

Tab.2  Performance comparison of different methods on Celeb-reID and Celeb-reID-light datasets

方法Celeb-reIDCeleb-reID-light
mAP/%Rank-1/%mAP/%Rank-1/%
PCB[2]8.745.112.723.9
AGW[5]11.247.113.822.0
TransReID[6]9.345.712.921.2
RCSANet[8]11.955.616.729.5
CAL[12]13.759.218.533.6
ACID[9]11.452.515.827.9
MBUNet[19]12.855.521.535.5
SirNet[11]14.256.020.036.0
PGAL[14]15.360.923.340.4
PGNet15.759.522.641.2

新窗口打开| 下载CSV


此外,在PRCC数据集上进行不同方法在Rank-n指标下的对比实验. 如表3所示,PGNet在PRCC数据集上的Rank-1、Rank-5、Rank-10指标分别为63.7%、70.8%、73.7%,均高于其余对比方法,充分证明了在换装行人重识别任务中,PGNet不仅在首位匹配时展现高准确率,而且在扩大检索范围至前5位或前10位匹配时依然优于其他对比方法,验证了所提方法的有效性.

表 3   PRCC数据集上不同方法的Rank-n指标对比

Tab.3  Comparison of Rank-n metrics of different methods on PRCC dataset

方法Rank-1/%Rank-5/%Rank-10/%
AGW[5]39.745.848.5
TransReID[6]42.947.750.4
SCNet[15]61.368.170.2
IRM[4]54.260.564.2
PGNet63.770.873.7

新窗口打开| 下载CSV


2.4. 实验结果可视化分析

基线模型仅采用HRNet进行特征提取,并利用由BN层生成的特征表示进行身份预测. 图5为PGNet、基线模型和IRM在PRCC数据集上的可视化测试效果对比图. 为了全面评估算法性能,从待检测集query中选择4张行人图像,分别代表正面、侧面、背面以及光线较暗环境这4种典型场景. 从检索结果中选取与待检测图像相似度排前5的图像,虚线边框表示检索结果与待检测图像的行人ID一致,实线边框则为不一致. 可以看出,基线模型的检索性能存在显著局限性. 在多个场景的检索图像中,行人着装与待检索行人的服装相似,这表明基线模型在应对因服装相似导致的检索失败问题时,处理能力存在不足. 尤其在面对不同姿态变化,如行人转身等情况时,其表现出明显缺陷. 相比之下,PGNet的检索效果明显优于基线模型. PGNet运用双分支特征提取融合策略,在服装变化的情况下,能够有效提取与服装无关的判别特征,大幅减少了因服装相似导致的错误检索. 相较于IRM算法,PGNet方法在首位命中率方面表现更优. 特别是在正面视角和低光照环境下,PGNet展现出更高的识别准确率,表明其对光照变化的鲁棒性更强. 然而,在行人侧身姿态下,PGNet的检索性能受到一定影响. 即便如此,相比于IRM算法,PGNet在排序前2的高相似度检索结果的平均准确率上仍然具有优势. 例如,在图5展示的侧身姿态检索示例中,PGNet的前2个检索结果中正确匹配的数量相对更多,体现了其在该场景下的相对优势.

图 5

图 5   PRCC数据集上基线模型、IRM和PGNet的可视化测试结果

Fig.5   Visualization of testing results of baseline model, IRM and PGNet on PRCC dataset


2.5. 消融实验

为了验证方法的有效性,进行消融实验. 在PRCC数据集和VC-Clothes数据集的换衣场景下对PGNet模型的各模块进行测试,以验证各模块对模型性能的影响. 如表4所示,通过逐步去除模块并进行对比,揭示各模块对模型性能提升的关键作用.

表 4   PGNet各模块的消融实验结果

Tab.4  Ablation experimental results of PGNet modules

AFFM矩阵Am+AMWMBMFPPRCCVC-Clothes
mAP/%Rank-1/%mAP/%Rank-1/%
58.360.983.292.6
56.858.682.493.0
59.761.283.893.3
60.563.784.793.3

新窗口打开| 下载CSV


从实验结果来看,各模块对模型性能的提升均有关键作用. 当去除结合邻接矩阵${{\boldsymbol{A}}_{\text{m}}}$和AMWM的GCN部分时,模型在PRCC数据集上的mAP和Rank-1分别下降了3.7个百分点和5.1个百分点,在VC-Clothes数据集上分别下降了2.3个百分点和0.3个百分点. 动作关联邻接矩阵${{\boldsymbol{A}}_{\mathrm{m}}}$通过对行人动作进行拓扑建模,增强了姿态特征对特定动作的捕获能力;AMWM通过基于节点特征相似性的计算对邻接矩阵进行加权,进一步强化了关键骨架节点之间的联系. 去除该部分后,模型对于骨架节点的关联建模能力大幅减弱. 当去除AFFM时,模型在PRCC数据集上的mAP和Rank-1分别下降了2.2个百分点和2.8个百分点,在VC-Clothes数据集上分别下降了1.5个百分点和0.7个百分点. AFFM利用多层次特征整合机制,弥补了缺失的服装深层信息. 去除该模块后,模型对深层特征的整合能力下降,在换衣任务中的鲁棒性受到影响. 去除双线性多特征池化模块BMFP后,模型在PRCC数据集上mAP和Rank-1分别下降了0.8个百分点和2.5个百分点,在VC-Clothes数据集上mAP降低了0.9个百分点. 该方法通过对姿态特征与外观特征进行加权融合,生成联合特征表示,有效避免了简单特征融合可能带来的信息冗余和冲突问题. 去除BMFP后,模型的特征融合效果变差,性能下降. 实验结果表明,各模块从不同层面提升了模型在换衣场景中的表现,证明了提出方法的有效性.

针对姿态特征引导分支中基于GCN的姿态特征聚合部分,分别在PRCC和VC-Clothes数据集的换衣场景下对其进行消融实验,结果如表5所示. 该实验主要验证了双重邻接矩阵与AMWM在这一部分中的作用.

表 5   双重邻接矩阵加权模块及2种邻接矩阵的消融实验结果

Tab.5  Ablation study results of dual adjacency matrix weighting module and two adjacency matrices

方法PRCCVC-Clothes
mAP/%Rank-1/%mAP/%Rank-1/%
矩阵${{\boldsymbol{A}}_{\text{b}}}$57.659.282.993.0
矩阵${{\boldsymbol{A}}_{\text{m}}}$56.858.482.692.8
矩阵${{\boldsymbol{A}}_{\text{m}}}$+AMWM60.563.784.793.3

新窗口打开| 下载CSV


可以看出,单独使用动作关联邻接矩阵时的效果不如单独使用自然拓扑邻接矩阵时的效果,这表明在换衣场景下,仅对关键节点进行建模的方式在特征提取能力上存在局限性,而对人体全局拓扑结构进行建模能更好地保留行人的身份信息. 当结合双重邻接矩阵并引入AMWM时,模型既整合了人体全局姿态特征,又强化了关键节点间的联系,在PRCC换衣场景下mAP指标达到60.5%,相较于单独使用自然拓扑邻接矩阵时提升了2.9个百分点;Rank-1指标为63.7%,提升了4.5个百分点. 这一结果验证了双重邻接矩阵能够同时捕捉人体整体与局部特征,而AMWM通过加权进一步地突出了关键信息,两者协同作用,有效提升了模型对行人身份的判别能力.

2.6. 局限性分析

由于采用双分支结构,并且考虑到行人关键点提取需求及HRNet在高分辨率特征提取方面的优势,选择HRNet作为特征提取网络. 此设计有效增强了模型对细粒度特征的捕获能力,但是不可避免地带来了模型参数量和计算复杂度的增加. 从提出的PGNet与其他方法的实验对比结果中可以看出,在PRCC、VC-Clothes的换装数据集上,所提方法的表现优于其他对比算法,较好地解决了因行人更换衣物导致的模型判别力下降问题. 然而,在常规数据集上,所提方法尚未达到最优性能. 对此现象进行分析:提出的方法基于多特征融合策略,通过提取姿态特征,使模型关注于人体骨架特征;同时,对输入的行人图像进行语义分割处理,弱化了服装区域特征对模型判别能力的影响. 然而,在常规数据集中,服装区域的显著特征如衣服颜色、纹理等通常是行人重识别任务的重要判别依据. 因此,尽管所提方法在处理服装变化问题方面具有优势,但是在无着装变化的场景中,可能对基于衣物特征的区分能力产生一定影响.

3. 结 语

提出姿态引导的双分支换装行人重识别网络PGNet,并通过一系列实验验证了模型在换装任务上具有良好的性能. 实验结果表明,提出的方法有效抑制了服装变化对特征提取过程的干扰,提升了模型在复杂场景下的鲁棒性. 具体而言,PGNet融入了关键点增强和邻接矩阵加权机制,显著增强了对行人姿态特征的捕获能力. 此外,所设计的多层次特征融合模块在融合姿态和外观特征的同时,保持了模型的高效性,增强了模型对行人特征的表达能力. 通过消融实验,进一步验证了各模块在提升网络整体性能中的作用. 未来的研究将进一步完善该方法在常规行人重识别任务中的适用性.

参考文献

ZHAO Z, LIU B, LU Y, et al

Joint identity-aware mixstyle and graph-enhanced prototype for clothes-changing person re-identification

[J]. IEEE Transactions on Multimedia, 2023, 26: 3457- 3468

[本文引用: 2]

SUN Y, ZHENG L, YANG Y, et al. Beyond part models: person retrieval with refined part pooling (and a strong convolutional baseline) [C]// Proceedings of the European Conference on Computer Vision. Munich: Springer, 2018: 501–518.

[本文引用: 3]

闫禹铭, 何剑锋, 李殊昭, 等

现实场景下行人身份识别

[J]. 浙江大学学报: 工学版, 2021, 55 (11): 2022- 2032

[本文引用: 1]

YAN Yuming, HE Jianfeng, LI Shuzhao, et al

Identity recognition under real scenes

[J]. Journal of Zhejiang University: Engineering science, 2021, 55 (11): 2022- 2032

[本文引用: 1]

HE W, DENG Y, TANG S, et al. Instruct-ReID: a multi-purpose person re-identification task with instructions [C]// Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. Seattle: IEEE, 2024: 17521–17531.

[本文引用: 3]

YE M, SHEN J, LIN G, et al

Deep learning for person re-identification: a survey and outlook

[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2022, 44 (6): 2872- 2893

DOI:10.1109/TPAMI.2021.3054775      [本文引用: 4]

HE S, LUO H, WANG P, et al. TransReID: Transformer-based object re-identification [C]// Proceedings of the IEEE/CVF International Conference on Computer Vision. Montreal: IEEE, 2021: 14993–15002.

[本文引用: 4]

DING Y, MAO R, ZHU H, et al. Discriminative pedestrian features and gated channel attention for clothes-changing person re-identification [C]// Proceedings of the IEEE International Conference on Multimedia and Expo. Niagara Falls: IEEE, 2024: 1–6.

[本文引用: 2]

HUANG Y, WU Q, XU J, et al. Clothing status awareness for long-term person re-identification [C]// Proceedings of the IEEE/CVF International Conference on Computer Vision. Montreal: IEEE, 2021: 11875–11884.

[本文引用: 1]

YANG Z, ZHONG X, ZHONG Z, et al

Win-win by competition: auxiliary-free cloth-changing person re-identification

[J]. IEEE Transactions on Image Processing, 2023, 32: 2985- 2999

DOI:10.1109/TIP.2023.3277389      [本文引用: 2]

WANG L, ZHANG Y, LU T, et al

Multi feature fusion attention learning for clothing-changing person re-identification

[J]. IEICE Transactions on Fundamentals of Electronics, Communications and Computer Sciences, 2022, 105 (8): 1170- 1174

[本文引用: 1]

YANG S, KANG B, LEE Y

Sampling agnostic feature representation for long-term person re-identification

[J]. IEEE Transactions on Image Processing, 2022, 31: 6412- 6423

DOI:10.1109/TIP.2022.3207024      [本文引用: 2]

GU X, CHANG H, MA B, et al. Clothes-changing person re-identification with RGB modality only [C]// Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. New Orleans: IEEE, 2022: 1060–1069.

[本文引用: 3]

WANG Q, QIAN X, FU Y, et al. Co-attention aligned mutual cross-attention for cloth-changing person re-identification [C]// Proceedings of the Asian Conference on Computer Vision. Macau: Springer, 2022: 2270–2288.

[本文引用: 1]

LIU X, LIU K, GUO J, et al

Pose-guided attention learning for cloth-changing person re-identification

[J]. IEEE Transactions on Multimedia, 2023, 26 (8): 5490- 5498

[本文引用: 3]

GUO P, LIU H, WU J, et al. Semantic-aware consistency network for cloth-changing person re-identification [C]// Proceedings of the 31st ACM International Conference on Multimedia. Ottawa: ACM, 2023: 8730–8739.

[本文引用: 3]

ZHU K, GUO H, LIU Z, et al. Identity-guided human semantic parsing for person re-identification [C]// Proceedings of the European Conference on Computer Vision. Glasgow: Springer, 2020: 346–363.

[本文引用: 1]

LIU F, YE M, DU B

Dual level adaptive weighting for cloth-changing person re-identification

[J]. IEEE Transactions on Image Processing, 2023, 32: 5075- 5086

DOI:10.1109/TIP.2023.3310307      [本文引用: 1]

MU J, LI Y, LI J, et al. Learning clothes-irrelevant cues for clothes-changing person re-identification [C]// Proceedings of the 33rd British Machine Vision Conference. London: BMVA, 2022: 337.

[本文引用: 2]

ZHANG G, LIU J, CHEN Y, et al. Multi-biometric unified network for cloth-changing person re-identification [C]// Proceedings of the IEEE International Conference on Multimedia and Expo. Taipei: IEEE, 2022: 1–6.

[本文引用: 2]

LI Y

Utilizing silhouette and head information for improved cloth-changing person re-identification

[J]. Advances in Engineering Technology Research, 2024, 11 (1): 614

DOI:10.56028/aetr.11.1.614.2024      [本文引用: 1]

NGUYEN V D, KHALDI K, NGUYEN D, et al. Contrastive viewpoint-aware shape learning for long-term person re-identification [C]// Proceedings of the IEEE/CVF Winter Conference on Applications of Computer Vision. Waikoloa: IEEE, 2024: 1030–1038.

[本文引用: 2]

JIANG J, XIA N

A dual-channel network based on occlusion feature compensation for human pose estimation

[J]. Image and Vision Computing, 2024, 151: 105290

DOI:10.1016/j.imavis.2024.105290      [本文引用: 1]

JIANG J, XIA N, YU X

A feature matching and compensation method based on importance weighting for occluded human pose estimation

[J]. Journal of King Saud University: Computer and Information Sciences, 2024, 36 (5): 102061

DOI:10.1016/j.jksuci.2024.102061      [本文引用: 1]

TU Z, ZHANG J, LI H, et al

Joint-bone fusion graph convolutional network for semi-supervised skeleton action recognition

[J]. IEEE Transactions on Multimedia, 2022, 25: 1819- 1831

[本文引用: 1]

SUN R, CHEN L, ZHANG L, et al

Robust visible-infrared person re-identification based on polymorphic mask and wavelet graph convolutional network

[J]. IEEE Transactions on Information Forensics and Security, 2024, 19: 2800- 2813

DOI:10.1109/TIFS.2024.3354377      [本文引用: 1]

HUANG M, HOU C, YANG Q, et al

Reasoning and tuning: graph attention network for occluded person re-identification

[J]. IEEE Transactions on Image Processing, 2023, 32: 1568- 1582

DOI:10.1109/TIP.2023.3247159      [本文引用: 1]

LIAN Y, HUANG W, LIU S, et al

Person re-identification using local relation-aware graph convolutional network

[J]. Sensors, 2023, 23 (19): 8138

DOI:10.3390/s23198138      [本文引用: 1]

WANG J, SUN K, CHENG T, et al

Deep high-resolution representation learning for visual recognition

[J]. IEEE transactions on Pattern Analysis and Machine Intelligence, 2021, 43 (10): 3349- 3364

DOI:10.1109/TPAMI.2020.2983686      [本文引用: 1]

DENG J, DONG W, SOCHER R, et al. ImageNet: a large-scale hierarchical image database [C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Miami: IEEE, 2009: 248–255.

[本文引用: 1]

LI P, XU Y, WEI Y, et al

Self-correction for human parsing

[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2022, 44 (6): 3260- 3271

DOI:10.1109/TPAMI.2020.3048039      [本文引用: 1]

HOSSAIN S, UMER S, ROUT R K, et al

Fine-grained image analysis for facial expression recognition using deep convolutional neural networks with bilinear pooling

[J]. Applied Soft Computing, 2023, 134: 109997

DOI:10.1016/j.asoc.2023.109997      [本文引用: 1]

YANG Q, WU A, ZHENG W S

Person re-identification by contour sketch under moderate clothing change

[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2021, 43 (6): 2029- 2046

DOI:10.1109/TPAMI.2019.2960509      [本文引用: 1]

SHU X, WANG X, ZANG X, et al

Large-scale spatio-temporal person re-identification: algorithms and benchmark

[J]. IEEE Transactions on Circuits and Systems for Video Technology, 2022, 32 (7): 4390- 4403

[本文引用: 1]

HUANG Y, WU Q, XU J, et al. Celebrities-ReID: a benchmark for clothes variation in long-term person re-identification [C]// Proceedings of the International Joint Conference on Neural Networks. Budapest: IEEE, 2019: 1–8.

[本文引用: 2]

/