浙江大学学报(工学版), 2026, 60(1): 52-60 doi: 10.3785/j.issn.1008-973X.2026.01.005

计算机技术

基于SMPL模态分解与嵌入融合的多模态步态识别

吴越,, 梁铮, 高巍, 杨茂达, 赵培森, 邓红霞, 常媛媛,

1. 太原理工大学 计算机科学与技术学院(大数据学院),山西 太原 030024

2. 太原理工大学 体育与健康工程学院,山西 太原 030024

Multi-modal gait recognition based on SMPL model decomposition and embedding fusion

WU Yue,, LIANG Zheng, GAO Wei, YANG Maoda, ZHAO Peisen, DENG Hongxia, CHANG Yuanyuan,

1. College of Computer Science and Technology (College of Data Science), Taiyuan University of Technology, Taiyuan 030024, China

2. School of Physical Education and Health Engineering, Taiyuan University of Technology, Taiyuan 030024, China

通讯作者: 常媛媛,女,副教授. orcid.org/0000-0002-1849-9554. E-mail:changyuanyuan@tyut.edu.cn

收稿日期: 2025-03-13  

基金资助: 山西省中央引导地方科技发展资金项目(YDZJSX2022A016);山西省重点研发计划资助项目(2022ZDYF128);山西省科技战略项目(202404030401080).

Received: 2025-03-13  

Fund supported: 山西省中央引导地方科技发展资金项目(YDZJSX2022A016);山西省重点研发计划资助项目(2022ZDYF128);山西省科技战略项目(202404030401080).

作者简介 About authors

吴越(2000—),女,硕士生,从事步态识别研究.orcid.org/0009-0009-8894-720X.E-mail:18634898755@163.com , E-mail:18634898755@163.com

摘要

针对现有步态识别研究中步态信息挖掘不足和跨模态特征对齐不充分导致真实场景中识别性能受限的问题,提出基于蒙皮多人线性(SMPL)模态分解与嵌入融合的多模态步态识别方法. 通过将SMPL模型分解为形状分支和姿势分支,全面提取人体静态形状特征和动态运动特征;构建自适应帧关节注意力模块,自适应聚焦关键帧与重要关节,增强姿势特征表达能力;设计模态嵌入融合模块,将不同模态特征投影至统一语义空间,并构建模态一致性损失函数,优化跨模态特征对齐,提升融合效果. 在Gait3D数据集上的实验结果表明,与6种基于轮廓的方法、2种基于骨骼的方法以及5种基于轮廓和骨骼或SMPL模型的多模态方法比较,所提方法Rank-1准确率达到70.4%,在复杂真实场景中表现出更高鲁棒性,验证了所提方法在模态特征提取和跨模态特征对齐方面的有效性.

关键词: 步态识别 ; SMPL模型 ; 自适应注意力 ; 特征对齐 ; 模态融合

Abstract

A multimodal gait recognition method based on skinned multi-person linear (SMPL) modal decomposition and embedding fusion was proposed, to address the limitations in current gait recognition research, including insufficient gait information mining and inadequate cross-modal feature alignment that restrict recognition performance in real-world scenarios. The SMPL model was decomposed into a shape branch and a pose branch to comprehensively extract static body shape features and dynamic motion characteristics. An adaptive frame-joint attention module was constructed to focus on key frames and significant joints adaptively, thereby enhancing pose feature representation. A modality embedding fusion module was designed to project different modal features into a unified semantic space, and a modality consistency loss function was built to optimize cross-modal feature alignment and improve fusion effectiveness. Experimental results on the Gait3D dataset demonstrated that the proposed method achieved a Rank-1 accuracy of 70.4%, outperforming six silhouette-based methods, two skeleton-based methods, and five multimodal approaches combining silhouettes with skeletons or SMPL models. The method exhibits superior robustness in complex real-world scenarios, validating its effectiveness in modal feature extraction and cross-modal feature alignment.

Keywords: gait recognition ; SMPL model ; adaptive attention ; feature alignment ; modality fusion

PDF (1409KB) 元数据 多维度评价 相关文章 导出 EndNote| Ris| Bibtex  收藏本文

本文引用格式

吴越, 梁铮, 高巍, 杨茂达, 赵培森, 邓红霞, 常媛媛. 基于SMPL模态分解与嵌入融合的多模态步态识别. 浙江大学学报(工学版)[J], 2026, 60(1): 52-60 doi:10.3785/j.issn.1008-973X.2026.01.005

WU Yue, LIANG Zheng, GAO Wei, YANG Maoda, ZHAO Peisen, DENG Hongxia, CHANG Yuanyuan. Multi-modal gait recognition based on SMPL model decomposition and embedding fusion. Journal of Zhejiang University(Engineering Science)[J], 2026, 60(1): 52-60 doi:10.3785/j.issn.1008-973X.2026.01.005

生物识别技术通过提取人体独特的生物特征实现个体身份的自动化识别,为安全、便捷的身份认证提供了可靠的手段. 其中,步态识别具备远距离识别的能力,无须识别对象主动配合且不易受环境因素影响,相较于其他生物识别技术[1-3]具有显著优势,在安防监控、智能交通、智慧医疗等实际场景[4]中具有广阔的应用前景.

当前的步态识别研究大致分为2类:单模态的步态识别方法和多模态的步态识别方法. 单模态方法中,基于轮廓的方法[5-11]以步态轮廓作为输入,能够提供丰富的外观信息,但是对服装、携带物品、视角等外观变化较为敏感,且无法捕捉人体的内部结构信息;基于模型的方法[12-15]一般以骨骼模型作为输入,能够提供精确的人体结构和运动信息,但在外观特征的区分性表达方面存在不足.

为了突破单模态的局限,基于多模态的步态识别方法融合了模型和轮廓的互补优势,在实际场景中有更强的适应性. 例如,基于骨骼与轮廓的多模态方法[16-19],通过结合骨骼的结构信息和轮廓的外观信息提升识别效果. 最近的研究中,Zheng等[20-21]在工作中引入蒙皮多人线性(skinned multi-person linear, SMPL)模型[22],来代替传统的骨骼模型. SMPL模型能提供精确的关节姿态和形状参数,弥补了骨骼在外观表达上的不足,使得基于SMPL模型和轮廓的多模态方法不仅保留了模型在结构信息表达上的优势,还显著增强了对人体姿态与形状变化的适应性. 然而,尽管模型与轮廓2个模态的相互补充提供了更丰富的表征能力,但目前的多模态步态识别方法仍然存在一定的不足.

首先,现有方法更关注模态之间的融合,缺乏对各模态分支特征提取的针对性优化. 如Zheng等[20]采用全连接网络学习SMPL模型的步态信息,结构较简单,难以充分捕捉姿态变化的时序特征;Dong等[21]通过提取22个关节点并转换为特征图来进行融合,虽考虑了姿势信息,但其方法在Gait3D上准确率仍不足54%,表明关键姿势信息在转换中存在一定丢失,同时也未能有效利用SMPL模型所包含的静态形状特征. 这些方法未能充分挖掘SMPL模型包含的形状信息和运动姿势信息,影响了特征的有效表达. 其次,由于不同模态在数据形式上的差异,模态融合过程中的特征对齐成为关键问题. 现有方法尝试从不同角度进行对齐. 例如,Dong等[21]使用K最近邻法对齐轮廓特征与SMPL模型的姿势特征,虽能实现局部特征匹配,但难以建模全局语义关联;Zou等[17]通过交叉注意力机制,动态搜索骨骼和轮廓各部分之间的关联权值进行对齐融合,虽提升了特征对齐的灵活性,但无法量化模态间对齐的程度,且缺乏对模态间表征一致性的显式约束. 这些方法在一定程度上实现了模态间的特征对齐,但普遍存在缺乏特征一致性约束和语义对齐机制不完善的问题,进而限制了跨模态特征融合的有效性.

针对上述问题,本研究提出基于SMPL模态分解与嵌入融合的多模态步态识别方法(multi-modal gait recognition based on SMPL model decomposition and embedding fusion, DFGait). 1)将SMPL模型分解为SMPL形状和SMPL姿势2个分支,结合步态轮廓,实现从SMPL外观形状、SMPL动态姿势及轮廓信息3个方面对步态特征的全面提取. 2)提出自适应帧关节注意力(adaptive frame-joint attention, AFJAtt)模块,通过在SMPL姿势序列中自适应地提取关键帧的重要关节信息,提升对步态序列中动态特征的敏感性. 3)提出模态嵌入融合(model embedding fusion, MEFusion)模块,并构建模态一致性损失函数(modality consistency loss, MCLoss),使不同模态在嵌入空间中保持高相关性和对齐性,从而增强跨模态特征融合的效果.

1. 相关工作

步态识别是通过分析个体行走姿态特征实现身份识别的技术. 随着深度学习技术的快速发展,步态识别技术取得了显著进步,其研究方法已从早期的传统特征提取方法逐步演变为基于深度学习的从输入数据中直接学习步态特征进行识别. 与此同时,研究场景也逐渐从受限的室内环境如CASIA-B数据集[23]和OU-MVLP数据集[24]扩展至更有挑战性的开放式真实场景如Gait3D数据集[20]和GREW数据集[25],进一步推动了步态识别技术的实用化进程. 当前的步态识别方法大致可归纳为2类:基于单模态的方法和基于多模态的方法.

1.1. 基于单模态的步态识别方法

1.1.1. 基于模型的步态识别方法

基于模型的方法通过预定义的二维或三维人体模型提取步态特征,比如,二维骨骼、三维骨骼、SMPL模型,建模肢体长度、关节角度和部位相对位置等运动学参数. 通过提取人体运动中的关键点和姿态变化,实现对步态的分析和识别. 如Liao等[12]通过结合三维骨骼与先验知识提高识别精度. Zhang等[15]提出组合空间转换器和时间卷积网络的模型来进行基于骨骼的步态识别. 随着图卷积神经网络(graph convolutional networks, GCN)[26]在动作识别领域的广泛使用,GCN逐渐被引入步态识别领域,Teepe等[13]首次将骨骼姿势与GCN相结合,通过构建骨骼关节点之间的图结构以及关节点在时间上的变化进行有效的时空建模. Fu等[14]提出部分感知图卷积网络,通过分区掩码进行图分割以提取局部和全局的空间特征关系. 基于模型的步态识别方法关注关节位置这类结构特征,因此能够有效克服外观变化带来的干扰,提供更稳定的特征. 然而其结构化的表征方式难以捕捉个体在体型轮廓上的外观差异,当不同个体具有相似运动模式时,仅依赖关节位置信息难以准确区分.

1.1.2. 基于轮廓的步态识别方法

基于轮廓的方法直接从背景减除后的二进制轮廓图中学习步态特征. 比如Chao等[5]将步态的轮廓帧视为无序集合作为输入,避免受帧排列的影响. Fan等[6]提出焦点卷积层来增强部分级空间特征的细粒度学习,并加入微动作捕捉模块以提取短期时间特征. Huang等[7]提出三维局部卷积,自适应地对每个身体部位进行三维局部体积的时空特征提取. Wang等[11]提出动态增强模块,从二值轮廓中分离出动态特征,建立人体动态部位的时空表示. Li等[27]提出基于卷积-Transformer的混合框架来改进步态的时空表示. 与基于模型的方法相比,基于轮廓的步态识别方法更简单高效,对图像的分辨率要求不高,计算成本较低,因此在步态识别领域占主导地位. 但这种方法对外观变化高度敏感,且因依赖外部形状,在行走过程中身体重叠时会丢失人体内部结构信息,从而限制了其在复杂场景中的应用.

1.2. 基于多模态的步态识别方法

近年来,步态识别领域对集成多个模态的方法进行了研究. 如Sun等[16]提出的三分支网络、Zou等[17]提出的多阶段自适应融合网络以及Zheng等[19]提出的顺序双流细化网络,通过融合骨骼和轮廓模态,有效提升步态识别的准确性和鲁棒性. 此外,SMPL模型的引入为多模态步态识别提供了更全面的步态表征. Zheng等[20]首次提出包含SMPL模型的真实场景数据集,同时提出多模态步态识别方法SMPLGait,利用SMPL模型在三维人体表征方面的优势,通过构建三维空间变换模块将SMPL模型与轮廓模态进行信息融合. Dong等[21]引入投影分支,将SMPL模型的投影轮廓作为辅助输入,帮助表示身体特征,以实现更加精确的信息融合. 尽管如此,现有方法仍面临分支信息挖掘不足、跨模态特征对齐不充分的挑战,制约了多模态步态识别的性能上限.

2. 基于SMPL模态分解与嵌入融合的多模态步态识别

本研究提出多模态步态识别网络DFGait,通过融合SMPL模型和轮廓模态进行步态识别,其网络结构如图1所示. 1)网络输入由步态轮廓序列和SMPL模型组成. 特别的,为了实现细粒度步态特征提取,将SMPL模型分解为SMPL姿势和SMPL形状2个独立的分支,分别提取动态姿势特征和静态形状特征. 2)通过模态嵌入融合模块,对轮廓和SMPL模型的特征进行对齐和融合. 3)将轮廓模态特征、SMPL模型特征以及跨模态融合特征进行拼接,并通过特征映射网络生成具有强判别性的统一步态表征向量.

图 1

图 1   DFGait网络结构

Fig.1   Structure of DFGait network


2.1. 轮廓特征提取

在轮廓分支中,以Fan等[10]提出的GaitBase为基线网络进行优化改进. 针对原始GaitBase仅关注空间特征提取而忽略步态时序建模的局限性,构建时间特征提取模块. 如图2所示,通过时间卷积对步态轮廓的时间动态特征进行建模,从而弥补GaitBase在时间维度特征提取上的不足.

图 2

图 2   轮廓分支结构

Fig.2   Structure of silhouette branch


2.2. SMPL特征提取

为了充分挖掘SMPL人体模型包含的形状和姿势信息,设计了双分支处理结构,如图3所示. 其中,SMPL姿势分支采用ResGCN网络[28]提取人体的动态运动姿势特征,通过图卷积操作建模关节间的时空依赖关系;SMPL形状分支则基于多层感知机(multilayer perceptron, MLP)网络,专注于提取表征人体体型、肢体比例的静态形状特征. 这种基于SMPL模态分解的双分支设计实现了运动特征和形状特征的独立提取与优化,既保留了SMPL模型在人体结构表征方面的优势,又增强了对个体形态差异的辨识能力.

图 3

图 3   SMPL双分支结构

Fig.3   Two-branch structure of SMPL


2.2.1. SMPL姿势特征提取

采用ResGCN网络来提取SMPL模型的姿势特征. 针对图卷积在远距离节点依赖关系建模方面的局限性,提出自适应帧关节注意力模块,其整体结构如图4(a)所示. 该模块通过可学习的双维度注意力机制,在空间维度和时间维度上分别自适应地分配所有关节和所有帧的重要性权重. 由此在整个姿势序列中捕获关键帧的重要关节信息,从而增强模型对个体步态运动特征的捕捉能力.

图 4

图 4   自适应帧关节注意力模块实现细节

Fig.4   Implementation details of AFJAtt


假设自适应帧关节注意力模块输入的步态特征图为$ {{{\boldsymbol{F}}}_{\mathrm{in}}} \in {{\mathbf{R}}^{{C} \times {T} \times {V}}} $,其中C为通道数,T为帧数量,V为关节数量. 为了提高对时间帧特征和关节特征的敏感性,先通过双分支结构进行分别处理:对关节维度平均池化,去除关节的空间位置影响,专注于帧维度的特征变化,生成帧级步态特征$ {{{\boldsymbol{F}}}_{\mathrm{Frame}}} \in {{\mathbf{R}}^{{C} \times {T}}} $;同时,对帧维度平均池化,生成关节级步态特征$ {{{\boldsymbol{F}}}_{\mathrm{Joint}}} \in {{\mathbf{R}}^{{C} \times {V}}} $

$ \boldsymbol{F}_{\text {Frame}}=\dfrac{1}{{V}} \sum_{{i}=1}^{{V}} \boldsymbol{F}_{\mathrm{in}} , $

$ \boldsymbol{F}_{\mathrm{Joint}}=\dfrac{1}{{T}} \sum_{{i}=1}^{{T}} \boldsymbol{F}_{\mathrm{in}} . $

经过自适应特征聚合(adaptive feature aggregation, AFA)模块,包含自适应卷积核的生成(见图4(b)),以及自适应卷积过程(见图4(c)). 受视频识别中Liu等[29]提出的时间自适应思想的启发,本研究将其自适应机制扩展到帧和关节的时空维度. 该模块通过帧自适应分支捕获时序中的关键特征,关节自适应分支捕获重要关节特征,从而自适应地提取时空信息.

具体来说,首先基于压缩后的帧级特征和关节级特征生成自适应卷积核,如图4(b)所示. 自适应卷积核的生成过程由一个局部特征学习模块${{L}}$和一个全局特征学习模块${{G}}$来共同实现,然后通过Softmax层将其转化为权重分布,即自适应卷积核. 该过程分别对时间帧和关节进行建模,不考虑通道之间的相关性,即为每个通道分别生成独立的帧自适应卷积核$ {{\boldsymbol{K}}_{\text{F}}} $和关节自适应卷积核${{\boldsymbol{K}}_{\text{J}}}$

$ \boldsymbol{K}_{\mathrm{F}}=\operatorname{Softmax}\left({G}\left({L}\left(\boldsymbol{F}_{\text {Frame }}\right)\right)\right) , $

$ \boldsymbol{K}_{\mathrm{J}}=\operatorname{Softmax}\left({G}\left({L}\left(\boldsymbol{F}_{\text {Joint }}\right)\right)\right) . $

其中,局部特征学习模块${{L}}$由一维卷积层构成,包含批量归一化层和ReLU激活函数,用于捕捉细粒度的局部信息;全局特征学习模块${{G}}$由2个线性层构成,用于捕获更高层次的全局信息. 通过这种方式动态生成的帧自适应卷积核和关节自适应卷积核能够在关注局部特征的同时,保持全局感受野,从而实现对时空特征的有效聚合.

最终,将生成的帧自适应卷积核$ {{\boldsymbol{K}}_{\mathrm{F}}} $和关节自适应卷积核$ {{\boldsymbol{K}}_{\text{J}}} $分别作用于原始的步态特征图$ {{\boldsymbol{F}}_{{\text{in}}}} $的帧维度和关节维度,进行独立于通道自适应卷积,如图4(c)所示. 通过卷积操作和Sigmoid函数归一化处理,得到自适应帧注意力${{\bf{Att}}_{{\text{Frame}}}}$和自适应关节注意力${{\bf{Att}}_{{\text{Joint}}}}$,并将两者相乘,得到自适应帧关节注意力$ {\bf{Att}} $

$ {{\bf{Att}}}_{\text {Frame }}=\operatorname{Sigmoid}\left(\operatorname{Conv}\left(\boldsymbol{F}_{\text {in }}, \boldsymbol{K}_{\mathrm{F}}\right)\right) , $

$ {{\bf{Att}}}_{\text {Joint }}=\operatorname{Sigmoid}\left(\operatorname{Conv}\left(\boldsymbol{F}_{\text {in }}, \boldsymbol{K}_{\mathrm{J}}\right)\right), $

$ {{\bf{Att}}}={{\bf{Att}}}_{\text {Frame }} \otimes {{\bf{Att}}}_{\text {Joint }} . $

对于原始步态特征图进行帧级和关节级的注意力分配,并进行残差连接:

$ \boldsymbol{F}_{\mathrm{p}}={{\bf{Att}}} \otimes \boldsymbol{F}_{\text {in }}+\boldsymbol{F}_{\text {in }} . $

式中:${{\boldsymbol{F}}_{\mathrm{P}}}$为增强SMPL姿势序列中关键帧和重要关节信息的步态特征.

2.2.2. SMPL形状特征提取

在SMPL形状分支中,设计了一个3层的多层感知机网络,用于提取每一帧SMPL模型的空间特征. 该网络在每层线性变换后均采用批量归一化处理和RuLu激活函数,以增强非线性建模能力. 为了进一步提升模型的泛化性能,在后2层还添加了Dropout层,有效防止过拟合.

对SMPL模型双分支特征进行融合. 首先,将SMPL姿势分支得到的运动姿势特征${{\boldsymbol{F}}_{\text{P}}}$和SMPL形状分支得到的形状特征${{\boldsymbol{F}}_{\text{S}}}$分别进行最大池化处理,以保留各特征中的显著性信息. 然后,将池化后的姿势特征和形状特征进行逐元素相加,以实现SMPL模型2方面信息的融合:

$ \boldsymbol{F}_{\mathrm{SMPL}}=\operatorname{Max} \operatorname{Pool}\left(\boldsymbol{F}_{\mathrm{P}}\right)+\operatorname{Max} \operatorname{Pool}\left(\boldsymbol{F}_{\mathrm{S}}\right) . $

式中:${{\boldsymbol{F}}_{{\text{SMPL}}}}$为融合SMPL姿势信息和SMPL形状信息的特征.

2.3. 模态嵌入融合

由于SMPL模型和轮廓模态在数据形式上的显著差异,直接的模态融合容易导致特征不对齐,从而影响融合效果和识别性能. 为了解决这一问题,模态嵌入融合策略提供了一种有效的方法,通过在特征空间中构建紧密的跨模态映射关系,如图5所示,将2种模态的信息投影到统一的语义空间,实现特征的对齐与融合,从而充分发挥2种模态的互补优势.

图 5

图 5   模态特征对齐示意图

Fig.5   Schematic diagram of modality feature alignment


为了提高融合模块的计算效率,本研究的模态嵌入融合操作专注于空间维度的特征融合,而不涉及时间维度. 模态嵌入融合模块的具体过程如图6所示,轮廓分支生成的轮廓特征图${{\boldsymbol{F}}_{{\text{Sil}}}}$为一个${D_{\text{S}}}$维的向量,SMPL姿势分支生成的自适应关节注意力${{\bf{Att}}_{{\text{Joint}}}}$为一个${D_{\text{J}}}$维的向量. 轮廓特征和自适应关节注意力嵌入同一语义空间的过程如下:

图 6

图 6   模态嵌入融合过程

Fig.6   Process of MEFusion


$ \boldsymbol{F}_{\mathrm{e}}=\boldsymbol{T}_{\mathrm{s}} \boldsymbol{F}_{\mathrm{sil}},\; \boldsymbol{J}_{\mathrm{e}}=\boldsymbol{T}_{\mathrm{J}} {\bf{Att}}_{\text {Joint }} \text {. } $

式中:${{\boldsymbol{F}}_{\text{e}}}$${{\boldsymbol{J}}_{\text{e}}}$分别为嵌入后的轮廓特征与姿势特征;$ {{\boldsymbol{T}}_{\text{S}}} \in {{\mathbf{R}}^{{D_{\text{e}}} \times {D_{\text{S}}}}} $$ {{\boldsymbol{T}}_{\mathrm{J}}} \in {{\mathbf{R}}^{{D_{\mathrm{e}}} \times {D_{\mathrm{J}}}}} $分别为轮廓特征${{\boldsymbol{F}}_{{\mathrm{Sil}}}}$和自适应关节注意力${{{\bf{Att}}}_{{\text{Joint}}}}$的投影矩阵,用于将2类特征映射到统一的语义空间.

将嵌入后的轮廓特征${{\boldsymbol{F}}_{\text{e}}}$与姿势特征${{\boldsymbol{J}}_{\text{e}}}$送入跨模态融合层,以实现2个模态的特征融合:

$ \boldsymbol{F}_{\mathrm{F}}=\operatorname{Linear}\left(\operatorname{Linear}\left(\operatorname{CBP}\left(\boldsymbol{F}_{\mathrm{e}}, \boldsymbol{J}_{\mathrm{e}}\right)\right)\right) . $

式中:${{\boldsymbol{F}}_{\text{F}}}$为融合轮廓信息和SMPL姿势信息后的特征;CBP为压缩双线性池化(compact bilinear pooling, CBP),将嵌入后的2个模态的特征进行高阶信息交互融合,捕捉模态之间的复杂关系;然后通过2个线性变换,将高维融合特征映射到低维空间,进一步提取有效融合特征.

为了量化跨模态特征在共维语义空间中的对齐程度,进一步计算了2个嵌入特征之间的距离,并将其作为优化模型的损失函数,以减少模态间的信息差异,确保融合后的特征能够准确捕捉到步态中的关键信息.

具体而言,将嵌入后的轮廓特征${{\boldsymbol{F}}_{\text{e}}}$与姿势特征${{\boldsymbol{J}}_{\text{e}}}$在单位超球面上的欧氏距离作为模态一致性损失,来有效约束2种模态在语义空间中的特征表达:

$ {L}_{\mathrm{MC}}=\left\|\widehat{\boldsymbol{F}}_{\mathrm{e}}-\widehat{\boldsymbol{J}}_{\mathrm{e}}\right\|_2^2; \quad \text { s.t. }\left\|\boldsymbol{T}_{\mathrm{S}}\right\|_2=\left\|\boldsymbol{T}_{\mathrm{J}}\right\|_2=1 . $

式中:$ \widehat{\boldsymbol{F}_{\mathrm{e}}}=\boldsymbol{F}_{\mathrm{e}} /\left\|\boldsymbol{F}_{\mathrm{e}}\right\|$$ \widehat{\boldsymbol{J}_{\mathrm{e}}}=\boldsymbol{J}_{\mathrm{e}} /\left\|\boldsymbol{J}_{\mathrm{e}}\right\|$表示将轮廓和SMPL模型的嵌入特征分进行归一化,以消除特征尺度对距离计算的干扰;约束条件$\left\|\boldsymbol{T}_{\mathrm{S}}\right\|_2=\left\|\boldsymbol{T}_{\mathrm{J}}\right\|_2=1$表示将$\boldsymbol{T}_{\mathrm{S}}$$\boldsymbol{T}_{\mathrm{J}}$进行归一化,避免零向量或重合映射的平凡解,确保特征有效对齐.

2.4. 损失函数

通过3个损失函数联合训练来优化网络,联合损失函数定义如下:

$ {L}=\alpha {L}_{\mathrm{tri}}+\beta {L}_{\mathrm{ce}}+\gamma {L}_{\mathrm{MC}}. $

式中:$\alpha $$\beta $$\gamma $分别为${{{L}}_{{\text{tri}}}}$${{{L}}_{{\text{ce}}}}$${{{L}}_{{\text{MC}}}}$的加权参数,${{{L}}_{{\text{tri}}}}$为三元组损失,${{{L}}_{{\text{ce}}}}$为交叉熵损失,${{{L}}_{{\text{MC}}}}$为模态一致性损失.

3. 实验与结果分析

3.1. 数据集

Gait3D[20]是第1个基于三维表示的大规模步态识别数据集,广泛应用于真实场景下的步态识别研究. 其数据采集工作是在大型超市中进行的,具有高度的真实性. 该数据集包含了来自4000名受试者的25309个视频序列. 其中训练集包含3000名受试者,18940个序列;测试集包含1000名受试者,6369个序列. 为了进行评估,从每个受试者的序列中随机选择一个作为注册集,其余序列作为验证集,用于匹配与验证.

3.2. 实验设置

网络模型使用pytorch实现,并使用NVIDIA V100 GPUs进行训练. 在训练过程中,每个训练批次由32个身份组成,每个身份采样4条步态序列,每条序列固定采样30帧,帧间隔设置为4帧,以降低帧间冗余性. 同时,训练阶段启用样本顺序随机打乱策略,以提升模型的泛化能力. 网络训练使用SGD优化器,权重衰减为5×10−4,动量系数为0.9. 训练过程共进行1.2×105次迭代,初始学习率设定为0.1,并采用多步长衰减策略,每2×104次迭代后学习率按照0.1的比例衰减.

测试阶段采用完整序列输入,不对样本顺序进行打乱,以确保时间一致性,同时设置最大帧数为720,以控制显存消耗并保证推理效率.

轮廓分支的主干网络是由1个初始卷积层和4个基本残差块组构成的类似ResNet网络,具体配置详见表1.

表 1   轮廓分支ResNet类主干结构

Tab.1  ResNet-like backbone structure of silhouette branch

模块模块结构输出维度
Block0$ \left[3\times 3, 64\right],\; {\rm{stride}}=1 $30×64×64×44
Block1$ \left[\begin{array}{c}3\times 3, 64\\ 3\times 3, 64\end{array}\right],\;{\rm{stride}}=1 $
$ \left[3\times 1\times 1, 64\right], \;{\rm{stride}}=1 $
30×128×64×44
Block2$ \left[\begin{array}{c}3\times 3, 64\\ 3\times 3, 128\end{array}\right],\;{\rm{stride}}=2 $
$ \left[3\times 1\times 1, 128\right] , \;{\rm{stride}}=1 $
30×128×32×22
Block3$ \left[\begin{array}{c}3\times 3, 128\\ 3\times 3, 256\end{array}\right],\;{\rm{stride}}=2 $
$ \left[3\times 1\times 1, 256\right],\; {\rm{stride}}=1 $
30×256×16×11
Block4$ \left[\begin{array}{c}3\times 3, 256\\ 3\times \mathrm{3,256}\end{array}\right] ,\;{\rm{stride}}=1 $
$ \left[3\times 1\times 1, 256\right],\; {\rm{stride}}=1 $
30×256×16×11

新窗口打开| 下载CSV


SMPL姿势分支的主干网络是由ResGCN块组成,具体配置详见表2. 其中,基本层由空间图卷积层和K×1的时间卷积层组成,并且包含批量归一化层和ReLU激活函数,为了减少网络中的参数数量和计算量,在卷积层前后插入了1×1卷积层,形成瓶颈层. 此外,在每个层后均部署了自适应帧关节注意力层,由于注意力层不改变特征形状,因此未在表中单独列出.

表 2   SMPL姿势分支ResGCN主干结构

Tab.2  ResGCN backbone structure of SMPL pose branch

模块模块结构输出维度
Block0批量归一化层30×24×3
Block1基本层30×24×64
瓶颈层30×24×64
瓶颈层30×24×32
Block2瓶颈层30×24×64
瓶颈层30×24×128
瓶颈层30×24×256
瓶颈层30×24×256
Block3最大池化层1×256

新窗口打开| 下载CSV


3.3. 对比实验

表3所示展示了本研究方法与13种先进步态识别方法在真实场景下的步态数据集Gait3D数据集下的对比结果. 其中,Rank-k表示准确率,即返回的排序列表中在前k位包含正确结果的比例;mAP表示平均查准率均值;mINP表示平均逆置负样本惩罚率. 具体来说,本研究方法与6种基于轮廓的方法、2种基于骨骼的方法以及5种基于轮廓和骨骼或SMPL模型的多模态方法进行性能对比.

表 3   不同方法在Gait3D数据集上识别性能的对比结果

Tab.3  Comparison results of different methods on Gait3D dataset

模态方法来源Rank-1Rank-5mAP/%mINP/%
轮廓GaitSet[5]AAAI201936.7058.3030.0117.30
GaitPart[6]CVPR202028.2047.6021.5812.36
GaitGL[8]ICCV202129.7048.5022.2913.26
GaitGCI[9]CVPR202350.3068.5039.5024.30
GaitBase[10]CVPR202364.2079.5054.5136.36
DyGait[11]ICCV202366.3080.8056.4037.30
骨骼GaitGraph[13]ICIP20218.3016.607.144.80
GPGait[14]ICCV202322.50
轮廓+
骨骼/SMPL
MSAFF[17]IJCB202348.1066.6038.4523.49
GaitRef[18]IJCB202349.0069.3040.6925.26
GaitSTR[19]T-BIOM202465.1081.3055.5936.84
SMPLGait[20]CVPR202246.3064.5037.1622.23
HybirdGait[21]AAAI202453.3072.0043.2926.65
DFGait本研究70.4085.0061.0441.27

新窗口打开| 下载CSV


实验结果表明,本研究提出的方法在各项评价指标上均显著优于其他先进的步态识别方法,验证了其在步态特征全面提取与跨模态信息融合方面的有效性. 所提出的自适应帧关节注意力模块(AFJAtt)通过在关节的空间维度与帧的时间维度进行自适应注意力分配,精准聚焦于步态序列中的重要运动关节与关键帧. 模态嵌入融合模块(MEFusion)显著增强了不同模态的语义对齐,实现了高效的跨模态信息融合. 这些模块的协同设计使DFGait在真实场景下的步态识别任务中展现出更强的鲁棒性和识别准确性.

3.4. 消融实验

为了进一步验证模型中各模块的有效性,在Gait3D数据集上进行系统的消融实验,通过定量分析与可视化验证相结合的方式,深入探究各模块对模型整体性能的贡献.

为了验证自适应帧关节注意力模块的有效性,在GaitGraph模型和DFGait模型的SMPL姿势分支上进行该模块的消融实验. 实验结果如表4所示. 可以看出通过引入自适应帧关节注意力模块,GaitGraph模型和DFGait模型的SMPL姿势分支在各项指标上均表现出显著提升,反映了该模块的性能增益.

表 4   自适应帧关节注意力模块的消融实验

Tab.4  Ablation experiments for AFJAtt

MethodsR-1R-5mAP/%mINP/%
GaitGraph8.3016.607.144.80
GaitGraph+AFJAtt11.3022.509.876.56
SMPL姿势分支6.2012.604.922.94
SMPL姿势分支+AFJAtt8.1015.705.773.69

新窗口打开| 下载CSV


为了直观感受自适应帧关节注意力模块的时空特征提取特性,随机选取一个样本,对SMPL姿势分支的7个注意力层进行分层可视化分析. 图7(a)为SMPL人体模型关节拓扑结构示意图,图7(b)展示了第1、3、5、7自适应帧关节注意力层的权重热力分布. 其中,j为关节序号,t为时间帧,w为注意力权重. 浅层注意力AFJAtt1和AFJAtt3的权重范围为0.25~0.40,深层注意力AFJAtt5和AFJAtt7的权重范围提升至0.25~0.85,这反映了通过层级学习,该模块对关键时空特征的提取能力逐步增强. 在关节维度上,下肢关节(5、8、9、11、12)和上肢关节(19、20、22、23、24)表现出更高的注意力权重,这与步态周期中四肢摆动蕴含丰富步态信息的运动学特征相符. 在时间帧维度上,热力图中的注意力响应呈现出明显的周期性波动,特别是下肢关节的权重变化与步行周期保持一致,表现了该模块对步态周期中关键帧的动态建模能力. 综合消融实验结果与可视化分析,证明了自适应帧关节注意力模块在步态序列中有效捕捉关键帧的重要关节信息的能力.

图 7

图 7   自适应帧关节注意力权重热力图

Fig.7   Heatmap of AFJAtt weights


为了验证多模态结构、自适应帧关节注意力模块以及模态嵌入融合模块的有效性,进行了系统的消融实验,结果如表5所示. 实验结果表明:1)多模态结构相比于单一轮廓分支或SMPL分支,在识别精度上有明显提升,验证了多模态结构能够有效融合轮廓模态和SMPL模型的互补优势;2)在模态嵌入融合模块中,特征嵌入融合操作(embedding fusion, EFusion)和模态一致性损失函数(MCLoss)均对模型性能有正向贡献,两者协同使用时效果最优;3)自适应帧关节注意力模块和模态嵌入融合模块均对多模态结构的性能优化有显著的增益作用,充分验证了所有模块的有效性.

表 5   多模态结构、自适应帧关节注意力模块及模态嵌入融合模块的消融实验

Tab.5  Ablation study on multimodal structure, AFJAtt, and MEFusion

轮廓分支SMPL分支AFJAttMEFusionR-1R-5mAP/%mINP/%
EFusionMCLoss
26.4041.9017.4410.23
64.9082.2054.9635.70
66.1083.2055.6436.44
68.9084.2058.9439.11
69.5085.1060.6141.22
70.4085.0061.0441.27

新窗口打开| 下载CSV


4. 结 语

本研究提出基于SMPL模态分解与嵌入融合的多模态步态识别方法. 通过对SMPL模型进行分解,并设计自适应帧关节注意力模块和模态嵌入融合模块,解决多模态建模中分支特征提取不足和跨模态对齐不充分的问题. 在Gait3D数据集上的实验结果表明,本研究方法在多个评价指标上均优于现有的先进方法,为真实场景中的步态识别提供了更加精准与高效的解决方案.

本研究仍存在以下几个局限性亟待解决:1)SMPL模型生成技术尚不成熟,影响整体识别效果,且其生成过程尚依赖较高质量的图像输入,在遮挡严重、服装变化以及多视角差异等实际应用环境下仍存在稳定性不足问题;2)支持SMPL标注的步态数据集稀缺,目前仅Gait3D数据集提供相关数据,限制了模型的泛化性评估与迁移能力;3)多模态融合结构整体计算开销相对较高,限制了方法在资源受限设备或实时性要求较高的场景中的部署应用;4)现阶段实验主要基于公开数据集,尚未在实际系统中部署验证,缺乏对模型在真实应用场景中表现的系统性评估.

针对上述问题,未来研究可从几个方向展开:1)推动SMPL模型重建技术的标准化和高效化发展;2)推动构建更多包含SMPL模型的步态数据集;3)探索轻量化网络设计与模型压缩方法,提升模型计算效率;4)结合真实应用场景进行部署测试,对方法在实际系统中的性能进行系统性评估和反馈优化,推动方法的实际落地应用.

参考文献

MAHMOUD M, KASEM M S, KANG H S

A comprehensive survey of masked faces: recognition, detection, and unmasking

[J]. Applied Sciences, 2024, 14 (19): 8781

DOI:10.3390/app14198781      [本文引用: 1]

JIA Z, HUANG C, WANG Z, et al

Finger recovery transformer: toward better incomplete fingerprint identification

[J]. IEEE Transactions on Information Forensics and Security, 2024, 19: 8860- 8874

DOI:10.1109/TIFS.2024.3419690     

KUEHLKAMP A, BOYD A, CZAJKA A, et al. Interpretable deep learning-based forensic iris segmentation and recognition [C]// IEEE/CVF Winter Conference on Applications of Computer Vision Workshops. Waikoloa: IEEE, 2022: 359–368.

[本文引用: 1]

赵晓东, 刘作军, 陈玲玲, 等

下肢假肢穿戴者跑动步态识别方法

[J]. 浙江大学学报: 工学版, 2018, 52 (10): 1980- 1988

[本文引用: 1]

ZHAO Xiaodong, LIU Zuojun, CHEN Lingling, et al

Approach of running gait recognition for lower limb amputees

[J]. Journal of Zhejiang University: Engineering Science, 2018, 52 (10): 1980- 1988

[本文引用: 1]

CHAO H, WANG K, HE Y, et al

GaitSet: cross-view gait recognition through utilizing gait as a deep set

[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2022, 44 (7): 3467- 3478

[本文引用: 3]

FAN C, PENG Y, CAO C, et al. GaitPart: temporal part-based model for gait recognition [C]// IEEE/CVF Conference on Computer Vision and Pattern Recognition. Seattle: IEEE, 2020: 14213–14221.

[本文引用: 2]

HUANG Z, XUE D, SHEN X, et al. 3D local convolutional neural networks for gait recognition [C]// IEEE/CVF International Conference on Computer Vision. Montreal: IEEE, 2021: 14900–14909.

[本文引用: 1]

LIN B, ZHANG S, YU X. Gait recognition via effective global-local feature representation and local temporal aggregation [C]// IEEE/CVF International Conference on Computer Vision. Montreal: IEEE, 2021: 14628–14636.

[本文引用: 1]

DOU H, ZHANG P, SU W, et al. GaitGCI: generative counterfactual intervention for gait recognition [C]// IEEE/CVF Conference on Computer Vision and Pattern Recognition. Vancouver: IEEE, 2023: 5578–5588.

[本文引用: 1]

FAN C, LIANG J, SHEN C, et al. OpenGait: revisiting gait recognition toward better practicality [C]// IEEE/CVF Conference on Computer Vision and Pattern Recognition. Vancouver: IEEE, 2023: 9707–9716.

[本文引用: 2]

WANG M, GUO X, LIN B, et al. DyGait: exploiting dynamic representations for high-performance gait recognition [C]// IEEE/CVF International Conference on Computer Vision. Paris: IEEE, 2023: 13378–13387.

[本文引用: 3]

LIAO R, YU S, AN W, et al

A model-based gait recognition method with body pose and human prior knowledge

[J]. Pattern Recognition, 2020, 98: 107069

DOI:10.1016/j.patcog.2019.107069      [本文引用: 2]

TEEPE T, KHAN A, GILG J, et al. Gaitgraph: graph convolutional network for skeleton-based gait recognition [C]// IEEE International Conference on Image Processing. Anchorage: IEEE, 2021: 2314–2318.

[本文引用: 2]

FU Y, MENG S, HOU S, et al. GPGait: generalized pose-based gait recognition [C]// 2023 IEEE/CVF International Conference on Computer Vision. Los Alamitos: IEEE Computer Soc, 2023: 19538–19547.

[本文引用: 2]

ZHANG C, CHEN X P, HAN G Q, et al

Spatial transformer network on skeleton-based gait recognition

[J]. Expert Systems, 2023, 40 (6): e13244

DOI:10.1111/exsy.13244      [本文引用: 2]

SUN Y, FENG X, MA L, et al. TriGait: aligning and fusing skeleton and silhouette gait data via a tri-branch network [C]// IEEE International Joint Conference on Biometrics. Ljubljana: IEEE, 2023: 1–9.

[本文引用: 2]

ZOU S, XIONG J, FAN C, et al. A multi-stage adaptive feature fusion neural network for multimodal gait recognition [C]// IEEE International Joint Conference on Biometrics. Ljubljana: IEEE, 2023: 1–10.

[本文引用: 3]

ZHU H, ZHENG W, ZHENG Z, et al. GaitRef: gait recognition with refined sequential skeletons [C]// 2023 IEEE International Joint Conference on Biometrics. Ljubljana: IEEE, 2023: 1–10.

[本文引用: 1]

ZHENG W, ZHU H, ZHENG Z, et al

GaitSTR: gait recognition with sequential two-stream refinement

[J]. IEEE Transactions on Biometrics, Behavior, and Identity Science, 2024, 6 (4): 528- 538

DOI:10.1109/TBIOM.2024.3390626      [本文引用: 3]

ZHENG J, LIU X, LIU W, et al. Gait recognition in the wild with dense 3D representations and a benchmark [C]// IEEE/CVF Conference on Computer Vision and Pattern Recognition. New Orleans: IEEE, 2022: 20196–20205.

[本文引用: 6]

DONG Y, YU C, HA R, et al. HybridGait: a benchmark for spatial-temporal cloth-changing gait recognition with hybrid explorations [C]// AAAI Conference on Artificial Intelligence. Palo Alto: Assoc Advancement Artificial Intelligence, 2024: 1600–1608.

[本文引用: 5]

LOPER M, MAHMOOD N, ROMERO J, et al

SMPL: a skinned multi-person linear model

[J]. ACM Transactions on Graphics, 2015, 34 (6): 248

[本文引用: 1]

YU S, TAN D, TAN T. A framework for evaluating the effect of view angle, clothing and carrying condition on gait recognition [C]// International Conference on Pattern Recognition. Hong Kong: IEEE, 2006: 441–444.

[本文引用: 1]

TAKEMURA N, MAKIHARA Y, MURAMATSU D, et al

Multi-view large population gait dataset and its performance evaluation for cross-view gait recognition

[J]. IPSJ Transactions on Computer Vision and Applications, 2018, 10 (1): 4

DOI:10.1186/s41074-018-0039-6      [本文引用: 1]

ZHU Z, GUO X, YANG T, et al. Gait recognition in the wild: a benchmark [C]// 2021 IEEE/CVF International Conference on Computer Vision. Montreal: IEEE, 2021: 14789–14799.

[本文引用: 1]

KIPF T N, WELLING M. Semi-supervised classification with graph convolutional networks [C]// International Conference on Learning Representations. Toulon: [s. n. ], 2017.

[本文引用: 1]

LI J, ZHANG Y, SHAN H, et al. Gaitcotr: improved spatial-temporal representation for gait recognition with a hybrid convolution-transformer framework [C]// 2023 IEEE International Conference on Acoustics, Speech and Signal Processing. Rhodes Island: IEEE, 2023: 1–5.

[本文引用: 1]

SONG Y F, ZHANG Z, SHAN C, et al. Stronger, faster and more explainable: a graph convolutional baseline for skeleton-based action recognition [C]// ACM International Conference on Multimedia. Seattle: ACM, 2020: 1625–1633.

[本文引用: 1]

LIU Z, WANG L, WU W, et al. TAM: temporal adaptive module for video recognition [C]// IEEE/CVF International Conference on Computer Vision. Montreal: IEEE, 2021: 13688–13698.

[本文引用: 1]

/