<img src="https://www.zjujournals.com/eng/images/1008-973X/images/logo.png" class="img-responsive">

图 1 DFGait网络结构

Fig.1 Structure of DFGait network

2.1. 轮廓特征提取

在轮廓分支中，以Fan等^[10]提出的GaitBase为基线网络进行优化改进. 针对原始GaitBase仅关注空间特征提取而忽略步态时序建模的局限性，构建时间特征提取模块. 如图2所示，通过时间卷积对步态轮廓的时间动态特征进行建模，从而弥补GaitBase在时间维度特征提取上的不足.

图 2

图 2 轮廓分支结构

Fig.2 Structure of silhouette branch

2.2. SMPL特征提取

为了充分挖掘SMPL人体模型包含的形状和姿势信息，设计了双分支处理结构，如图3所示. 其中，SMPL姿势分支采用ResGCN网络^[28]提取人体的动态运动姿势特征，通过图卷积操作建模关节间的时空依赖关系；SMPL形状分支则基于多层感知机（multilayer perceptron, MLP）网络，专注于提取表征人体体型、肢体比例的静态形状特征. 这种基于SMPL模态分解的双分支设计实现了运动特征和形状特征的独立提取与优化，既保留了SMPL模型在人体结构表征方面的优势，又增强了对个体形态差异的辨识能力.

图 3

图 3 SMPL双分支结构

Fig.3 Two-branch structure of SMPL

2.2.1. SMPL姿势特征提取

采用ResGCN网络来提取SMPL模型的姿势特征. 针对图卷积在远距离节点依赖关系建模方面的局限性，提出自适应帧关节注意力模块，其整体结构如图4(a)所示. 该模块通过可学习的双维度注意力机制，在空间维度和时间维度上分别自适应地分配所有关节和所有帧的重要性权重. 由此在整个姿势序列中捕获关键帧的重要关节信息，从而增强模型对个体步态运动特征的捕捉能力.

图 4

图 4 自适应帧关节注意力模块实现细节

Fig.4 Implementation details of AFJAtt

假设自适应帧关节注意力模块输入的步态特征图为$ {{{\boldsymbol{F}}}_{\mathrm{in}}} \in {{\mathbf{R}}^{{C} \times {T} \times {V}}} $，其中C为通道数，T为帧数量，V为关节数量. 为了提高对时间帧特征和关节特征的敏感性，先通过双分支结构进行分别处理：对关节维度平均池化，去除关节的空间位置影响，专注于帧维度的特征变化，生成帧级步态特征$ {{{\boldsymbol{F}}}_{\mathrm{Frame}}} \in {{\mathbf{R}}^{{C} \times {T}}} $；同时，对帧维度平均池化，生成关节级步态特征$ {{{\boldsymbol{F}}}_{\mathrm{Joint}}} \in {{\mathbf{R}}^{{C} \times {V}}} $：

(1)$ \boldsymbol{F}_{\text {Frame}}=\dfrac{1}{{V}} \sum_{{i}=1}^{{V}} \boldsymbol{F}_{\mathrm{in}} , $

(2)$ \boldsymbol{F}_{\mathrm{Joint}}=\dfrac{1}{{T}} \sum_{{i}=1}^{{T}} \boldsymbol{F}_{\mathrm{in}} . $

经过自适应特征聚合(adaptive feature aggregation, AFA)模块，包含自适应卷积核的生成（见图4(b)），以及自适应卷积过程（见图4(c)）. 受视频识别中Liu等^[29]提出的时间自适应思想的启发，本研究将其自适应机制扩展到帧和关节的时空维度. 该模块通过帧自适应分支捕获时序中的关键特征，关节自适应分支捕获重要关节特征，从而自适应地提取时空信息.

具体来说，首先基于压缩后的帧级特征和关节级特征生成自适应卷积核，如图4(b)所示. 自适应卷积核的生成过程由一个局部特征学习模块${{L}}$和一个全局特征学习模块${{G}}$来共同实现，然后通过Softmax层将其转化为权重分布，即自适应卷积核. 该过程分别对时间帧和关节进行建模，不考虑通道之间的相关性，即为每个通道分别生成独立的帧自适应卷积核$ {{\boldsymbol{K}}_{\text{F}}} $和关节自适应卷积核${{\boldsymbol{K}}_{\text{J}}}$：

(3)$ \boldsymbol{K}_{\mathrm{F}}=\operatorname{Softmax}\left({G}\left({L}\left(\boldsymbol{F}_{\text {Frame }}\right)\right)\right) , $

(4)$ \boldsymbol{K}_{\mathrm{J}}=\operatorname{Softmax}\left({G}\left({L}\left(\boldsymbol{F}_{\text {Joint }}\right)\right)\right) . $

其中，局部特征学习模块${{L}}$由一维卷积层构成，包含批量归一化层和ReLU激活函数，用于捕捉细粒度的局部信息；全局特征学习模块${{G}}$由2个线性层构成，用于捕获更高层次的全局信息. 通过这种方式动态生成的帧自适应卷积核和关节自适应卷积核能够在关注局部特征的同时，保持全局感受野，从而实现对时空特征的有效聚合.

最终，将生成的帧自适应卷积核$ {{\boldsymbol{K}}_{\mathrm{F}}} $和关节自适应卷积核$ {{\boldsymbol{K}}_{\text{J}}} $分别作用于原始的步态特征图$ {{\boldsymbol{F}}_{{\text{in}}}} $的帧维度和关节维度，进行独立于通道自适应卷积，如图4(c)所示. 通过卷积操作和Sigmoid函数归一化处理，得到自适应帧注意力${{\bf{Att}}_{{\text{Frame}}}}$和自适应关节注意力${{\bf{Att}}_{{\text{Joint}}}}$，并将两者相乘，得到自适应帧关节注意力$ {\bf{Att}} $：

(5)$ {{\bf{Att}}}_{\text {Frame }}=\operatorname{Sigmoid}\left(\operatorname{Conv}\left(\boldsymbol{F}_{\text {in }}, \boldsymbol{K}_{\mathrm{F}}\right)\right) , $

(6)$ {{\bf{Att}}}_{\text {Joint }}=\operatorname{Sigmoid}\left(\operatorname{Conv}\left(\boldsymbol{F}_{\text {in }}, \boldsymbol{K}_{\mathrm{J}}\right)\right), $

(7)$ {{\bf{Att}}}={{\bf{Att}}}_{\text {Frame }} \otimes {{\bf{Att}}}_{\text {Joint }} . $

对于原始步态特征图进行帧级和关节级的注意力分配，并进行残差连接：

(8)$ \boldsymbol{F}_{\mathrm{p}}={{\bf{Att}}} \otimes \boldsymbol{F}_{\text {in }}+\boldsymbol{F}_{\text {in }} . $

式中：${{\boldsymbol{F}}_{\mathrm{P}}}$为增强SMPL姿势序列中关键帧和重要关节信息的步态特征.

2.2.2. SMPL形状特征提取

在SMPL形状分支中，设计了一个3层的多层感知机网络，用于提取每一帧SMPL模型的空间特征. 该网络在每层线性变换后均采用批量归一化处理和RuLu激活函数，以增强非线性建模能力. 为了进一步提升模型的泛化性能，在后2层还添加了Dropout层，有效防止过拟合.

对SMPL模型双分支特征进行融合. 首先，将SMPL姿势分支得到的运动姿势特征${{\boldsymbol{F}}_{\text{P}}}$和SMPL形状分支得到的形状特征${{\boldsymbol{F}}_{\text{S}}}$分别进行最大池化处理，以保留各特征中的显著性信息. 然后，将池化后的姿势特征和形状特征进行逐元素相加，以实现SMPL模型2方面信息的融合：

(9)$ \boldsymbol{F}_{\mathrm{SMPL}}=\operatorname{Max} \operatorname{Pool}\left(\boldsymbol{F}_{\mathrm{P}}\right)+\operatorname{Max} \operatorname{Pool}\left(\boldsymbol{F}_{\mathrm{S}}\right) . $

式中：${{\boldsymbol{F}}_{{\text{SMPL}}}}$为融合SMPL姿势信息和SMPL形状信息的特征.

2.3. 模态嵌入融合

由于SMPL模型和轮廓模态在数据形式上的显著差异，直接的模态融合容易导致特征不对齐，从而影响融合效果和识别性能. 为了解决这一问题，模态嵌入融合策略提供了一种有效的方法，通过在特征空间中构建紧密的跨模态映射关系，如图5所示，将2种模态的信息投影到统一的语义空间，实现特征的对齐与融合，从而充分发挥2种模态的互补优势.

图 5

图 5 模态特征对齐示意图

Fig.5 Schematic diagram of modality feature alignment

为了提高融合模块的计算效率，本研究的模态嵌入融合操作专注于空间维度的特征融合，而不涉及时间维度. 模态嵌入融合模块的具体过程如图6所示，轮廓分支生成的轮廓特征图${{\boldsymbol{F}}_{{\text{Sil}}}}$为一个${D_{\text{S}}}$维的向量，SMPL姿势分支生成的自适应关节注意力${{\bf{Att}}_{{\text{Joint}}}}$为一个${D_{\text{J}}}$维的向量. 轮廓特征和自适应关节注意力嵌入同一语义空间的过程如下：

图 6

图 6 模态嵌入融合过程

Fig.6 Process of MEFusion

(10)$ \boldsymbol{F}_{\mathrm{e}}=\boldsymbol{T}_{\mathrm{s}} \boldsymbol{F}_{\mathrm{sil}},\; \boldsymbol{J}_{\mathrm{e}}=\boldsymbol{T}_{\mathrm{J}} {\bf{Att}}_{\text {Joint }} \text {. } $

式中：${{\boldsymbol{F}}_{\text{e}}}$和${{\boldsymbol{J}}_{\text{e}}}$分别为嵌入后的轮廓特征与姿势特征；$ {{\boldsymbol{T}}_{\text{S}}} \in {{\mathbf{R}}^{{D_{\text{e}}} \times {D_{\text{S}}}}} $和$ {{\boldsymbol{T}}_{\mathrm{J}}} \in {{\mathbf{R}}^{{D_{\mathrm{e}}} \times {D_{\mathrm{J}}}}} $分别为轮廓特征${{\boldsymbol{F}}_{{\mathrm{Sil}}}}$和自适应关节注意力${{{\bf{Att}}}_{{\text{Joint}}}}$的投影矩阵，用于将2类特征映射到统一的语义空间.

将嵌入后的轮廓特征${{\boldsymbol{F}}_{\text{e}}}$与姿势特征${{\boldsymbol{J}}_{\text{e}}}$送入跨模态融合层，以实现2个模态的特征融合：

(11)$ \boldsymbol{F}_{\mathrm{F}}=\operatorname{Linear}\left(\operatorname{Linear}\left(\operatorname{CBP}\left(\boldsymbol{F}_{\mathrm{e}}, \boldsymbol{J}_{\mathrm{e}}\right)\right)\right) . $

式中：${{\boldsymbol{F}}_{\text{F}}}$为融合轮廓信息和SMPL姿势信息后的特征；CBP为压缩双线性池化（compact bilinear pooling, CBP），将嵌入后的2个模态的特征进行高阶信息交互融合，捕捉模态之间的复杂关系；然后通过2个线性变换，将高维融合特征映射到低维空间，进一步提取有效融合特征.

为了量化跨模态特征在共维语义空间中的对齐程度，进一步计算了2个嵌入特征之间的距离，并将其作为优化模型的损失函数，以减少模态间的信息差异，确保融合后的特征能够准确捕捉到步态中的关键信息.

具体而言，将嵌入后的轮廓特征${{\boldsymbol{F}}_{\text{e}}}$与姿势特征${{\boldsymbol{J}}_{\text{e}}}$在单位超球面上的欧氏距离作为模态一致性损失，来有效约束2种模态在语义空间中的特征表达：

(12)$ {L}_{\mathrm{MC}}=\left\|\widehat{\boldsymbol{F}}_{\mathrm{e}}-\widehat{\boldsymbol{J}}_{\mathrm{e}}\right\|_2^2; \quad \text { s.t. }\left\|\boldsymbol{T}_{\mathrm{S}}\right\|_2=\left\|\boldsymbol{T}_{\mathrm{J}}\right\|_2=1 . $

式中：$ \widehat{\boldsymbol{F}_{\mathrm{e}}}=\boldsymbol{F}_{\mathrm{e}} /\left\|\boldsymbol{F}_{\mathrm{e}}\right\|$和$ \widehat{\boldsymbol{J}_{\mathrm{e}}}=\boldsymbol{J}_{\mathrm{e}} /\left\|\boldsymbol{J}_{\mathrm{e}}\right\|$表示将轮廓和SMPL模型的嵌入特征分进行归一化，以消除特征尺度对距离计算的干扰；约束条件$\left\|\boldsymbol{T}_{\mathrm{S}}\right\|_2=\left\|\boldsymbol{T}_{\mathrm{J}}\right\|_2=1$表示将$\boldsymbol{T}_{\mathrm{S}}$和$\boldsymbol{T}_{\mathrm{J}}$进行归一化，避免零向量或重合映射的平凡解，确保特征有效对齐.

2.4. 损失函数

通过3个损失函数联合训练来优化网络，联合损失函数定义如下：

(13)$ {L}=\alpha {L}_{\mathrm{tri}}+\beta {L}_{\mathrm{ce}}+\gamma {L}_{\mathrm{MC}}. $

式中：$\alpha $、$\beta $、$\gamma $分别为${{{L}}_{{\text{tri}}}}$、${{{L}}_{{\text{ce}}}}$、${{{L}}_{{\text{MC}}}}$的加权参数，${{{L}}_{{\text{tri}}}}$为三元组损失，${{{L}}_{{\text{ce}}}}$为交叉熵损失，${{{L}}_{{\text{MC}}}}$为模态一致性损失.

3. 实验与结果分析

3.1. 数据集

Gait3D^[20]是第1个基于三维表示的大规模步态识别数据集，广泛应用于真实场景下的步态识别研究. 其数据采集工作是在大型超市中进行的，具有高度的真实性. 该数据集包含了来自4000名受试者的25309个视频序列. 其中训练集包含3000名受试者，18940个序列；测试集包含1000名受试者，6369个序列. 为了进行评估，从每个受试者的序列中随机选择一个作为注册集，其余序列作为验证集，用于匹配与验证.

3.2. 实验设置

网络模型使用pytorch实现，并使用NVIDIA V100 GPUs进行训练. 在训练过程中，每个训练批次由32个身份组成，每个身份采样4条步态序列，每条序列固定采样30帧，帧间隔设置为4帧，以降低帧间冗余性. 同时，训练阶段启用样本顺序随机打乱策略，以提升模型的泛化能力. 网络训练使用SGD优化器，权重衰减为5×10⁻⁴，动量系数为0.9. 训练过程共进行1.2×10⁵次迭代，初始学习率设定为0.1，并采用多步长衰减策略，每2×10⁴次迭代后学习率按照0.1的比例衰减.

测试阶段采用完整序列输入，不对样本顺序进行打乱，以确保时间一致性，同时设置最大帧数为720，以控制显存消耗并保证推理效率.

轮廓分支的主干网络是由1个初始卷积层和4个基本残差块组构成的类似ResNet网络，具体配置详见表1.

表 1 轮廓分支ResNet类主干结构

Tab.1 ResNet-like backbone structure of silhouette branch

模块	模块结构	输出维度
Block0	$ \left[3\times 3, 64\right],\; {\rm{stride}}=1 $	30×64×64×44
Block1	$ \left[\begin{array}{c}3\times 3, 64\\ 3\times 3, 64\end{array}\right],\;{\rm{stride}}=1 $ $ \left[3\times 1\times 1, 64\right], \;{\rm{stride}}=1 $	30×128×64×44
Block2	$ \left[\begin{array}{c}3\times 3, 64\\ 3\times 3, 128\end{array}\right],\;{\rm{stride}}=2 $ $ \left[3\times 1\times 1, 128\right] , \;{\rm{stride}}=1 $	30×128×32×22
Block3	$ \left[\begin{array}{c}3\times 3, 128\\ 3\times 3, 256\end{array}\right],\;{\rm{stride}}=2 $ $ \left[3\times 1\times 1, 256\right],\; {\rm{stride}}=1 $	30×256×16×11
Block4	$ \left[\begin{array}{c}3\times 3, 256\\ 3\times \mathrm{3,256}\end{array}\right] ,\;{\rm{stride}}=1 $ $ \left[3\times 1\times 1, 256\right],\; {\rm{stride}}=1 $	30×256×16×11

SMPL姿势分支的主干网络是由ResGCN块组成，具体配置详见表2. 其中，基本层由空间图卷积层和K×1的时间卷积层组成，并且包含批量归一化层和ReLU激活函数，为了减少网络中的参数数量和计算量，在卷积层前后插入了1×1卷积层，形成瓶颈层. 此外，在每个层后均部署了自适应帧关节注意力层，由于注意力层不改变特征形状，因此未在表中单独列出.

表 2 SMPL姿势分支ResGCN主干结构

Tab.2 ResGCN backbone structure of SMPL pose branch

模块	模块结构	输出维度
Block0	批量归一化层	30×24×3
Block1	基本层	30×24×64
	瓶颈层	30×24×64
	瓶颈层	30×24×32
Block2	瓶颈层	30×24×64
	瓶颈层	30×24×128
	瓶颈层	30×24×256
	瓶颈层	30×24×256
Block3	最大池化层	1×256

3.3. 对比实验

如表3所示展示了本研究方法与13种先进步态识别方法在真实场景下的步态数据集Gait3D数据集下的对比结果. 其中，Rank-k表示准确率，即返回的排序列表中在前k位包含正确结果的比例；mAP表示平均查准率均值；mINP表示平均逆置负样本惩罚率. 具体来说，本研究方法与6种基于轮廓的方法、2种基于骨骼的方法以及5种基于轮廓和骨骼或SMPL模型的多模态方法进行性能对比.

表 3 不同方法在Gait3D数据集上识别性能的对比结果

Tab.3 Comparison results of different methods on Gait3D dataset

模态	方法	来源	Rank-1	Rank-5	mAP/%	mINP/%
轮廓	GaitSet^[5]	AAAI2019	36.70	58.30	30.01	17.30
	GaitPart^[6]	CVPR2020	28.20	47.60	21.58	12.36
	GaitGL^[8]	ICCV2021	29.70	48.50	22.29	13.26
	GaitGCI^[9]	CVPR2023	50.30	68.50	39.50	24.30
	GaitBase^[10]	CVPR2023	64.20	79.50	54.51	36.36
	DyGait^[11]	ICCV2023	66.30	80.80	56.40	37.30
骨骼	GaitGraph^[13]	ICIP2021	8.30	16.60	7.14	4.80
骨骼	GPGait^[14]	ICCV2023	22.50	—	—	—
轮廓+ 骨骼/SMPL	MSAFF^[17]	IJCB2023	48.10	66.60	38.45	23.49
	GaitRef^[18]	IJCB2023	49.00	69.30	40.69	25.26
	GaitSTR^[19]	T-BIOM2024	65.10	81.30	55.59	36.84
	SMPLGait^[20]	CVPR2022	46.30	64.50	37.16	22.23
	HybirdGait^[21]	AAAI2024	53.30	72.00	43.29	26.65
	DFGait	本研究	70.40	85.00	61.04	41.27

实验结果表明，本研究提出的方法在各项评价指标上均显著优于其他先进的步态识别方法，验证了其在步态特征全面提取与跨模态信息融合方面的有效性. 所提出的自适应帧关节注意力模块（AFJAtt）通过在关节的空间维度与帧的时间维度进行自适应注意力分配，精准聚焦于步态序列中的重要运动关节与关键帧. 模态嵌入融合模块（MEFusion）显著增强了不同模态的语义对齐，实现了高效的跨模态信息融合. 这些模块的协同设计使DFGait在真实场景下的步态识别任务中展现出更强的鲁棒性和识别准确性.

3.4. 消融实验

为了进一步验证模型中各模块的有效性，在Gait3D数据集上进行系统的消融实验，通过定量分析与可视化验证相结合的方式，深入探究各模块对模型整体性能的贡献.

为了验证自适应帧关节注意力模块的有效性，在GaitGraph模型和DFGait模型的SMPL姿势分支上进行该模块的消融实验. 实验结果如表4所示. 可以看出通过引入自适应帧关节注意力模块，GaitGraph模型和DFGait模型的SMPL姿势分支在各项指标上均表现出显著提升，反映了该模块的性能增益.

表 4 自适应帧关节注意力模块的消融实验

Tab.4 Ablation experiments for AFJAtt

Methods	R-1	R-5	mAP/%	mINP/%
GaitGraph	8.30	16.60	7.14	4.80
GaitGraph+AFJAtt	11.30	22.50	9.87	6.56
SMPL姿势分支	6.20	12.60	4.92	2.94
SMPL姿势分支+AFJAtt	8.10	15.70	5.77	3.69

为了直观感受自适应帧关节注意力模块的时空特征提取特性，随机选取一个样本，对SMPL姿势分支的7个注意力层进行分层可视化分析. 图7（a）为SMPL人体模型关节拓扑结构示意图，图7（b）展示了第1、3、5、7自适应帧关节注意力层的权重热力分布. 其中，j为关节序号，t为时间帧，w为注意力权重. 浅层注意力AFJAtt1和AFJAtt3的权重范围为0.25~0.40，深层注意力AFJAtt5和AFJAtt7的权重范围提升至0.25~0.85，这反映了通过层级学习，该模块对关键时空特征的提取能力逐步增强. 在关节维度上，下肢关节（5、8、9、11、12）和上肢关节（19、20、22、23、24）表现出更高的注意力权重，这与步态周期中四肢摆动蕴含丰富步态信息的运动学特征相符. 在时间帧维度上，热力图中的注意力响应呈现出明显的周期性波动，特别是下肢关节的权重变化与步行周期保持一致，表现了该模块对步态周期中关键帧的动态建模能力. 综合消融实验结果与可视化分析，证明了自适应帧关节注意力模块在步态序列中有效捕捉关键帧的重要关节信息的能力.

图 7

图 7 自适应帧关节注意力权重热力图

Fig.7 Heatmap of AFJAtt weights

为了验证多模态结构、自适应帧关节注意力模块以及模态嵌入融合模块的有效性，进行了系统的消融实验，结果如表5所示. 实验结果表明：1）多模态结构相比于单一轮廓分支或SMPL分支，在识别精度上有明显提升，验证了多模态结构能够有效融合轮廓模态和SMPL模型的互补优势；2）在模态嵌入融合模块中，特征嵌入融合操作（embedding fusion, EFusion）和模态一致性损失函数（MCLoss）均对模型性能有正向贡献，两者协同使用时效果最优；3）自适应帧关节注意力模块和模态嵌入融合模块均对多模态结构的性能优化有显著的增益作用，充分验证了所有模块的有效性.

表 5 多模态结构、自适应帧关节注意力模块及模态嵌入融合模块的消融实验

Tab.5 Ablation study on multimodal structure, AFJAtt, and MEFusion

轮廓分支	SMPL分支	AFJAtt	MEFusion		R-1	R-5	mAP/%	mINP/%
轮廓分支	SMPL分支	AFJAtt	EFusion	MCLoss	R-1	R-5	mAP/%	mINP/%
—	√	—	—	—	26.40	41.90	17.44	10.23
√	—	—	—	—	64.90	82.20	54.96	35.70
√	√	—	—	—	66.10	83.20	55.64	36.44
√	√	√	—	—	68.90	84.20	58.94	39.11
√	√	√	√	—	69.50	85.10	60.61	41.22
√	√	√	√	√	70.40	85.00	61.04	41.27

4. 结　语

本研究提出基于SMPL模态分解与嵌入融合的多模态步态识别方法. 通过对SMPL模型进行分解，并设计自适应帧关节注意力模块和模态嵌入融合模块，解决多模态建模中分支特征提取不足和跨模态对齐不充分的问题. 在Gait3D数据集上的实验结果表明，本研究方法在多个评价指标上均优于现有的先进方法，为真实场景中的步态识别提供了更加精准与高效的解决方案.

本研究仍存在以下几个局限性亟待解决：1）SMPL模型生成技术尚不成熟，影响整体识别效果，且其生成过程尚依赖较高质量的图像输入，在遮挡严重、服装变化以及多视角差异等实际应用环境下仍存在稳定性不足问题；2）支持SMPL标注的步态数据集稀缺，目前仅Gait3D数据集提供相关数据，限制了模型的泛化性评估与迁移能力；3）多模态融合结构整体计算开销相对较高，限制了方法在资源受限设备或实时性要求较高的场景中的部署应用；4）现阶段实验主要基于公开数据集，尚未在实际系统中部署验证，缺乏对模型在真实应用场景中表现的系统性评估.

针对上述问题，未来研究可从几个方向展开：1）推动SMPL模型重建技术的标准化和高效化发展；2）推动构建更多包含SMPL模型的步态数据集；3）探索轻量化网络设计与模型压缩方法，提升模型计算效率；4）结合真实应用场景进行部署测试，对方法在实际系统中的性能进行系统性评估和反馈优化，推动方法的实际落地应用.

参考文献

原文顺序

文献年度倒序

文中引用次数倒序

被引期刊影响因子

[1]

MAHMOUD M, KASEM M S, KANG H S

A comprehensive survey of masked faces: recognition, detection, and unmasking

[J]. Applied Sciences, 2024, 14 (19): 8781

DOI:10.3390/app14198781 [本文引用: 1]

[2]

JIA Z, HUANG C, WANG Z, et al

Finger recovery transformer: toward better incomplete fingerprint identification

[J]. IEEE Transactions on Information Forensics and Security, 2024, 19: 8860- 8874

DOI:10.1109/TIFS.2024.3419690

[3]

KUEHLKAMP A, BOYD A, CZAJKA A, et al. Interpretable deep learning-based forensic iris segmentation and recognition [C]// IEEE/CVF Winter Conference on Applications of Computer Vision Workshops. Waikoloa: IEEE, 2022: 359–368.

[4]

赵晓东, 刘作军, 陈玲玲, 等

下肢假肢穿戴者跑动步态识别方法

[J]. 浙江大学学报: 工学版, 2018, 52 (10): 1980- 1988

ZHAO Xiaodong, LIU Zuojun, CHEN Lingling, et al

Approach of running gait recognition for lower limb amputees

[J]. Journal of Zhejiang University: Engineering Science, 2018, 52 (10): 1980- 1988

[5]

CHAO H, WANG K, HE Y, et al

GaitSet: cross-view gait recognition through utilizing gait as a deep set

[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2022, 44 (7): 3467- 3478

[本文引用: 3]

[6]

FAN C, PENG Y, CAO C, et al. GaitPart: temporal part-based model for gait recognition [C]// IEEE/CVF Conference on Computer Vision and Pattern Recognition. Seattle: IEEE, 2020: 14213–14221.

[7]

HUANG Z, XUE D, SHEN X, et al. 3D local convolutional neural networks for gait recognition [C]// IEEE/CVF International Conference on Computer Vision. Montreal: IEEE, 2021: 14900–14909.

[8]

LIN B, ZHANG S, YU X. Gait recognition via effective global-local feature representation and local temporal aggregation [C]// IEEE/CVF International Conference on Computer Vision. Montreal: IEEE, 2021: 14628–14636.

[9]

DOU H, ZHANG P, SU W, et al. GaitGCI: generative counterfactual intervention for gait recognition [C]// IEEE/CVF Conference on Computer Vision and Pattern Recognition. Vancouver: IEEE, 2023: 5578–5588.

[10]

FAN C, LIANG J, SHEN C, et al. OpenGait: revisiting gait recognition toward better practicality [C]// IEEE/CVF Conference on Computer Vision and Pattern Recognition. Vancouver: IEEE, 2023: 9707–9716.

DOI:10.1016/j.patcog.2019.107069 [本文引用: 2]

[11]

WANG M, GUO X, LIN B, et al. DyGait: exploiting dynamic representations for high-performance gait recognition [C]// IEEE/CVF International Conference on Computer Vision. Paris: IEEE, 2023: 13378–13387.

[本文引用: 3]

[12]

LIAO R, YU S, AN W, et al

A model-based gait recognition method with body pose and human prior knowledge

[J]. Pattern Recognition, 2020, 98: 107069

[13]

TEEPE T, KHAN A, GILG J, et al. Gaitgraph: graph convolutional network for skeleton-based gait recognition [C]// IEEE International Conference on Image Processing. Anchorage: IEEE, 2021: 2314–2318.

[14]

FU Y, MENG S, HOU S, et al. GPGait: generalized pose-based gait recognition [C]// 2023 IEEE/CVF International Conference on Computer Vision. Los Alamitos: IEEE Computer Soc, 2023: 19538–19547.

[15]

ZHANG C, CHEN X P, HAN G Q, et al

Spatial transformer network on skeleton-based gait recognition

[J]. Expert Systems, 2023, 40 (6): e13244

DOI:10.1111/exsy.13244 [本文引用: 2]

[16]

SUN Y, FENG X, MA L, et al. TriGait: aligning and fusing skeleton and silhouette gait data via a tri-branch network [C]// IEEE International Joint Conference on Biometrics. Ljubljana: IEEE, 2023: 1–9.

[17]

ZOU S, XIONG J, FAN C, et al. A multi-stage adaptive feature fusion neural network for multimodal gait recognition [C]// IEEE International Joint Conference on Biometrics. Ljubljana: IEEE, 2023: 1–10.

[本文引用: 3]

[18]

ZHU H, ZHENG W, ZHENG Z, et al. GaitRef: gait recognition with refined sequential skeletons [C]// 2023 IEEE International Joint Conference on Biometrics. Ljubljana: IEEE, 2023: 1–10.

[19]

ZHENG W, ZHU H, ZHENG Z, et al

GaitSTR: gait recognition with sequential two-stream refinement

[J]. IEEE Transactions on Biometrics, Behavior, and Identity Science, 2024, 6 (4): 528- 538

DOI:10.1109/TBIOM.2024.3390626 [本文引用: 3]

[20]

ZHENG J, LIU X, LIU W, et al. Gait recognition in the wild with dense 3D representations and a benchmark [C]// IEEE/CVF Conference on Computer Vision and Pattern Recognition. New Orleans: IEEE, 2022: 20196–20205.

[本文引用: 6]

[21]

DONG Y, YU C, HA R, et al. HybridGait: a benchmark for spatial-temporal cloth-changing gait recognition with hybrid explorations [C]// AAAI Conference on Artificial Intelligence. Palo Alto: Assoc Advancement Artificial Intelligence, 2024: 1600–1608.

[本文引用: 5]

[22]

LOPER M, MAHMOOD N, ROMERO J, et al

SMPL: a skinned multi-person linear model

[J]. ACM Transactions on Graphics, 2015, 34 (6): 248

[23]

YU S, TAN D, TAN T. A framework for evaluating the effect of view angle, clothing and carrying condition on gait recognition [C]// International Conference on Pattern Recognition. Hong Kong: IEEE, 2006: 441–444.

[24]

TAKEMURA N, MAKIHARA Y, MURAMATSU D, et al

Multi-view large population gait dataset and its performance evaluation for cross-view gait recognition

[J]. IPSJ Transactions on Computer Vision and Applications, 2018, 10 (1): 4

DOI:10.1186/s41074-018-0039-6 [本文引用: 1]

[25]

ZHU Z, GUO X, YANG T, et al. Gait recognition in the wild: a benchmark [C]// 2021 IEEE/CVF International Conference on Computer Vision. Montreal: IEEE, 2021: 14789–14799.

[26]

KIPF T N, WELLING M. Semi-supervised classification with graph convolutional networks [C]// International Conference on Learning Representations. Toulon: [s. n. ], 2017.

[27]

LI J, ZHANG Y, SHAN H, et al. Gaitcotr: improved spatial-temporal representation for gait recognition with a hybrid convolution-transformer framework [C]// 2023 IEEE International Conference on Acoustics, Speech and Signal Processing. Rhodes Island: IEEE, 2023: 1–5.

[28]

SONG Y F, ZHANG Z, SHAN C, et al. Stronger, faster and more explainable: a graph convolutional baseline for skeleton-based action recognition [C]// ACM International Conference on Multimedia. Seattle: ACM, 2020: 1625–1633.

[29]

LIU Z, WANG L, WU W, et al. TAM: temporal adaptive module for video recognition [C]// IEEE/CVF International Conference on Computer Vision. Montreal: IEEE, 2021: 13688–13698.