浙江大学学报(工学版), 2026, 60(3): 565-573 doi: 10.3785/j.issn.1008-973X.2026.03.012

计算机技术、控制工程

基于多尺度编码器融合的三维人体姿态估计算法

包晓安,, 陈恩琳, 张娜, 涂小妹, 吴彪, 张庆琪,

1. 浙江理工大学 计算机科学与技术学院,浙江 杭州 310018

2. 浙江广厦建设职业技术大学 建筑工程学院,浙江 东阳 322100

3. 浙江理工大学 理学院,浙江 杭州 310018

4. 山口大学 大学院东亚研究科,日本 山口 753-8514

3D human pose estimation based on multi-scale encoder fusion

BAO Xiaoan,, CHEN Enlin, ZHANG Na, TU Xiaomei, WU Biao, ZHANG Qingqi,

1. School of Computer Science and Technology, Zhejiang Sci-Tech University, Hangzhou 310018, China

2. School of Civil Engineering and Architecture, Zhejiang Guangsha Vocational and Technical University of Construction, Dongyang 322100, China

3. School of Science, Zhejiang Sci-Tech University, Hangzhou 310018, China

4. Graduate School of East Asian Studies, Yamaguchi University, Yamaguchi 753-8514, Japan

通讯作者: 张庆琪,男,博士. orcid.org/0009-0006-8043-2007. E-mail: c503snw@yamaguchi-u.ac.jp

收稿日期: 2025-03-13  

基金资助: 国家自然科学基金资助项目 (6207050141);浙江省重点研发计划资助项目(2020C03094);浙江省教育厅一般科研资助项目(Y202147659);浙江省教育厅资助项目(Y202250706,Y202250677);浙江省基础公益研究计划资助项目(QY19E050003).

Received: 2025-03-13  

Fund supported: 国家自然科学基金资助项目(6207050141);浙江省重点研发计划资助项目(2020C03094);浙江省教育厅一般科研资助项目(Y202147659);浙江省教育厅资助项目(Y202250706,Y202250677);浙江省基础公益研究计划资助项目(QY19E050003).

作者简介 About authors

包晓安(1973—),男,教授,从事机器视觉的研究.orcid.org/0000-0001-8305-0369.E-mail:baoxiaoan@zstu.edu.cn , E-mail:baoxiaoan@zstu.edu.cn

摘要

针对冗余信息干扰与信息完整性需求之间的矛盾,提出基于多尺度编码器融合的三维人体姿态估计方法. 该方法由关键帧时空编码器(KFSTE)和全局保留自注意力编码器(GRSAE)构成. KFSTE通过关键帧选择器对骨架特征序列进行筛选后,由时间编码器获取局部时空建模. GRSAE通过保留编码器进行全局单阶段编码来获取全局骨架序列特征,避免因关键帧筛选偏差导致的信息损失. 通过对双编码器的特征拼接及回归处理,预测得到三维人体姿态坐标. 实验结果表明,在较大规模的Human3.6M数据集上,所提方法的平均关节位置误差(MPJPE)比MixSTE低3%,有11个动作获得最佳.

关键词: 三维人体姿态估计 ; 时空编码器 ; 关键帧提取 ; 保留自注意力编码 ; 多编码特征融合

Abstract

A 3D human pose estimation method based on multi-scale encoder fusion was proposed in order to address the contradiction between redundant information interference and the need for information completeness. The method consisted of a key-frame spatial-temporal encoder (KFSTE) and a global retention self-attention encoder (GRSAE). The skeletal feature sequence was filtered by using a key-frame selector in KFSTE. Then local spatial-temporal dependencies were modeled through a temporal encoder. Global single-stage encoding was performed via a retention encoder in GRSAE to capture global skeletal sequence feature, thereby avoiding information loss caused by key-frame selection bias. The 3D human pose coordinates were predicted by concatenating the features from the two encoders followed by a regression module. The experimental results on the large-scale Human3.6M dataset demonstrated that the proposed method reduced the mean per-joint position error (MPJPE) by 3% compared with MixSTE and achieved the best performance on 11 actions.

Keywords: three-dimensional human pose estimation ; spatial-temporal encoder ; key-frame extraction ; retentive self-attention encoding ; multi-encoder feature fusion

PDF (1735KB) 元数据 多维度评价 相关文章 导出 EndNote| Ris| Bibtex  收藏本文

本文引用格式

包晓安, 陈恩琳, 张娜, 涂小妹, 吴彪, 张庆琪. 基于多尺度编码器融合的三维人体姿态估计算法. 浙江大学学报(工学版)[J], 2026, 60(3): 565-573 doi:10.3785/j.issn.1008-973X.2026.03.012

BAO Xiaoan, CHEN Enlin, ZHANG Na, TU Xiaomei, WU Biao, ZHANG Qingqi. 3D human pose estimation based on multi-scale encoder fusion. Journal of Zhejiang University(Engineering Science)[J], 2026, 60(3): 565-573 doi:10.3785/j.issn.1008-973X.2026.03.012

三维人体姿态估计(3D human pose estimation, 3D HPE)旨在从视频或图像序列中恢复人体在三维空间的结构与运动信息,广泛应用于动作识别[13]、人机交互[4]和虚拟现实[5]等领域. 当前的主流方法主要包括基于单目视频的直接三维估计[67]和基于二维关节点序列的二维到三维提升方法[811]. 随着二维人体姿态估计技术的成熟[12],后者因其较高的稳定性与通用性成为研究热点.

近年来,Transformer架构在3D HPE领域取得了显著突破. Zheng等[13]将长序列特征提取分解为空间与时间2个阶段,显著优于基于卷积的方法. 此后,Li等[14-18]进一步改进了基于Transformer的时空建模方式,但普遍面临以下两大挑战. 1)高频序列冗余问题. 在高帧率视频中,相邻帧间的骨架变化极小,导致模型重复处理无效信息,浪费计算资源并积累噪声. 简单降采样(如Einfalt等[19]所用)虽能减轻冗余,却会显著降低精度. 2)全局时空依赖建模困难. 由于长序列自注意力的计算代价高昂,主流方法往往采用时空分解或双阶段策略,从而丢失跨帧全局依赖信息. 在长序列建模方面,Fan等[20]提出的保留网络(retentive network, RetNet)通过显式衰减矩阵,有效降低了复杂度(由O(n2)降低至O(n)),增强了长距离依赖建模能力. 该机制已在语言建模与视觉任务中展现出优异的性能[20-23],但其在骨架序列建模中的潜力尚未充分挖掘.

为了应对上述问题,本文提出多尺度编码融合网络(multi-scale encoder fusion network, MSEFN). 该网络由关键帧时空编码器(key-frame spatial-temporal encoder, KFSTE)与全局保留自注意力编码器(global retentive self-attention encoder, GRSAE)组成. KFSTE通过门控选择网络筛选关键帧,去除冗余信息并强化关键动作细节. GRSAE基于保留自注意力机制建模全序列长程依赖,兼顾全局一致性与高效性. 两者并行融合,实现局部显著性与全局连贯性的统一建模. 实验结果表明,MSEFN在Human3.6M准数据集上显著优于现有的主流方法,在保持低复杂度的同时,获得了更高的精度.

1. 基于多尺度编码器融合的三维人体姿态估计算法

图1所示,MSEFN由KFSTE和GRSAE融合而成. 具体来说,KFSTE由关键帧选择器(key frame selector, KFE)和时间编码器(temporal transformer encoder, TTE)构成. 其中,KFE应用空间自注意力机制,学习单帧人体关节之间的空间相关性. 通过循环卷积分割编码器(RCSE)筛选帧间关键点特征,解决同一身体部位在连续运动时的冗余问题. 利用TTE的时间自注意力机制,学习关键帧所有人体关节之间的时间相关性. GRSAE将二维输入的时空信息展平成一个序列,由保留编码器获取全序列骨架信息编码.

图 1

图 1   基于多尺度编码融合的三维人体姿态估计算法的网络结构

Fig.1   Network structure of three-dimensional human pose estimation algorithm based on multi-scale encoding fusion


1.1. 关键帧时空编码器的设计

KFSTE三维姿态预测算法以Poseformer为基础,以双阶段的时空编码器为主干网络,额外添加关键帧筛选策略,降低时间编码器的计算复杂度,称为关键帧时空建模的方法,如图2所示. 核心方法是将空间关联后的各个帧特征通过关键帧筛选模块得到kf个关键帧特征,从而将时间编码器的运算复杂度从O($ {X}^{2} $)降低至$ O\left({k}_{f}^{2}\right) $,降低了运算复杂度,减少了噪声干扰.

图 2

图 2   关键帧时空编码器的示意图

Fig.2   Schematic diagram of key-frame spatial-temporal encoder


1.1.1. 关键帧选择器

KFE可以分为空间编码器(spatial transformer encoder, STE)和循环卷积分割编码(recurrent convolution-based segmentation encoder, RCSE)2个部分. 第1部分采用STE进行骨架关节点空间建模,因其强大的空间自注意力,可以非常有效地获取关节点之间的空间相关性. 给定输入的二维骨架序列$ {\boldsymbol{x}}\in {\mathbf{R}}^{f \times J \times 2} $,其中$ f $为序列长度,J为人类表示的联合坐标数. 将每一帧中一个人的所有关节的坐标线性投影到一个c维向量,表示为$ {\boldsymbol{z}}_{0}\in {\mathbf{R}}^{f\times{J}\times{c}} $.$ {{\boldsymbol{z}}}_{0} $中添加可学习的空间位置嵌入$ {{\boldsymbol{E}}}_{{\mathrm{Spos}}} $,对联合相关信息进行编码. 利用空间多头自注意力(spatial-MSA)分别为各帧$ {{\boldsymbol{z}}}_{0}^{i}\in {\mathbf{R}}^{1 \times J \times c} $的联合嵌入,建立空间依赖性. 该编码过程定义如下:

$ {{\boldsymbol{X}}}{{'}}= (\mathrm{M}\mathrm{S}\mathrm{A}\left(\mathrm{L}\mathrm{N}\left({\boldsymbol{x}}\right)+{{\boldsymbol{E}}}_{{\mathrm{Spos}}}\right), $

$ \mathrm{S}\mathrm{T}\mathrm{E}\left({{\boldsymbol{X}}}'\right)=\mathrm{M}\mathrm{L}\mathrm{P}\left(\mathrm{L}\mathrm{N}\left({{\boldsymbol{X}}}'\right)\right)+\mathrm{L}\mathrm{N}\left({{\boldsymbol{X}}}'\right). $

式中:LN(·)表示线性层. 在该阶段,输入到每个空间编码器的令牌数为J. 第i帧的L层空间编码器的输出用$ {{\boldsymbol{z}}}_{L}^{i}\in {\mathbf{R}}^{1 \times J \times c} $表示. 将每一帧的表示形式变平得到$ {{\boldsymbol{x}}}_{0}\in {\mathbf{R}}^{f\times \left(J\times c\right)} $,作为循环卷积分割编码器的输入,此时的$ {{\boldsymbol{x}}}_{0} $已经获取了单帧骨架序列的空间关联性特征.

第2部分RCSE解决了帧序列冗余造成计算冗余和精度缺失的问题. 将空间编码器建模后的序列分割成kf块. 分块后,通过GRU单元对每块进行重要性评分:重置门控制历史信息的遗忘比例,更新门决定当前帧特征的保留权重. 仅保留每块中重要性得分最高的帧,从而过滤冗余帧并聚焦关键动作阶段. 将筛选后的输出序列进行拼接,得到kf组关键帧特征. 该模块可以捕捉局部时间依赖,筛选得到信息量最大的关键帧(如动作起始/转折点),提升模型对关键动作的敏感度. 具体来说,将空间编码后的高维特征向量$ {\boldsymbol{x}}_{0}\in {\bf{R}}^{f\times \left(J\times c\right)} $,以kk= $ f $/kf)帧为一组分块,得到kf组大小维度一致的token. 将$ \left(J\times c\right) $暂时定义为D维度,此时,

$ {\boldsymbol{x}}_{0}={\left[{\boldsymbol{x}}_{0}^{\left(1\right)},{\boldsymbol{x}}_{0}^{\left(2\right)},\cdots ,{\boldsymbol{x}}_{0}^{\left(f\right)}\right]}^{{\mathrm{T}} } \in {\mathbf{R}}^{f\times D}. $

式中:$ {\boldsymbol{x}}_{0}^{\left(i\right)} $ 为第i帧的特征向量,$ {\boldsymbol{x}}_{0}^{\left(i\right)}\in {\mathbf{R}}^{D} $.k个令牌为一组,得到kf个待筛选块$ {\boldsymbol{X}}_{{\mathrm{chunks}}}\in {\mathbf{R}}^{f\times D} $. 分块后的张量表示为

$ {\boldsymbol{X}}_{{\mathrm{chunks}}}=\left[\begin{array}{cccc}{\boldsymbol{x}}_{0}^{\left(1\right)}& {\boldsymbol{x}}_{0}^{\left(2\right)}& \cdots & {\boldsymbol{x}}_{0}^{\left(k\right)}\\ {\boldsymbol{x}}_{0}^{(k+1)}& {\boldsymbol{x}}_{0}^{(k+2)}& \cdots & {\boldsymbol{x}}_{0}^{\left(2k\right)}\\ \vdots & \vdots & & \vdots \\ {\boldsymbol{x}}_{0}^{(f-k+1)}& {\boldsymbol{x}}_{0}^{(f-k+2)}& \cdots & {\boldsymbol{x}}_{0}^{\left(f\right)}\end{array}\right]. $

式中:$ {\boldsymbol{X}}_{{\mathrm{chunk}}}^{\left(i\right)}\mathrm{为} $i个块(i =1,2$,\cdots , $kf),

$ {\boldsymbol{X}}_{{\mathrm{chunk}}}^{\left(i\right)}={\left[\begin{array}{c}{\boldsymbol{x}}_{1}^{\left(\right(i-1)k+1)},{\boldsymbol{x}}_{1}^{\left(\right(i-1)k+2)},\cdots ,{\boldsymbol{x}}_{1}^{\left(ik\right)}\end{array}\right]}^{\mathrm{T }}. $

$ {\boldsymbol{X}}_{{\mathrm{chunk}}}^{\left(i\right)} $输入到循环卷积单元进行帧特征选择,则第i组的帧特征选择器的输出用$ {{\boldsymbol{x}}}_{N}\in {\mathbf{R}}^{1 \times \left(J\times c\right)} $表示,其中$ N\in (1,{k}_{f}) $,得到经过筛选后的kf帧空间特征编码序列. 将输出的每一组关键特征帧拼接后变平,得到$ {{\boldsymbol{x}}}_{1}\in {\bf{R}}^{{k}_{{{f}}}\times \left(J\times c\right)} $即为循环卷积分割编码器的输出序列. 将该阶段表述为

$ \mathrm{R}\mathrm{C}\mathrm{S}\mathrm{E}\left({\boldsymbol{X}}_{{\mathrm{chunk}}}^{\left(i\right)}\right)=\mathrm{S}\mathrm{o}\mathrm{f}\mathrm{t}\mathrm{M}\mathrm{a}\mathrm{x}\left(\mathrm{G}\mathrm{R}\mathrm{U}\left({\boldsymbol{X}}_{{\mathrm{chunk}}}^{\left(i\right)}\right)\right). $

这一步有效地缩短了输入时间编码器序列的长度,减少了输入时间编码器的信息冗余,大大降低了时间自注意力编码器的计算复杂度.

1.1.2. 时间编码模块

根据文献[13]可知,时间编码器能够有效地对关键特征空间编码器的输出进行时间特征的提取,从而进行跨帧人体运动建模. TTE的设计结构如图3的右半部分所示. 具体来说,将帧选择器的输出$ {{\boldsymbol{x}}}_{1} $添加可学习的时间位置嵌入$ {{\boldsymbol{E}}}_{{\mathrm{Spos}}}\in {\mathbf{R}}^{1 \times J\times c} $,为每一帧编码索引相关的信息. 带有M层的时间编码器利用时间多头自注意力(temporal-MSA)模拟整个序列的帧对帧的依赖关系. 在该阶段,每个时间编码层的令牌号是N,这是经过关键帧时空编码后的输入序列的长度. 时间编码器的时间建模过程如下:

图 3

图 3   时-空编码器模块的结构

Fig.3   Structure of spatial-temporal transformer encoder


$ {{\boldsymbol{X}}}'= (\mathrm{M}\mathrm{S}\mathrm{A}\left({\mathrm{LN}}\left({{\boldsymbol{x}}}_{1}\right)+{{\boldsymbol{E}}}_{{\mathrm{Spos}}}\right), $

$ \mathrm{T}\mathrm{T}\mathrm{E}\left({{\boldsymbol{X}}}'\right)=\mathrm{M}\mathrm{L}\mathrm{P}\left(\mathrm{L}\mathrm{N}\left({{\boldsymbol{X}}}'\right)\right)+\mathrm{L}\mathrm{N}\left({{\boldsymbol{X}}}'\right). $

1.2. 全局保留自注意力编码器的设计

全局保留自注意力编码网络的设计如图4所示. 给定输入的二维骨架序列${\boldsymbol{x}}\in \mathbf{R}^{f \times J\times 2} $. 将每一帧中所有关节的坐标线性投影到c维向量,表示为$ {{\boldsymbol{z}}}_{0}\in {\mathbf{R}}^{f\times J\times c} $. 将每一帧的骨架序列首尾相连,通过线性层进行编码,由于输入骨架序列的每一帧包含所有关节点的坐标,这些坐标携带空间拓扑信息. 序列在输入前在时间维度上进行了线性拼接,则保留机制原始的指数衰减矩阵能够在计算注意力权重时自动学习关节点间的时空相关性. 利用保留自注意力(retentive self-attention, RSA)为各帧$ {{\boldsymbol{z}}}_{0}^{i}\in {\mathbf{R}}^{1 \times J\times c} $嵌入骨架信息,可以建立全局时空依赖性. 在该阶段,输入到每个空间编码器的令牌数为J. 第i帧的L层保留自注意力编码层,该过程表述为

图 4

图 4   保留自注意力编码的结构

Fig.4   Structure of retentive self-attention encoder


$ {{\boldsymbol{z}}}_{L}^{i}=\mathrm{R}\mathrm{S}\mathrm{A}\left(\mathrm{L}\mathrm{N}\left({\boldsymbol{z}}_{0}^{{i}}\right)\right). $

该阶段的输出用$ {{\boldsymbol{z}}}_{L}^{i}\in {\mathbf{R}}^{1 \times J\times c} $表示. 将全局建模后的输出再次投影到一个d维向量,通过全连接层FFN进行非线性变换后,得到该阶段的预测结果. 此时的输出获取了全局骨架序列的空间关联性特征. 整个过程可以表述为

$ \mathrm{G}\mathrm{R}\mathrm{S}\mathrm{A}\mathrm{E}\left({{\boldsymbol{z}}}_{L}^{i}\right)=\mathrm{F}\mathrm{F}\mathrm{N}\left(\mathrm{L}\mathrm{N}\left({{\boldsymbol{z}}}_{L}^{i}\right)\right). $

1.3. 多尺度编码融合的设计

图1所示,本文的模型由2个分支组成,分别是基于关节点的局部关键帧时空编码器和基于全局骨架的保留自注意力编码器. KFSTE通过分块和GRU筛选关键帧,输入序列长度从f降至 kf,显著降低后续时间编码的计算复杂度(尤其对Transformer的O($ {{n}}^{2} $)注意力),有效去除冗余性,保留动作关键帧(如起止点、姿态突变帧),减少噪声帧干扰,提升模型对重要动作阶段的敏感性. 均匀分块可能破坏动作完整性(如跨越块边界的动作),且关键帧筛选可能遗漏次要但重要的过渡帧. GRU对长序列的建模能力有限,时间编码器仅处理稀疏关键帧,可能忽略全局动作上下文. KFSTE可能缺乏全局视角.

将GRASE和KFSTE 2种不同尺度的编码器进行融合,利用保留自注意力的高效全局感知力直接建模全序列的长期依赖,捕捉动作的全局连贯性,平衡计算效率与长序列建模能力. 从空间层面来看,关键帧编码器关注局部显著性信息,全局保留自注意力编码器提供全局上下文,两者结合可以兼顾细粒度动作细节与整体运动趋势. 从时间层面来看,关键帧编码器压缩时间维度以降低计算量,保留自注意力编码器保留完整时序以捕捉长程依赖,两者联合可以平衡效率与精度.

具体的实现过程如下. 在局部关键帧时空编码分支中,将输入的二维骨架序列$ {{\boldsymbol{x}}}_{0}\in {\mathbf{R}}^{F\times J\times c} $传递给关键帧特征选择器,获得关键帧骨架序列. 通过时间编码器,对空间建模后的关键帧骨架序列进行时间序列建模. 该部分表示为

$ {{\boldsymbol{x}}}_{1}={\mathrm{T}\mathrm{T}\mathrm{E}}_{\mathrm{M}}\left(\mathrm{G}\mathrm{S}\mathrm{E}\left({\mathrm{S}\mathrm{T}\mathrm{E}}_{\mathrm{L}}\left({{\boldsymbol{x}}}_{0}\right)\right)\right);\; {{\boldsymbol{x}}}_{0}\in {\mathbf{R}}^{F\times J\times c}. $

式中:TTE为时间编码器结构,$ \mathrm{G}\mathrm{S}\mathrm{E} $为帧特征选择的核心组件,STE为空间编码结构. 关键帧时空编码结构的输出为$ {{\boldsymbol{x}}}_{1} $.

在基于全局骨架的保留自注意力编码器分支中,将输入的二维骨架序列首尾相连,组成一条长序列. 通过保留自注意力编码的建模,获取全局骨架的序列特征. 将该部分表示为

$ {{\boldsymbol{x}}}_{2}=\mathrm{R}\mathrm{S}\mathrm{A}\mathrm{E}\left({{\boldsymbol{x}}}_{0}\right); \;{{\boldsymbol{x}}}_{0}\in {\mathbf{R}}^{F\times J\times c}. $

式中:$ \mathrm{R}\mathrm{S}\mathrm{A}\mathrm{E} $为保留自注意力的编码结构,$ {\boldsymbol{x}}_{0}\in {\mathbf{R}}^{{F} \times {J}\times {c}} $为二维姿态序列的输入. 该骨架序列全局建模结构的输出为$ {{\boldsymbol{x}}}_{2} $.

为了融合局部骨架时空特征和全局序列自注意力特征,通过Concat的方式,将2个编码特征拼接起来,加强注意力输出之间的联系,保留全局与局部信息. 相比于交叉注意力的融合方式,从理论上可能会提高预测精准度,但是两分支特征动态交互,会引入额外的计算开销,提升计算复杂度. 若采用加权求和的方式,虽然计算量略有下降,但由于全局和局部信息维度的匹配度较低,导致精度下降明显. 通过回归头,输出预测的三维骨架. 该过程表述为

$ {\boldsymbol{Y}}=\mathrm{C}\mathrm{o}\mathrm{n}\mathrm{c}\mathrm{a}\mathrm{t}\left(\mathrm{M}\mathrm{L}\mathrm{P}\left({{\boldsymbol{x}}}_{1}\right),\mathrm{F}\mathrm{F}\mathrm{N}\left({{\boldsymbol{x}}}_{2}\right)\right), $

$ {{\boldsymbol{Y}}}'=\mathrm{H}\mathrm{e}\mathrm{a}\mathrm{d}\;\left({\boldsymbol{Y}}\right). $

式中:Head为回归头,Y'为最终推理的三维人体姿态.

1.4. 回归头和损失函数

多尺度编码融合的三维人体姿态估计算法在跨帧人体运动建模融合后得到的是一组帧序列. 若要预测中心帧的三维姿态,则须将编码融合模块$ {\boldsymbol{Y}}'\in {\mathbf{R}}^{N\times \left(J\times c\right)} $的输出简化为$ {\boldsymbol{Y}}'\in {\mathbf{R}}^{1\times \left(J\times c\right)} $. 在帧维度上应用加权平均操作(使用学习到的权重). 最后一个具有Layer范数和线性层的MLP块返回输出$ {\boldsymbol{Y}}''\in {\mathbf{R}}^{1\times \left(J\times 3\right)} $,这是中心帧预测的3D姿态.

网络以端到端的方式进行训练,最终的损失函数表示为

$ L={J}^{-1}{\varSigma }_{k=1}^{J}\parallel {{\boldsymbol{p}}}_{k}-{\hat{{\boldsymbol{p}}}}_{k}{\parallel }_{2.} $

式中:$ {{\boldsymbol{p}}}_{k} $$ {\hat{{\boldsymbol{p}}}}_{k} $分别为第i帧中第J个关节的预测三维坐标和地面实况三维坐标. 融合后的网络可以获取富含局部特征的关键节点信息,还能捕捉到动作的全局连贯性. 两者结合,从理论上可以有效地减少自遮挡关节点的重叠问题.

2. 实验分析

2.1. 数据集、评估指标与实施细节

在2个常用的人体姿态基准数据集(Human3.6M[24]和MPI-INF-3DHP[25])上进行评估. 在 Human3.6M 数据集上,在不同地点的4台摄像机在室内拍摄了超过360万张视频帧,包含11个受试者,执行15个不同的动作. 评估指标包括平均关节位置误差(MPJPE)和对齐的平均关节点位置误差P-MPJPE[26]. 在 MPI-INF-3DHP 数据集上,在受控的室内环境和具有挑战性的室外环境中收集. 采用曲线下面积(AUC)、正确关键点百分比(PCK)和 MPJPE 作为评估指标.

MSEFN在Pytorch [27]框架上进行训练及测试,所有的过程都在NVIDIA RTX 3090上进行. 此外,MSEFN使用AdamW[28]优化器对模型进行100个轮次的训练,权重衰减为0.1. 将初始学习率设置为8×10−4,采用指数学习率衰减计划,衰减因子为0.99. 在Human3.6M上采用CPN[29]二维姿态和Ground Truth 2D检测. 对于MPI-INF- 3DHP数据集,使用Ground truth 2D检测. 在实验时,STE和TTE的编码器循环层数均设置为4,时空编码器中嵌入的特征维数c为32. 使用 MPJPE 作为损失函数,计算关节点3D预测姿态和3D真实标签之间的平均欧几里得距离.

2.2. 不同数据集实验结果分析

为了验证提出的MSEFN网络的有效性和竞争性, 在Human3.6M 数据集上,对MSEFN与多个先进的3D HPE方法进行比较,包括Mhformer[21]、MixSTE[15]、KTPFormer[30]、 TCPFormer[31]等. 上述方法的数据来源均出自近年来公开的实验结果或作者提供的开源代码测试生成的实验结果,相关数据如表12所示.

表 1   协议1、协议2下MSEFN与不同方法在Human3.6M数据集上的MPJPE结果 (基于CPN检测输入)

Tab.1  Comparison of MPJPE result of MSEFN and different methods under protocol 1 and protocol 2 on Human3.6M dataset (based on CPN-detected input)

CPN 协议1会议名MPJPE/mm
Dir.Disc.Eat.GrceetPhonePhotoPosePunch.SitSitD.SomkeWaitWalkD.WalkWalkT.平均值
文献[32] (f= 243)CVPR’1845.246.743.345.648.155.144.644.357.365.847.1444932.833.946.8
文献[33]NeurIPS’1944.846.143.346.449.055.244.64458.362.747.143.948.632.733.346.7
文献[9] (f = 243)CVPR’2041.844.841.144.947.454.143.442.256.263.645.343.545.331.332.245.1
SRNet[11]ECCV’2046.647.143.941.645.849.646.540.053.461.146.142.643.131.532.644.8
UGCN[34] (f= 96)ECCV’2041.343.944.042.248.057.142.243.257.361.347.043.547.032.631.845.6
文献[8] (f = 81)TCSVT’2142.143.841.043.846.153.542.443.153.960.545.742.146.232.233.844.6
PoseFormer[13] (f =81)ICCV’2141.544.839.842.546.551.6424253.360.745.543.346.131.832.244.3
MHFormer[21] (f =351)CVPR’2239.243.140.140.944.951.240.641.353.560.343.741.143.829.830.643.0
MixSTE[15] (f =243)CVPR’2237.640.937.339.742.349.940.139.851.755.042.139.841.027.927.940.9
KTPFormer[30] (f =243)CVPR’2437.339.235.937.642.548.238.639.051.455.941.639.040.027.027.440.1
TCPFormer[31] (f =81)CVPR’2540.5
MSEFN (f =81,kf = 27)36.839.935.839.141.047.537.537.651.547.939.838.242.125.626.839.8
CPN 协议2会议名MPJPE/mm
Dir.Disc.Eat.GrceetPhonePhotoPosePunch.SitSitD.SomkeWaitWalkD.WalkWalkT.平均值
文献[7]CVPR’1834.739.841.838.642.547.538.036.650.756.842.639.643.932.136.541.8
文献[35] (f = 7)ICCV’1935.737.836.940.739.645.237.434.546.950.140.536.141.029.632.339.0
文献[9] (f = 243)CVPR’2032.335.233.335.835.941.533.232.744.650.937.032.437.025.227.235.6
UGCN[34] (f = 96)ECCV’2032.935.,235.634.436442.731.232.545.650.237.332.836.326.023.935.5
PoseFormer[13] (f =81)ICCV’2132.534,832.634.635.339.532.132.042.848.534.832.435.324.52634.6
MHFormer[21] (f =351)CVPR’2231.534.932.833.635.339.632.032.243.548.136.432.634.323.925.134.4
MixSTE[15] (f =243)CVPR’2230.833.130.331.833.139.131.130.542.544.534.030.832.722.122.932.6
KTPFormer[30] (f =243)CVPR’2430.132.329.630.832.337.330.030.241.045.333.629.931.421.522.631.9
TCPFormer[31] (f =81)CVPR’2533.7
MSEFN (f =81,kf = 27)27.530.528.531.831.536.428.52841.746.63228.331.819.821.331.0

新窗口打开| 下载CSV


表 2   协议1下MSEFN与不同方法在Human3.6M数据集上的MPJPE结果对比(基于GT检测姿态输入)

Tab.2  Comparison of MPJPE result of MSEFN and different methods under protocol 1 on Human3.6M dataset (based on GT-detected pose input)

GT 协议1会议名MPJPE/mm
Dir.Disc.Eat.GrceetPhonePhotoPosePunch.SitSitD.SomkeWaitWalkD.WalkWalkT.平均值
PoseFormer [13] (f = 81)ICCV’2130.033.629.931.030.233.334.831.437.838.631.731.529.023.323.131.3
MHFormer [21] (f =351)CVPR’2227.732.129.128.930.033.933.031.23739.330.031.029.422.223.030.5
POT[36] (f = 81)AAAI’2332.938.328.333.834.938.737.230.734.539.733.934.734.326.128.933.8
MSEFN (f =81,kf = 27)27.128.025.326.524.627.729.826.031.333.626.528.728.116.318.326.5

新窗口打开| 下载CSV


表1所示为测试集的所有15个动作结果. 最后一列提供了在所有测试集上的平均性能. 其中,加粗表示最好,下划线表示次好. 具体来说,在实验中采用CPN网络来提取二维姿态,并将该二维姿态作为输入. 提出的模型在协议1(protocol 1)下获得39.8 mm的平均MPJPE,比Poseformer低3.6 mm,比MixSTE低1.6 mm,取得最佳的结果. 此外,比较协议2下的方法,使用刚性对齐. 本文方法在平均MPJPE上优于KTPFormer,从31.9 mm减小到31.0 mm.

为了进一步研究本文方法的边界,直接使用Ground Truth(GT)的二维位姿作为输入. 结果如表2所示,加粗表示最好. 通过使用真实二维姿态数据,与MHformer相比,平均分数提高了约13%,MPJPE从30.5 mm减少到26.5 mm,且全部动作都获得最佳得分.

为了进一步评估泛化能力,在MPI-INF-3DHP数据集上进行评估. 在MPI-INF-3DHP测试集上,与其他方法进行比较,如表3所示. 由于该数据集的序列长度较短,将输入的帧序列长度设置为27,关键帧序列设置为9. 如表3所示,MSEFN在3个评估指标上均优于其他方法,分别以99.1%(PCK)、76.4%(AUC)、31.2 mm(MPJPE)的结果优于 P-STMO及MHFormer.

表 3   MPI-INF-3DHP下3个指标的详细定量比较结果

Tab.3  Detailed quantitative comparison result of three indicators under MPI-INF-3DHP

方法PCK/%AUC/%MPJPE/mm
VideoPose3D [37]86.051.984.0
UGCN [34]86.962.168.1
Anatomy3D [8]87.954.078.8
MixSTE [15]94.466.554.9
Poseformer [13]95.463.257.7
MHFormer [21]93.863.358.0
P-STMO [22]97.975.832.2
MSEFN99.176.431.2

新窗口打开| 下载CSV


为了评估关键帧选择模块对模型效率的优化作用,在表4中列出了计算量、参数量、精度的对比实验结果. 可以看出,MSEFN在参数量为MHFormer一半的情况下,MPJPE指标优于MHFormer.

表 4   Human3.6 M上FLOPs、Np和MPJPE指标的定量比较结果

Tab.4  Quantitative comparison result of FLOPs, Np and MPJPE indicator on Human3.6M

方法fFLOPs/106Np/106MPJPE/mm
Poseformer [13]27542.19.6547.0
StridedTran [14]813924.0645.4
MHFormer [21]271031.818.9245.9
MSEFN81(kf = 27)5539.9739.8

新窗口打开| 下载CSV


综上所述,与目前的先进方法相比,MSEFN取得了具有竞争力的三维人体姿态估计结果. MSEFN不仅在精度上有着较强的竞争力,而且在训练推理效率上有着明显的优势.

2.3. 消融实验

为了验证本文模型中每个组件的影响和性能,开展广泛的消融实验. 利用Human 3.6M数据集和CPN检测器生成二维关键点,将二维姿态提升到三维姿态. 所有方法都在Human3.6M上进行训练,并在协议1上的MPJPE进行测量. 开展实验来量化提出的组件和模型体系结构的影响,如表5所示. 为了进行公平的比较,使用Protocol 1下Human3.6 M的MPJPE的详细定量比较结果,输入为Ground truth,感受野f = 81帧. 在Baseline模型(Poseformer)和全局保留编码网络(GRSAN)中进行测试,获取基准值的MPJPE. 在加入帧选择模块(KFSTE)后,MPJPE减少了1.2 mm(从31.3 mm减少到29.6 mm);在加入GRSAN后,MPJPE达到28.2 mm. 在基线上融合双编码器(MSEF)后,模型有效提升了15%(从31.3 mm减少到26.5 mm),证明了多尺度编码融合设计的有效性.

表 5   MSEFN算法不同模块的消融研究

Tab.5  Ablation study of different modules of MSEFN

模块组合MPJPE/mm
Baseline31.3
GRSAN34.7
Baseline+GRSAN28.2
Baseline +KFS(KFSTE)29.6
Baseline+KFS+ GRSAN(MSEFN)26.5

新窗口打开| 下载CSV


为了验证本文模型中每个组件的影响和性能,开展广泛的实验,包括对于输入帧数和关键帧数对参数量、计算量、预测结果的影响以及输入维度和输入层数的消融实验等. 利用Human 3.6M数据集和CPN检测器生成二维关键点,以提升到三维姿态. 所有方法都在Human3.6M上进行训练,并在协议1上进行实验.

研究KFSTEN在不同分块比例(kf/f)下对性能的影响,如图5所示. 可以看出,在分块比例为33%,即f = 81,kf = 27的情况下获得了最佳性能. 当分块比例大于33%时,冗余信息将产生干扰;当分块比例小于33%时,将忽略过多的关键信息,导致预测精度下降.

图 5

图 5   本文方法在Human3.6M数据集上的3D HPE图像视觉评估

Fig.5   3D HPE visual evaluation of proposed method on Human3.6M dataset


此外,在MSEFN中进行选择帧数的消融研究. 如表6所示为针对不同输入序列长度组合的模型性能、参数量、每帧的估算浮点运算次数FLOPs以及推理帧率FPS等数据. 与其他模型相比,在参数量相近的情况下,本文模型能够获得更好的性能. 从不同帧数比例的比较结果来看,在分块比例小于33%的情况下,随着选择帧数的增加,模型的参数量和计算成本均呈增加的趋势. 当输入的序列帧数为81,选择帧数为27(均匀分成27块)时,模型参数量为9.97×106,计算量为553×106,在单个RTX 3090 GPU上的推理帧率为403帧/s,姿态估计误差MPJPE仅为 42.8 mm. 与其他方法相比,本文方法具有明显的效率优势与精度优势.

表 6   选择帧数的消融研究的定量比较结果

Tab.6  Quantitative comparison result of ablation study on selection of frame rate

方法fkfFLOPs/106Npv/(帧·s−1)MPJPE/mm
Poseformer[13]2727542.19.6542847.0
StridedTran[14]81813924.0619945.4
MHFormer[21]27271031.818.923345.9
MSEFN2734096.2347047.8
MSEFN2794677.5545045.5
MSEFN8134587.1145542.8
MSEFN8195217.9644940.1
MSEFN81275539.9740339.8

新窗口打开| 下载CSV


表7所示为时间维度tc和时间编码器层数tl的组合. 在Poseformer中,空间编码器的最优维度参数为32,空间编码器的个数为4. 只对时间维度参数和时间编码器的个数进行对比实验. 从实验结果可知,模型的最优tc为32,tl为4.

表 7   在不同维数、层数下的消融研究结果

Tab.7  Ablation study result under different dimension and layer

tctlMPJPE/mmtctlMPJPE/mm
16242.032640.3
16441.948240.6
16641.848440.4
32241.148641.2
32439.8

新窗口打开| 下载CSV


2.4. 可视化对比

图6所示为Human3.6M的估计姿态和三维真实姿态的视觉结果. 通过测试集S11的“坐下来”、“进食”、“问候”和“步行”等动作进行分析,表明利用本文方法可以估计出准确的姿态,且可以学习到丰富的时间维度特征. 除了Ground Truth是使用真实二维姿态作为输入,其他方法均以CPN检测到的二维姿态作为输入. 从存在自遮挡的视频帧对比可以看出,本文方法对自遮挡帧的预测精度高于Poseformer. 特别是在手部、腿部及头颈部交叉的动作中,预测的关节点可能会出现重叠的问题,本文方法在一定程度上有效避免了轮廓模糊的问题. 除此之外,本文方法在深度细节的预测上更接近Ground Truth. 总之,本文方法的精度和鲁棒性都非常有优势,可以预测得到效果更好的三维姿态.

图 6

图 6   Human3.6M数据集上本文方法的可视化评估

Fig.6   Visualization result of proposed method on Human3.6M dataset


在具有挑战性的数据集上测试本文方法,以验证鲁棒性. 如图6所示为在具有挑战性的现实场景视频数据集上的定性结果. 可以看出,利用本文方法可以生成不同的三维姿态序列,特别是对于具有丰富时间信息的运动,本文方法均可以预测出较准确的三维姿态. 当视频存在自遮挡及动作复杂时,利用本文方法,可以获得准确的预测结果.

3. 结 语

针对高频视频序列中冗余信息导致的资源浪费与噪声干扰,以及难以捕获全局骨架序列特征的问题,提出基于多尺度编码器融合的三维人体姿态估计方法(MSEFN). 该方法包括关键帧时空编码器(KFSTE)与全局保留自注意力编码器(GRSAE). KFSTE通过关键帧筛选,有效地去除冗余信息,突出局部显著性特征. GRSAE通过全局自注意力建模增强长程依赖感知,保持时序完整性. 两者的融合实现了局部细粒度与全局一致性特征的协同建模. 实验结果表明,所提方法在2个公开基准数据集上均取得了优异性能,显著优于多种主流的先进模型. 未来的研究将致力于进一步降低模型复杂度,将该方法扩展至多对象姿态估计与复杂交互动作识别这些具有挑战性的场景.

参考文献

ZHANG C, YANG T, WENG J, et al. Unsupervised pre-training for temporal action localization tasks [C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. New Orleans: IEEE, 2022: 14011–14021.

[本文引用: 1]

CHEN H, HE J Y, XIANG W, et al. Hdformer: high-order directed transformer for 3d human pose estimation [C]//Proceedings of the 32nd International Joint Conference on Artificial Intelligence. Macao: ACM, 2023: 581-589.

LIU M, YUAN J. Recognizing human actions as the evolution of pose estimation maps [C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. Salt Lake City: IEEE, 2018: 1159–1168.

[本文引用: 1]

ZHANG Q, BAO X, WU R, et al

A skeleton temporal fusion graph convolutional network for elderly action recognition

[J]. IEICE Transactions on Fundamentals of Electronics, Communications and Computer Sciences, 2025, 108 (5): 704- 713

[本文引用: 1]

MEHTA D, SRIDHAR S, SOTNYCHENKO O, et al

VNect: real-time 3D human pose estimation with a single RGB camera

[J]. ACM Transactions on Graphics, 2017, 36 (4): 1- 14

[本文引用: 1]

MOON G, LEE K M. I2L-MeshNet: image-to-lixel prediction network for accurate 3D human pose and mesh estimation from a single RGB image [C]//Proceedings of the European Conference on Computer Vision. Cham: Springer, 2020: 752–768.

[本文引用: 1]

PAVLAKOS G, ZHOU X, DANIILIDIS K. Ordinal depth supervision for 3D human pose estimation [C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. Salt Lake City: IEEE, 2018: 7307–7316.

[本文引用: 2]

CHEN T, FANG C, SHEN X, et al

Anatomy-aware 3D human pose estimation with bone-based pose decomposition

[J]. IEEE Transactions on Circuits and Systems for Video Technology, 2022, 32 (1): 198- 209

DOI:10.1109/TCSVT.2021.3057267      [本文引用: 3]

LIU R, SHEN J, WANG H, et al. Attention mechanism exploits temporal contexts: real-time 3D human pose reconstruction [C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. Seattle: IEEE, 2020: 5063–5072.

[本文引用: 2]

WANG J, YAN S, XIONG Y, et al. Motion guided 3D pose estimation from videos [C]// Proceedings of the European Conference on Computer Vision. Cham: Springer, 2020: 764–780.

ZENG A, SUN X, HUANG F, et al. SRNet: improving generalization in 3D human pose estimation with a split-and-recombine approach [C]// Proceedings of the European Conference on Computer Vision. Cham: Springer, 2020: 507–523.

[本文引用: 2]

CAO Z, SIMON T, WEI S E, et al. Realtime multi-person 2d pose estimation using part affinity fields [C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. Honolulu: IEEE, 2017: 7291-7299.

[本文引用: 1]

ZHENG C, ZHU S, MENDIETA M, et al. 3D human pose estimation with spatial and temporal transformers [C]//Proceedings of the IEEE/CVF International Conference on Computer Vision. Montreal: IEEE, 2022: 11636–11645.

[本文引用: 8]

LI W, LIU H, DING R, et al

Exploiting temporal contexts with strided transformer for 3D human pose estimation

[J]. IEEE Transactions on Multimedia, 2023, 25: 1282- 1293

DOI:10.1109/TMM.2022.3141231      [本文引用: 3]

ZHANG J, TU Z, YANG J, et al. MixSTE: seq2seq mixed spatio-temporal encoder for 3D human pose estimation in video [C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. New Orleans: IEEE, 2022: 13222–13232.

[本文引用: 4]

ZHU W, MA X, LIU Z, et al. MotionBERT: a unified perspective on learning human motion representations [C]//Proceedings of the IEEE/CVF International Conference on Computer Vision. Paris: IEEE, 2024: 15039–15053.

TANG Z, QIU Z, HAO Y, et al. 3D human pose estimation with spatio-temporal criss-cross attention [C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. Vancouver: IEEE, 2023: 4790–4799.

CHEN X, HAN Y, WANG X, et al

Action keypoint network for efficient video recognition

[J]. IEEE Transactions on Image Processing, 2022, 31: 4980- 4993

DOI:10.1109/TIP.2022.3191461      [本文引用: 1]

EINFALT M, LUDWIG K, LIENHART R. Uplift and upsample: efficient 3D human pose estimation with uplifting transformers [C]//Proceedings of the IEEE/CVF Winter Conference on Applications of Computer Vision. Waikoloa: IEEE, 2023: 2902–2912.

[本文引用: 1]

FAN Q, HUANG H, CHEN M, et al. Rmt: retentive networks meet vision transformers [C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. Seattle: IEEE, 2024: 5641-5651.

[本文引用: 2]

LI W, LIU H, TANG H, et al. MHFormer: multi-hypothesis transformer for 3D human pose estimation [C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. New Orleans: IEEE, 2022: 13137–13146.

[本文引用: 7]

SHAN W, LIU Z, ZHANG X, et al. P-STMO: pre-trained spatial temporal many-to-one model for3D human pose estimation [C]//European Conference on Computer Vision. Cham: Springer, 2022: 461–478.

[本文引用: 1]

FAN Q, HUANG H, CHEN M, et al. RMT: retentive networks meet vision transformers [C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. Seattle: IEEE, 2024: 5641–5651.

[本文引用: 1]

IONESCU C, PAPAVA D, OLARU V, et al

Human3.6M: large scale datasets and predictive methods for 3D human sensing in natural environments

[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2014, 36 (7): 1325- 1339

DOI:10.1109/TPAMI.2013.248      [本文引用: 1]

MEHTA D, RHODIN H, CASAS D, et al. Monocular 3D human pose estimation in the wild using improved CNN supervision [C]//Proceedings of the International Conference on 3D Vision. Qingdao: IEEE, 2018: 506–516.

[本文引用: 1]

ZHENG C, WU W, CHEN C, et al

Deep learning-based human pose estimation: a survey

[J]. ACM Computing Surveys, 2024, 56 (1): 1- 37

[本文引用: 1]

MARGOSSIAN C C

A review of automatic differentiation and its efficient implementation

[J]. WIREs Data Mining and Knowledge Discovery, 2019, 9 (4): e1305

DOI:10.1002/widm.1305      [本文引用: 1]

FINDER S E, AMOYAL R, TREISTER E, et al. Wavelet convolutions for large receptive fields [C]//European Conference on Computer Vision. Cham: Springer, 2024: 363-380.

[本文引用: 1]

CHEN Y, WANG Z, PENG Y, et al. Cascaded pyramid network for multi-person pose estimation [C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. Salt Lake City: IEEE, 2018: 7103–7112.

[本文引用: 1]

PENG J, ZHOU Y, MOK P Y. KTPFormer: kinematics and trajectory prior knowledge-enhanced transformer for 3D human pose estimation [C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. Seattle: IEEE, 2024: 1123–1132.

[本文引用: 3]

LIU J, LIU M, LIU H, et al. Tcpformer: Learning temporal correlation with implicit pose proxy for 3d human pose estimation [C]//Proceedings of the AAAI Conference on Artificial Intelligence. Washington: AAAI, 2025, 39(5): 5478−5486.

[本文引用: 3]

PAVLLO D, FEICHTENHOFER C, GRANGIER D, et al. 3D human pose estimation in video with temporal convolutions and semi-supervised training [C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. Long Beach: IEEE, 2020: 7745–7754.

[本文引用: 1]

YEH R, HU Y T, SCHWING A. Chirality nets for human pose regression [J]. Advances in Neural Information Processing Systems, 2019, 32: 8161–8171.

[本文引用: 1]

WANG J, YAN S, XIONG Y, et al. Motion guided 3d pose estimation from videos [C]//European Conference on Computer Vision. Cham: Springer, 2020: 764−780.

[本文引用: 3]

CAI Y, GE L, LIU J, et al. Exploiting spatial-temporal relationships for 3D pose estimation via graph convolutional networks [C]//Proceedings of the IEEE/CVF International Conference on Computer Vision. Seoul: IEEE, 2020: 2272–2281.

[本文引用: 1]

LI H, SHI B, DAI W, et al

Pose-oriented transformer with uncertainty-guided refinement for 2D-to-3D human pose estimation

[J]. Proceedings of the AAAI Conference on Artificial Intelligence, 2023, 37 (1): 1296- 1304

DOI:10.1609/aaai.v37i1.25213      [本文引用: 1]

WANG H, LUO D, IKENAGA T. Image information assistance neural network for VideoPose3D-based monocular 3D pose estimation [C]//Proceedings of the 17th International Conference on Machine Vision and Applications. Aichi: IEEE, 2021: 1–4.

[本文引用: 1]

/