浙江大学学报(工学版), 2024, 58(10): 2001-2010 doi: 10.3785/j.issn.1008-973X.2024.10.003

计算机与控制工程

基于知识共享的遮挡人体姿态估计网络

江佳鸿,, 夏楠,, 李长吾, 于鑫淼

大连工业大学 信息科学与工程学院,辽宁 大连 116034

Occluded human pose estimation network based on knowledge sharing

JIANG Jiahong,, XIA Nan,, LI Changwu, YU Xinmiao

School of Information Science and Engineering, Dalian Polytechnic University, Dalian 116034, China

通讯作者: 夏楠,男,副教授,博士. orcid.org/0009-0000-6591-0572. E-mail:xianan@dlpu.edu.cn

收稿日期: 2024-03-26  

基金资助: 教育部产学合作协同育人资助项目(220603231024713).

Received: 2024-03-26  

Fund supported: 教育部产学合作协同育人资助项目(220603231024713).

作者简介 About authors

江佳鸿(1999—),男,硕士生,从事人体姿态估计研究.orcid.org/0009-0006-2447-1968.E-mail:jjh19990901@163.com , E-mail:jjh19990901@163.com

摘要

现有人体姿态估计方法处理遮挡情况时性能较差,为此提出新的估计网络,包含遮挡区域强化卷积网络(OCNN)和遮挡特征补偿图卷积网络(OGCN). 设计高低阶特征匹配注意力以强化遮挡区域特征,由OCNN提取高适配权重,通过少量遮挡数据的方式实现遮挡部位的强化检测. 由OGCN消除障碍物特征,通过强化关键点共有及专有属性的方式补偿节点特征;进行邻接矩阵重要性加权以改善遮挡部位特征质量,提升检测精度. 所提网络在数据集COCO2017、COCO-Wholebody、CrowdPose上的检测精度分别为78.5%、67.1%、77.8%,优于对比算法. 在自建遮挡数据集上所提网络节约了75%的训练数据使用.

关键词: 人体姿态估计 ; 遮挡处理 ; 高低阶特征匹配 ; 节点特征补偿 ; 邻接矩阵加权

Abstract

A new estimation network was proposed for improving the insufficient occlusion handling ability of existing human pose estimation methods. An occluded parts enhanced convolutional network (OCNN) and an occluded features compensation graph convolutional network (OGCN) were included in the proposed network. A high-low order feature matching attention was designed to strengthen the occlusion area features, and high-adaptation weights were extracted by OCNN, achieving enhanced detection of the occluded parts with a small amount of occlusion data. OGCN strengthened the shared and private attribute compensation node features by eliminating the obstacle features. The adjacency matrix was importance-weighted to enhance the quality of the occlusion area features and to improve the detection accuracy. The proposed network achieved detection accuracy of 78.5%, 67.1%, and 77.8% in the datasets COCO2017, COCO-Wholebody, and CrowdPose, respectively, outperforming the comparative algorithms. The proposed network saved 75% of the training data usage in the self-built occlusion dataset.

Keywords: human pose estimation ; occlusion handling ; high-low order feature matching ; node feature compensation ; adjacency matrix weighting

PDF (1801KB) 元数据 多维度评价 相关文章 导出 EndNote| Ris| Bibtex  收藏本文

本文引用格式

江佳鸿, 夏楠, 李长吾, 于鑫淼. 基于知识共享的遮挡人体姿态估计网络. 浙江大学学报(工学版)[J], 2024, 58(10): 2001-2010 doi:10.3785/j.issn.1008-973X.2024.10.003

JIANG Jiahong, XIA Nan, LI Changwu, YU Xinmiao. Occluded human pose estimation network based on knowledge sharing. Journal of Zhejiang University(Engineering Science)[J], 2024, 58(10): 2001-2010 doi:10.3785/j.issn.1008-973X.2024.10.003

人体姿态估计是基于图像或视频中人体关键点之间的空间结构关系来推断姿势和分析运动状态的技术[1-3]. 准确检测人体关键点的位置对于人体姿态估计至关重要[4-5],而且关键点检测逐渐成为姿态估计的主流方法. 人体姿态估计在运动捕捉[6]、运动分析[7]、增强现实[8]和人机交互[9]等领域都有广泛的应用.

根据图片中出现的人体数目,姿态估计分为单人和多人2个类别. 前者仅包含单个人体且背景较理想,后者面向更复杂的环境和不确定数目的人体;前者仅须检测单个人体所有部位关键点并形成人体姿态,后者的检测方法分为自上而下的方法[10-12]和自下而上的方法[13-15];前者先定位每个人的边界框,再在每个框内执行单人关键点检测,后者检测所有关键点,将属于同一个人的关键点聚合. 总之,单人姿态估计的检测效率高,检测准确性取决于边界框的准确性;多人姿态估计提取的细节特征全面,但搜索范围较大,检测效率有待提升. 现有关键点检测方法在理想环境下表现良好,在遮挡环境下的检测效果欠佳. 主要原因是1)遮挡训练数据不足:如在COCO2017数据集中,包含遮挡案例的图片占总体的25%[16],仅有极少关键点被遮挡,网络权重会逐渐向常规无遮挡关键点方向收敛. 2)遮挡关键点的特征表达能力不强:关键点被障碍物遮挡,无法描述关键点真实属性. 可见,网络权重应向遮挡方向收敛,遮挡部位特征的表达能力须改善.

为了提升遮挡部位的检测精度,本研究提出基于知识共享的遮挡人体姿态估计网络,分为遮挡区域强化卷积网络(occluded parts enhanced convolutional network, OCNN)和遮挡特征补偿图卷积网络(occluded features compensation graph convolutional network, OGCN) 2个部分,通过融合OCNN与OGCN实现对遮挡部位的增强检测. OCNN具有2个子网络,为常规关键点检测骨干(normal bone, NB)和遮挡增强骨干(occlusion bone, OB),子网络的结构均为HRNet[11]. NB有充足训练数据,但遮挡部位的检测性能差;OB能够提升遮挡处理性能,但缺少遮挡训练数据. 本研究将NB深层权重迁移至OB,作为OB提取人体拓扑结构的先验知识;提出高低阶特征匹配注意力(high-low order feature matching attention, HLFMA)来强化遮挡区域的表达能力,将强化后的特征图作为OB浅层的训练数据,利用少量数据微调网络权重使浅层收敛. OGCN能够提升关键点特征的表达能力. 为了进一步改善遮挡部位特征的表达能力,本研究提出遮挡特征补偿方法,消除障碍物特征并融合关键点的共有属性及专有属性;提出邻接矩阵重要性加权方法,加权后的邻接矩阵能够根据节点之间的关联性对边的连接关系进行准确定义.

1. 相关工作

1.1. 遮挡处理方法

研究者采用不同方法处理遮挡问题. 1)深度先验方法:Banzi 等 [17] 整合网络不同层提取的特征提取能力以捕捉关键点之间的关系;Kim 等[18]引入自适应采样策略和深度一致性约束,有效地解决了遮挡问题. 2)身体先验方法:Wang 等 [19] 提出关节关系提取器,以伪热图表示的关键点作为输入,使网络能够推断被遮挡关键点的位置;Peng 等 [20] 提出人体骨骼拓扑结构,用于在模型中提取非相邻关键点之间的相关关系. 3)时间先验方法:Artacho 等 [21] 提出基于LSTM的框架,结合跨尺度的上下文信息和高斯热图解码来提高骨干特征提取器的性能;Gai 等 [22] 提取并集成不同人的特征,在时间维度获得时空特征后,在目标帧上建立全局线索,提高了目标帧特征的全面性. 上述方法将常规关键点与遮挡关键点的检测视为统一问题并用单个网络解决,由于遮挡特征与关键点特征的离散性,极少的遮挡数据无法使网络收敛于遮挡方向,导致遮挡处理能力较差. 此外,这些方法没有对被遮挡的关键点特征进行补偿,导致高层次特征不完整,影响了整体特征精度. 遮挡问题的处理方法须具备以下特点:准确识别被遮挡的关键点,消除障碍物特征,使用与关键点真实特性相匹配的多维特征来增强关键点特征的表达能力,构建完整的高阶特征.

1.2. 图神经网络

图神经网络具有特征传递及提取能力,在遮挡环境中能够提取其他关键点特征并对被遮挡关键点进行补偿. Yin 等 [23] 提出多分支注意力图卷积运算,使用几种变换矩阵提取对被遮挡关键点有贡献的特征信息. Fan 等 [24] 提出的利用全局关系推理图卷积网络能够有效捕捉不同身体关节之间的全局关系,有助于构建高阶特征,使遮挡关键点检测精度提升. Pasa 等 [25] 提出多分辨率储层图神经网络,旨在生成显式的无监督图表示,进一步处理节点特征之间的关系. Morshed 等 [26] 提出可学习的边缘采样和折线图,在训练前通过学习参数选择特定数量的边缘采样机制减少了过度平滑,缓解了信息丢失的问题. Isufi 等 [27] 提出的边缘变化图神经网络,通过学习与边缘和邻居相关的权重来捕获局部细节并共享参数. 图神经网络应用于人体姿态估计存在节点特征提取方法单一的问题,这不仅会导致特征描述不全面,还会导致大量冗余特征参与特征构建. 由此可见,在图神经网络中,全面构建节点特征并精确描述邻接矩阵是必要的.

2. 基于知识共享的遮挡人体姿态估计网络

2.1. 遮挡区域强化卷积网络

遮挡案例不足将使网络权重在优化过程中向无遮挡关键点检测方向收敛,而将遮挡特征视为冗余特征;在单个网络中同时检测常规和遮挡关键点会降低对遮挡部位的检测性能,因此有必要设计独立的子网络处理遮挡问题. 当遮挡训练数据不足时,传统训练方法无法使遮挡处理网络权重收敛,手动注释遮挡数据集存在数据获取、标注过程耗力、标注误差等问题, OCNN能够在不影响常规关键点准确性的情况下,利用少量遮挡数据实现对遮挡部位的强化检测.

OCNN的设计过程如图1所示. NB收敛且浅层和深层对不同特征的关注点不同. 浅层关注细节特征,深层由于卷积层堆叠而关注全局高阶特征[28],为此将子网络分为浅层和深层. 人体拓扑结构特征是常规和被遮挡的关键点,具有很高的相似性[28], NB对被遮挡关键点的检测能力主要来自深层拓扑结构,因此将NB深层的权重迁移到OB的相应部分,作为初始化的先验知识,使OB具备提取高阶拓扑结构的能力. 损失函数用来衡量神经网络的收敛状态和检测精度,表达式为

图 1

图 1   基于知识共享的遮挡人体姿态估计网络流程图

Fig.1   Flowchart of occluded human pose estimation network based on knowledge sharing


$ L(\boldsymbol{w})=\sum_{i=1}^{n}{\left|\right|\boldsymbol{f}\left(\boldsymbol{w},{\boldsymbol{x}}_{i}\right)-{\boldsymbol{y}}_{i}\left|\right|}^{2}. $

式中: $ \boldsymbol{f}\left(\cdot\right) $为网络正向推理过程, $ \boldsymbol{w} $为网络权重, $ {\boldsymbol{x}}_{i} $为输入图片,$ {\boldsymbol{y}}_{i} $为关键点坐标真实值,$ n $为图片数量. 令$ {\boldsymbol{w}}_{1} $$ {\boldsymbol{w}}_{2} $分别为NB和OB的权重,$ \Delta \boldsymbol{w}= ({\boldsymbol{w}}_{2}-{\boldsymbol{w}}_{1}) $. 将OB的损失函数在$ {\boldsymbol{w}}_{1} $处进行泰勒级数展开并保留线性分量:

$ L({\boldsymbol{w}}_{2})\approx L({\boldsymbol{w}}_{1})+\Delta \boldsymbol{w}\cdot\nabla L({\boldsymbol{w}}_{1}). $

2个子网络深层关注的特征均为高阶拓扑结构特征,且这些特征在常规和遮挡的关键点之间高度共享. 对于2个子网络的深层,有$ {\boldsymbol{w}}_{2}{\approx \boldsymbol{w}}_{1} $$ L({\boldsymbol{w}}_{2})\approx L({\boldsymbol{w}}_{1}) $. 由于$ {\boldsymbol{w}}_{1} $已经收敛,进而$ {\boldsymbol{w}}_{2} $接近收敛且无需任何训练数据. 对于OB的浅层,遮挡部位与实际关键点的细节特征差别较大,网络权重收敛的方向不同,即$ {\boldsymbol{w}}_{2}{\ne \boldsymbol{w}}_{1} $,须遮挡数据来重新训练$ {\boldsymbol{w}}_{2} $直至收敛.

设计如图2所示的HLFMA,以强化遮挡部位特征的表达能力达到使OB浅层收敛的目的. 图中,$ {\boldsymbol{F}}_{\mathrm{N}\mathrm{o}\mathrm{r}}\in {\mathbf{R}}^{K\times H\times W} $为由NB生成的特征图;${\boldsymbol{H}}_{\mathrm{N}\mathrm{o}\mathrm{r}}\in {\mathbf{R}}^{K\times H\times W} $为每个关键点的力图;$ K $为通道数及关键点个数,取值由数据集决定;$ H\times W $为分辨率. 为了构建每个关键点的低阶特征,将$ {\boldsymbol{F}}_{\mathrm{N}\mathrm{o}\mathrm{r}} $与关键点的热力图相乘:

图 2

图 2   高低阶特征匹配注意力流程图

Fig.2   Flowchart of high-low order feature matching attention


$ {\boldsymbol{F}}_{\mathrm{l},k}={\boldsymbol{F}}_{\mathrm{N}\mathrm{o}\mathrm{r}} \odot {\boldsymbol{H}}_{\mathrm{N}\mathrm{o}\mathrm{r},k} . $

式中: $ {\boldsymbol{F}}_{\mathrm{l},k}\in {\mathbf{R}}^{K\times H\times W} $为第k个关键点的低阶特征,$ {\boldsymbol{H}}_{\mathrm{N}\mathrm{o}\mathrm{r},k}\in {\mathbf{R}}^{1\times H\times W} $为第k个关键点的热力图. 接下来构建高阶拓扑结构特征. 人体关键点检测本质为坐标回归任务,即在特征图中值越高的像素点越可能被预测为关键点. 连接2个关键点之间的像素点代表的特征为2个关键点之间的躯干,数值的大小高于背景像素点. 将$ {\boldsymbol{F}}_{\mathrm{N}\mathrm{o}\mathrm{r}} $$ {\boldsymbol{H}}_{\mathrm{N}\mathrm{o}\mathrm{r}} $拼接, $ {\boldsymbol{F}}_{\mathrm{N}\mathrm{o}\mathrm{r}} $以包含拓扑结构特征,将$ {\boldsymbol{H}}_{\mathrm{N}\mathrm{o}\mathrm{r}} $包含的位置信息嵌入$ {\boldsymbol{F}}_{\mathrm{N}\mathrm{o}\mathrm{r}} $来强化关键点位置信息,以便提取拓扑特征. 将拼接后的特征图进行多次卷积与ReLU,即将$ {\boldsymbol{H}}_{\mathrm{N}\mathrm{o}\mathrm{r}} $中的关键点位置信息与$ {\boldsymbol{F}}_{\mathrm{N}\mathrm{o}\mathrm{r}} $进行整合并消除冗余背景:

$ {\boldsymbol{F}}_{\mathrm{h}}=\mathrm{R}\mathrm{e}\mathrm{L}\mathrm{U}\left(\mathrm{C}\mathrm{o}\mathrm{n}\mathrm{v}\;\right(\mathrm{C}\mathrm{o}\mathrm{n}\mathrm{c}\;({\boldsymbol{F}}_{\mathrm{N}\mathrm{o}\mathrm{r}} , {\boldsymbol{H}}_{\mathrm{N}\mathrm{o}\mathrm{r}}\left)\right)). $

式中: $ {\boldsymbol{F}}_{\mathrm{h}}\in {\mathbf{R}}^{K\times H\times W} $为高阶拓扑结构特征,冗余背景被置零,只保留与人体拓扑结构有关的信息及其他有用信息;$ \mathrm{C}\mathrm{o}\mathrm{n}\mathrm{c}(\cdot ) $为拼接,$ \mathrm{C}\mathrm{o}\mathrm{n}\mathrm{v}(\cdot ) $为卷积,$ \mathrm{R}\mathrm{e}\mathrm{L}\mathrm{U}(\cdot ) $为ReLU激活函数. 将$ {\boldsymbol{F}}_{\mathrm{h}} $与每个关键点的低阶特征$ {\boldsymbol{F}}_{\mathrm{l},k} $拼接,用卷积整合特征:

$ {\boldsymbol{F}}_{\mathrm{m},k}=\mathrm{C}\mathrm{o}\mathrm{n}\mathrm{v}\left(\mathrm{C}\mathrm{o}\mathrm{n}\mathrm{c}\left({\boldsymbol{F}}_{\mathrm{h}},{\boldsymbol{F}}_{\mathrm{l},k}\right)\right). $

$ {\boldsymbol{F}}_{\mathrm{m},k}\in {\mathbf{R}}^{K\times H\times W} $为每个关键点拼接与卷积后的特征图,用于特征匹配. 在匹配过程中,针对常规遮挡点,$ {\boldsymbol{F}}_{\mathrm{h}} $$ {\boldsymbol{F}}_{\mathrm{l},k} $的精度均较高,卷积后在$ {\boldsymbol{F}}_{\mathrm{m},k} $中未建立新的关系. 针对被遮挡关键点,$ {\boldsymbol{F}}_{\mathrm{l},k} $的精度较低,$ {\boldsymbol{F}}_{\mathrm{h}} $中被遮挡部位的拓扑结构由于遮挡点特征的模糊性呈发散状态,即在该点周围的一片区域的像素值均介于最高值与背景值之间[28]$ {\boldsymbol{F}}_{\mathrm{h}} $$ {\boldsymbol{F}}_{\mathrm{l},k} $之间针对该关键点的位置偏差较大,被遮挡点的$ {\boldsymbol{F}}_{\mathrm{l},k} $$ {\boldsymbol{F}}_{\mathrm{h}} $之间存在偏差,卷积后在$ {\boldsymbol{F}}_{\mathrm{m},k} $中有新的关系建立. 综上所述,无遮挡点$ {\boldsymbol{F}}_{\mathrm{h}} $$ {\boldsymbol{F}}_{\mathrm{m},k} $之间的相似程度较遮挡点的高. 对所有关键点进行特征匹配得到所有关键点$ {\boldsymbol{F}}_{\mathrm{m},k} $的集合$ {\boldsymbol{F}}_{\mathrm{m}}\in {\mathbf{R}}^{K\times K\times H\times W} $,使用线性操作对二者进行维度转换:

$ {\boldsymbol{V}}_{\mathrm{h}}=\mathrm{L}\mathrm{i}\mathrm{n}\;\left({\boldsymbol{F}}_{\mathrm{h}}\right) \text{,}{\boldsymbol{V}}_{\mathrm{m}}=\mathrm{T}\mathrm{r}\mathrm{a}\;\left(\mathrm{L}\mathrm{i}\mathrm{n}\;\left({\boldsymbol{F}}_{\mathrm{m}}\right)\right). $

式中:$ {\boldsymbol{V}}_{\mathrm{h}}\in {\mathbf{R}}^{1\times N} $$ {\boldsymbol{V}}_{\mathrm{m}}\in {\mathbf{R}}^{N\times K} $分别为描述$ {\boldsymbol{F}}_{\mathrm{h}} $$ {\boldsymbol{F}}_{\mathrm{m}} $的张量,$ N=H\times W $为张量的长度, $ \mathrm{L}\mathrm{i}\mathrm{n}(\cdot ) $为线性操作,Tra($ \cdot $)为转置. 将$ {\boldsymbol{V}}_{\mathrm{h}} $$ {\boldsymbol{V}}_{\mathrm{m}} $内积并转化为概率分布:

$ \boldsymbol{M}=\mathrm{S}\mathrm{o}\mathrm{f}\mathrm{t}\mathrm{m}\mathrm{a}\mathrm{x}\left({\boldsymbol{V}}_{\mathrm{h}}\otimes {\boldsymbol{V}}_{\mathrm{m}}\right) .$

式中:$ \boldsymbol{M}\in {\mathbf{R}}^{1\times K} $为每个关键点的相对被遮挡程度,数值大的元素代表该点的$ {\boldsymbol{V}}_{\mathrm{m}} $$ {\boldsymbol{V}}_{\mathrm{h}} $相似度高,即被遮挡程度较低,反之则存在较严重遮挡. 为了提升网络对遮挡区域的注意力,根据$ \boldsymbol{M} $中描述的遮挡程度对遮挡区域进行加权. 由于网络具有描述高阶拓扑结构特征的能力,遮挡部分的检测通常是误检,即检测位置与真实位置之间存在一定的偏移,但仍满足拓扑结构[29]. 扩展$ {\boldsymbol{H}}_{\mathrm{N}\mathrm{o}\mathrm{r},k} $中关键点的热力点范围,以便更全面地覆盖遮挡位置,将热力点周围半径为5的区域均设置为该关键点的热点峰值,将峰值区域与$ {\boldsymbol{F}}_{\mathrm{N}\mathrm{o}\mathrm{r}} $相乘,获得每个关键点的区域特征:

$ {\boldsymbol{F}}_{\mathrm{k}\mathrm{e}\mathrm{y},k}=\mathrm{A}\mathrm{m}\mathrm{p} \;( {\boldsymbol{H}}_{\mathrm{N}\mathrm{o}\mathrm{r},k}) \odot{\boldsymbol{F}}_{\mathrm{N}\mathrm{o}\mathrm{r}}. $

式中:$ {\boldsymbol{F}}_{\mathrm{k}\mathrm{e}\mathrm{y},k}{\in \mathbf{R}}^{K\times H\times W} $为该关键点的区域特征,$ \mathrm{A}\mathrm{m}\mathrm{p}(\cdot ) $为放大热力点的区域. 在后续的热力图可视化中,用到的热力图仍为$ {\boldsymbol{H}}_{\mathrm{N}\mathrm{o}\mathrm{r},k} $.$ {\boldsymbol{F}}_{\mathrm{k}\mathrm{e}\mathrm{y},k} $与相应的遮挡程度相乘,为具有较高遮挡程度的区域分配更高的权重,使网络更多地关注这些区域;为具有较少或没有遮挡的区域分配较低的权重:

$ {\boldsymbol{F}}_{\mathrm{w},k}=\left(1-{M}_{k}\right)\cdot {\boldsymbol{F}}_{\mathrm{k}\mathrm{e}\mathrm{y},k} .$

式中: $ {\boldsymbol{F}}_{\mathrm{w},k}{\in \mathbf{R}}^{K\times H\times W} $为第k个关键点的加权区域特征,$ {M}_{k} $$ \boldsymbol{M} $中第k个关键点的相对遮挡程度. 通过累加所有关键点的$ {\boldsymbol{F}}_{\mathrm{w},k} $得到HLFMA的输出$ {\boldsymbol{F}}_{\mathrm{w}}{\in \mathbf{R}}^{K\times H\times W} $,可以实现对遮挡区域特征的强化. 由于$ {\boldsymbol{F}}_{\mathrm{w}} $中遮挡区域被强化,能够使OB的浅层提取遮挡特征. 将$ {\boldsymbol{F}}_{\mathrm{w}} $作为浅层训练数据,利用少量遮挡数据对整体网络权重进行微调,使网络权重收敛,将NB与OB的输出融合,得到OCNN的输出$ {\boldsymbol{F}}_{\mathrm{C}\mathrm{N}\mathrm{N}}{\in \mathbf{R}}^{K\times H\times W} $.

2.2. 遮挡特征补偿图卷积网络

为了提高被遮挡关键点的检测精度,以图神经网络为架构提出OGCN. 图卷积的要素分别为节点特征与邻接矩阵,本研究将每个关键点的细节位置特征作为节点特征,将关键点之间符合人体拓扑结构的连接关系描述为邻接矩阵. 节点特征质量越高,邻接矩阵对节点特征之间的关系描述能力越强,图卷积(graph convolution network,GCN)的效果越好,为此提出关键点特征补偿方法和邻接矩阵重要性加权方法.

关键点特征补偿方法能够消除障碍物特征,通过整合所有关键点的共享特征以及每个关键点的专有特征来提升遮挡关键点特征质量. 如图3所示,$ \boldsymbol{M} $为每个关键点的相对遮挡程度,将每个点的遮挡程度概率分配给该关键点的特征:

图 3

图 3   关键点特征补偿和邻接矩阵重要性加权流程图

Fig.3   Flowchart of keypoint feature compensation and adjacency matrix importance weighting


$ {\boldsymbol{V}}_{\mathrm{l}}={\{{M}_{k}\cdot {\mathrm{Lin}}\;({\mathrm{sum}}({\boldsymbol{F}}_{\mathrm{l}\mathrm{o}\mathrm{w},k}))\}}_{k=1}^{K}. $

其中$ {\boldsymbol{V}}_{\mathrm{l}}{\in \mathbf{R}}^{K\times N} $为消除障碍特征的关键点特征,sum(·)为在平面维度累加特征图元素. 从多个维度获取关键点特征以提升$ {\boldsymbol{V}}_{\mathrm{l}} $的表达能力. 由于不同部位关键点均为人体关键点,存在属于所有关键点的共享特征. 从低阶特征角度分析,同一部位关键点具有相似的颜色、纹理、形状等属性,该部分属性在同一关键点上具有高度适配性. 从高阶特征角度分析,相同关键点的性能一致,如肘部关键点起到连接手腕及肩部的作用,这3个点的拓扑结构在不同人体中高度相似,提取该部分特征有助于改善特征质量[18]. 将$ \boldsymbol{M} $$ {\boldsymbol{V}}_{\mathrm{l}} $相乘得到包含关键点真实属性的向量:

$ {\boldsymbol{V}}_{\mathrm{s}}=\mathrm{R}\mathrm{e}\mathrm{p}\;\left(\boldsymbol{M}\otimes {\boldsymbol{V}}_{\mathrm{l}}\right).\mathrm{ }\mathrm{ }\mathrm{ }\mathrm{ }\mathrm{ } $

式中:$ {\boldsymbol{V}}_{\mathrm{s}}\in {\mathbf{R}}^{K\times N} $为所有关键点特征向量的综合,$ \mathrm{R}\mathrm{e}\mathrm{p}\;(\cdot ) $为复制K次. 同一部位关键点具有专享特征,从某个训练批次中所有人体提取同一部位关键点特征:

$ {\boldsymbol{V}}_{\mathrm{u},k}=\mathrm{S}\mathrm{u}\mathrm{m}\left({{\{\boldsymbol{V}}_{\mathrm{l},k,b}\}}_{b=1}^{\mathrm{B}}\right). $

式中: $ {\boldsymbol{V}}_{\mathrm{u},k}{\in \mathbf{R}}^{1\times N} $为某个训练批次中所有人体第k个关键点的专享特征综合,$ {\boldsymbol{V}}_{\mathrm{l},k,b}{\in \mathbf{R}}^{1\times N} $为某个批次中第b个人体中第k个关键点的特征,B为批次大小,$ \mathrm{S}\mathrm{u}\mathrm{m}(\cdot ) $为融合所有$ {\boldsymbol{V}}_{\mathrm{l},k,b} $. 所有关键点均执行上述操作,获得所有关键点的专享特征$ {\boldsymbol{V}}_{\mathrm{u}}{\in \mathbf{R}}^{K\times N} $.$ {\boldsymbol{V}}_{\mathrm{s}} $$ {\boldsymbol{V}}_{\mathrm{u}} $融合:

$ {\boldsymbol{V}}_{\mathrm{c}\mathrm{o}\mathrm{m}}={\boldsymbol{V}}_{\mathrm{s}}+{\boldsymbol{V}}_{\mathrm{u}}. $

其中$ {\boldsymbol{V}}_{\mathrm{c}\mathrm{o}\mathrm{m}}{\in \mathbf{R}}^{K\times N} $为补偿特征. 利用$ {\boldsymbol{V}}_{\mathrm{c}\mathrm{o}\mathrm{m}} $补偿$ {\boldsymbol{V}}_{\mathrm{l}} $会融入冗余特征,为此从$ {\boldsymbol{V}}_{\mathrm{c}\mathrm{o}\mathrm{m}} $ 中提取出与自身特征相似的部分. 将$ {\boldsymbol{V}}_{\mathrm{l}} $转置与$ {\boldsymbol{V}}_{\mathrm{c}\mathrm{o}\mathrm{m}} $内积得到每个关键点的特征向量与$ {\boldsymbol{V}}_{\mathrm{c}\mathrm{o}\mathrm{m}} $之间的相似程度,转化为概率分布:

$ \boldsymbol{P}=\mathrm{S}\mathrm{o}\mathrm{f}\mathrm{t}\mathrm{m}\mathrm{a}\mathrm{x}\; ({\boldsymbol{V}}_{\mathrm{c}\mathrm{o}\mathrm{m}}\otimes \mathrm{T}\mathrm{r}\mathrm{a}\left({\boldsymbol{V}}_{\mathrm{l}}\right)) . $

式中: $ \boldsymbol{P}{\in \mathbf{R}}^{K\times K} $为相似程度概率分布. 将$ \boldsymbol{P} $$ {\boldsymbol{V}}_{\mathrm{c}\mathrm{o}\mathrm{m}} $相乘,即从$ {\boldsymbol{V}}_{\mathrm{c}\mathrm{o}\mathrm{m}} $中提取出对$ {\boldsymbol{V}}_{\mathrm{l}} $更重要的部分特征并融入$ {\boldsymbol{V}}_{\mathrm{l}} $

$ \boldsymbol{V}=\boldsymbol{P}\otimes {\boldsymbol{V}}_{\mathrm{c}\mathrm{o}\mathrm{m}}+{\boldsymbol{V}}_{\mathrm{l}}. $

其中$ \boldsymbol{V}{\in \mathbf{R}}^{K\times N} $代表补偿后的关键点节点特征.邻接矩阵$ \boldsymbol{A}{\in \mathbf{R}}^{K\times K} $描述节点之间的连接关系,只定义了边的连接关系,忽略了节点之间关系,本研究根据节点之间的相似性对邻接矩阵进行重要性加权,使图卷积更加准确. 计算每个节点特征之间的相关度:

$ {\boldsymbol{A}}_{1}= \mathrm{S}\mathrm{o}\mathrm{f}\mathrm{t}\mathrm{m}\mathrm{a}\mathrm{x}\left(\boldsymbol{V}\otimes \mathrm{T}\mathrm{r}\mathrm{a}\left(\boldsymbol{V}\right)\right). $

式中: $ {\boldsymbol{A}}_{1}{\in \mathbf{R}}^{K\times K} $为每个关键点特征之间的关系度. 将$ \boldsymbol{A} $$ {\boldsymbol{A}}_{1} $相乘,以消除没有连接的边并根据边的重要性进行加权:

$ {\boldsymbol{A}}_{\mathrm{w}}=\boldsymbol{A} \odot{\boldsymbol{A}}_{1}. $

式中: $ {\boldsymbol{A}}_{\mathrm{w}}{\in \mathbf{R}}^{K\times K} $为改进后的邻接矩阵,其中边的值对于关联程度较高的节点较大,对于关联程度较低的节点较小. 通过$ {\boldsymbol{A}}_{\mathrm{w}} $$ \boldsymbol{V} $执行GCN,得到OGCN的输出:

$ {\boldsymbol{F}}_{\mathrm{G}\mathrm{C}\mathrm{N}}={\mathrm{GCN}}\;({\boldsymbol{A}}_{\mathrm{w}} , \boldsymbol{V}). $

式中: $ {\boldsymbol{F}}_{\mathrm{G}\mathrm{C}\mathrm{N}}{\in \mathbf{R}}^{K\times H\times \mathrm{W}} $为OGCN的输出特征图. GCN具有特征传递机制,能够从相邻节点提取特征,本研究提升了节点特征的精度,改进了邻接矩阵. 如图1中GCN所示,颜色越深的边代表权重越高,连接的节点之间关联程度越大. GCN能够从物理角度描述的人体结构约束,融合不同程度的每个关键点特征到自身. 将$ {\boldsymbol{F}}_{\mathrm{C}\mathrm{N}\mathrm{N}} $$ {\boldsymbol{F}}_{\mathrm{G}\mathrm{C}\mathrm{N}} $融合得到本文网络的输出. 为了验证本研究的有效性,给出如下理论验证. 关键点特征表达能力越强,网络越容易找到正确的优化方向以达到收敛状态[14]. 假设由$ {\boldsymbol{V}}_{\mathrm{l}} $作为节点特征训练得到的网络权重为$ \boldsymbol{w} $,收敛状态表示为$ {\boldsymbol{w}}^{\mathrm{*}} $;由$ \boldsymbol{V} $训练得到的网络权重为$ \overline{\boldsymbol{w}} $,收敛状态为$ {\overline{\boldsymbol{w}}}^{\mathrm{*}} $. 根据式(2),分别在收敛权重$ {\boldsymbol{w}}^{\mathrm{*}} $$ {\overline{\boldsymbol{w}}}^{\mathrm{*}} $处对$ {\boldsymbol{V}}_{\mathrm{l}} $的损失函数$ \boldsymbol{L}(w) $$ \boldsymbol{V} $的损失函数$ \boldsymbol{L}(\overline{w}) $进行泰勒级数展开并保留线性分量. 在$ \boldsymbol{V} $中,障碍物特征被削弱,关键点共享属性及专有属性特征被融合以强化特征的表达能力. 邻接矩阵对边的描述能力被强化,由$ {\boldsymbol{A}}_{\mathrm{w}} $$ \boldsymbol{V} $进行GCN得到的特征表达能力优于$ \boldsymbol{A} $$ {\boldsymbol{V}}_{\mathrm{l}\mathrm{o}\mathrm{w}} $得到的特征,$ {\overline{\boldsymbol{w}}}^{\mathrm{*}} $的表现优于$ {\boldsymbol{w}}^{\mathrm{*}} $,即$ L({\overline{\boldsymbol{w}}}^{\mathrm{*}}) < L({\boldsymbol{w}}^{\mathrm{*}}) $. OCNN提供了充足的节点特征且算力足够,$ \boldsymbol{w} $$ \overline{\boldsymbol{w}} $可以分别达到各自收敛状态,即$ \boldsymbol{w}\approx {\boldsymbol{w}}^{\mathrm{*}} $$ \overline{\boldsymbol{w}}\approx {\overline{\boldsymbol{w}}}^{\mathrm{*}} $. 因此有$ L(\overline{\boldsymbol{w}}) < L(\boldsymbol{w}) $. 综上所述,$ \boldsymbol{V} $$ {\boldsymbol{A}}_{\mathrm{w}} $使GCN损失函数达到更小的收敛值,即有更高的检测精度.

3. 实 验

3.1. 数据集及评估指标

在COCO2017关键点检测数据集[16]、COCO-Wholebody数据集[28]和CrowdPose数据集[30]上验证所提网络在不同场景下的性能. COCO2017数据集为每个人标注17个关键点,包括头部的5个关键点、躯干和四肢的12个关键点,有140000个标注人,5000张验证图像和20000张测试图像,其中75%为正常场景,25%为遮挡场景,为算法性能提供了全面的评估. COCO-Wholebody数据集共标注133个关键点,包括68个面部关键点、42个手部关键点和23个身体关键点,包括118000个训练数据和5000个测试数据. CrowdPose数据集包含80000个标注人物,共14个关键点,该数据集的遮挡场景较多,平均边界框交并比IoU =0.27,给人体关键点检测方法带来了额外的挑战. 为了使OB收敛,注释包含3 000个遮挡案例的遮挡数据集,每个案例中至少有3个关键点被遮挡,其中2 000张图片为训练集,1 000张为验证集. 注释格式与COCO2017数据集一致. 使用对象关键点相似性作为评估指标[11] . AP为平均准确率,进一步细分为AP5、AP75、APM和APL. 对于每个类别,将检测结果按照置信度从高到低排序,AP5表示取前5%的检测结果进行计算;AP75取前75%;APM取中间50%;APL取最低的5%. AR为召回率. APe、APm、APh代表不同的遮挡情况;其中APe表示样本遮挡比例为0%~10%,APm为10%~80%,APh为80%~100%.

3.2. 实验设置

实验使用Python 3.8,在PyTorch框架上开发软件模拟平台. 实验的硬件平台包括配备NVIDIA GeForce RTX 3060显卡的Windows 11系统电脑. 输入图像尺寸为256×192,进行图像增强操作(如随机旋转45%和缩放35%). 训练过程使用Adam优化器,初始学习率为0.001,学习率衰减因子为0.1. 对于NB,分别在迭代轮次epoch=170、200时应用学习率衰减,共迭代210次;OB迭代60次. 初始学习率和衰减因子与NB保持一致,网络在45次和55次时衰减学习率. 为了防止过拟合,在所有线性层之后添加dropout层,衰减因子为0.3.

3.3. 对比实验

表1所示,在COCO2017数据集上将所提网络与其他算法进行比较,评估所提网络的性能. 由表可知,所提网络在所有算法中的平均准确率最高,为78.5%,召回率AR较高,为80.6%. 结果表明,所提网络可以在正常和遮挡场景下有效地检测人体关键点. COCO-Wholebody数据集具有全面注释,在该数据集上进行全身、手、脸和头的关键点检测实验,结果如表2所示. 由表可知,除了在文献[10]和文献[21]中的脚部检测结果,所提网络在所有比较的其他检测结果中的平均准确率最高. 在灵活和遮挡的手部检测中,所提网络的AP比文献[28]算法的AP提高了3个百分点. 该结果验证了所提网络在遮挡环境下的有效性. 所提网络在脚部检测中没有达到最佳性能的原因:脚部通常位于特征图的底部,提取遮挡区域的方法在HLFMA中会扩大热点区域,当提取脚部区域时,提取范围可能超过特征图范围,导致特征提取精度降低和提取空白特征. 为了验证所提网络在遮挡场景中的性能,在CrowdPose数据集上比较不同算法. 如表3所示,所提网络在所有比较算法中性能指标最好. 总结所提方法精度提升的原因. 1)HLFMA识别出存在遮挡的关键点,对其周围区域注意力加权,使网络能够强化特征提取. 2)OCNN的网络架构是对常规点及遮挡点独立检测,在强化遮挡部位的同时不影响常规关键点的检测精度. 3)在OGCN中,对节点特征进行障碍物特征弱化,关键点共享特征及专享特征的强化,使节点特征具有更全面的关键点属性描述能力及更高的准确性. 4)改进邻接矩阵使邻接矩阵能够跟据节点之间关系精确地描述关联性.

表 1   不同算法在COCO2017数据集上的性能对比

Tab.1  Performance comparison of different algorithms in COCO 2017 dataset

%
算法APAP5AP75APMAPLAR
文献[2]75.090.282.772.079.377.6
文献[3]74.892.581.672.079.377.6
文献[4]77.693.783.273.881.980.8
文献[6]72.191.480.068.877.278.5
文献[11]74.490.581.970.881.079.8
文献[12]77.392.183.873.683.380.1
文献[14]76.190.683.472.882.781.3
文献[20]75.690.183.072.783.278.5
文献[15]75.290.582.371.581.980.3
本研究78.594.084.274.782.680.6

新窗口打开| 下载CSV


表 2   不同算法在COCO-Wholebody数据集上的性能对比

Tab.2  Performance comparison of different algorithms in COCO-Wholebody dataset

%
算法全身躯干
APARAPARAPARAPARAPAR
文献[10]57.363.576.380.173.281.253.764.766.674.7
文献[18]65.376.962.268.989.193.059.970.472.179.4
文献[21]58.968.966.079.474.582.254.565.473.379.1
文献[28]65.474.461.771.888.993.062.574.074.080.7
文献[30]57.865.069.076.575.982.045.953.869.374.0
本研究67.177.974.376.889.793.365.576.676.881.5

新窗口打开| 下载CSV


表 3   不同算法在CrowdPose数据集上的性能对比

Tab.3  Performance comparison of different algorithms in CrowdPose dataset

%
算法APAP5AP75APeAPmAPh
文献[4]75.993.381.484.076.768.2
文献[13]71.190.878.380.071.761.6
文献[20]74.992.180.783.375.266.8
文献[28]73.092.880.985.172.264.7
本研究77.894.683.285.978.669.5

新窗口打开| 下载CSV


3.4. 消融实验

OB的浅层训练策略通过HLFMA强化遮挡区域,将输出特征图作为浅层训练数据来替换遮挡训练集,从NB迁移深层权重作为先验知识,进而弥补训练数据不足的问题. 为了验证HLFMA的有效性,在自建遮挡数据集上进行平均准确率和训练数据使用量对比分析. 当训练集中样本数量为2 000张时,文献[20]方法的平均准确率为47.5%,所提方法的精度为79.7%;使用500张时,所提方法的精度为45.8%. 可以看出,所提方法仅使用对比方法1/4的训练数据即可实现与之相当的精度,当使用相同数量时,精度高出32.2个百分点. 该结果验证了所提训练方法的有效性.

为了提升网络对遮挡区域的关注能力,本研究提出HLFMA,通过匹配高低阶特征识别遮挡关键点并对该点区域进行特征增强. 该模块可以融合到任何能够生成热力图与特征图的算法中,以提高其遮挡处理能力. 为了验证HLFMA的有效性,将它集成到文献[4]、[11]、[15]的算法中,集成方法是将HLFMA的输出$ {\boldsymbol{F}}_{\mathrm{w}} $直接与算法网络的输出特征图进行融合. 3种算法在集成HLFMA后精度分别提升了1.1,1.3,1.7个百分点. 该结果表明,HLFMA能够提升网络的遮挡处理能力且不影响非遮挡点的检测能力.

在OGCN中,本研究对节点特征进行补偿,对邻接矩阵进行重要性加权. 为了验证这2种方法的有效性,设计如下消融实验. 在关键点特征补偿方法中,消除障碍物特征,融入所有关键点的共有属性和每个关键点的专有属性对特征进行质量补偿. 为了验证消除障碍物、融合共有属性、融合专有属性3种特征补偿方法的有效性,提出3种对比方法: 1)无障碍物特征消除,即该方法中的节点特征$ {\boldsymbol{V}}_{\mathrm{l}} $没有与$\boldsymbol{M} $相乘,仅由$ {\boldsymbol{F}}_{\mathrm{l}} $进行$ \mathrm{s}\mathrm{u}\mathrm{m}(\cdot ) $$ \mathrm{L}\mathrm{i}\mathrm{n}(\cdot ) $得到的特征;2)无所有关键点的共有属性的补偿,即该方法中没有融入$ {\boldsymbol{V}}_{\mathrm{s}} $;3)无专有特征的补偿,即没有融入$ {\boldsymbol{V}}_{\mathrm{u}} $. 对比方法1)的精度比所提网络的精度下降了1.7个百分点,原因是障碍物特征没有被消除,进而后续特征的提取精度有所下降,影响了检测精度. 对比方法2)的精度比所提网络的精度下降了2.0个百分点,表明融合所有关键点共有属性特征的方法有效,验证了对$ {\boldsymbol{V}}_{\mathrm{s}} $的提取方法同样有效. 对比方法3)的精度比所提网络的精度下降了1.8个百分点,验证了从不同人体提取同一部位关键点特征的思路有效,进而验证了对$ {\boldsymbol{V}}_{\mathrm{u}} $的提取方法的有效性. 由于$ {\boldsymbol{V}}_{\mathrm{u}} $的提取方式与训练批次大小有关,批次越大,特征提取范围越广, $ {\boldsymbol{V}}_{\mathrm{u}} $的质量越高. 为了验证该假设的真实性,使用不同批次大小在COCO2017数据集上进行实验分析. 当批次大小为32时,所提方法具有的检测精度最高,为78.5%. 随着批次大小减小为16、8和4,精度随之分别下降为77.2%、76.1%和72.6%. 实验结果验证了本文假设. 设计对比方法进行邻接矩阵重要性加权方法的有效性验证:使用没有被改进的邻接矩阵$ \boldsymbol{A} $代替$ {\boldsymbol{A}}_{\mathrm{w}} $. 该对比方法的精度下降了1.8个百分点. 验证了邻接矩阵改进模块的有效性. 使用每秒十亿浮点运算GFLOPs作为神经网络模型的计算复杂度指标[24],使用参数量大小Par衡量模型大小,使用帧率v作为检测阶段的耗时指标[16],对比结果如表4所示. 本研究提出仅在训练过程中涉及权重和特征迁移与融合的训练策略,没有显著增加复杂度. 由于HLFMA,特征补偿模块中存在用于特征相似性匹配的矩阵计算,虽然引入了复杂度,但在实际应用范围内,且准确性高于其他算法. 参数量和检测速度位于最佳和最差之间,处于实际应用范围内.

表 4   不同算法的检测性能对比

Tab.4  Detection performance comparison of different algorithms

算法GFLOPsPar/106v/(帧·s−1
文献[11]14.628.510.0
文献[20]28.519.811.2
文献[14]27.765.514.1
文献[22]37.133.812.4
文献[3]14.551.412.9
本研究29.464.511.1

新窗口打开| 下载CSV


3.5. 可视化展示

图4所示为所提网络在遮挡环境下的关键点热力图检测效果图. 可以看出,HRNet对被遮挡的脚部关键点检测误差较大;所提网络的热力值较集中且趋于真实位置,具有更高的检测精度. 如图5所示,在多人且存在遮挡的情况下,所提网络较好地估计了站在后排且存在严重遮挡的人体姿态,对被物体遮挡、自身遮挡的姿态均有较好的效果. 如图6所示,在多人且存在复杂遮挡环境下,所提网络对后排人的严重遮挡腿部的估计更精确,该网络在遮挡环境下的优越性能得以验证.

图 4

图 4   不同算法的关键点热力图对比

Fig.4   Comparison of keypoints heatmaps for different algorithms


图 5

图 5   基于知识共享的遮挡人体姿态估计网络的姿态估计效果图

Fig.5   Pose estimation results of occluded human pose estimation network based on knowledge sharing


图 6

图 6   不同算法的姿态估计效果图对比

Fig.6   Comparison of pose estimation results for different algorithms


4. 结 语

本研究提出基于知识共享的遮挡人体姿态估计网络,在数据集COCO2017、COCO-Wholebody、CrowdPose中的检测精度分别为78.5%、67.1%、77.8%,表明所提网络具有较好的遮挡处理能力. OCNN在自建遮挡数据集上能够节省75%的训练数据使用,在相同训练数据的前提下,检测精度提升了35%. 在OCNN中,通过消除障碍物特征,强化关键点共有及专有属性补偿节点特征,根据节点特征之间的关联程度对邻接矩阵进行重要性加权. 开展消融实验,分析并验证了OGCN中各个模块的有效性. 所提网络仅使用少量训练数据即可实现对遮挡部位的强化检测,弥补了遮挡训练数据不足的问题. 下一步计划开展针对提升脚部姿态的估计准确性研究.

参考文献

孙雪菲, 张瑞峰, 关欣, 等

强化先验骨架结构的轻量型高效人体姿态估计

[J]. 浙江大学学报: 工学版, 2024, 58 (1): 50- 60

[本文引用: 1]

SUN Xuefei, ZHANG Ruifeng, GUAN Xin, et al

Lightweight and efficient human pose estimation with enhanced priori skeleton structure

[J]. Journal of Zhejiang University: Engineering Science, 2024, 58 (1): 50- 60

[本文引用: 1]

YU X W, CHEN G S. HRPoseFormer: high-resolution Transformer for human pose estimation via multi-scale token aggregation [C]// IEEE 16th International Conference on Solid-State and Integrated Circuit Technology . Nanjing: IEEE, 2022: 1–3.

[本文引用: 1]

ZHOU L, CHEN Y, WANG J

Progressive direction-aware pose grammar for human pose estimation

[J]. IEEE Transactions on Biometrics, Behavior, and Identity Science, 2023, 5 (4): 593- 605

DOI:10.1109/TBIOM.2023.3315509      [本文引用: 3]

ZHANG Z, LIU M, SHEN J, et al

Lightweight whole body human pose estimation with two-stage refinement training strategy

[J]. IEEE Transactions on Human-Machine Systems, 2024, 54 (1): 121- 130

DOI:10.1109/THMS.2024.3349652      [本文引用: 4]

LIN J, ZHENG Z, ZHONG Z, et al. Joint representation learning and keypoint detection for cross-view geo-localization [J]. IEEE Transactions on Image Processing , 2022, 31: 3780–3792.

[本文引用: 1]

MENG Q, QIN C, BAI W, et al

MulViMotion: shape-aware 3D myocardial motion tracking from multi-view cardiac MRI

[J]. IEEE Transactions on Medical Imaging, 2022, 41 (8): 1961- 1974

DOI:10.1109/TMI.2022.3154599      [本文引用: 2]

CHAKRAVARTHI B, PATIL A K, RYU J Y, et al

Scenario-based sensed human motion editing and validation through the motion-sphere

[J]. IEEE Access, 2022, 10: 28295- 28307

DOI:10.1109/ACCESS.2022.3157939      [本文引用: 1]

MARQUES B, SILVA S, ALVES J, et al

A conceptual model and taxonomy for collaborative augmented reality

[J]. IEEE Transactions on Visualization and Computer Graphics, 2022, 28 (12): 5113- 5133

DOI:10.1109/TVCG.2021.3101545      [本文引用: 1]

LI N, CHEN X, FENG Y, et al

Human–computer interaction cognitive behavior modeling of command and control systems

[J]. IEEE Internet of Things Journal, 2022, 9 (14): 12723- 12736

DOI:10.1109/JIOT.2021.3138247      [本文引用: 1]

SUN K, XIAO B, LIU D, et al. Deep high-resolution representation learning for human pose estimation [C]// IEEE/CVF Conference on Computer Vision and Pattern Recognition . Long Beach: IEEE, 2019: 5693–5703.

[本文引用: 3]

WANG J, SUN K, CHENG T, et al

Deep high-resolution representation learning for visual recognition

[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2021, 43 (10): 3349- 3364

DOI:10.1109/TPAMI.2020.2983686      [本文引用: 5]

KE L, CHANG M C, QI H, et al

DetPoseNet: improving multi-person pose estimation via coarse-pose filtering

[J]. IEEE Transactions on Image Processing, 2022, 31: 2782- 2795

DOI:10.1109/TIP.2022.3161081      [本文引用: 2]

CAO Z, HIDALGO G, SIMON T, et al

OpenPose: realtime multi-person 2D pose estimation using part affinity fields

[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2021, 43 (1): 172- 186

DOI:10.1109/TPAMI.2019.2929257      [本文引用: 2]

LI Q, ZHANG Z, ZHANG F, et al

HRNeXt: high-resolution context network for crowd pose estimation

[J]. IEEE Transactions on Multimedia, 2023, 25 (46): 1521- 1528

[本文引用: 3]

KIM G, KIM H, KONG K, et al

Human body aware feature extractor using attachable feature corrector for human pose estimation

[J]. IEEE Transactions on Multimedia, 2023, 25: 5789- 5799

DOI:10.1109/TMM.2022.3199098      [本文引用: 3]

LIN T Y, MAIRE M, BELONGIE S, et al. Microsoft COCO: common objects in context [C]// European Conference on Computer Vision . [S. l.]: Springer, 2014: 740–755.

[本文引用: 3]

BANZI J, BULUGU I, YE Z

Learning a deep predictive coding network for a semi-supervised 3D-hand pose estimation

[J]. IEEE/CAA Journal of Automatica Sinica, 2020, 7 (5): 1371- 1379

DOI:10.1109/JAS.2020.1003090      [本文引用: 1]

KIM S, KANG S, CHOI H, et al

Keypoint aware robust representation for transformer-based re-identification of occluded person

[J]. IEEE Signal Processing Letters, 2023, 30: 65- 69

DOI:10.1109/LSP.2023.3240596      [本文引用: 3]

WANG Y J, LUO Y M, BAI G H, et al

UformPose: a U-shaped hierarchical multi-scale keypoint-aware framework for human pose estimation

[J]. IEEE Transactions on Circuits and Systems for Video Technology, 2023, 33 (4): 1697- 1709

DOI:10.1109/TCSVT.2022.3213206      [本文引用: 1]

PENG S, ZHOU X, LIU Y, et al

PVNet: pixel-wise voting network for 6DoF object pose estimation

[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2022, 44 (1): 3212- 3223

[本文引用: 5]

ARTACHO B, SAVAKIS A

UniPose+: a unified framework for 2D and 3D human pose estimation in images and videos

[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2022, 44 (12): 9641- 9653

DOI:10.1109/TPAMI.2021.3124736      [本文引用: 3]

GAI D, FENG R Y, MIN W, et al

Spatiotemporal learning transformer for video-based human pose estimation

[J]. IEEE Transactions on Circuits and Systems for Video Technology, 2023, 33 (9): 4564- 4576

DOI:10.1109/TCSVT.2023.3269666      [本文引用: 2]

YIN Y, LIU M, ZHU Q, et al

Multibranch attention graph convolutional networks for 3-D human pose estimation

[J]. IEEE Transactions on Instrumentation and Measurement, 2023, 72: 2520412.

[本文引用: 1]

FAN J, ZHENG P, LI S, et al

An integrated hand-object dense pose estimation approach with explicit occlusion awareness for human-robot collaborative disassembly

[J]. IEEE Transactions on Automation Science and Engineering, 2024, 21 (1): 147- 156

DOI:10.1109/TASE.2022.3215584      [本文引用: 2]

PASA L, NAVARIN N, SPERDUTI A

Multiresolution reservoir graph neural network

[J]. IEEE Transactions on Neural Networks and Learning Systems, 2022, 33 (6): 2642- 2653

DOI:10.1109/TNNLS.2021.3090503      [本文引用: 1]

MORSHED M G, SULTANA T, LEE Y K

LeL-GNN: learnable edge sampling and line based graph neural network for link prediction

[J]. IEEE Access, 2023, 11: 56083- 56097

DOI:10.1109/ACCESS.2023.3283029      [本文引用: 1]

ISUFI E, GAMA F, RIBEIRO A

EdgeNets: edge varying graph neural networks

[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2022, 44 (11): 7457- 7473

DOI:10.1109/TPAMI.2021.3111054      [本文引用: 1]

XU L, JIN S, LIU W, et al

ZoomNAS: searching for whole-body human pose estimation in the wild

[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2023, 45 (8): 5296- 5313

[本文引用: 7]

LEE K, KIM W, LEE S

From human pose similarity metric to 3D human pose estimator: temporal propagating LSTM networks

[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2023, 45 (2): 1781- 1797

DOI:10.1109/TPAMI.2022.3164344      [本文引用: 1]

LI J, WANG C, ZHU H, et al. CrowdPose: efficient crowded scenes pose estimation and a new benchmark [C]// IEEE/CVF Conference on Computer Vision and Pattern Recognition . Long Beach: IEEE, 2019: 10855–10864.

[本文引用: 2]

/