<img src="https://www.zjujournals.com/eng/images/1008-973X/images/logo.png" class="img-responsive">

图 1 基于知识共享的遮挡人体姿态估计网络流程图

Fig.1 Flowchart of occluded human pose estimation network based on knowledge sharing

(1)$ L(\boldsymbol{w})=\sum_{i=1}^{n}{\left|\right|\boldsymbol{f}\left(\boldsymbol{w},{\boldsymbol{x}}_{i}\right)-{\boldsymbol{y}}_{i}\left|\right|}^{2}. $

式中： $ \boldsymbol{f}\left(\cdot\right) $为网络正向推理过程, $ \boldsymbol{w} $为网络权重， $ {\boldsymbol{x}}_{i} $为输入图片，$ {\boldsymbol{y}}_{i} $为关键点坐标真实值，$ n $为图片数量. 令$ {\boldsymbol{w}}_{1} $、$ {\boldsymbol{w}}_{2} $分别为NB和OB的权重，$ \Delta \boldsymbol{w}= ({\boldsymbol{w}}_{2}-{\boldsymbol{w}}_{1}) $. 将OB的损失函数在$ {\boldsymbol{w}}_{1} $处进行泰勒级数展开并保留线性分量：

(2)$ L({\boldsymbol{w}}_{2})\approx L({\boldsymbol{w}}_{1})+\Delta \boldsymbol{w}\cdot\nabla L({\boldsymbol{w}}_{1}). $

2个子网络深层关注的特征均为高阶拓扑结构特征，且这些特征在常规和遮挡的关键点之间高度共享. 对于2个子网络的深层，有$ {\boldsymbol{w}}_{2}{\approx \boldsymbol{w}}_{1} $、$ L({\boldsymbol{w}}_{2})\approx L({\boldsymbol{w}}_{1}) $. 由于$ {\boldsymbol{w}}_{1} $已经收敛，进而$ {\boldsymbol{w}}_{2} $接近收敛且无需任何训练数据. 对于OB的浅层，遮挡部位与实际关键点的细节特征差别较大，网络权重收敛的方向不同，即$ {\boldsymbol{w}}_{2}{\ne \boldsymbol{w}}_{1} $，须遮挡数据来重新训练$ {\boldsymbol{w}}_{2} $直至收敛.

设计如图2所示的HLFMA，以强化遮挡部位特征的表达能力达到使OB浅层收敛的目的. 图中，$ {\boldsymbol{F}}_{\mathrm{N}\mathrm{o}\mathrm{r}}\in {\mathbf{R}}^{K\times H\times W} $为由NB生成的特征图；${\boldsymbol{H}}_{\mathrm{N}\mathrm{o}\mathrm{r}}\in {\mathbf{R}}^{K\times H\times W} $为每个关键点的力图；$ K $为通道数及关键点个数，取值由数据集决定；$ H\times W $为分辨率. 为了构建每个关键点的低阶特征，将$ {\boldsymbol{F}}_{\mathrm{N}\mathrm{o}\mathrm{r}} $与关键点的热力图相乘：

图 2

图 2 高低阶特征匹配注意力流程图

Fig.2 Flowchart of high-low order feature matching attention

(3)$ {\boldsymbol{F}}_{\mathrm{l},k}={\boldsymbol{F}}_{\mathrm{N}\mathrm{o}\mathrm{r}} \odot {\boldsymbol{H}}_{\mathrm{N}\mathrm{o}\mathrm{r},k} . $

式中： $ {\boldsymbol{F}}_{\mathrm{l},k}\in {\mathbf{R}}^{K\times H\times W} $为第k个关键点的低阶特征，$ {\boldsymbol{H}}_{\mathrm{N}\mathrm{o}\mathrm{r},k}\in {\mathbf{R}}^{1\times H\times W} $为第k个关键点的热力图. 接下来构建高阶拓扑结构特征. 人体关键点检测本质为坐标回归任务，即在特征图中值越高的像素点越可能被预测为关键点. 连接2个关键点之间的像素点代表的特征为2个关键点之间的躯干，数值的大小高于背景像素点. 将$ {\boldsymbol{F}}_{\mathrm{N}\mathrm{o}\mathrm{r}} $与$ {\boldsymbol{H}}_{\mathrm{N}\mathrm{o}\mathrm{r}} $拼接， $ {\boldsymbol{F}}_{\mathrm{N}\mathrm{o}\mathrm{r}} $以包含拓扑结构特征，将$ {\boldsymbol{H}}_{\mathrm{N}\mathrm{o}\mathrm{r}} $包含的位置信息嵌入$ {\boldsymbol{F}}_{\mathrm{N}\mathrm{o}\mathrm{r}} $来强化关键点位置信息，以便提取拓扑特征. 将拼接后的特征图进行多次卷积与ReLU，即将$ {\boldsymbol{H}}_{\mathrm{N}\mathrm{o}\mathrm{r}} $中的关键点位置信息与$ {\boldsymbol{F}}_{\mathrm{N}\mathrm{o}\mathrm{r}} $进行整合并消除冗余背景：

(4)$ {\boldsymbol{F}}_{\mathrm{h}}=\mathrm{R}\mathrm{e}\mathrm{L}\mathrm{U}\left(\mathrm{C}\mathrm{o}\mathrm{n}\mathrm{v}\;\right(\mathrm{C}\mathrm{o}\mathrm{n}\mathrm{c}\;({\boldsymbol{F}}_{\mathrm{N}\mathrm{o}\mathrm{r}} , {\boldsymbol{H}}_{\mathrm{N}\mathrm{o}\mathrm{r}}\left)\right)). $

式中： $ {\boldsymbol{F}}_{\mathrm{h}}\in {\mathbf{R}}^{K\times H\times W} $为高阶拓扑结构特征，冗余背景被置零，只保留与人体拓扑结构有关的信息及其他有用信息；$ \mathrm{C}\mathrm{o}\mathrm{n}\mathrm{c}(\cdot ) $为拼接，$ \mathrm{C}\mathrm{o}\mathrm{n}\mathrm{v}(\cdot ) $为卷积，$ \mathrm{R}\mathrm{e}\mathrm{L}\mathrm{U}(\cdot ) $为ReLU激活函数. 将$ {\boldsymbol{F}}_{\mathrm{h}} $与每个关键点的低阶特征$ {\boldsymbol{F}}_{\mathrm{l},k} $拼接，用卷积整合特征：

(5)$ {\boldsymbol{F}}_{\mathrm{m},k}=\mathrm{C}\mathrm{o}\mathrm{n}\mathrm{v}\left(\mathrm{C}\mathrm{o}\mathrm{n}\mathrm{c}\left({\boldsymbol{F}}_{\mathrm{h}},{\boldsymbol{F}}_{\mathrm{l},k}\right)\right). $

$ {\boldsymbol{F}}_{\mathrm{m},k}\in {\mathbf{R}}^{K\times H\times W} $为每个关键点拼接与卷积后的特征图，用于特征匹配. 在匹配过程中，针对常规遮挡点，$ {\boldsymbol{F}}_{\mathrm{h}} $与$ {\boldsymbol{F}}_{\mathrm{l},k} $的精度均较高，卷积后在$ {\boldsymbol{F}}_{\mathrm{m},k} $中未建立新的关系. 针对被遮挡关键点，$ {\boldsymbol{F}}_{\mathrm{l},k} $的精度较低，$ {\boldsymbol{F}}_{\mathrm{h}} $中被遮挡部位的拓扑结构由于遮挡点特征的模糊性呈发散状态，即在该点周围的一片区域的像素值均介于最高值与背景值之间^[28]，$ {\boldsymbol{F}}_{\mathrm{h}} $与$ {\boldsymbol{F}}_{\mathrm{l},k} $之间针对该关键点的位置偏差较大，被遮挡点的$ {\boldsymbol{F}}_{\mathrm{l},k} $与$ {\boldsymbol{F}}_{\mathrm{h}} $之间存在偏差，卷积后在$ {\boldsymbol{F}}_{\mathrm{m},k} $中有新的关系建立. 综上所述，无遮挡点$ {\boldsymbol{F}}_{\mathrm{h}} $与$ {\boldsymbol{F}}_{\mathrm{m},k} $之间的相似程度较遮挡点的高. 对所有关键点进行特征匹配得到所有关键点$ {\boldsymbol{F}}_{\mathrm{m},k} $的集合$ {\boldsymbol{F}}_{\mathrm{m}}\in {\mathbf{R}}^{K\times K\times H\times W} $，使用线性操作对二者进行维度转换：

(6)$ {\boldsymbol{V}}_{\mathrm{h}}=\mathrm{L}\mathrm{i}\mathrm{n}\;\left({\boldsymbol{F}}_{\mathrm{h}}\right) \text{，}{\boldsymbol{V}}_{\mathrm{m}}=\mathrm{T}\mathrm{r}\mathrm{a}\;\left(\mathrm{L}\mathrm{i}\mathrm{n}\;\left({\boldsymbol{F}}_{\mathrm{m}}\right)\right). $

式中：$ {\boldsymbol{V}}_{\mathrm{h}}\in {\mathbf{R}}^{1\times N} $、$ {\boldsymbol{V}}_{\mathrm{m}}\in {\mathbf{R}}^{N\times K} $分别为描述$ {\boldsymbol{F}}_{\mathrm{h}} $与$ {\boldsymbol{F}}_{\mathrm{m}} $的张量，$ N=H\times W $为张量的长度， $ \mathrm{L}\mathrm{i}\mathrm{n}(\cdot ) $为线性操作，Tra($ \cdot $)为转置. 将$ {\boldsymbol{V}}_{\mathrm{h}} $与$ {\boldsymbol{V}}_{\mathrm{m}} $内积并转化为概率分布：

(7)$ \boldsymbol{M}=\mathrm{S}\mathrm{o}\mathrm{f}\mathrm{t}\mathrm{m}\mathrm{a}\mathrm{x}\left({\boldsymbol{V}}_{\mathrm{h}}\otimes {\boldsymbol{V}}_{\mathrm{m}}\right) .$

式中：$ \boldsymbol{M}\in {\mathbf{R}}^{1\times K} $为每个关键点的相对被遮挡程度，数值大的元素代表该点的$ {\boldsymbol{V}}_{\mathrm{m}} $与$ {\boldsymbol{V}}_{\mathrm{h}} $相似度高，即被遮挡程度较低，反之则存在较严重遮挡. 为了提升网络对遮挡区域的注意力，根据$ \boldsymbol{M} $中描述的遮挡程度对遮挡区域进行加权. 由于网络具有描述高阶拓扑结构特征的能力，遮挡部分的检测通常是误检，即检测位置与真实位置之间存在一定的偏移，但仍满足拓扑结构^[29]. 扩展$ {\boldsymbol{H}}_{\mathrm{N}\mathrm{o}\mathrm{r},k} $中关键点的热力点范围，以便更全面地覆盖遮挡位置，将热力点周围半径为5的区域均设置为该关键点的热点峰值，将峰值区域与$ {\boldsymbol{F}}_{\mathrm{N}\mathrm{o}\mathrm{r}} $相乘，获得每个关键点的区域特征：

(8)$ {\boldsymbol{F}}_{\mathrm{k}\mathrm{e}\mathrm{y},k}=\mathrm{A}\mathrm{m}\mathrm{p} \;( {\boldsymbol{H}}_{\mathrm{N}\mathrm{o}\mathrm{r},k}) \odot{\boldsymbol{F}}_{\mathrm{N}\mathrm{o}\mathrm{r}}. $

式中：$ {\boldsymbol{F}}_{\mathrm{k}\mathrm{e}\mathrm{y},k}{\in \mathbf{R}}^{K\times H\times W} $为该关键点的区域特征，$ \mathrm{A}\mathrm{m}\mathrm{p}(\cdot ) $为放大热力点的区域. 在后续的热力图可视化中，用到的热力图仍为$ {\boldsymbol{H}}_{\mathrm{N}\mathrm{o}\mathrm{r},k} $. 将$ {\boldsymbol{F}}_{\mathrm{k}\mathrm{e}\mathrm{y},k} $与相应的遮挡程度相乘，为具有较高遮挡程度的区域分配更高的权重，使网络更多地关注这些区域；为具有较少或没有遮挡的区域分配较低的权重：

(9)$ {\boldsymbol{F}}_{\mathrm{w},k}=\left(1-{M}_{k}\right)\cdot {\boldsymbol{F}}_{\mathrm{k}\mathrm{e}\mathrm{y},k} .$

式中： $ {\boldsymbol{F}}_{\mathrm{w},k}{\in \mathbf{R}}^{K\times H\times W} $为第k个关键点的加权区域特征，$ {M}_{k} $为$ \boldsymbol{M} $中第k个关键点的相对遮挡程度. 通过累加所有关键点的$ {\boldsymbol{F}}_{\mathrm{w},k} $，得到HLFMA的输出$ {\boldsymbol{F}}_{\mathrm{w}}{\in \mathbf{R}}^{K\times H\times W} $，可以实现对遮挡区域特征的强化. 由于$ {\boldsymbol{F}}_{\mathrm{w}} $中遮挡区域被强化，能够使OB的浅层提取遮挡特征. 将$ {\boldsymbol{F}}_{\mathrm{w}} $作为浅层训练数据，利用少量遮挡数据对整体网络权重进行微调，使网络权重收敛，将NB与OB的输出融合，得到OCNN的输出$ {\boldsymbol{F}}_{\mathrm{C}\mathrm{N}\mathrm{N}}{\in \mathbf{R}}^{K\times H\times W} $.

2.2. 遮挡特征补偿图卷积网络

为了提高被遮挡关键点的检测精度，以图神经网络为架构提出OGCN. 图卷积的要素分别为节点特征与邻接矩阵，本研究将每个关键点的细节位置特征作为节点特征，将关键点之间符合人体拓扑结构的连接关系描述为邻接矩阵. 节点特征质量越高，邻接矩阵对节点特征之间的关系描述能力越强，图卷积（graph convolution network，GCN）的效果越好，为此提出关键点特征补偿方法和邻接矩阵重要性加权方法.

关键点特征补偿方法能够消除障碍物特征，通过整合所有关键点的共享特征以及每个关键点的专有特征来提升遮挡关键点特征质量. 如图3所示，$ \boldsymbol{M} $为每个关键点的相对遮挡程度，将每个点的遮挡程度概率分配给该关键点的特征：

图 3

图 3 关键点特征补偿和邻接矩阵重要性加权流程图

Fig.3 Flowchart of keypoint feature compensation and adjacency matrix importance weighting

(10)$ {\boldsymbol{V}}_{\mathrm{l}}={\{{M}_{k}\cdot {\mathrm{Lin}}\;({\mathrm{sum}}({\boldsymbol{F}}_{\mathrm{l}\mathrm{o}\mathrm{w},k}))\}}_{k=1}^{K}. $

其中$ {\boldsymbol{V}}_{\mathrm{l}}{\in \mathbf{R}}^{K\times N} $为消除障碍特征的关键点特征，sum(·)为在平面维度累加特征图元素. 从多个维度获取关键点特征以提升$ {\boldsymbol{V}}_{\mathrm{l}} $的表达能力. 由于不同部位关键点均为人体关键点，存在属于所有关键点的共享特征. 从低阶特征角度分析，同一部位关键点具有相似的颜色、纹理、形状等属性，该部分属性在同一关键点上具有高度适配性. 从高阶特征角度分析，相同关键点的性能一致，如肘部关键点起到连接手腕及肩部的作用，这3个点的拓扑结构在不同人体中高度相似，提取该部分特征有助于改善特征质量^[18]. 将$ \boldsymbol{M} $和$ {\boldsymbol{V}}_{\mathrm{l}} $相乘得到包含关键点真实属性的向量：

(11)$ {\boldsymbol{V}}_{\mathrm{s}}=\mathrm{R}\mathrm{e}\mathrm{p}\;\left(\boldsymbol{M}\otimes {\boldsymbol{V}}_{\mathrm{l}}\right).\mathrm{ }\mathrm{ }\mathrm{ }\mathrm{ }\mathrm{ } $

式中：$ {\boldsymbol{V}}_{\mathrm{s}}\in {\mathbf{R}}^{K\times N} $为所有关键点特征向量的综合，$ \mathrm{R}\mathrm{e}\mathrm{p}\;(\cdot ) $为复制K次. 同一部位关键点具有专享特征，从某个训练批次中所有人体提取同一部位关键点特征：

(12)$ {\boldsymbol{V}}_{\mathrm{u},k}=\mathrm{S}\mathrm{u}\mathrm{m}\left({{\{\boldsymbol{V}}_{\mathrm{l},k,b}\}}_{b=1}^{\mathrm{B}}\right). $

式中： $ {\boldsymbol{V}}_{\mathrm{u},k}{\in \mathbf{R}}^{1\times N} $为某个训练批次中所有人体第k个关键点的专享特征综合，$ {\boldsymbol{V}}_{\mathrm{l},k,b}{\in \mathbf{R}}^{1\times N} $为某个批次中第b个人体中第k个关键点的特征，B为批次大小，$ \mathrm{S}\mathrm{u}\mathrm{m}(\cdot ) $为融合所有$ {\boldsymbol{V}}_{\mathrm{l},k,b} $. 所有关键点均执行上述操作，获得所有关键点的专享特征$ {\boldsymbol{V}}_{\mathrm{u}}{\in \mathbf{R}}^{K\times N} $. 将$ {\boldsymbol{V}}_{\mathrm{s}} $与$ {\boldsymbol{V}}_{\mathrm{u}} $融合：

(13)$ {\boldsymbol{V}}_{\mathrm{c}\mathrm{o}\mathrm{m}}={\boldsymbol{V}}_{\mathrm{s}}+{\boldsymbol{V}}_{\mathrm{u}}. $

其中$ {\boldsymbol{V}}_{\mathrm{c}\mathrm{o}\mathrm{m}}{\in \mathbf{R}}^{K\times N} $为补偿特征. 利用$ {\boldsymbol{V}}_{\mathrm{c}\mathrm{o}\mathrm{m}} $补偿$ {\boldsymbol{V}}_{\mathrm{l}} $会融入冗余特征，为此从$ {\boldsymbol{V}}_{\mathrm{c}\mathrm{o}\mathrm{m}} $ 中提取出与自身特征相似的部分. 将$ {\boldsymbol{V}}_{\mathrm{l}} $转置与$ {\boldsymbol{V}}_{\mathrm{c}\mathrm{o}\mathrm{m}} $内积得到每个关键点的特征向量与$ {\boldsymbol{V}}_{\mathrm{c}\mathrm{o}\mathrm{m}} $之间的相似程度，转化为概率分布：

(14)$ \boldsymbol{P}=\mathrm{S}\mathrm{o}\mathrm{f}\mathrm{t}\mathrm{m}\mathrm{a}\mathrm{x}\; ({\boldsymbol{V}}_{\mathrm{c}\mathrm{o}\mathrm{m}}\otimes \mathrm{T}\mathrm{r}\mathrm{a}\left({\boldsymbol{V}}_{\mathrm{l}}\right)) . $

式中： $ \boldsymbol{P}{\in \mathbf{R}}^{K\times K} $为相似程度概率分布. 将$ \boldsymbol{P} $与$ {\boldsymbol{V}}_{\mathrm{c}\mathrm{o}\mathrm{m}} $相乘，即从$ {\boldsymbol{V}}_{\mathrm{c}\mathrm{o}\mathrm{m}} $中提取出对$ {\boldsymbol{V}}_{\mathrm{l}} $更重要的部分特征并融入$ {\boldsymbol{V}}_{\mathrm{l}} $：

(15)$ \boldsymbol{V}=\boldsymbol{P}\otimes {\boldsymbol{V}}_{\mathrm{c}\mathrm{o}\mathrm{m}}+{\boldsymbol{V}}_{\mathrm{l}}. $

其中$ \boldsymbol{V}{\in \mathbf{R}}^{K\times N} $代表补偿后的关键点节点特征.邻接矩阵$ \boldsymbol{A}{\in \mathbf{R}}^{K\times K} $描述节点之间的连接关系，只定义了边的连接关系，忽略了节点之间关系，本研究根据节点之间的相似性对邻接矩阵进行重要性加权，使图卷积更加准确. 计算每个节点特征之间的相关度：

(16)$ {\boldsymbol{A}}_{1}= \mathrm{S}\mathrm{o}\mathrm{f}\mathrm{t}\mathrm{m}\mathrm{a}\mathrm{x}\left(\boldsymbol{V}\otimes \mathrm{T}\mathrm{r}\mathrm{a}\left(\boldsymbol{V}\right)\right). $

式中： $ {\boldsymbol{A}}_{1}{\in \mathbf{R}}^{K\times K} $为每个关键点特征之间的关系度. 将$ \boldsymbol{A} $与$ {\boldsymbol{A}}_{1} $相乘，以消除没有连接的边并根据边的重要性进行加权：

(17)$ {\boldsymbol{A}}_{\mathrm{w}}=\boldsymbol{A} \odot{\boldsymbol{A}}_{1}. $

式中： $ {\boldsymbol{A}}_{\mathrm{w}}{\in \mathbf{R}}^{K\times K} $为改进后的邻接矩阵，其中边的值对于关联程度较高的节点较大，对于关联程度较低的节点较小. 通过$ {\boldsymbol{A}}_{\mathrm{w}} $和$ \boldsymbol{V} $执行GCN，得到OGCN的输出：

(18)$ {\boldsymbol{F}}_{\mathrm{G}\mathrm{C}\mathrm{N}}={\mathrm{GCN}}\;({\boldsymbol{A}}_{\mathrm{w}} , \boldsymbol{V}). $

式中： $ {\boldsymbol{F}}_{\mathrm{G}\mathrm{C}\mathrm{N}}{\in \mathbf{R}}^{K\times H\times \mathrm{W}} $为OGCN的输出特征图. GCN具有特征传递机制，能够从相邻节点提取特征，本研究提升了节点特征的精度，改进了邻接矩阵. 如图1中GCN所示，颜色越深的边代表权重越高，连接的节点之间关联程度越大. GCN能够从物理角度描述的人体结构约束，融合不同程度的每个关键点特征到自身. 将$ {\boldsymbol{F}}_{\mathrm{C}\mathrm{N}\mathrm{N}} $与$ {\boldsymbol{F}}_{\mathrm{G}\mathrm{C}\mathrm{N}} $融合得到本文网络的输出. 为了验证本研究的有效性，给出如下理论验证. 关键点特征表达能力越强，网络越容易找到正确的优化方向以达到收敛状态^[14]. 假设由$ {\boldsymbol{V}}_{\mathrm{l}} $作为节点特征训练得到的网络权重为$ \boldsymbol{w} $，收敛状态表示为$ {\boldsymbol{w}}^{\mathrm{*}} $；由$ \boldsymbol{V} $训练得到的网络权重为$ \overline{\boldsymbol{w}} $，收敛状态为$ {\overline{\boldsymbol{w}}}^{\mathrm{*}} $. 根据式(2)，分别在收敛权重$ {\boldsymbol{w}}^{\mathrm{*}} $和$ {\overline{\boldsymbol{w}}}^{\mathrm{*}} $处对$ {\boldsymbol{V}}_{\mathrm{l}} $的损失函数$ \boldsymbol{L}(w) $和$ \boldsymbol{V} $的损失函数$ \boldsymbol{L}(\overline{w}) $进行泰勒级数展开并保留线性分量. 在$ \boldsymbol{V} $中，障碍物特征被削弱，关键点共享属性及专有属性特征被融合以强化特征的表达能力. 邻接矩阵对边的描述能力被强化，由$ {\boldsymbol{A}}_{\mathrm{w}} $和$ \boldsymbol{V} $进行GCN得到的特征表达能力优于$ \boldsymbol{A} $和$ {\boldsymbol{V}}_{\mathrm{l}\mathrm{o}\mathrm{w}} $得到的特征，$ {\overline{\boldsymbol{w}}}^{\mathrm{*}} $的表现优于$ {\boldsymbol{w}}^{\mathrm{*}} $，即$ L({\overline{\boldsymbol{w}}}^{\mathrm{*}}) < L({\boldsymbol{w}}^{\mathrm{*}}) $. OCNN提供了充足的节点特征且算力足够，$ \boldsymbol{w} $、$ \overline{\boldsymbol{w}} $可以分别达到各自收敛状态，即$ \boldsymbol{w}\approx {\boldsymbol{w}}^{\mathrm{*}} $且$ \overline{\boldsymbol{w}}\approx {\overline{\boldsymbol{w}}}^{\mathrm{*}} $. 因此有$ L(\overline{\boldsymbol{w}}) < L(\boldsymbol{w}) $. 综上所述，$ \boldsymbol{V} $和$ {\boldsymbol{A}}_{\mathrm{w}} $使GCN损失函数达到更小的收敛值，即有更高的检测精度.

3. 实　验

3.1. 数据集及评估指标

在COCO2017关键点检测数据集^[16]、COCO-Wholebody数据集^[28]和CrowdPose数据集^[30]上验证所提网络在不同场景下的性能. COCO2017数据集为每个人标注17个关键点，包括头部的5个关键点、躯干和四肢的12个关键点，有140000个标注人，5000张验证图像和20000张测试图像，其中75%为正常场景，25%为遮挡场景，为算法性能提供了全面的评估. COCO-Wholebody数据集共标注133个关键点，包括68个面部关键点、42个手部关键点和23个身体关键点，包括118000个训练数据和5000个测试数据. CrowdPose数据集包含80000个标注人物，共14个关键点，该数据集的遮挡场景较多，平均边界框交并比IoU =0.27，给人体关键点检测方法带来了额外的挑战. 为了使OB收敛，注释包含3 000个遮挡案例的遮挡数据集，每个案例中至少有3个关键点被遮挡，其中2 000张图片为训练集，1 000张为验证集. 注释格式与COCO2017数据集一致. 使用对象关键点相似性作为评估指标^[11] . AP为平均准确率，进一步细分为AP5、AP75、APM和APL. 对于每个类别，将检测结果按照置信度从高到低排序，AP5表示取前5%的检测结果进行计算；AP75取前75%；APM取中间50%；APL取最低的5%. AR为召回率. APe、APm、APh代表不同的遮挡情况；其中APe表示样本遮挡比例为0%~10%，APm为10%~80%，APh为80%~100%.

3.2. 实验设置

实验使用Python 3.8，在PyTorch框架上开发软件模拟平台. 实验的硬件平台包括配备NVIDIA GeForce RTX 3060显卡的Windows 11系统电脑. 输入图像尺寸为256×192，进行图像增强操作（如随机旋转45%和缩放35%）. 训练过程使用Adam优化器，初始学习率为0.001，学习率衰减因子为0.1. 对于NB，分别在迭代轮次epoch=170、200时应用学习率衰减，共迭代210次；OB迭代60次. 初始学习率和衰减因子与NB保持一致，网络在45次和55次时衰减学习率. 为了防止过拟合，在所有线性层之后添加dropout层，衰减因子为0.3.

3.3. 对比实验

如表1所示，在COCO2017数据集上将所提网络与其他算法进行比较，评估所提网络的性能. 由表可知，所提网络在所有算法中的平均准确率最高，为78.5%，召回率AR较高，为80.6%. 结果表明，所提网络可以在正常和遮挡场景下有效地检测人体关键点. COCO-Wholebody数据集具有全面注释，在该数据集上进行全身、手、脸和头的关键点检测实验，结果如表2所示. 由表可知，除了在文献[10]和文献[21]中的脚部检测结果，所提网络在所有比较的其他检测结果中的平均准确率最高. 在灵活和遮挡的手部检测中，所提网络的AP比文献[28]算法的AP提高了3个百分点. 该结果验证了所提网络在遮挡环境下的有效性. 所提网络在脚部检测中没有达到最佳性能的原因：脚部通常位于特征图的底部，提取遮挡区域的方法在HLFMA中会扩大热点区域，当提取脚部区域时，提取范围可能超过特征图范围，导致特征提取精度降低和提取空白特征. 为了验证所提网络在遮挡场景中的性能，在CrowdPose数据集上比较不同算法. 如表3所示，所提网络在所有比较算法中性能指标最好. 总结所提方法精度提升的原因. 1）HLFMA识别出存在遮挡的关键点，对其周围区域注意力加权，使网络能够强化特征提取. 2）OCNN的网络架构是对常规点及遮挡点独立检测，在强化遮挡部位的同时不影响常规关键点的检测精度. 3）在OGCN中，对节点特征进行障碍物特征弱化，关键点共享特征及专享特征的强化，使节点特征具有更全面的关键点属性描述能力及更高的准确性. 4）改进邻接矩阵使邻接矩阵能够跟据节点之间关系精确地描述关联性.

表 1 不同算法在COCO2017数据集上的性能对比

Tab.1 Performance comparison of different algorithms in COCO 2017 dataset

%
算法	AP	AP5	AP75	APM	APL	AR
文献[2]	75.0	90.2	82.7	72.0	79.3	77.6
文献[3]	74.8	92.5	81.6	72.0	79.3	77.6
文献[4]	77.6	93.7	83.2	73.8	81.9	80.8
文献[6]	72.1	91.4	80.0	68.8	77.2	78.5
文献[11]	74.4	90.5	81.9	70.8	81.0	79.8
文献[12]	77.3	92.1	83.8	73.6	83.3	80.1
文献[14]	76.1	90.6	83.4	72.8	82.7	81.3
文献[20]	75.6	90.1	83.0	72.7	83.2	78.5
文献[15]	75.2	90.5	82.3	71.5	81.9	80.3
本研究	78.5	94.0	84.2	74.7	82.6	80.6

表 2 不同算法在COCO-Wholebody数据集上的性能对比

Tab.2 Performance comparison of different algorithms in COCO-Wholebody dataset

%
算法	全身		脚		脸		手		躯干
算法	AP	AR	AP	AR	AP	AR	AP	AR	AP	AR
文献[10]	57.3	63.5	76.3	80.1	73.2	81.2	53.7	64.7	66.6	74.7
文献[18]	65.3	76.9	62.2	68.9	89.1	93.0	59.9	70.4	72.1	79.4
文献[21]	58.9	68.9	66.0	79.4	74.5	82.2	54.5	65.4	73.3	79.1
文献[28]	65.4	74.4	61.7	71.8	88.9	93.0	62.5	74.0	74.0	80.7
文献[30]	57.8	65.0	69.0	76.5	75.9	82.0	45.9	53.8	69.3	74.0
本研究	67.1	77.9	74.3	76.8	89.7	93.3	65.5	76.6	76.8	81.5

表 3 不同算法在CrowdPose数据集上的性能对比

Tab.3 Performance comparison of different algorithms in CrowdPose dataset

%
算法	AP	AP5	AP75	APe	APm	APh
文献[4]	75.9	93.3	81.4	84.0	76.7	68.2
文献[13]	71.1	90.8	78.3	80.0	71.7	61.6
文献[20]	74.9	92.1	80.7	83.3	75.2	66.8
文献[28]	73.0	92.8	80.9	85.1	72.2	64.7
本研究	77.8	94.6	83.2	85.9	78.6	69.5

3.4. 消融实验

OB的浅层训练策略通过HLFMA强化遮挡区域，将输出特征图作为浅层训练数据来替换遮挡训练集，从NB迁移深层权重作为先验知识，进而弥补训练数据不足的问题. 为了验证HLFMA的有效性，在自建遮挡数据集上进行平均准确率和训练数据使用量对比分析. 当训练集中样本数量为2 000张时，文献[20]方法的平均准确率为47.5%，所提方法的精度为79.7%；使用500张时，所提方法的精度为45.8%. 可以看出，所提方法仅使用对比方法1/4的训练数据即可实现与之相当的精度，当使用相同数量时，精度高出32.2个百分点. 该结果验证了所提训练方法的有效性.

为了提升网络对遮挡区域的关注能力，本研究提出HLFMA，通过匹配高低阶特征识别遮挡关键点并对该点区域进行特征增强. 该模块可以融合到任何能够生成热力图与特征图的算法中，以提高其遮挡处理能力. 为了验证HLFMA的有效性，将它集成到文献[4]、[11]、[15]的算法中，集成方法是将HLFMA的输出$ {\boldsymbol{F}}_{\mathrm{w}} $直接与算法网络的输出特征图进行融合. 3种算法在集成HLFMA后精度分别提升了1.1，1.3，1.7个百分点. 该结果表明，HLFMA能够提升网络的遮挡处理能力且不影响非遮挡点的检测能力.

在OGCN中，本研究对节点特征进行补偿，对邻接矩阵进行重要性加权. 为了验证这2种方法的有效性，设计如下消融实验. 在关键点特征补偿方法中，消除障碍物特征，融入所有关键点的共有属性和每个关键点的专有属性对特征进行质量补偿. 为了验证消除障碍物、融合共有属性、融合专有属性3种特征补偿方法的有效性，提出3种对比方法: 1）无障碍物特征消除，即该方法中的节点特征$ {\boldsymbol{V}}_{\mathrm{l}} $没有与$\boldsymbol{M} $相乘，仅由$ {\boldsymbol{F}}_{\mathrm{l}} $进行$ \mathrm{s}\mathrm{u}\mathrm{m}(\cdot ) $和$ \mathrm{L}\mathrm{i}\mathrm{n}(\cdot ) $得到的特征；2）无所有关键点的共有属性的补偿，即该方法中没有融入$ {\boldsymbol{V}}_{\mathrm{s}} $；3）无专有特征的补偿，即没有融入$ {\boldsymbol{V}}_{\mathrm{u}} $. 对比方法1）的精度比所提网络的精度下降了1.7个百分点，原因是障碍物特征没有被消除，进而后续特征的提取精度有所下降，影响了检测精度. 对比方法2）的精度比所提网络的精度下降了2.0个百分点，表明融合所有关键点共有属性特征的方法有效，验证了对$ {\boldsymbol{V}}_{\mathrm{s}} $的提取方法同样有效. 对比方法3）的精度比所提网络的精度下降了1.8个百分点，验证了从不同人体提取同一部位关键点特征的思路有效，进而验证了对$ {\boldsymbol{V}}_{\mathrm{u}} $的提取方法的有效性. 由于$ {\boldsymbol{V}}_{\mathrm{u}} $的提取方式与训练批次大小有关，批次越大，特征提取范围越广， $ {\boldsymbol{V}}_{\mathrm{u}} $的质量越高. 为了验证该假设的真实性，使用不同批次大小在COCO2017数据集上进行实验分析. 当批次大小为32时，所提方法具有的检测精度最高，为78.5%. 随着批次大小减小为16、8和4，精度随之分别下降为77.2%、76.1%和72.6%. 实验结果验证了本文假设. 设计对比方法进行邻接矩阵重要性加权方法的有效性验证：使用没有被改进的邻接矩阵$ \boldsymbol{A} $代替$ {\boldsymbol{A}}_{\mathrm{w}} $. 该对比方法的精度下降了1.8个百分点. 验证了邻接矩阵改进模块的有效性. 使用每秒十亿浮点运算GFLOPs作为神经网络模型的计算复杂度指标^[24]，使用参数量大小Par衡量模型大小，使用帧率v作为检测阶段的耗时指标^[16]，对比结果如表4所示. 本研究提出仅在训练过程中涉及权重和特征迁移与融合的训练策略，没有显著增加复杂度. 由于HLFMA，特征补偿模块中存在用于特征相似性匹配的矩阵计算，虽然引入了复杂度，但在实际应用范围内，且准确性高于其他算法. 参数量和检测速度位于最佳和最差之间，处于实际应用范围内.

表 4 不同算法的检测性能对比

Tab.4 Detection performance comparison of different algorithms

算法	GFLOPs	Par/10⁶	v/（帧·s⁻¹）
文献[11]	14.6	28.5	10.0
文献[20]	28.5	19.8	11.2
文献[14]	27.7	65.5	14.1
文献[22]	37.1	33.8	12.4
文献[3]	14.5	51.4	12.9
本研究	29.4	64.5	11.1

3.5. 可视化展示

如图4所示为所提网络在遮挡环境下的关键点热力图检测效果图. 可以看出，HRNet对被遮挡的脚部关键点检测误差较大；所提网络的热力值较集中且趋于真实位置，具有更高的检测精度. 如图5所示，在多人且存在遮挡的情况下，所提网络较好地估计了站在后排且存在严重遮挡的人体姿态，对被物体遮挡、自身遮挡的姿态均有较好的效果. 如图6所示，在多人且存在复杂遮挡环境下，所提网络对后排人的严重遮挡腿部的估计更精确，该网络在遮挡环境下的优越性能得以验证.

图 4

图 4 不同算法的关键点热力图对比

Fig.4 Comparison of keypoints heatmaps for different algorithms

图 5

图 5 基于知识共享的遮挡人体姿态估计网络的姿态估计效果图

Fig.5 Pose estimation results of occluded human pose estimation network based on knowledge sharing

图 6

图 6 不同算法的姿态估计效果图对比

Fig.6 Comparison of pose estimation results for different algorithms

4. 结　语

本研究提出基于知识共享的遮挡人体姿态估计网络，在数据集COCO2017、COCO-Wholebody、CrowdPose中的检测精度分别为78.5%、67.1%、77.8%，表明所提网络具有较好的遮挡处理能力. OCNN在自建遮挡数据集上能够节省75%的训练数据使用，在相同训练数据的前提下，检测精度提升了35%. 在OCNN中，通过消除障碍物特征，强化关键点共有及专有属性补偿节点特征，根据节点特征之间的关联程度对邻接矩阵进行重要性加权. 开展消融实验，分析并验证了OGCN中各个模块的有效性. 所提网络仅使用少量训练数据即可实现对遮挡部位的强化检测，弥补了遮挡训练数据不足的问题. 下一步计划开展针对提升脚部姿态的估计准确性研究.

参考文献

原文顺序

文献年度倒序

文中引用次数倒序

被引期刊影响因子

[1]

孙雪菲, 张瑞峰, 关欣, 等

强化先验骨架结构的轻量型高效人体姿态估计

[J]. 浙江大学学报: 工学版, 2024, 58 (1): 50- 60

SUN Xuefei, ZHANG Ruifeng, GUAN Xin, et al

Lightweight and efficient human pose estimation with enhanced priori skeleton structure

[J]. Journal of Zhejiang University: Engineering Science, 2024, 58 (1): 50- 60

[2]

YU X W, CHEN G S. HRPoseFormer: high-resolution Transformer for human pose estimation via multi-scale token aggregation [C]// IEEE 16th International Conference on Solid-State and Integrated Circuit Technology . Nanjing: IEEE, 2022: 1–3.

[3]

ZHOU L, CHEN Y, WANG J

Progressive direction-aware pose grammar for human pose estimation

[J]. IEEE Transactions on Biometrics, Behavior, and Identity Science, 2023, 5 (4): 593- 605

DOI:10.1109/TBIOM.2023.3315509 [本文引用: 3]

[4]

ZHANG Z, LIU M, SHEN J, et al

Lightweight whole body human pose estimation with two-stage refinement training strategy

[J]. IEEE Transactions on Human-Machine Systems, 2024, 54 (1): 121- 130

DOI:10.1109/THMS.2024.3349652 [本文引用: 4]

[5]

LIN J, ZHENG Z, ZHONG Z, et al. Joint representation learning and keypoint detection for cross-view geo-localization [J]. IEEE Transactions on Image Processing , 2022, 31: 3780–3792.

[6]

MENG Q, QIN C, BAI W, et al

MulViMotion: shape-aware 3D myocardial motion tracking from multi-view cardiac MRI

[J]. IEEE Transactions on Medical Imaging, 2022, 41 (8): 1961- 1974

DOI:10.1109/TMI.2022.3154599 [本文引用: 2]

[7]

CHAKRAVARTHI B, PATIL A K, RYU J Y, et al

Scenario-based sensed human motion editing and validation through the motion-sphere

[J]. IEEE Access, 2022, 10: 28295- 28307

DOI:10.1109/ACCESS.2022.3157939 [本文引用: 1]

[8]

MARQUES B, SILVA S, ALVES J, et al

A conceptual model and taxonomy for collaborative augmented reality

[J]. IEEE Transactions on Visualization and Computer Graphics, 2022, 28 (12): 5113- 5133

DOI:10.1109/TVCG.2021.3101545 [本文引用: 1]

[9]

LI N, CHEN X, FENG Y, et al

Human–computer interaction cognitive behavior modeling of command and control systems

[J]. IEEE Internet of Things Journal, 2022, 9 (14): 12723- 12736

DOI:10.1109/JIOT.2021.3138247 [本文引用: 1]

[10]

SUN K, XIAO B, LIU D, et al. Deep high-resolution representation learning for human pose estimation [C]// IEEE/CVF Conference on Computer Vision and Pattern Recognition . Long Beach: IEEE, 2019: 5693–5703.

[本文引用: 3]

[11]

WANG J, SUN K, CHENG T, et al

Deep high-resolution representation learning for visual recognition

[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2021, 43 (10): 3349- 3364

DOI:10.1109/TPAMI.2020.2983686 [本文引用: 5]

[12]

KE L, CHANG M C, QI H, et al

DetPoseNet: improving multi-person pose estimation via coarse-pose filtering

[J]. IEEE Transactions on Image Processing, 2022, 31: 2782- 2795

DOI:10.1109/TIP.2022.3161081 [本文引用: 2]

[13]

CAO Z, HIDALGO G, SIMON T, et al

OpenPose: realtime multi-person 2D pose estimation using part affinity fields

[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2021, 43 (1): 172- 186

DOI:10.1109/TPAMI.2019.2929257 [本文引用: 2]

[14]

LI Q, ZHANG Z, ZHANG F, et al

HRNeXt: high-resolution context network for crowd pose estimation

[J]. IEEE Transactions on Multimedia, 2023, 25 (46): 1521- 1528

[本文引用: 3]

[15]

KIM G, KIM H, KONG K, et al

Human body aware feature extractor using attachable feature corrector for human pose estimation

[J]. IEEE Transactions on Multimedia, 2023, 25: 5789- 5799

DOI:10.1109/TMM.2022.3199098 [本文引用: 3]

[16]

LIN T Y, MAIRE M, BELONGIE S, et al. Microsoft COCO: common objects in context [C]// European Conference on Computer Vision . [S. l.]: Springer, 2014: 740–755.

[本文引用: 3]

[17]

BANZI J, BULUGU I, YE Z

Learning a deep predictive coding network for a semi-supervised 3D-hand pose estimation

[J]. IEEE/CAA Journal of Automatica Sinica, 2020, 7 (5): 1371- 1379

DOI:10.1109/JAS.2020.1003090 [本文引用: 1]

[18]

KIM S, KANG S, CHOI H, et al

Keypoint aware robust representation for transformer-based re-identification of occluded person

[J]. IEEE Signal Processing Letters, 2023, 30: 65- 69

DOI:10.1109/LSP.2023.3240596 [本文引用: 3]

[19]

WANG Y J, LUO Y M, BAI G H, et al

UformPose: a U-shaped hierarchical multi-scale keypoint-aware framework for human pose estimation

[J]. IEEE Transactions on Circuits and Systems for Video Technology, 2023, 33 (4): 1697- 1709

DOI:10.1109/TCSVT.2022.3213206 [本文引用: 1]

[20]

PENG S, ZHOU X, LIU Y, et al

PVNet: pixel-wise voting network for 6DoF object pose estimation

[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2022, 44 (1): 3212- 3223

[本文引用: 5]

[21]

ARTACHO B, SAVAKIS A

UniPose+: a unified framework for 2D and 3D human pose estimation in images and videos

[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2022, 44 (12): 9641- 9653

DOI:10.1109/TPAMI.2021.3124736 [本文引用: 3]

[22]

GAI D, FENG R Y, MIN W, et al

Spatiotemporal learning transformer for video-based human pose estimation

[J]. IEEE Transactions on Circuits and Systems for Video Technology, 2023, 33 (9): 4564- 4576

DOI:10.1109/TCSVT.2023.3269666 [本文引用: 2]

[23]

YIN Y, LIU M, ZHU Q, et al

Multibranch attention graph convolutional networks for 3-D human pose estimation

[J]. IEEE Transactions on Instrumentation and Measurement, 2023, 72: 2520412.