<img src="https://www.zjujournals.com/sci/images/1008-9497/images/logo.png" class="img-responsive">

图1 对比不同特征基的模型重构

Fig.1 Compare the reconstruction of different feature bases

2.3　基于广义函数映射学习的形状对应

基于深度函数映射^［18］中FMNet的思想，以三维模型原始点云为输入信息，通过广义特征基学习与点的深度特征学习，构建形状特征表示；通过函数映射框架和联合优化目标函数计算两个形状之间的软映射 C 以及两个形状之间的对应概率分布P。

网络整体架构如图2所示，深度点特征学习网络与广义基函数学习网络并行。首先，以输入的两个模型X，Y为例，用多层感知器（multilayer perceptron，MLP）分别提取三维模型的初始点特征 $M \in R^{N \times D}$ （N为顶点数，D为初始特征的维数）；通过构建的7层残差网络（每个残差层包括两个全连接层、两个规范化以及激活函数）输出相同维数的深度特征描述符 $F, G \in R^{N \times E}$ （E为点特征的维数）。其次，通过并行网络计算模型的近似测地线距离，并对其进行特征分解获得基函数φ，ψ，将学习到的深度特征描述符分别投影至特征基，构建三维模型的深度特征表示：

\hat{F} = ϕ^{T} ° F,

\hat{G} = φ^{T} ° G,

（12）

其中， $\hat{F} \in R^{K \times E}$ ， $\hat{G} \in R^{K \times E}$ （K是特征基的维数）。再次，输入函数映射层FM-Net，通过最小二乘法求解，计算模型间的函数映射矩阵 $C \in R^{K \times K}$ ，即模型X，Y之间的密集对应关系：

\hat{G} = C \hat{F},

（13）

\underset{C}{m i n} {‖C \hat{F} - \hat{G}‖}_{F}^{2} 。

（14）

最后，将函数映射矩阵 C 转换为软映射 $P \in R^{N_{X} \times N_{Y}}$ ，

P = {|φ_{Y} C ϕ_{X}^{T} A|}^{\land},

（15）

其中， A 为源形状的质量矩阵。通过 $Q = P \circ P$ 将软映射矩阵转换为匹配概率分布， Q 的第i行第j列Q_ij 表示源形状的第i个顶点对应目标形状的第j个顶点的概率。

图2

图2 网络框架

Fig.2 Network framework

图3为基于ModelNet10与SHREC2016数据集中的两组模型所获得的密集形状对应结果。可见，本文方法对任意三维形状以及残缺模型具有极强的稳定性。

图3

图3 任意三维形状的密集对应

Fig.3 Dense correspondence of arbitrary 3D shapes

2.4　无监督网络优化学习

与充足的图像数据资源不同，目前公开的三维数据集十分有限，而且三维形状的标注更复杂，需要更多的人力、物力。因此，提出端到端的无监督学习框架。

在学习中，通过设计三元正则化机制（TriReg，用E表示），优化描述符、广义特征基、函数映射表示：

E = w_{1} E_{r} + w_{2} E_{f} + w_{3} E_{d}

，（16）

其中，E_r 为重构损失，E_f 为描述符损失，E_d 为距离损失。引入TriReg机制可有效促进无监督学习过程，不仅确保了构造的广义基函数具有强大的表示和辨别能力，还可以有效优化函数映射，进而获得准确的形状对应关系。

2.4.1　重构损失

采用近似测地线距离及对其特征分解计算初始特征基，并通过注意力机制学习权重获得广义特征基表示。在网络迭代过程中，为了保证特征基的质量，遵循重构误差约束的思想，利用优化后的特征基重构原始模型的点云坐标，使得重构损失最小化，获得鲁棒的广义特征基表示：

E_{r} = m i n {‖(X - X^{*}) + (Y - Y^{*})‖}_{2}^{2}

，（17）

X^{*} = φ_{X} φ_{X}^{+} X_{_{}^{}}

Y^{*} = ϕ_{Y} ϕ_{Y}^{+} Y

，（18）

其中，X和Y是原始3D模型， $φ_{X}$ 和 $ϕ_{Y}$ 是学习的特征基， $φ_{X}^{+}$ ， $φ_{Y}^{+}$ 是特征基的伪逆表示， $X^{*}$ 和 $Y^{*}$ 表示由优化后的特征基重构的模型坐标，即通过特征基重构后的点云坐标。通过最小化原始3D点云模型与重构后的模型之间的误差来执行全局结构保存。

2.4.2　描述符损失

FMNet^［18］先将SHOT点特征投影至拉普拉斯特征基，构造形状描述符，再经由函数映射框架计算形状的密集对应关系。本文方法先通过MLP直接从输入点云中提取352维特征作为初始特征，再将其输入残差网络，输出具有相同维度的深度点特征 F 和 G。为有效改善点特征的表示能力，引入SURFMNet^［20］中基于函数点态积的方法，构建形状描述符，并施加描述符一致性约束，即

E_{f} = {\sum_{(F_{i}, G_{i})} ‖C M_{F_{i}} - M_{G_{i}} C‖}^{2}

，（19）

其中， $M_{F_{i}} = φ_{X}^{+} D i a g (F_{i}) φ_{X}$ ，　 $M_{G_{i}} = φ_{Y}^{+} D i a g (G_{i}) φ_{Y}$ ， F， G 分别为原始模型与目标模型的深度点特征， $D i a g (F_{i})$ 为 F_i 的对角矩阵，+表示伪逆矩阵。E_f 对于函数映射是可微的，通过梯度反向传播，不仅可以优化深度点特征（ F， G ），而且可以惩罚函数映射 $φ_{X}$ 和 $ϕ_{Y}$ 的结构属性。

2.4.3　距离损失

通常，原始模型上两个顶点之间的距离经正确匹配后，应该保持目标模型上对应点之间的距离相似性，因此进一步对空间域的点对映射应用近似测地线距离失真惩罚。

设 $P$ 为软映射层的输出，则 $Q = P \circ P$ 将函数映射得到的形状之间的密集对应关系转换为概率分布。矩阵 Q^TD_YQ 中的元素表示原始模型X上的顶点，经正确匹配后，对应目标模型Y上的距离为

{(Q^{T} D_{Y} Q)}_{j i} = \sum_{m, n} p_{m i}^{2} p_{n j}^{2} d_{Y} (m, n)

，（20）

其中， $d_{Y}$ 是 $D_{Y}$ 的集合。

近似测地线距离损失为

E_{d} = m i n (\frac{1}{{|X|}^{2}} {‖D_{X} - Q^{T} D_{Y} Q‖}_{F}^{2} + \frac{1}{{|Y|}^{2}} {‖D_{Y} - Q^{T} D_{X} Q‖}_{F}^{2}) 。

（21）

其中， D_X 和 D_Y 表示原始模型和目标模型上的近似测地线距离矩阵。

3　实验

以FMNet^［18］为基础框架，用TensorFlow^［22］构建广义函数映射学习的形状对应网络。网络学习模型直接从原始点云数据中学习广义特征基和深度点特征，无需预处理。

首先，通过FPS最远点采样获得n个采样点，并经由MLP层和残差网络层学习，提取维数为352的深度点特征 $F \in R^{n \times 352}$ ；然后，计算各个模型的近似测地线距离并进行特征分解，获得模型的特征基表示，经由注意力机制学习特征基权重；最后，生成广义特征基表示。截取前120个特征向量作为特征表达 $φ \in R^{n \times 120}$ 。在学习优化过程中，设置3个权重，并分别赋予不同的损失函数（ $w_{1} = 10^{- 5}$ ， $w_{2} = 10^{- 3}$ ， $w_{3} = 1$ ），从空间域和特征域进行损失约束。整体网络迭代次数为3 000。使用Adam优化器^［22］，学习率设置为0.001，从而获得优化的特征基以及最优的形状特征表示。在测试中，一对模型的平均测试运行时间为0.02 s，相较FMNet^［18］的0.25 s提高了近10倍。

分别用ModelNet10、ModelNet40、SHREC2011、SHREC2015、SHREC2016标准数据集进行形状匹配测试。

3.1　特征基的对比分析

针对点云与不连通网格模型，提出基于近似测地线距离的广义基函数学习方法，广义基函数有效揭示了任意形状的内蕴几何结构。为验证其有效性，采用相同的数据集，对比分析基于欧氏距离、马氏距离、近似测地线距离3类特征基的重构误差。

在实验中，针对同一数据集，建立不同的距离矩阵，并进行特征分解，统一提取其前120个特征向量构建特征表示，并通过相同数量的样本训练，获取广义基函数表示。利用重构误差进行有效度量和优化。

如表1所示，以SHREC2011和ModelNet10数据集为例，计算重构误差，对3种特征向量进行重构（截取前120维特征向量）。基于近似测地线距离的广义基函数重构误差最小，重构性最佳，基于马氏距离的重构性能介于欧式距离与近似测地线距离之间。

表1 不同特征基的重构误差

Table 1 Reconstruction errors of different feature bases

数据集	重构误差
数据集	欧氏距离	马氏距离	近似测地线距离
SHREC2011	0.089	0.068	0.032
ModelNet10	2.112	12.32	0.358

新窗口打开| 下载CSV

3.2　注意力机制

注意力机制可度量训练样本对于执行下游任务的权重，从而优化更新特征基，形成广义特征表示，有效提升特征表示的鲁棒性与区分性。广义特征基表示来自一类样本数据的训练。实验对比分析了引入注意力机制前后的形状对应性能，结果如图4所示。可见，加入注意力层后，特征基表示能力增强，形状细节匹配效果更显著，如狗的腿部以及飞机的机翼。

图4

图4 引入注意力机制前后的对应形状

Fig.4 The shape of corresponds before and after adding attention mechanism

3.3　残缺和任意模型的形状对应

首先，在SHREC2016数据集上验证可变形模型的部分匹配。以狗模型为例，对比本文方法与FMNet^［18］方法基于近似测地线距离矩阵获得的对应关系。如图5所示，FMNet方法狗腿部出现错误匹配，由于拉普拉斯谱特征的选择，不可避免会产生特征翻转问题。本文方法对残缺模型的重构表现出较稳定的性能，不论是非刚性变形还是局部残缺，都取得了较好的对应效果。

图5

图5 残缺模型的密集对应

Fig.5 Intensive correspondence of incomplete models

然后，使用ModelNet10、ModelNet40数据集验证非连通模型的匹配效果。ModelNet10、ModelNet40数据集分别含10类和40类三维模型，属于刚性且非连通模型。

如图6所示，第1列和第3列是源模型，第2列和第4列是目标模型。可见，无论成对模型具有不同的拓扑结构还是不同的几何细节，两个形状都可以实现可传递的密集对应关系。通过无监督函数映射学习，可以获得任意形状具有区分性的特征基与形状特征表示，在密集对应中具有普适性与显著性。

图6

图6 非连通模型匹配可视化

Fig.6 Unconnected model matching visualization

3.4　与先进算法的比较

利用近似测地线距离失真、描述符损失、重构损失作为无监督学习的目标函数，有效学习任意形状的特征表示以及形状对应关系。

与有监督学习方法FMNet^［18］、DGFM^［17］、GCNN^［23］、3D-CODED^［24］以及无监督学习方法Unsup FMNet^［19］、Heat^［25］、SURFMNet^［20］、CorrNet^［26］、PMF^{［27⁃28］}等进行比较。

FM匹配准确性在很大程度上取决于描述符。FMNet基于有监督损失学习描述符转换，但依赖于输入的SHOT特征，测地线距离矩阵计算成本较高。DGFM^［17］通过学习形状的几何特征缓解对初始特征描述符的依赖，并以地面真实函数映射与计算值之间的差异作为光谱损失的基础，然而该方法仅适用于等距变形形状，需预计算拉普拉斯矩阵的特征基。GCNN^［23］提供了基于局部形状参数化的有监督的形状特征描述符学习。3D-CODED^［24］是一种空间领域的学习方法，依赖于一个模板，需要大量的训练数据，因此在不同的数据集上，该方法泛化性较差。

无监督学习方法消除了对地面真实对应标签的依赖，Unsup FMNet^［19］使用测地线距离矩阵作为解决方案，无需标签。Heat^［25］使用热核实现无监督的密集形状对应。SURFMNet^［20］通过双层优化在函数映射上强制执行结构属性，然而这些方法仍依赖于输入特征。CorrNet^［26］通过类似变形重建的方式驱动学习三维形状之间的密集对应关系，以满足地面真实对应标签数据的需要，但不适用于3D人造对象。PMF Gauss^［27］利用高斯核的积流形滤波，将对应计算作为基空间中的核密度估计问题，引入积流形滤波器得到光滑对应。PMF Heat^［28］采用热核全自动的方法。通常，无监督学习方法可以提高点对应的质量，但往往依赖于几何连通结构模型，不具通用性。

本文提供了一个端到端的无监督学习网络，适用于等距或非等距变换的三维形状以及点云表示的三维模型。利用残差网络细化MLP特征，直接从原始数据中获得深度点特征，并通过近似测地线距离特征分解计算基函数，在网络训练中，迭代学习广义特征基表示，生成的形状描述符具有较强的鲁棒性和区分性。本文提出的学习网络联合近似测地线距离失真、重构损失、描述符一致性作为损失目标函数，不仅有效提升了学习性能，而且增强了特征表示的区分性，从而得到较优的匹配效果。

表2总结了不同方法在SHREC2011数据集上的形状对应精度。可知，本文方法相对于大多数有监督学习模式的方法具有较明显优势。在有监督学习模式下，本文方法的精度略低于GCNN，GCNN主要采用二维流形的测地线距离构建特征描述符，但其仅适用于连续曲面，而非任意三维形状。在无监督学习模式下，本文方法较SURFMNet方法的精度提高了0.2%，有效地将函数映射学习拓展至任意三维数据集。

表2 不同方法在SHREC2011数据集上的形状对应性能

Table 2 The shape of different methods corresponds to the performance

学习模式	方法	精度/%
有监督学习	FMNet	70.93
	DGFM	85.06
	GCNN	93.82
	3D-CODED	73.45
	本文方法	98.54
无监督学习	Unsup FMNet	40.08
	Heat	49.33
	SURFMNet	98.32
	CorrNet	45.56
	PMF Gauss	92.85
	PMF Heat	94.55
	本文方法	88.20

新窗口打开| 下载CSV

4　结语

面向结构复杂、形式多样的三维形状匹配需求，提出了一种具有通用性的无监督三维形状密集对应学习方法，不仅适用于连通网格模型，而且适用于点云模型以及残缺模型。提出了基于近似测地线距离的广义基函数学习方法，实验表明其不仅具有良好的重构性，而且生成的形状特征表示更具区分性。应用三元正则化机制，实施了空域与特征域惩罚，有效提升了无监督学习的效率，在形状匹配上具有更优的性能。

未来将在点学习上尝试其他特征提取器，如DiffusionNet^［29］，并进一步探索函数映射的惩罚。

http://dx.doi.org/10.3785/j.issn.1008-9497.2023.06.008

参考文献

原文顺序

文献年度倒序

文中引用次数倒序

被引期刊影响因子

[1]

HUANG

Q X

， ZHANG

G X

， GAO

， et al.

An optimization approach for extracting and encoding consistent maps in a shape collection

［J］. ACM Transactions on Graphics， 2012， 31（6）： 1-11. DOI：10.1145/2366145.2366186

[2]

KIM

V G

， LI

， MITRA

N J

， et al.

Exploring collections of 3D models using fuzzy correspondences

［J］. ACM Transactions on Graphics， 2012， 31（4）：1-11. DOI：10.1145/2185520.2185550

[3]

HUANG

Q X

， GUIBAS

Consistent shape maps via semi definite programming

［J］. Computer Graphics Forum， 2013， 32（5）： 177-186. doi:10.1111/cgf.12184

[4]

SAHILLIOĞLU

， YEMEZ

Multiple shape correspondence by dynamic programming

［J］. Computer Graphics Forum， 2015， 33（7）： 121-130. DOI：10.1111/cgf.12480

[5]

SHTERN

， KIMMEL

Spectral gradient fields embedding for nonrigid shape matching

［J］. Computer Vision and Image Understanding， 2015， 140： 21-29. DOI：10.1016/j.cviu.2015.02.004

[6]

ALHASHIM

， XU

， ZHUANG

， et al.

Deformation-driven topology-varying 3D shape correspondence

［J］. ACM Transactions on Graphics， 2015， 34（6）： 1-13. DOI：10.1145/2816795.2818088

[7]

MARON

， DYM N， KEZURER

， et al.

Point registration via efficient convex relaxation

［J］. ACM Transactions on Graphics， 2016， 35（4）： 7373. DOI：10.1145/2897824.2925913

[8]

DYKE

R M

， LAI

Y K

， ROSIN

P L

， et al.

Non-rigid registration under anisotropic deformations

［J］. Computer Aided Geometric Design， 2019， 71： 142-156. DOI：10.1016/j.cagd.2019.04.014

[9]

LITMAN

， BRONSTEIN

A M

Learning spectral descriptors for deformable shape correspondence

［J］. IEEE Transactions on Pattern Analysis & Machine Intelligence， 2014， 36（1）： 171-180. DOI：10.1109/TPAMI.2013.148

[10]

ZHOU

， KRAHENBUHL

， AUBRY

， et al.

Learning dense correspondence via 3D-guided cycle consistency

［C］// 2016 IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas： IEEE， 2016： 117-126. DOI：10.1109/CVPR.2016.20

[11]

LIM I， DIELEN

， CAMPEN

， et al.

A simple approach to intrinsic correspondence learning on unstructured 3D meshes

［C］// Proceedings of the European Conference on Computer Vision （ECCV）. Munich： Springer-Verlag， 2018： 349-362. DOI：10.1007/978-3-030-11015-4_26

[12]

LIM I， DIELEN

， CAMPEN

， et al.

A simple approach to intrinsic correspondence learning on unstructured 3D meshes

［C］// Proceedings of the European Conference on Computer Vision （ECCV）. Munich： Springer-Verlag， 2018： 349-362. DOI：10.1007/978-3-030-11015-4_26

[13]

OVSJANIKOV

， BEN-CHEN

， SOLOMON

， et al.

Functional maps： A flexible representation of maps between shapes

［J］. ACM Transactions on Graphics， 2012， 31（4）： 1-11. DOI：10.1145/2185520.2185526

[14]

RODOLÀ

， MOELLER

， CREMERS

Regularized pointwise map recovery from functional correspondence

［J］. Computer Graphics Forum， 2017， 36（7）： 700-711. DOI：10.1111/cgf.13160

[15]

KOVNATSKY

， BRONSTEIN

M M

， BRESSON

， et al.

Functional correspondence by matrix completion

［C］// 2015 IEEE Conference on Computer Vision and Pattern Recognition （CVPR）. Boston： IEEE， 2015： 905-914. DOI：10.1109/CVPR.2015.7298692

[16]

NOGNENG

， OVSJANIKOV

Informative descriptor preservation via commutativity for shape matching

［J］. Computer Graphics Forum， 2017， 36（2）： 259-267. DOI：10.1111/cgf.13124

[17]

DONATI

， SHARMA

， OVSJANIKOV

Deep geometric functional maps： Robust feature learning for shape correspondence

［C］// 2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition （CNPR）. Seattle： IEEE， 2020： 8592-8601. DOI：10.1109/CVPR42600.2020.00862 .

[本文引用: 4]

[18]

LITANY

， REMEZ

， RODOLA

， et al.

Deep functional maps： Structured prediction for dense shape correspondence

［C］// Proceedings of the IEEE International Conference on Computer Vision（ICCV）. Venice： IEEE， 2017： 5659-5667. DOI：10.1109/ICCV.2017.603

[本文引用: 8]

[19]

HALIMI

， LITANY

， RODOLA

E R

， et al.

Unsupervised learning of dense shape correspondence

［C］// 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition （CVPR）. Long Beach： IEEE， 2019： 4365-4374. DOI：10.1109/CVPR.2019.00450

[本文引用: 3]

[20]

ROUFOSSE

J M

， SHARMA

， OVSJANIKOV

Unsupervised deep learning for structured shape matching

［C］// 2019 IEEE/CVF International Conference on Computer Vision （ICCV）. Seoul： IEEE， 2019： 1617-1627. DOI：10.1109/ICCV.2019. 00170

[本文引用: 5]

[21]

ROSEN

K H

. Discrete Mathematics and Its Applications［M］. 5th ed. New York： McGraw-Hill Science/Engineering/Math，2003.

[22]

ABADI

， AGARWAL

， BARHAM

， et al.

TensorFlow： Large-scale Machine Learning on Heterogeneous Distributed Systems

［Z］. （2016-03-14）. https：//arxiv.org/abs/1603.04467.

[23]

MASCI

， BOSCAINI

， BRONSTEIN

， et al.

Geodesic convolutional neural networks on riemannian manifolds

［C］// Proceedings of the IEEE International Conference on Computer Vision（ICCV）. Santiago： IEEE， 2015： 37-45. DOI：10. 1109/ICCVW.2015.112

[24]

GROUEIX

， FISHER

， KIM

V G

， et al.

3D-coded： 3D correspondences by deep deformation

［C］// Proceedings of the European Conference on Computer Vision （ECCV）. Munich： Springer， 2018： 230-246. DOI：10.1007/978-3-030-01216-8_15

[25]

AYGÜN

， LÄHNER

， CREMERS

Unsupervised dense shape correspondence using heat kernels

［C］// 2020 International Conference on 3D Vision （3DV）. Fukuoka： IEEE， 2020： 573-582. DOI：10.1109/3DV50981.2020.00067

[26]

ZENG

Y M

， QIAN

， ZHU

Z Y

， et al.

CorrNet3D： Unsupervised end-to-end learning of dense correspondence for 3D point clouds

［C］// 2021 IEEE/CVF Conference on Computer Vision and Pattern Recognition （CVPR）. Nashville： IEEE， 2021： 6048-6057. DOI：10.1109/CVPR46437.2021.00599

[27]

RODOLÀ

， LÄHNER

， BRONSTEIN

A M

， et al.

Functional maps representation on product manifolds

［J］. Computer Graphics Forum， 2019， 38（1）： 678-689. DOI：10.1111/cgf.13598

[28]

VESTNER

， LITMAN

， RODOLA

， et al.

Product manifold filter： Non-rigid shape correspondence via kernel density estimation in the product space

［C］// 2017 IEEE Conference on Computer Vision and Pattern Recognition （CVPR）. Honolulu： IEEE， 2017： 3327-3336. DOI：10.1109/CVPR.2017.707

[29]

SHARP

， ATTAIKI

， CRANE

， et al.

DiffusionNet： Discretization agnostic learning on surfaces

［J］. ACM Transactions on Graphics， 2020， 41（3）： 1-16. DOI：10.1145/3507905