浙江大学学报(工学版), 2025, 59(5): 912-919 doi: 10.3785/j.issn.1008-973X.2025.05.004

计算机技术、信息工程

结合全局信息和局部信息的三维网格分割框架

张梦瑶,, 周杰, 李文婷, 赵勇,

中国海洋大学 数学科学学院,山东 青岛 266100

Three-dimensional mesh segmentation framework using global and local information

ZHANG Mengyao,, ZHOU Jie, LI Wenting, ZHAO Yong,

School of Mathematical Sciences, Ocean University of China, Qingdao 266100, China

通讯作者: 赵勇, 男, 副教授, 硕导. orcid.org/0009-0002-0232-2284. E-mail:zhaoyong@ouc.edu.cn

收稿日期: 2024-07-6  

基金资助: 山东省自然科学基金资助项目(ZR2018MF006); 浙江大学CAD&CG国家重点实验室开放课题资助项目(A2228); 青岛市自然科学基金资助项目(23-2-1-158-zyyd-jch).

Received: 2024-07-6  

Fund supported: 山东省自然科学基金资助项目(ZR2018MF006);浙江大学CAD&CG国家重点实验室开放课题资助项目(A2228);青岛市自然科学基金资助项目(23-2-1-158-zyyd-jch).

作者简介 About authors

张梦瑶(1999—),女,硕士生,从事计算机图形学、深度学习的研究.orcid.org/0009-0001-2118-3171.E-mail:zhangmengyao@stu.ouc.edu.cn , E-mail:zhangmengyao@stu.ouc.edu.cn

摘要

针对Graph Transformer比较擅长捕获全局信息,但对局部精细信息的提取不够充分的问题,将图卷积神经网络(GCN)引入Graph Transformer中,得到Graph Transformer and GCN (GTG)模块,构建了能够结合全局信息和局部信息的网格分割框架. GTG模块利用Graph Transformer的全局自注意力机制和GCN的局部连接性质,不仅可以捕获全局信息,还能够加强局部精细信息的提取. 为了更好地保留边界区域的信息,设计边缘保持的粗化算法,可以使粗化过程仅作用在非边界区域. 利用边界信息对损失函数进行加权,提高了神经网络对边界区域的关注程度. 在实验方面,通过视觉效果和定量比较证明了采用本文算法能够获得高质量的分割结果,利用消融实验表明了GTG模块和边缘保持粗化算法的有效性.

关键词: 三维网格 ; 网格分割 ; Graph Transformer ; 图卷积神经网络(GCN) ; 边缘保持的粗化算法

Abstract

A Graph Transformer and GCN (GTG) block was obtained by introducing graph convolutional neural network (GCN) into Graph Transformer because Graph Transformer was good at capturing global information, but weak in extracting local fine-grained information. A mesh segmentation framework that combined both global and local information was constructed. Global self-attention mechanism of Graph Transformer and local connectivity properties of GCN were used in GTG block in order to capture global information and enhance the extraction of local fine-grained information. An edge-preserving coarsening algorithm was designed to constrain the coarsening to non-boundary regions in order to better preserve information in boundary regions. Boundary information was used to weight the loss function to enhance the neural network’s focus on boundary regions. In experiments, visual results and quantitative comparisons prove that the proposed algorithm can achieve high-quality segmentation results, and ablation study demonstrates the effectiveness of GTG block and edge-preserving coarsening algorithm.

Keywords: 3D mesh ; mesh segmentation ; Graph Transformer ; graph convolutional neural network (GCN) ; edge-preserving coarsening algorithm

PDF (1497KB) 元数据 多维度评价 相关文章 导出 EndNote| Ris| Bibtex  收藏本文

本文引用格式

张梦瑶, 周杰, 李文婷, 赵勇. 结合全局信息和局部信息的三维网格分割框架. 浙江大学学报(工学版)[J], 2025, 59(5): 912-919 doi:10.3785/j.issn.1008-973X.2025.05.004

ZHANG Mengyao, ZHOU Jie, LI Wenting, ZHAO Yong. Three-dimensional mesh segmentation framework using global and local information. Journal of Zhejiang University(Engineering Science)[J], 2025, 59(5): 912-919 doi:10.3785/j.issn.1008-973X.2025.05.004

随着大数据和人工智能的迅速发展,利用二维图像的形式表达物体已经不能满足现阶段的需求. 越来越多的工作开始将视线转到空间信息更丰富的三维网格数据. 此外,3D扫描设备和3D建模技术的发展降低了获取网格模型的难度. 三维网格分割是将网格模型划分成若干个符合人类视觉感知的部分,方便后续的分析、建模和编辑等. 三维网格分割作为计算机图形学、计算机视觉方向的研究热点,广泛应用在临床医学、工程制造、具身智能及智慧城市等领域.

在网格分割任务中,当前大多数的研究工作仅利用Transformer或者卷积神经网络进行处理. Transformer更擅长捕获全局信息,不能充分地获取局部精细信息,以致训练过程需要大量的数据. 相比之下,卷积神经网络的局部连接性质能够对局部结构进行有效的建模. 本文在Graph Transformer的基础上,添加GCN模块,以解决Graph Transformer对局部精细信息的提取不够充分的问题,使得本文的网格分割框架可以结合全局信息和局部信息,提高分割性能.

由于三维网格面片的数量庞大,计算成本非常高. 本文将三维网格过分割为一系列的超面片,生成超面片的图结构,将三维网格分割任务转化为图节点分类任务. 此外,为了更好地处理边界区域,本文设计边缘保持的粗化算法,构建图的多层次结构,以生成更丰富的多尺度特征.

本文的主要创新点如下.

(1)将Graph Transformer和GCN有机地结合起来,得到GTG模块,既能够捕获全局信息,又能够提取局部精细信息.

(2)提出边缘保持的粗化算法,有效地保留了边界区域的信息,加强了网络对边界区域的关注程度.

(3)基于过分割算法和GTG模块构建网格分割框架,在降低计算成本的基础上,充分利用全局信息和局部信息,获得了准确的分割结果.

1. 相关工作

随着机器学习的发展,越来越多的工作将数据驱动的方法引入三维网格分割问题. Kalogerakis等[1]通过条件随机场进行建模,以衡量面片和标签的一致性. Benhabiles等[2]利用Adaboost分类器获取分割边界. Hu等[3]提出共分割方法,将网格分割转换为聚类问题来实现. Wang等[4]将网格模型进行多视角投影,在已标记的图像中检索并实现标签转化,将标签映射回网格表面.

由于硬件的提升和数据规模的增长,神经网络被广泛地应用在三维网格分割问题中. 相较于传统的机器学习方法,神经网络具有更强的表征能力. 鉴于网格模型不规则采样的特性,有些方法采用重采样策略进行分割. Guo等[5]将网格模型的特征重组成二维矩阵,再输入卷积神经网络,建立面片特征和标签之间的关系. George等[6]认为将卷积作用在二维矩阵上,可能会在不相关特征之间产生关联,所以将网格模型的特征重组成一维向量. Xie等[7]对网格模型进行多视角投影,通过多视角的深度极限学习机在不同视角的深度图之间共享权值,为面片赋标签. Kalogerakis等[8]提出端到端的分割框架,先将网格模型的多视角渲染图和深度图输入全卷积神经网络,再将获得的置信度映射回网格表面,实现分割. Kundu等[9]将从多视角虚拟图中提取的特征融合到三维网格,实现网格模型的分割. 此外,可以利用体素化的方法进行重采样. Wang等[10]利用八叉树将网格模型转换为体素形式,将叶子节点的平均法向量输入3D卷积神经网络,实现分割. Wang等[11]设计体素卷积神经网络,通过构造特征提取模块和注意力特征聚合模块来提取网格特征. Hu等[12]指出仅依赖体素的方法会忽略网格模型的测地线信息,提出结合体素和网格模型的自编码器框架.将体素中提取的欧几里得信息输入编码器以提取长距离特征,在解码器中将它和网格中提取的测地线信息进行自适应地融合,提高了神经网络对网格模型的几何信息的利用.

与重采样的方法相比,直接处理网格曲面,能够更好地利用网格模型的结构信息. 有些工作致力于研究适用网格曲面的卷积和池化操作. Xu等[13]基于面片曲率设计有向卷积,实现网格模型的鲁棒分割. Huang等[14]利用四旋转对称场定义关于面片的卷积域,使卷积操作可以直接从网格表面提取特征. Feng等[15]设计网格卷积来聚合面片的邻域信息,处理网格模型的复杂性和不规则性. 有部分工作假设网格模型是流形结构. Hanocka等[16]利用一条边属于2个面片的性质,定义了关于边的卷积和池化操作. Hu等[17]依据每个面片与3个面片共边的特性,设计卷积和池化操作. Pérez等[18]提出关于面片和顶点的2种卷积网络算子. 此外,Lahav等[19]结合随机游走和循环神经网络,获得网格表面的几何信息和拓扑信息. Sharp等[20]利用扩散网络,直接学习网格表面的几何信息. Qiao等[21]采用谱分析方法编码网格的连接关系,提出特征聚集块,实现采样操作. Dong等[22]将网格模型映射到多维Laplacian-Beltrami空间中,可以消除不规则采样的影响,更好地学习全局特征. 受热扩散机制的启发,Wong[23]将热核特征相关的结构编码与顶点特征一同输入到由测地线距离引导的多层次的Transformer中,自适应地提取从局部到全局的信息.

除此之外,还可以利用图方法实现分割. Yi等[24]将图卷积神经网络作用在谱空间上,利用参数化卷积核实现权值共享,以解决跨域问题. Schult等[25]提出结合测地线图卷积和欧几里得图卷积的神经网络,利用顶点聚类和二次误差度量定义池化操作. Li等[26]将顶点位置和拉普拉斯矩阵的特征向量分别输入Graph Transformer中,学习网格模型的几何信息和拓扑信息,采用自注意力机制融合. Roy[27]将全分辨率和稀疏分辨率的网格模型输入神经网络,利用生成的形状直径函数值进行图切割,获得分割结果. 为了降低计算成本,Xu等[28-29]开始研究感知边缘的粗化算法. Xu等[28]通过给边界区域的能量项赋更大的权重来实现粗化,应用改进的模糊聚类方法进一步细化边界. Li等[29]利用网格模型的形状描述符训练分类器,获得顶点属于边界的概率,采用二次误差度量移除低概率顶点所在的边.

已有的研究工作中有很多是使用局部信息和全局信息,但基本上都是通过各种不同的方式,利用局部信息生成全局信息,比如池化、随机游走、扩散、聚合、Transformer等. 本文更关注两者的结合,因此着重研究Graph Transformer和GCN的结合方式.

上述都是监督式的三维网格分割算法,但在实际应用中,网格模型的标签需要人工标记,这极大地增加了人工成本. 半监督的分割算法越来越受到关注,它只要求部分面片具有标签,而不是所有面片. 针对标签不全的问题,Lv等[30]利用条件随机场定义目标函数,实现了半监督的网格分割. Shu等[31]通过交互式的方法对不同的部分进行标记,利用神经网络进行标签传播,得到未标记面片的标签. Shu等[32]通过密度峰值聚类的方法定位种子点,基于概率分布矩阵优化能量项,充分利用未标记数据.

无监督的网格分割需要在完全没有标签信息的情况下实现. Shu等[33]训练自动编码器来提取特征,通过高斯混合模型来实现聚类. Liang等[34]通过重建掩码特征的方法训练自动编码器,将面片的编码特征和嵌入特征一起输入到多层感知机进行预测. Jiao等[35]获得网格模型的K近邻图和形状描述符,并输入到不同的分支进行训练,利用聚类获得面片标签.

2. 本文算法

2.1. 多尺度的Graph Transformer

2.1.1. 多头自注意力机制

Transformer由自注意力机制(self-attention, SA)和前馈网络(feed-forward network, FFN)组成. 自注意力机制的计算过程如图1所示. 假设$ {\boldsymbol{X}} \in {{\bf{R}}^{n \times {{d}}}} $为输入特征,其中$ n $为输入的节点个数,$ d $为每个节点的特征维数.

图 1

图 1   自注意力机制

Fig.1   Self-attention mechanism


SA利用可学习的矩阵$ {{\boldsymbol{W}}_{\boldsymbol{Q}}} \in {{\bf{R}}^{d \times {d_{\boldsymbol{K}}}}} $$ {{\boldsymbol{W}}_{\boldsymbol{K}}} \in {{\bf{R}}^{d \times {d_{\boldsymbol{K}}}}} $$ {{\boldsymbol{W}}_{\boldsymbol{V}}} \in {{\bf{R}}^{d \times {d_{\boldsymbol{V}}}}} $,将输入特征分别映射为要匹配的查询向量$ {\boldsymbol{Q}} $、被匹配的键向量$ {\boldsymbol{K}} $和提取出来的值向量$ {\boldsymbol{V}} $

此时,$ {d_{\boldsymbol{K}}} = {d_{\boldsymbol{V}}} = d $. 利用内积操作获取$ {\boldsymbol{Q}} $$ {\boldsymbol{K}} $的相关性,由softmax函数进行归一化. 对$ {\boldsymbol{V}} $加权,得到SA的输出:

式中:$ \sqrt {{d_{\boldsymbol{K}}}} $为归一化因子,可以防止梯度消失.

自注意力机制通过3个可学习的变换矩阵,将输入特征映射为$ {\boldsymbol{Q}} $$ {\boldsymbol{K}} $$ {\boldsymbol{V}} $. 计算得到$ {\boldsymbol{Q}} $$ {\boldsymbol{K}} $的相关性,对$ {\boldsymbol{V}} $进行加权,得到输出结果. 通过并行计算每个节点与所有节点之间的关系,利用自注意力机制,使得神经网络能够更好地理解输入特征的上下文信息,进而有效地提取节点的全局信息. 为了从不同的特征子空间中得到输入特征之间的相关性,在实际应用中常采用多头自注意力机制(multi-head self-attention, MSA). 在运算过程中,同时学习多组$ {\boldsymbol{Q}} $$ {\boldsymbol{K}} $$ {\boldsymbol{V}} $,将它们的输出拼接起来. 通过可学习的矩阵$ {{\boldsymbol{W}}_{\text{O}}} \in {{\bf{R}}^{d \times d}} $进行线性组合,得到MSA的输出:

式中:concat为拼接操作,$ {{\boldsymbol{H}}_i} = {\text{SA}}({{\boldsymbol{Q}}_i},{{\boldsymbol{K}}_i},{{\boldsymbol{V}}_i}) $$ 1 \leqslant i \leqslant h $,其中$ h $为MSA的个数. 此时,$ {d_{\boldsymbol{K}}} = {d_{\boldsymbol{V}}} = d/h $.

2.1.2. 多尺度特征

多尺度特征由不同层次的信息拼接而成,为神经网络提供更丰富的特征表示.利用粗化算法构建图的多层次结构,生成节点的多尺度特征. 节点多尺度特征的生成过程如图2所示. 给定图$ G = (V,E) $,左侧为图$ G $的多层次结构,第1层表示$ G $中不同类别的节点,$ \tilde G $为图$ G $的粗化图,其节点位于第2层,第3层的节点为可学习的全局节点. 右侧的$ {{\boldsymbol{X}}_i} $为生成的第$ i $个节点的多尺度特征.

图 2

图 2   节点的多尺度特征生成

Fig.2   Multi-scale feature generation of nodes


文献[36]的粗化算法在尽可能保持全局信息的基础上,通过移除边,将图节点划分为互不相交的簇. 每一个簇用一个节点表示,得到粗化图$ \tilde G $,其节点的特征为簇内节点特征的平均值. 该方法没有区分边界区域和非边界区域,粗化过程会损失边界区域的信息. 在三维网格分割任务中,边界区域的节点更容易被划分错误.

对文献[36]的算法进行改进,得到适合分割任务的边缘保持的粗化算法. 由于边界区域的重要性,定义了图$ G $的边界点. 若节点$ v $的1环邻域中存在与其标签不一致的节点,则定义$ v $为边界点. 基于文献[36],本文分3步实现粗化算法. 1)利用$ G $的拉普拉斯矩阵实现节点嵌入,该嵌入同时包括了节点自身和邻域节点的信息. 2)对于任意一个边,根据两端节点的嵌入向量和拓扑信息,衡量它的收缩代价. 3)给定移除率,保持以边界点为顶点的边不变,按照收缩代价由小到大的顺序移除非边界区域的边,使得粗化算法仅作用于非边界区域.

根据文献[37]进行多尺度特征的构造. 对于图$ G $的第$ i $个节点,分别从$ G $$ \tilde G $中采样$ {n_1} $$ {n_2} $个节点,利用它们的特征捕获局部信息和长距离信息,设定$ {n_3} $个可学习的$ d $维特征来捕获全局信息和自身的节点特征拼接,得到它的多尺度特征$ {{\boldsymbol{X}}_i} \in {\mathbf{R}^{(1+{n_1}+{n_2}+{n_3})d}} $.

2.1.3. Graph Transformer模块

将图$ G $中所有节点的多尺度特征进行拼接,生成图的多尺度特征矩阵$ {\boldsymbol{X}} = [{{\boldsymbol{X}}_1},{{\boldsymbol{X}}_2}, \cdots ,{{\boldsymbol{X}}_n}]^{\mathrm{T}} \in {{\bf{R}}^{n \times (1+{n_1}+{n_2}+{n_3})d}} $,输入到Graph Transformer模块中,可得

Graph Transformer模块如图3所示. 图中,MSA为多头自注意力机制,FFN为前馈网络. 其中,FFN由线性层和激活层组成. 将MSA提取的信息$ {\boldsymbol{\hat X}} $输入FFN,可以得到节点的高层次特征$ {{\boldsymbol{X}}^{\boldsymbol{'}}} $.每个子模块都添加了残差连接,以增强神经网络的表达能力.

图 3

图 3   Graph Transformer模块

Fig.3   Graph Transformer block


2.2. Graph Transformer和GCN的结合
2.2.1. GTG模块

将所有节点的多尺度特征输入Graph Transformer模块,可以充分提取图$ G $的全局信息. Graph Transformer缺乏对局部结构的建模,当获取局部精细信息时,无法充分地利用图的局部性质,以致训练过程需要大量的数据. 相比之下,GCN的局部连接性质使得神经网络更关注于局部精细信息的提取. 在Graph Transformer的基础上,设计GCN模块,将两者结合得到GTG模块,解决Graph Transformer对局部精细信息的提取不够充分的问题.

结合时,将GCN模块置于Graph Transformer模块的MSA和FFN之间. 如图4所示,将多尺度特征矩阵输入MSA,获取全局信息. 输入GCN模块,加强神经网络对局部精细信息的提取. 借助FFN,获得高层次特征. GTG模块对应的表达式为

图 4

图 4   GTG模块

Fig.4   GTG block


$ \left. \begin{array}{l}\hat{{\boldsymbol{X}}}={{\mathrm{MSA}}}({\boldsymbol{X}})+{\boldsymbol{X}},\\ {\boldsymbol{\tilde X}} = {\text{GCN}}({\boldsymbol{\hat X}})+{\text{MLP}}({\boldsymbol{\hat X}}) ,\\{{\boldsymbol{X}}^{\boldsymbol{'}}} = {\text{FFN}}({\boldsymbol{\tilde X}})+{\boldsymbol{\tilde X}} . \end{array}\right\}$

图4的局部放大图所示为设计的GCN模块,主要包含归一化层(layer normalization, LN)、图卷积层(graph convolution, GC)、多层感知机(multi-layer perceptron, MLP)和残差连接. GCN模块的具体工作流程如下. 在模块的最开始和最后分别设置1个LN层,以保证训练过程的稳定性,通过2个GC层提取局部精细信息,输入MLP中进行非线性建模. 此外,引入残差连接来解决梯度消失的问题,添加MLP以处理MSA生成的全局信息,增强神经网络对全局信息的表达能力.

2.2.2. 网络架构

利用GTG模块,构造三维网格模型的分割网络. 因为网格模型由大量的三角面片组成,计算成本非常高. 利用过分割算法[38],将它分解成一系列的超面片. 如图5(b)所示为图5(a)中Ant模型的过分割结果,每个区域表示一个超面片. 以每个超面片为一个节点,相邻的超面片之间用边相连,生成超面片的图结构$ G $.图5(b)的局部放大图所示为过分割结果的部分图结构.

图 5

图 5   Ant模型过分割结果的图结构

Fig.5   Graph structure of over-segmentation result of Ant model


假设网格模型过分割后生成n个超面片,对于每一个超面片,由法向、形状直径函数[39]、保角因子[40]和热核描述符[41]等组成它的特征,即对应节点的特征. 按照2.1节的方式,得到图$ G $的多尺度特征矩阵$ {\boldsymbol{X}} $,作为神经网络的输入,其中$ {{\boldsymbol{X}}_i} $表示第$ i $个节点的多尺度特征. $ {\boldsymbol{X}} $经过线性层(linear)进行线性组合,以获得更具表达力的特征. 通过4个GTG模块,能够充分地提取包含全局信息和局部信息的高层次特征. 利用softmax函数得到概率分布矩阵$ {\boldsymbol{P}} = [{{\boldsymbol{P}}_1},{{\boldsymbol{P}}_2}, \cdots ,{{\boldsymbol{P}}_n}]^{\mathrm{T}} \in {{\bf{R}}^{n \times C}} $,由argmax函数生成节点的标签,实现网格模型的分割. 其中,$ {{\boldsymbol{P}}_i} $为第$ i $个节点的概率分布向量,$ C $为类别的数量. 如图6所示,以Ant模型为例,展示了本文算法的网络架构.

图 6

图 6   提出方法的网格分割框架

Fig.6   Mesh segmentation framework of proposed method


为了提高神经网络对边界区域的学习能力,根据网格模型的边界点占比,定义加权交叉熵损失. 假设图$ G = (V,E) $的边界点集合为$ {V_{\text{b}}} $,占总节点个数的比重为$ r $. 对于不同的网格模型,边界点的比例越大意味着边界区域越复杂,则神经网络对边界区域的关注程度越高. 利用递增的$ 3 {{\mathrm{sigmoid}}} (r) $函数进行加权,定义加权交叉熵损失为

$ L = 3 {\text{sigmoid}}(r) {L_{\text{c}}}({V_{\text{b}}})+{L_{\text{c}}}(V\backslash {V_{\text{b}}}) . $

式中:$ {L_{\text{c}}} $为交叉熵损失;$ V\backslash {V_{\text{b}}} $$ V $中非边界点的集合;$ 3 {{\mathrm{sigmoid}}} (r) $为上界为3的上凸函数,随着边界点比例的增大,神经网络对边界区域的关注程度不是线性增加的,存在上限的缓慢递增. 这使得在边界点比例较大的情况下,神经网络可以保持对非边界区域的学习能力.

3. 实验结果与分析

实验使用Python和C++编程实现,配置分别是NVIDIA Tesla T4 GPU和Intel Core i7-8750H CPU. 对普林斯顿数据集PSB[42]进行实验,通过视觉效果、对比实验和消融实验,证明算法的有效性. PSB数据集的种类丰富,包含Human、Cup、Airplane、Ant等多个类别的网格模型.

3.1. 视觉效果

本文算法引入GCN模块,加强了神经网络对局部精细信息的学习. 设计边缘保持的粗化算法,能够尽量保留边界区域的信息,从而有效地提高分割边界的准确性. PSB数据集中部分网格模型的视觉分割结果如图7所示. 可以看出,本文算法在不同种类的网格模型上均取得了高质量的分割效果,具有极好的泛化性. 例如,人体的上臂、下臂,杯子的杯身、杯把,眼镜的镜片、镜托,飞机的机身、机翼之间的分割边界都十分准确. 像一些较难划分的部分,比如小鸟的头、小狗的脖子、花瓶的手柄和鱼鳍等,它们和相邻部分之间的边界不太显著,但是都得到了真实自然的分割结果. 对于模型中出现的类别不平衡问题,比如蚂蚁的触角、小狗的耳朵,在相应网格模型中的占比较小,但是利用本文算法能够将这些部分很好地识别出来.

图 7

图 7   PSB中部分网格模型的分割结果

Fig.7   Segmentation result for a part of mesh model in PSB


此外,Plier和Armadillo 2个类别中多个网格模型的分割结果如图89所示. Plier作为功能性用具,被划分为手柄、钳口和连接轴3部分,分割结果符合功能语义. 对于Armadillo模型,它包括头部、躯干、大腿、小腿等11个语义部分,几何结构十分复杂,且各个网格模型的形态相差很大,利用本文算法得到的结果都非常准确.

图 8

图 8   Plier模型的分割结果

Fig.8   Segmentation result for Plier model


图 9

图 9   Armadillo模型的分割结果

Fig.9   Segmentation result for Armadillo model


3.2. 对比实验

除了视觉效果,还通过定量实验将本文算法与经典算法[1, 5-6, 8, 43]进行分割准确率的比较. 不同算法在PSB数据集上各个类别的分割准确率Pseg和平均准确率如表1所示. 可以看出,在大多数类别上,本文所取得的准确率高于其他算法,平均准确率比文献[5, 43]的结果高3.3%. 对于一些较难学习的类别,比如Bird、Fourleg、Vase,由于这些模型的形态差异很大且分割边界不显著,除了1DCNN[6]在Bird上的准确率为91.0%,其他算法在这3个类别上的准确率都低于90%. 本文算法分别取得了97.8%、90.9%和97.4%的准确率,远远超过其他算法.

表 1   PSB数据集的分割准确率比较

Tab.1  Comparison of segmentation accuracy on PSB dataset %

模型
类别
Pseg
Shape
boost[1]
TOG
15[5]
Shape
PFCN [8]
1D
CNN[6]
DL
Framework[43]
本文
分割
算法
Human86.891.294.590.690.794.7
Cup94.099.793.894.598.199.6
Glasses96.997.696.696.398.198.9
Airplane96.196.793.095.995.297.6
Ant98.798.898.698.798.899.0
Chair98.198.798.597.797.699.0
Octopus98.298.898.398.598.799.1
Table99.499.699.599.699.099.4
Teddy98.798.297.788.398.698.1
Plier95.296.295.595.895.397.3
Fish95.795.696.096.596.498.3
Bird89.688.388.591.088.697.8
Armadillo92.692.392.893.395.093.8
Fourleg83.387.085.087.784.690.9
Vase81.777.886.881.982.997.4
平均值93.794.193.793.694.197.4

新窗口打开| 下载CSV


3.3. 消融实验

组成本文分割框架的关键之处主要有2个:边缘保持的粗化算法、结合Graph Transformer和GCN的GTG模块. 为了证明它们的有效性,在6类网格模型上开展4组消融实验. 消融实验的结果如表2所示. 其中GTra指神经网络中只使用Graph Transformer模块,没有引入GCN模块;GTG指本文提出的GTG模块. 第2列是基础的分割框架,利用原粗化算法生成多尺度特征,且只使用Graph Transformer模块. 第3列在基础分割框架上,探究GTG模块对结果的影响,即利用原粗化算法生成多尺度特征,且使用本文提出的GTG模块. 第4列在基础分割的框架上,探究边缘保持的粗化算法对结果的影响,即利用本文边缘保持的粗化算法生成多尺度特征,且使用Graph Transformer模块. 第5列是本文最终的分割框架,同时使用边缘保持的粗化算法和GTG模块.

表 2   消融实验的分割准确率

Tab.2  Segmentation accuracy of ablation experiment %

模型
类别
粗化算法[36]边缘保持的粗化算法
GTraGTGGTraGTG
Human91.0491.9492.2594.69
Ant96.3497.2498.8898.96
Teddy97.4597.6697.6798.05
Bird97.1997.5197.4797.84
Fourleg87.0388.6489.4290.92
Vase93.6796.2095.6897.44
平均值93.7994.8795.2396.32

新窗口打开| 下载CSV


GTG模块结合了Graph Transformer模块和GCN模块,与Graph Transformer模块相比,加强了神经网络对局部精细信息的提取,有效地提高了网络的学习能力. 如表2所示分别为利用原粗化算法和边缘保持的粗化算法,通过Graph Transformer模块和GTG模块得到的准确率. 可以看出,无论利用哪种粗化算法,GTG模块都能够使准确率平均上升约1.10%.

在分割问题中,边界区域的节点更容易被划分错误,边缘保持的粗化算法在多尺度特征的构造过程中,使得粗化操作只作用于非边界区域,可以更好地保留边界区域的信息. 从表2可知,2种模块下,利用边缘保持的粗化算法,准确率平均提高了约1.45%.

此外,对Graph Transformer模块和GCN模块的结合方式进行探讨. 除了本文的有机结合方式,还探讨了2个模块的拼接. 将GCN模块置于Graph Transformer模块之前,即先利用GCN模块提取节点的局部信息,再输入Graph Transformer以获得高层次特征. 在实验方面,利用直接拼接的模块在Human和Fourleg 2类数据上分别得到92.75%和89.30%的准确率,利用本文的GTG模块得到的准确率是94.69%和90.92%,分别提高了1.9%和1.6%. 这证明相比于GCN模块和Graph Transformer模块的简单拼接,本文的结合方式可以获得更好的分割结果.

4. 结 语

本文基于Graph Transformer模块和GCN模块设计新的GTG模块,融合2种神经网络的优势,得到结合全局信息和局部信息的网格分割框架.为了降低计算成本,将网格模型过分割为超面片,得到对应的图结构,从而将分割任务转换为图节点分类任务. 设计边缘保持的粗化算法,构建图的多层次结构,生成节点的多尺度特征,为神经网络提供更丰富的特征表示. 利用GTG模块充分学习了网格模型的全局信息和局部信息,能够准确地实现分割. 在PSB数据集上进行大量的实验,利用视觉效果和定量分析论证了利用本文算法可以获得高质量的分割结果. 设计消融实验,证明了边缘保持的粗化算法及GTG模块的有效性.

虽然本文算法在视觉效果和准确率方面都获得了很好的结果,但是存在一些问题. 本文是在平滑、完整的三维网格模型上进行实验. 若在网格模型中存在噪声、空洞、缺失部分或非流形结构,则算法的分割性能会降低. 本文算法包含较多的参数,且不同网格模型的最优参数组合通常是不一样的,这需要花费大量的时间来调整参数. 将来,希望引入元学习方法,通过分割结果自适应地调整参数,以此来降低人工成本.

对于本文算法,将来可以在以下方面进一步探索,比如多尺度特征的构造、Graph Transformer和GCN的结合方式等. 此外,希望将本文框架扩展到其他几何处理问题上,比如模型分类、检索.

参考文献

KALOGERAKIS E, HERTZMANN A, SINGH K

Learning 3D mesh segmentation and labeling

[J]. ACM Transactions on Graphics, 2010, 29 (4): 102

[本文引用: 3]

BENHABILES H, LAVOUÉ G, VANDEBORRE J, et al

Learning boundary edges for 3D-mesh segmentation

[J]. Computer Graphics Forum, 2011, 30 (8): 2170- 2182

DOI:10.1111/j.1467-8659.2011.01967.x      [本文引用: 1]

HU R, FAN L, LIU L

Co-segmentation of 3D shapes via subspace clustering

[J]. Computer Graphics Forum, 2012, 31 (5): 1703- 1713

DOI:10.1111/j.1467-8659.2012.03175.x      [本文引用: 1]

WANG Y, GONG M, WANG T, et al

Projective analysis for 3D shape segmentation

[J]. ACM Transactions on Graphics, 2013, 32 (6): 192

[本文引用: 1]

GUO K, ZOU D, CHEN X

3D mesh labeling via deep convolutional neural networks

[J]. ACM Transactions on Graphics, 2015, 35 (1): 3

[本文引用: 4]

GEORGE D, XIE X, TAM G K

3D mesh segmentation via multi-branch 1D convolutional neural networks

[J]. Graphical Models, 2018, 96: 1- 10

DOI:10.1016/j.gmod.2018.01.001      [本文引用: 4]

XIE Z, XU K, SHAN W, et al

Projective feature learning for 3D shapes with multi-view depth images

[J]. Computer Graphics Forum, 2015, 34 (7): 1- 11

DOI:10.1111/cgf.12740      [本文引用: 1]

KALOGERAKIS E, AVERKIOU M, MAJI S, et al. 3D shape segmentation with projective convolutional networks [C]// Proceedings of IEEE/CVF Conference on Computer Vision and Pattern Recognition . Honolulu: IEEE, 2017: 6630-6639.

[本文引用: 3]

KUNDU A, YIN X, FATHI A, et al. Virtual multi-view fusion for 3D semantic segmentation [C]// Proceedings of the European Conference on Computer Vision . Glasgow: Springer, 2020: 518-535.

[本文引用: 1]

WANG P, LIU Y, GUO Y, et al

O-CNN: octree-based convolutional neural networks for 3D shape analysis

[J]. ACM Transactions on Graphics, 2017, 36 (4): 72

[本文引用: 1]

WANG Z, LU F

VoxSegNet: volumetric CNNs for semantic part segmentation of 3D shapes

[J]. IEEE Transactions on Visualization and Computer Graphics, 2020, 26 (9): 2919- 2930

DOI:10.1109/TVCG.2019.2896310      [本文引用: 1]

HU Z, BAI X, SHANG J, et al. VMNet: voxel-mesh network for geodesic-aware 3D semantic segmentation [C]// Proceedings of the IEEE International Conference on Computer Vision . Venice: IEEE, 2021: 15468-15478.

[本文引用: 1]

XU H, DONG M, ZHONG Z. Directionally convolutional networks for 3D shape segmentation [C]// Proceedings of the IEEE International Conference on Computer Vision . Venice: IEEE, 2017: 2717-2726.

[本文引用: 1]

HUANG J, ZHANG H, YI L, et al. TextureNet: consistent local parametrizations for learning from high-resolution signals on meshes [C]// Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition . Long Beach: IEEE, 2019: 4440-4449.

[本文引用: 1]

FENG Y, FENG Y, YOU H, et al. MeshNet: mesh neural network for 3D shape representation [C]// Proceedings of the AAAI Conference on Artificial Intelligence . Palo Alto: AAAI Press, 2019: 8279-8286.

[本文引用: 1]

HANOCKA R, HERTZ A, FISH N, et al

MeshCNN: a network with edge

[J]. ACM Transactions on Graphics, 2019, 38 (4): 90

[本文引用: 1]

HU S, LIU Z, GUO M, et al

Subdivision-based mesh convolution networks

[J]. ACM Transactions on Graphics, 2022, 41 (3): 25

[本文引用: 1]

PÉREZ D, SHEN Y, LI J

Mesh convolutional networks with face and vertex feature operators

[J]. IEEE Transactions on Visualization and Computer Graphics, 2023, 29 (3): 1678- 1690

DOI:10.1109/TVCG.2021.3129156      [本文引用: 1]

LAHAV A, TAL A

MeshWalker: deep mesh understanding by random walks

[J]. ACM Transactions on Graphics, 2020, 39 (6): 263

[本文引用: 1]

SHARP N, ATTAIKI S, CRANE K, et al

DiffusionNet: discretization agnostic learning on surfaces

[J]. ACM Transactions on Graphics, 2022, 41 (3): 27

[本文引用: 1]

QIAO Y, GAO L, YANG J, et al

Learning on 3D meshes with Laplacian encoding and pooling

[J]. IEEE Transactions on Visualization and Computer Graphics, 2022, 28 (2): 1317- 1327

DOI:10.1109/TVCG.2020.3014449      [本文引用: 1]

DONG Q, WANG Z, LI M, et al

Laplacian2Mesh: Laplacian-based mesh understanding

[J]. IEEE Transactions on Visualization and Computer Graphics, 2023, 30 (7): 4349- 4361

[本文引用: 1]

WONG C. Heat diffusion based multi-scale and geometric structure-aware transformer for mesh segmentation [C]// Proceedings of IEEE/CVF Conference on Computer Vision and Pattern Recognition . Vancouver: IEEE, 2023: 4413-4422.

[本文引用: 1]

YI L, SU H, GUO X, et al. SyncSpecCNN: synchronized spectral CNN for 3D shape segmentation [C]// Proceedings of IEEE/CVF Conference on Computer Vision and Pattern Recognition . Honolulu: IEEE, 2017: 6584-6592.

[本文引用: 1]

SCHULT J, ENGELMANN F, KONTOGIANNI T, et al. DualConvMesh-net: joint geodesic and Euclidean convolutions on 3D meshes [C]// Proceedings of IEEE/CVF Conference on Computer Vision and Pattern Recognition . Seattle: IEEE, 2020: 8609-8619.

[本文引用: 1]

LI X, YANG J, ZHANG F. Laplacian mesh transformer: dual attention and topology aware network for 3D mesh classification and segmentation [C]// Proceedings of the European Conference on Computer Vision . Tel Aviv: Springer, 2022: 541-560.

[本文引用: 1]

ROY B. Neural shape diameter function for efficient mesh segmentation [C]// Proceedings of ACM SIGGRAPH Annual Conference Posters . Los Angeles: ACM, 2023.

[本文引用: 1]

XU X, LIU C, ZHENG Y

3D tooth segmentation and labeling using deep convolutional neural networks

[J]. IEEE Transactions on Visualization and Computer Graphics, 2019, 25 (7): 2336- 2348

DOI:10.1109/TVCG.2018.2839685      [本文引用: 2]

LI Y, HE X, JIANG Y, et al

MeshFormer: high-resolution mesh segmentation with graph transformer

[J]. Computer Graphics Forum, 2022, 41 (7): 38- 49

[本文引用: 2]

LV J, CHEN X, HUANG J, et al

Semi-supervised mesh segmentation and labeling

[J]. Computer Graphics Forum, 2012, 31 (7): 2241- 2248

DOI:10.1111/j.1467-8659.2012.03217.x      [本文引用: 1]

SHU Z, SHEN X, XIN S, et al

Scribble-based 3D shape segmentation via weakly-supervised learning

[J]. IEEE Transactions on Visualization and Computer Graphics, 2020, 26 (8): 2671- 2682

DOI:10.1109/TVCG.2019.2892076      [本文引用: 1]

SHU Z, YANG S, WU H, et al

3D shape segmentation using soft density peak clustering and semi-supervised learning

[J]. Computer-Aided Design, 2022, 145: 103181

DOI:10.1016/j.cad.2021.103181      [本文引用: 1]

SHU Z, QI C, XIN S, et al

Unsupervised 3D shape segmentation and co-segmentation via deep learning

[J]. Computer-Aided Geometric Design, 2016, 43: 39- 52

DOI:10.1016/j.cagd.2016.02.015      [本文引用: 1]

LIANG Y, ZHAO S, YU B, et al. MeshMAE: masked autoencoders for 3D mesh data analysis [C]// Proceedings of the European Conference on Computer Vision . Tel Aviv: Springer, 2022: 37-54.

[本文引用: 1]

JIAO X, CHEN Y, YANG X

SCMS-Net: self-supervised clustering-based 3D meshes segmentation network

[J]. Computer-Aided Design, 2023, 160: 103512

DOI:10.1016/j.cad.2023.103512      [本文引用: 1]

LOUKAS A

Graph reduction with spectral and cut guarantees

[J]. Journal of Machine Learning Research, 2019, 20 (116): 1- 42

[本文引用: 4]

ZHANG Z, LIU Q, HU Q, et al. Hierarchical graph transformer with adaptive node sampling [C]// Proceedings of the Conference on Neural Information Proceeding Systems . New Orleans: MIT Press, 2022, 35: 21171-21183.

[本文引用: 1]

WU L, HOU Y, XU J, et al

Robust mesh segmentation using feature-aware region fusion

[J]. Sensor, 2023, 23 (1): 416

[本文引用: 1]

SHAPIRA L, SHAMIR A, COHEN-OR D

Consistent mesh partitioning and skeletonisation using the shape diameter function

[J]. The Visual Computer, 2008, 24 (4): 249- 259

DOI:10.1007/s00371-007-0197-5      [本文引用: 1]

BEN-CHEN M, GOTSMAN C. Characterizing shape using conformal factors [C]// Proceedings of the Eurographics Conference on 3D Object Retrieval . Crete: Springer, 2008: 1-8.

[本文引用: 1]

SUN J, OVSJANIKOV M, GUIBAS L

A concise and provably informative multi-scale signature based on heat diffusion

[J]. Computer Graphics Forum, 2009, 28 (5): 1383- 1392

DOI:10.1111/j.1467-8659.2009.01515.x      [本文引用: 1]

CHEN X, GOLOVINSKIY A, FUNKHOUSER T

A benchmark for 3D mesh segmentation

[J]. ACM Transactions on Graphics, 2009, 28 (3): 73

[本文引用: 1]

GEORGE D, XIE X, LAI Y, et al

A deep learning driven active framework for segmentation of large 3D shape collections

[J]. Computer-Aided Design, 2022, 144: 103179

DOI:10.1016/j.cad.2021.103179      [本文引用: 3]

/