浙江大学学报(工学版), 2024, 58(1): 61-70 doi: 10.3785/j.issn.1008-973X.2024.01.007

计算机技术

基于多模态融合的开放域三维模型检索算法

毛福新,, 杨旭, 程嘉强, 彭涛

1. 天津职业技术师范大学 工程实训中心,天津 300222

2. 天津华大科技有限公司,天津 300131

3. 天津职业技术师范大学 汽车与交通学院,天津 300222

Open-set 3D model retrieval algorithm based on multi-modal fusion

MAO Fuxin,, YANG Xu, CHENG Jiaqiang, PENG Tao

1. Engineering Training Center, Tianjin University of Technology and Education, Tianjin 300222, China

2. Tianjin Huada Technology Limited Company, Tianjin 300131, China

3. College of Automobile and Transportation, Tianjin University of Technology and Education, Tianjin 300222, China

收稿日期: 2022-11-22  

基金资助: 天津市多元投入基金重点资助项目(21JCZDJC00700)

Received: 2022-11-22  

Fund supported: 天津市多元投入基金重点资助项目(21JCZDJC00700)

作者简介 About authors

毛福新(1987—),男,讲师,从事单片机实训教学、人工智能的研究.orcid.org/0009-0009-9894-3149.E-mail:398341548@qq.com , E-mail:398341548@qq.com

摘要

为了满足开放域下海量新增模型数据的管理和检索需求,提出开放域三维模型检索算法,可以有效地利用多模态信息的语义一致性. 借助无监督算法探寻未知样本间的类别信息,利用该类别信息实现网络模型的参数优化,使得网络模型在开放域条件下具有更好的模型表征性能及检索结果. 提出基于Transformer结构的层级化多模态信息融合模型,有效地剔除了多模态间的冗余信息,得到鲁棒性更强的模型表征向量. 在数据集ModelNet40上进行实验,通过与其他典型算法的对比实验可知,所提方法在mAP指标上优于所有的对比方法,验证了该方法在检索性能提升上的有效性.

关键词: 机器视觉 ; 多模态融合 ; 开放域检索 ; 三维模型

Abstract

An open domain 3D model retrieval algorithm was proposed in order to meet the requirement of management and retrieval of massive new model data under the open domain. The semantic consistency of multi-modal information can be effectively used. The category information among unknown samples was explored with the help of unsupervised algorithm. Then the unknown class information was introduced into the parameter optimization process of the network model. The network model has better characterization and retrieval performance in the open domain condition. A hierarchical multi-modal information fusion model based on a Transformer structure was proposed, which could effectively remove the redundant information among the modalities and obtain a more robust model representation vector. Experiments were conducted on the dataset ModelNet40, and the experiments were compared with other typical algorithms. The proposed method outperformed all comparative methods in terms of mAP metrics, which verified the effectiveness of the method in terms of retrieval performance improvement.

Keywords: machine vision ; multi-modal fusion ; open set retrieval ; 3D model

PDF (993KB) 元数据 多维度评价 相关文章 导出 EndNote| Ris| Bibtex  收藏本文

本文引用格式

毛福新, 杨旭, 程嘉强, 彭涛. 基于多模态融合的开放域三维模型检索算法. 浙江大学学报(工学版)[J], 2024, 58(1): 61-70 doi:10.3785/j.issn.1008-973X.2024.01.007

MAO Fuxin, YANG Xu, CHENG Jiaqiang, PENG Tao. Open-set 3D model retrieval algorithm based on multi-modal fusion. Journal of Zhejiang University(Engineering Science)[J], 2024, 58(1): 61-70 doi:10.3785/j.issn.1008-973X.2024.01.007

近年来,越来越多的工作者开始使用深度学习方法处理三维模型数据. 与传统非深度学习的三维模型算法相比,基于深度学习的方法在准确率及各项指标上具有更好的表现,泛化能力更强,能够处理更复杂的问题,在实际应用中更具有可行性. 目前已有众多基于深度学习算法处理不同格式三维模型数据的研究,如使用三维模型多视图作为输入的MVCNN[1]算法、用于处理三维模型点云数据的PointNet[2]算法、处理三维网格数据的MeshNet[3]算法等. 为了进一步提升算法的性能,许多研究开始转变为挖掘三维数据中的更多信息,如KD-Networks[4]算法使用kd-tree的树状结构探索点云模型的结构,SeqView2SeqLabels[5]算法使用序列模型探索三维模型多视图数据之间的视图关联性. Li等[6]发现单一模态下的三维模型表征能力是有限的,因此三维模型算法的研究方向逐渐转变为融合多模态的数据以获得更多信息. 鉴于自然语言处理领域中Transformer模型[7]在各项任务上的优秀表现,Dosovitskiy等[8]将其迁移至计算机视觉领域中,用于处理图像和三维模型数据.

与此同时,Feng等[9]开始研究基于开集数据的三维模型算法. 目前已有算法大多是基于闭集数据的,而在闭集数据上的研究成果难以应用于开集数据,在面对未知类的三维模型时难以发挥其优势,因此现有算法在开集数据上的准确率及各项指标往往较低. 考虑到三维模型在多个领域的发展趋势,将来会有更多新类型的三维模型参与到应用中,因此开放域下的三维模型算法研究具有重大意义.

针对开放域下未知三维模型数据的表征及检索问题,本文提出开放域三维模型检索算法. 算法充分挖掘多模态信息语义的关联性和一致性,以无监督方式探寻未知样本间的类别信息,并在网络模型的参数优化过程中引入未知类信息,促使网络模型在开放域条件下具备更好的表征及检索性能. 算法基于Transformer注意力机制实现了多模态数据的层级化融合,利用多模态数据的多元信息和多角度表征能力实现了更高效的模型特征. 在对开放域类别信息的探索中,算法利用高效的表征能力探索未知数据分布,并利用探索信息实现模型参数的再次优化,强化了算法的表征能力.

1. 相关工作

目前的三维模型检索算法主要分为3类:基于形状的三维模型检索、基于视图的三维模型检索和基于多模态融合的三维模型检索. 下文将对上述3类算法中的典型工作进行介绍.

1.1. 基于形状的三维模型算法

Osada等[10]提出基于三维模型形状分布的算法,该研究提出计算任意三维多边形模型形状特征的算法. Hedi等[11]提出适用于非刚性模型和局部相似模型的三维目标的匹配算法,该算法使用在特征点周围提取的三维曲线来表示模型的曲面. 随着深度学习领域的发展,许多基于深度学习的算法被提出. Avetisyan等[12]提出端到端三维模型检索的方法,该方法将不完整的3D扫描模型转换为具有完整对象几何结构的CAD重建模型.

1.2. 基于视图的三维模型算法

Sarkar等[13]提出新的基于多层高度图(multi-layered height-maps, MLH)的三维形状全局表征算法,该方法中视图合并体系结构的引入融合了来自多个视图的视图关联信息. Yang等[14]利用关系网络学习多视图之间的局部关联,采用增强模块作为网络中的关键结构,通过建模不同区域之间的相关性来增强多个视图的信息. Huang等[15]提出新的基于视图的权重网络(view-based weight network, VWN),用于获取三维形状表征,其中基于视图的权重池层被设计用于特征聚合. 与基于多视图的方法相比,Sfikas等[16]提出基于全景图的卷积神经网络算法,目的是通过使用三通道的全景图像构建增强图像表征,在捕获特征连续性的同时减少冗余信息.

1.3. 基于多模态融合的深度学习算法

Pérez-Rúa等[17]提出新的多模态融合网络结构,利用神经网络的方法指导融合操作. 该方法利用网络模型对各模态之间不同层次的输出进行评价,使用评价结果指导多模态融合进程. Zhang等[18]提出基于稀疏表示的多模态融合算法,与传统的假定基函数的多尺度变换算法不同,基于稀疏表示的融合算法从1组训练图像中学习过完备字典(over-complete dictionary)进行图像融合,实现了对源图像更加稳定和有意义的表示. Hou等[19]提出多模态融合算法,算法采用多项式张量池(polynomial tensor pooling, PTP)结构融合多模态特征,并以PTP为基本单元建立层次多项式融合网络(hierarchical polynomial fusion network, HPFN),递归地将局部关联信息进行传递,获得全局关联信息.

2. 基于多模态融合的开放域三维模型检索算法

本文算法的网络结构如图1所示. 网络使用无监督方式学习未知类信息,以提升开放域条件下的检索性能,共包括以下3个子网络. 1)单模态特征提取网络:实现不同模态数据的向量化,网络分为多个不同的支路,用于从对应模态的三维模型数据提取特征向量. 2)多模态融合网络:采用改进的Transformer解码器逐步融合多模态信息,当面对未知样本时,利用多模态融合信息可以有效地提升三维描述符的表征能力. 3)开放域的检索模块:利用无监督的分类模型实现对未知数据的类别探索,通过迭代实现模型参数的优化,使得网络模型在开放域条件下获得更好的检索性能.

图 1

图 1   基于多模态融合的开放域三维模型检索算法的原理图

Fig.1   Schematic diagram of open domain 3D model retrieval algorithm based on multi-modal fusion


2.1. 单模态特征提取网络

单模态特征提取网络的结构如图2所示. 该网络用于处理不同模态的三维模型数据,包括多视图、点云、网格和体素数据. 设置4个支路用于分别提取不同模态的特征向量,其中多视图支路采用图像处理网络VggNet[20],多视图特征定义为 $ {{\boldsymbol{F}}_{\rm{i}}} $. 点云支路使用VoxNet[21]提取模型的局部特征 $ {{\boldsymbol{F}}_{\rm{p}}} $. 网格支路使用MeshNet[22]提取特征向量 $ {{\boldsymbol{F}}_{\rm{m}}} $,体素支路使用三维卷积神经网络提取特征,对应特征定义为 $ {{\boldsymbol{F}}_{\rm{v}}} $. 在获得作为各模态的特征向量后,在每个支路后端分别设置多层堆叠的Transformer编码器结构,用于学习三维模型模态内的关联信息,并采用该结构更新特征向量. 每层编码器都包含2个子层,分别为自注意力层和前馈网络.

图 2

图 2   单模态特征提取网络

Fig.2   Single mode feature extraction network


自注意力层的网络结构由全连接层(fully connected layer)和归一化点乘注意力机制(scaled dot-product attention)构成. 由全连接层将输入特征 $ {\boldsymbol{X}} $分别映射为归一化点乘注意力机制的3个输入——查询(query)向量、键(key)向量和值(value)向量,分别记为 $ {\boldsymbol{Q}} $$ {\boldsymbol{K}} $$ {\boldsymbol{V}} $. 归一化点乘注意力机制的过程可以表示为

$ {{\boldsymbol{X}}^{'}} = {{\rm{Attention}}}_{{\rm{scaled}}}({\boldsymbol{Q}},{\boldsymbol{K}},{\boldsymbol{V}}) = {\rm{Softmax}}\left(\frac{{{\boldsymbol{Q}}{{\boldsymbol{K}}^{\rm{T}}}}}{{\sqrt d }}{\boldsymbol{V}}\right). $

式中: $ {\rm{Attention}}{_{{\rm{scaled}}}}( \cdot ) $为归一化点乘注意力机制, $ {{\boldsymbol{X}}^{'}} $为经注意力机制更新后的特征向量, $ d $为特征向量的维度, $ {\rm{Softmax}}( \cdot ) $函数能够将向量中的元素映射至0~1.0,对数值进行归一化. 归一化点乘注意力机制将 $ {\boldsymbol{Q}} $$ {\boldsymbol{K}} $中的向量逐一点乘并进行归一化,得到输入特征之间的相关矩阵,再使用相关矩阵与值向量相乘,对输入特征向量进行更新.

前馈网络由全连接层和激活函数组成,用于更新归一化点乘注意力机制输出的特征向量 $ {{\boldsymbol{X}}^{'}} $. 前馈网络的计算过程可以表示为

$ {{\boldsymbol{X}}^{''}} = {\rm{FFN}}({{\boldsymbol{X}}^{'}}) = \max\; ({\boldsymbol{0}},{\boldsymbol{X}}{{\boldsymbol{W}}_1}+{{\boldsymbol{b}}_1}){{\boldsymbol{W}}_2}+{{\boldsymbol{b}}_2}. $

式中: $ {{\boldsymbol{W}}_1} $$ {{\boldsymbol{b}}_1} $$ {{\boldsymbol{W}}_2} $$ {{\boldsymbol{b}}_2} $为前馈网络中的可学习参数,用于对特征向量进行线性变换; $ {{\boldsymbol{X}}^{''}} $为前馈网络输出的特征向量; $ \max\; ({\boldsymbol{0}},{\boldsymbol{X}}{{\boldsymbol{W}}_1}+{{\boldsymbol{b}}_1}) $为激活函数的计算方式,激活函数为ReLU函数.

单模态特征提取网络将各模态特征向量 $ {{\boldsymbol{F}}_{\rm{i}}} $$ {{\boldsymbol{F}}_{\rm{p}}} $$ {{\boldsymbol{F}}_{\rm{m}}} $$ {{\boldsymbol{F}}_{\rm{v}}} $作为输入代入 $ {\boldsymbol{X}} $,分别得到不同模态的输出——多视图特征输出 $ {\boldsymbol{F}}_{\rm{i}}^{''} $、点云特征输出 $ {\boldsymbol{F}}_{\rm{p}}^{''} $、网格特征输出 $ {\boldsymbol{F}}_{\rm{m}}^{''} $和体素特征输出 $ {\boldsymbol{F}}_{\rm{v}}^{''} $.

2.2. 多模态特征融合网络

多模态特征融合网络的结构如图3所示. 该网络由多层堆叠的特征融合模块构成,特征融合模块由Transformer解码器结构改进而来,用于融合2个模态的特征向量. 特征融合模块的数量应与网络模型输入的模态数量相同,定义特征融合模块的数量为 $ h $. 特征融合模块的运算过程可以由以下公式表示:

图 3

图 3   多模态特征融合网络

Fig.3   Multi-modal feature fusion network


$ {{\boldsymbol{F}}_t} = {\rm{Attention}}{_{{\rm{scaled}}}}({{\boldsymbol{F}}_{t - 1}},{{\boldsymbol{I}}_t},{{\boldsymbol{I}}_t}) = {\rm{Softmax}}\left(\frac{{{{\boldsymbol{F}}_{t - 1}}{\boldsymbol{I}}_t^{\rm{T}}}}{{\sqrt d }}\right){{\boldsymbol{I}}_t}. $

式中: $ t $为特征融合模块的层数; $ {{\boldsymbol{F}}_t} $为第 $ t $层特征融合模块输出的特征向量; $ {{\boldsymbol{F}}_{t - 1}} $$ t - 1 $层的输出; ${{\boldsymbol{I}}_t} \in {\bf{R}}^{N d}$为特征融合模块第 $ t $层的输入,是特征提取网络对应支路的输出,其中 $ N $为特征向量的数量, $ d $为特征向量的维度.

考虑到基于Transformer的BERT算法[23]在输入数据中加入class token,专门用于进行分类任务,以消除网络对某个样本的偏向性. 鉴于BERT算法在表征任务上的先进性,本文算法设置了class token用于分类. 当 $ t $=1时,当前特征融合模块为初始层,不存在 $ t - 1 $层的输出,此时设置 $ {{\boldsymbol{F}}_0} $为class token和 $ {{\boldsymbol{I}}_1} $拼接后的组合,记为 $ {{\boldsymbol{F}}_0} \in {\bf{R}}^{(N+1) d} $. 网络最终层输出 $ {{\boldsymbol{F}}_{\rm{h}}} $中对应class token位置的特征向量为三维模型的描述符.

在多模态融合网络后设置分类器,采用融合特征和样本标签计算交叉熵损失,根据梯度反向传播优化网络模型中的参数. 分类器由2层全连接层及激活函数组成,分类过程可以表示为

$ \begin{split} {\boldsymbol{p}} = \;& {\rm{classifier}}\;({{\boldsymbol{F}}_{\rm{h}}}[0:1]) = \\ & {\rm{Softmax}}(\max\; ({\bf{0}},{{\boldsymbol{F}}_{\rm{h}}}[0:1]{{\boldsymbol{W}}_3}+{{\boldsymbol{b}}_3}){{\boldsymbol{W}}_4}+{{\boldsymbol{b}}_4}). \end{split} $

式中: $ p $为分类器输出的分类结果; $ {{\boldsymbol{W}}_3} $$ {{\boldsymbol{b}}_3} $$ {\boldsymbol{W}} $$ {{\boldsymbol{b}}_4} $为分类器中的可学习参数; $ {{\boldsymbol{F}}_{\rm{h}}} $为多模态融合网络输出, $ {{\boldsymbol{F}}_{\rm{h}}}[0:1] $表示 $ {{\boldsymbol{F}}_{\rm{h}}} $中的第1个特征向量; $ \max \;({\bf{0}}, \cdot ) $函数为激活函数ReLU,用于增强网络模型处理非线性问题的能力.

2.3. 基于无监督算法的开放域学习

面对开放域的数据集仅使用带标注的已知样本进行训练,网络模型难以学习和提取未知类样本的特征. 本文借鉴无监督算法以学习未知样本信息,在多模态融合的基础上进一步提升网络模型对未知样本的检索能力.

根据已标注数据集对网络模型进行训练,得到预训练模型. 使用预训练模型提取所有未知样本的特征,采用无监督算法对特征向量进行聚类,得到未知样本的聚类结果及聚类中心. 设置距离阈值,选取与类中心距离低于阈值的样本,将聚类结果作为伪标签,用于进一步训练网络模型,其中距离度量采用余弦距离进行计算. 对于得到的聚类中心,定义为 $ {{\boldsymbol{I}}_{\rm{c}}} \in {\bf{R}}^{C d} $,其中 $ C $为未知样本类别的数量. 将class token由随机初始化的嵌入替换为聚类中心,此时多模态特征融合网络的输入为 $ {{\boldsymbol{F}}_0} \in {\bf{R}}^{(C+N) d} $,融合网络的输出为 $ {{\boldsymbol{F}}_{\rm{h}}} \in {\bf{R}}^{(C+N) d} $.$ {{\boldsymbol{F}}_{\rm{h}}} $中的前 $ C $个特征向量进行拼接,并作为三维模型的描述符,记作 ${{\boldsymbol{F}}_{\rm{s}}} \in {\bf{R}}^{Cd}$,用于进行检索任务.

利用无监督算法逐步探索未知样本类别信息,为样本生成伪标签,设置相应的损失函数,对模型进行多次优化. 损失函数可以表示为

$ {L_{\rm{t}}} = - \sum\nolimits_{i = 1}^C {{t_i}\lg\; ({\rm{Softmax}}({\rm{classifier}}{{({f_{\rm{s}}})}_i}))} . $

式中: $ {f_{\rm{s}}} $为三维模型的描述符; $ {t_i} $为样本的伪标签,当输入样本属于第 $ j $类时 $ {t_j} = 1 $,否则 $ {t_j} = 0 $,此处伪标签由无监督算法给出; $ {\rm{classifier}}( \cdot ) $为分类器,计算方式见式(4),其中Softmax操作的第 $ i $个输出项表示为 $ {\rm{Softmax}}{( \cdot )_i} $.

3. 实验结果与分析

3.1. 实验数据集

实验采用的开放域数据集由开源数据集ModelNet40样本组成,如图4所示. ModelNet40数据集包含40个类别的样本及样本对应的标签,含有桌子、椅子、飞机、轿车等. 整个数据集共包含12 311个三维模型,其中训练集中包含9 843个三维模型,测试集中包含2 468个三维模型. 将ModelNet40数据集按类划分为2个子数据集,每个子数据集分别包含不同的20个类的三维模型,舍弃其中一个子数据集的标签并将其作为开放域数据集的未知类数据,另一个包含标签的子数据集作为开放域数据集的已知类数据.

图 4

图 4   ModelNet40数据集的三维模型数据

Fig.4   Three-dimensional model data of ModelNet40 datasets


3.2. 评价指标

采用的检索性能评价指标包括全类平均正确率(mAP)、最近邻(NN)相似度、归一化折损累计增益(NDCG)和平均归一化检索秩(ANMRR). 前3个指标越大,则方法表现越好;最后一个指标越小,则方法表现越好. 为了评估算法在开放域上的性能,在未知类数据集上进行实验,计算各项检索指标. mAP是综合性量化指标,综合了所有检索结果的平均精确率. NN是指在检索结果中与查询模型相似度最高的三维模型的检索精度. NDCG对检索结果中排名靠后的样本赋予较小的权重,因为排名靠后的三维模型相似度低,基本不具有参考意义. ANMRR为基于排序的度量指标,考虑了实际检索结果中相关对象的排序信息.

3.3. 对比实验

为了验证本文算法在开放域条件下的有效性和性能先进性,选取当前主要的三维模型表征模型进行对比实验. 所选取的方法包括基于点云、基于多视图、基于网格和基于体素的三维模型算法.

检索实验的各项指标如表1所示. 对比方法中基于点云的经典方法PointNet取得了81.72%的mAP指标,经典多视图方法MVCNN取得了83.86%的mAP指标,基于网格的方法MeshNet取得了82.15%的指标,基于体素的方法3D ShapeNets取得了71.41%的指标. 其中基于多视图的算法GVCNN考虑了视图之间的关联信息,强化了三维描述符的表征能力,取得了84.94%的指标值,与MVCNN相比提升了1.08%. 相较于体素、网格及点云模态,多视图模态通常会带来更好的检索性能,主要原因在于前几种模态直接处理三维模型的原始表示,只具备局部几何信息,没有考虑全局相关性,缺少一些全局信息,实际三维模型的表征能力不佳. 多视图通过从多角度获取视图,不仅能够捕获局部信息,而且具有紧凑的全局信息,二者相辅相成. 多视图模态存在一些缺点,如缺少三维模型的一些几何信息. 采用多模态融合的方式,可以充分利用不同模态所特有的显著信息,能够明显地提升检索性能.

表 1   各类算法在未知类数据集的检索性能

Tab.1  Retrieval performance of various algorithms in unknown class data sets

方法 数据模态 mAP/% NN/% NDCG/% ANMRR/%
3D ShapeNets[24] 体素 71.41 93.05 84.83 30.38
MeshNet[3] 网格 82.15 96.55 87.52 27.20
MVCNN[1] 多视图 83.86 95.97 88.75 26.55
GVCNN[25] 多视图 84.94 97.01 88.63 25.83
SeqViews2SeqLabels[26] 多视图 83.55 97.47 86.52 26.45
VoxNet[21] 点云 76.86 95.32 85.12 32.55
PointNet[2] 点云 81.72 94.55 85.56 29.86
PointNet++[27] 点云 82.10 95.71 86.57 28.54
PointCNN[28] 点云 83.33 96.29 87.28 26.75
LDGCNN[29] 点云 83.98 96.15 88.92 26.25
MSIF[18] 多模态 85.12 96.81 88.79 27.37
HPFN[19] 多模态 85.45 97.03 89.24 26.72
SSFT[30] 多模态 85.89 97.44 89.83 26.63
本文方法 体素 77.25 93.85 85.01 29.81
本文方法 网格 82.86 96.79 87.61 27.46
本文方法 多视图 85.07 97.32 89.37 26.38
本文方法 点云 84.19 96.85 89.16 26.49
本文方法 多模态 86.23 97.82 90.13 26.17

新窗口打开| 下载CSV


使用编码器更新特征间关联性,借助多模态融合及无监督学习带来的信息优势,在开放域条件下取得了优秀的检索性能. 本文算法的mAP指标为86.23%,与之前的最佳方法GVCNN相比提升了1.29%,在对比实验中实现了最佳的检索性能,验证了本文算法在检索性能上的先进性. 从实验结果可知,即使只采用单模态形式,本文方法的检索性能也比相应模态的方法更好,主要原因是采用无监督算法能够显著提升模型在开放域上的性能表现.

3.4. 消融实验

为了验证本文网络模型各模块的有效性,评估各模块对网络模型检索性能的贡献,开展消融实验,其中对比的模块包括编码器、解码器和无监督学习. 消融实验数据如表2所示.

表 2   提出算法在不同网络结构下的检索性能

Tab.2  Retrieval performance of proposed algorithm in different network structures

序号 编码器 解码器 无监督学习 mAP/%
1 68.83
2 71.49
3 72.68
4 82.50
5 79.17
6 83.92
7 84.37
8 86.23

新窗口打开| 下载CSV


实验结果如表2所示. 表中,“√”表示使用该网络结构. 由于编码器的输入与输出格式一致,去除编码器不影响后续网络的运行. 若不使用编码器,则将原编码器输出直接输入至后续网络中. 解码器作为多模态融合模块,若不使用解码器模块,则采取拼接的方式融合多模态特征. 当不采用无监督学习时,仅使用已标注数据集对网络模型进行训练,随后直接使用网络模型在未知类数据集上进行检索实验.

表2可知,编码器和解码器将网络模型的mAP指标分别提升了约3%和4%. 编码器模块可以学习三维模型模态内的关联信息,挖掘模态显著性特征. 解码器模块相较于简单的拼接方式,可以高效地融合多模态特征,不仅剔除了表征数据的冗余信息,而且能够获得更加鲁棒的特征向量. 引入无监督学习提升了约14%的mAP指标,说明使用无监督算法学习未知类样本信息,可以大幅提升网络模型在开放域上的检索性能. 当使用多个模态功能时,mAP指标进一步提升,说明不同模块之间不会产生副作用,相反,均会对整体网络产生积极作用,提升最终性能.

3.5. 编码器参数实验

在单模态特征提取网络后端设置多层堆叠的编码器结构,用于学习三维模型模态内的关联信息. 为了验证编码器的层数设置对网络模型性能的影响,开展编码器参数实验.

实验结果如表3所示. 表中,第1列为编码器层数,分别设置2~10层的编码器进行实验. 网络模型在设置5~8层编码器时mAP指标均达到约85.8%,当前层数能够达到较好的网络模型性能,继续增加编码器层数将增加不必要的计算量. 原因是编码器中注意力机制的目的是实现对冗余信息的剔除,但是当编码器层数过多时,往往会由于 $ {\boldsymbol{q}} $$ {\boldsymbol{v}} $的向量积操作而造成数据的平均化,降低数据的区分性,导致检索性能变差,因此网络模型的检索性能整体上随着编码器层数的增加而提高. 增加编码器带来的性能提升有限,但会造成计算量的增加,因此需要考虑增加编码器所带来的计算量,选择适当的编码器参数进行实验.

表 3   提出算法在不同编码器层数下的检索性能

Tab.3  Retrieval performance of proposed algorithm under different encoder layers

网络层数 mAP/% NN/% NDCG/% ANMRR/%
2 84.57 95.32 86.84 27.93
3 84.88 96.35 87.43 27.07
4 84.31 97.22 86.40 26.11
5 85.57 97.38 88.91 25.79
6 85.52 97.55 89.37 25.96
8 85.49 97.65 89.32 25.85
10 86.23 97.82 90.13 26.17

新窗口打开| 下载CSV


3.6. 无监督算法的对比实验

采用无监督算法生产样本的伪标签作为分类参考,以实现网络参数的优化. 其中无监督算法选择了常见的K-means方法[31]. 为了探究聚类方法对网络模型检索性能的影响,开展无监督算法间的对比实验.

实验设置的无监督算法包括K-means、分层聚类、DBSCAN、Canopy和高斯混合模型(GMM). 实验结果如表4所示,采用K-means算法取得了最高的指标,其中mAP为86.23%,而其余无监督算法的mAP均低于86%. 由实验数据可知,不同的无监督算法对网络模型的检索性能会产生一定的影响,采用朴素的聚类方法难以获得未知类的信息,因此需要选择更合适的算法用于学习未知类样本.

表 4   提出算法在不同无监督算法下的检索性能

Tab.4  Retrieval performance of proposed algorithm under different unsupervised algorithms

算法 mAP/% NN/% NDCG/% ANMRR/%
K-means[31] 86.23 97.82 90.13 26.17
层级式聚类[32] 84.56 96.97 87.55 25.47
DBSCAN[33] 85.37 97.33 88.95 26.73
Canopy[34] 82.53 94.45 83.03 35.78
GMM[35] 83.42 95.98 86.27 28.70

新窗口打开| 下载CSV


3.7. 多模态表征对比实验

利用多模态融合得到表征能力更强的三维模型描述符,以提升检索性能. 为了验证多模态对三维描述符表征能力和网络检索性能的影响,开展多模态表征对比实验.

实验结果如表5所示. 表中,第1~4行展示了单模态输入时网络模型的检索性能;第5、6行展示了双模态输入时网络模型的性能,其mAP指标均值比单模态mAP指标高约3%;最后1行展示了使用全部模态时网络模型的检索性能,达到86.23%的mAP. 整体而言,网络模型的检索性能随着输入的模态数量增加而提高,验证了采用多模态信息提升开放域下检索性能的思路的正确性.

表 5   提出算法在不同模态输入下的检索性能

Tab.5  Retrieval performance of proposed algorithm under different input modalities

序号 图像 点云 网格 体素 mAP/%
1 85.07
2 84.19
3 82.86
4 77.25
5 85.49
6 84.78
7 86.23

新窗口打开| 下载CSV


考虑到采用层级化的多模态融合网络,用于逐步融合各模态信息,该结构导致不同模态进行融合的顺序不同. 为了探究多模态融合网络的输入顺序对网络模型性能的影响,开展不同融合顺序下的性能对比实验.

实验结果如表6所示. 表中标注了不同模态的融合顺序,由1~4的序号表示. 4个模态具有24种不同的融合顺序,由于篇幅原因无法完全展示,如表6所示为部分融合顺序时的网络模型检索指标、最低和最高检索性能时的指标及对应的融合顺序. 从表6可知,不同的融合顺序对网络模型性能产生的影响较小,最低和最高检索性能时的mAP指标分别为85.14%和86.23%,不同融合顺序导致的性能误差小于1.09%,因此可以验证融合顺序对网络模型性能的影响较小.

表 6   提出算法在不同融合顺序时的检索性能

Tab.6  Retrieval performance of proposed algorithm in different fusion sequences

融合序号 mAP/%
图像 点云 网格 体素
1 2 3 4 85.46
2 3 4 1 85.79
3 4 1 2 86.10
4 1 2 3 85.77
2 4 1 3 85.14
1 4 2 3 86.23

新窗口打开| 下载CSV


3.8. 可视化分析

为了体现本文方法在检索任务上的优越性,开展可视化实验. 采用t-SNE(t-distributed stochastic neighbor embedding)方法进行可视化[36],具体而言,使用t-SNE方法将数据集中所有样本的高维特征进行降维,以获得每个样本的二维表示,近似地展示高维特征的分布情况[37]. 为了验证开放域条件下的检索性能,提取无标签数据集内的样本特征,其中包含20类的三维模型样本.

图5(a)所示为不进行开放域学习,仅使用有标签数据训练时的可视化结果,此时网络模型难以处理未知类样本. 如图5(b)所示为利用无监督算法进行开放域学习后的可视化结果,与仅使用有标签数据训练相比,采用提出的模型能够更有效地区分未知类样本,使得不同类别间的样本区分度更大. 本文算法通过无监督方法引入未知类信息,能够有效地提升网络模型在开放域环境下的目标识别性能.

图 5

图 5   t-SNE特征分布图

Fig.5   Feature distribution visualized by t-SNE


图6所示为本文算法在开放域条件下的部分检索效果图,展示了输入的三维模型样本以及数据集中与其最相似的10个三维模型. 提取输入三维模型的特征向量,将其与开放域数据集中所有样本的特征向量进行相似度比较;按照相似度从高到低的原则,对检索结果进行排序,将排序结果作为输出结果,其中使用的相似性度量方法为余弦距离[38]. 从结果可以看出,检索结果基本与输入的待检索样本一致,表明本文提出的表征模型能够实现对开放域未标注数据的有效探索和高效表征.

图 6

图 6   输入样本及相应检索结果中的前十项

Fig.6   Input models and corresponding Top10 ranked results


4. 结 语

本文提出基于多模态融合的开放域三维模型检索算法. 该算法有效利用了多模态信息语义一致的关联性,借助无监督算法探寻未知样本间的类别信息,实现了对表征网络模型的参数优化,使得网络模型在开放域条件下通过迭代优化学习实现未知数据的有效表征,取得更好的检索性能. 实验部分采用三维模型领域权威数据集ModelNet40进行实验,通过与其他典型算法的对比实验及消融实验,证明了本文方法的合理性和优越性.

参考文献

SU H, MAJI S, KALOGERAKIS E, et al. Multi-view convolutional neural networks for 3d shape recognition [C]// Proceedings of the IEEE International Conference on Computer Vision. Piscataway: IEEE, 2015: 945- 953.

[本文引用: 2]

QI C R, SU H, MO K, et al. Pointnet: deep learning on point sets for 3d classification and segmentation [C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2017: 652-660.

[本文引用: 2]

FENG Y, FENG Y, YOU H, et al. Meshnet: mesh neural network for 3d shape representation [C]// Proceedings of the AAAI Conference on Artificial Intelligence. Menlo Park: AAAI, 2019, 33(1): 8279-8286.

[本文引用: 2]

KLOKOV R, LEMPITSKY V. Escape from cells: deep kd-networks for the recognition of 3d point cloud models [C]// Proceedings of the IEEE International Conference on Computer Vision. Piscataway: IEEE, 2017: 863- 872.

[本文引用: 1]

HAN Z, LU H, LIU Z, et al

3D2SeqViews: aggregating sequential views for 3D global feature learning by CNN with hierarchical attention aggregation

[J]. IEEE Transactions on Image Processing, 2019, 28 (8): 3986- 3999

[本文引用: 1]

LI B, LU Y, LI C, et al

A comparison of 3D shape retrieval methods based on a large-scale benchmark supporting multimodal queries

[J]. Computer Vision and Image Understanding, 2015, 131: 1- 27

DOI:10.1016/j.cviu.2014.10.006      [本文引用: 1]

VASWANI A, SHAZEER N, PARMAR N, et al. Attention is all you need[C]// Advances in Neural Information Processing Systems. Long Beach: [s. n. ], 2017: 5998--6008.

[本文引用: 1]

DOSOVITSKIY A, BEYER L, KOLESNIKOV A, et al. An image is worth 16×16 words: transformers for image recognition at scale [C]// International Conference on Learning Representations. Vienna: [s. n. ], 2021.

[本文引用: 1]

FENG Y, GAO Y, ZHAO X, et al

SHREC’22 track: open-set 3D object retrieval

[J]. Computers and Graphics, 2022, 107: 231- 240

DOI:10.1016/j.cag.2022.07.020      [本文引用: 1]

OSADA R, FUNKHOUSER T, CHAZELLE B, et al

Shape distributions

[J]. ACM Transactions on Graphics, 2002, 21 (4): 807- 832

DOI:10.1145/571647.571648      [本文引用: 1]

TABIA H, DAOUDI M, VANDEBORRE J P, et al

A new 3D-matching method of nonrigid and partially similar models using curve analysis

[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2010, 33 (4): 852- 858

[本文引用: 1]

AVETISYAN A, DAI A, NIEßNER M. End-to-end cad model retrieval and 9dof alignment in 3d scans [C]// Proceedings of the IEEE/CVF International Conference on Computer Vision. Piscataway: IEEE, 2019: 2551-2560.

[本文引用: 1]

SARKAR K, HAMPIHOLI B, VARANASI K, et al. Learning 3d shapes as multi-layered height-maps using 2d convolutional networks [C]// Proceedings of the European Conference on Computer Vision. Berlin: Springer, 2018: 71-86.

[本文引用: 1]

YANG Z, WANG L. Learning relationships for multi-view 3D object recognition [C]// Proceedings of the IEEE/CVF International Conference on Computer Vision. Piscataway: IEEE, 2019: 7505-7514.

[本文引用: 1]

HUANG Q, WANG Y, YIN Z

View-based weight network for 3D object recognition

[J]. Image and Vision Computing, 2020, 93: 103828

DOI:10.1016/j.imavis.2019.11.006      [本文引用: 1]

SFIKAS K, PRATIKAKIS I, THEOHARIS T

Ensemble of PANORAMA-based convolutional neural networks for 3D model classification and retrieval

[J]. Computers and Graphics, 2018, 71: 208- 218

DOI:10.1016/j.cag.2017.12.001      [本文引用: 1]

PÉREZ-RÚA J M, VIELZEUF V, PATEUX S, et al. MFAS: multimodal fusion architecture search [C]// Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2019: 6966-6975.

[本文引用: 1]

ZHANG Q, LIU Y, BLUM R S, et al

Sparse representation based multi-sensor image fusion for multi-focus and multi-modality images: a review

[J]. Information Fusion, 2018, 40: 57- 75

DOI:10.1016/j.inffus.2017.05.006      [本文引用: 2]

HOU M, TANG J, ZHANG J, et al. Deep multimodal multilinear fusion with high-order polynomial pooling [C]// Advances in Neural Information Processing Systems. Vancouver: [s. n.], 2019.

[本文引用: 2]

SIMONYAN K, ZISSERMAN A. Very deep convolutional networks for large-scale image recognition [C]// 3rd International Conference on Learning Representations. San Diego: IEEE, 2015.

[本文引用: 1]

MATURANA D, SCHERER S. Voxnet: a 3d convolutional neural network for real-time object recognition [C]// 2015 IEEE/RSJ International Conference on Intelligent Robots and Systems. New York: IEEE, 2015: 922-928.

[本文引用: 2]

FENG Y, FENG Y, YOU H, et al. Meshnet: mesh neural network for 3d shape representation [C]// Proceedings of the AAAI Conference on Artificial Intelligence. Menlo Park: AAAI, 2019: 8279-8286.

[本文引用: 1]

DEVLIN J, CHANG M W, LEE K, et al. Bert: pre-training of deep bidirectional transformers for language understanding [C]// Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies. Minneapolis: [s. n. ], 2019: 4171—4186.

[本文引用: 1]

WU Z, SONG S, KHOSLA A, et al. 3d shapenets: a deep representation for volumetric shapes [C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2015: 1912-1920.

[本文引用: 1]

FENG Y, ZHANG Z, ZHAO X, et al. Gvcnn: group-view convolutional neural networks for 3d shape recognition [C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2018: 264-272.

[本文引用: 1]

HAN Z, SHANG M, LIU Z, et al

SeqViews2SeqLabels: learning 3D global features via aggregating sequential views by RNN with attention

[J]. IEEE Transactions on Image Processing, 2018, 28 (2): 658- 672

[本文引用: 1]

QI C R, YI L, SU H, et al. Pointnet++: deep hierarchical feature learning on point sets in a metric space [C]// Advances in Neural Information Processing Systems. Long Beach: [s. n. ], 2017: 5099-5108.

[本文引用: 1]

LI Y, BU R, SUN M, et al. Pointcnn: convolution on x- transformed points [C]// Advances in Neural Information Processing Systems. Montreal: [s. n. ], 2018: 828-838.

[本文引用: 1]

ZHANG K, HAO M, WANG J, et al. Linked dynamic graph CNN: learning on point cloud via linking hierarchical features [EB/OL]. [2022-11-08]. https://arxiv.org/abs/1904.10014.

[本文引用: 1]

LU Y, WU Y, LIU B, et al. Cross-modality person reidentification with shared-specific feature transfer [C]// Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2020: 13379-13389.

[本文引用: 1]

KRISHNA K, MURTY M N

Genetic K-means algorithm

[J]. IEEE Transactions on Systems, Man, and Cybernetics, Part B (Cybernetics), 1999, 29 (3): 433

DOI:10.1109/3477.764879      [本文引用: 2]

MURTAGH F, CONTRERAS P

Algorithms for hierarchical clustering: an overview

[J]. Wiley Interdisciplinary Reviews: Data Mining and Knowledge Discovery, 2012, 2 (1): 86- 97

DOI:10.1002/widm.53      [本文引用: 1]

KHAN K, REHMAN S U, AZIZ K, et al. DBSCAN: past, present and future [C]// 5th International Conference on the Applications of Digital Information and Web Technologies. New York: IEEE, 2014: 232-238.

[本文引用: 1]

GHULI P, SHUKLA A, KIRAN R, et al

Multidimensional canopy clustering on iterative MapReduce framework using Elefig tool

[J]. IETE Journal of Research, 2015, 61 (1): 14- 21

DOI:10.1080/03772063.2014.988760      [本文引用: 1]

LU Y, TIAN Z, PENG P, et al

GMM clustering for heating load patterns in-depth identification and prediction model accuracy improvement of district heating system

[J]. Energy and Buildings, 2019, 190: 49- 60

DOI:10.1016/j.enbuild.2019.02.014      [本文引用: 1]

VAN DER MAATEN L, HINTON G

Visualizing data using t-SNE

[J]. Journal of Machine Learning Research, 2008, 9 (11): 2579- 2605

[本文引用: 1]

WATTENBERG M, VIÉGAS F, JOHNSON I

How to use t-SNE effectively

[J]. Distill, 2016, 1 (10): e2

[本文引用: 1]

QIAN G, SURAL S, GU Y, et al. Similarity between Euclidean and cosine angle distance for nearest neighbor queries [C]// Proceedings of the 2004 ACM Symposium on Applied Computing. New York: ACM, 2004: 1232-1237.

[本文引用: 1]

/