浙江大学学报(工学版), 2026, 60(4): 772-781 doi: 10.3785/j.issn.1008-973X.2026.04.009

计算机技术

基于KAN和U-Net网络的颌面结构全景分割方法

蔡智,, 周正东,, 袁晓曦, 杨泽毅, 袁梦瑶

南京航空航天大学 航空航天结构力学及控制全国重点实验室,江苏 南京 210016

A panoramic segmentation method for maxillofacial structures based on KAN and U-Net networks

CAI Zhi,, ZHOU Zhengdong,, YUAN Xiaoxi, YANG Zeyi, YUAN Mengyao

State Key Laboratory of Mechanics and Control for Aerospace Structures, Nanjing University of Aeronautics and Astronautics, Nanjing 210016, China

通讯作者: 周正东,男,副教授. orcid.org/0000-0002-1277-9782. E-mail:zzd_msc@nuaa.edu.cn

收稿日期: 2025-08-8  

基金资助: 国家自然科学基金资助项目 (52375570); 中国航空研究院首批揭榜挂帅项目(F2021109); 上海航天科技创新基金资助项目(SAST2019-121); 南京航空航天大学研究生科研与实践创新计划项目(xcxjh20240111,xcxjh20240110).

Received: 2025-08-8  

Fund supported: 国家自然科学基金资助项目(52375570);中国航空研究院首批揭榜挂帅项目(F2021109);上海航天科技创新基金资助项目(SAST2019-121);南京航空航天大学研究生科研与实践创新计划项目(xcxjh20240111,xcxjh20240110).

作者简介 About authors

蔡智(1998—),男,硕士生,从事医学图像处理研究.orcid.org/0009-0002-2608-4030.E-mail:caizhi123@nuaa.edu.cn , E-mail:caizhi123@nuaa.edu.cn

摘要

为了提升复杂颌面结构的全景分割性能,提出结合Kolmogorov-Arnold表示定理与U-Net架构的多尺度特征提取模型(MC-UKAN). 该模型通过融合位置先验、可学习非线性激活函数和多尺度特征提取,有效增强了特征表达能力. 基于该模型,设计三阶段颌面结构全景分割框架,第1阶段在低分辨率图像中利用MC-UKAN进行粗分割和牙位标定;第2阶段在原始图像上,基于粗分割结果定位目标结构,利用K-means聚类算法将目标划分为5类,采用对应网络进行精细分割;第3阶段使用轻量化网络在原始图像上分割出颌骨及咽喉. 通过融合多尺度分割结果,实现对牙齿、牙髓、颌骨、神经管等结构的精确分割. 在ToothFairy3数据集上的实验结果表明,该方法在74类口腔颌面结构的分割中达到了88.3%的Dice系数和5.04 mm的HD95,平均推理时间为27.04 s,展现出优越的性能.

关键词: 口腔分割 ; 锥形束计算机断层扫描(CBCT) ; Kolmogorov-Arnold表示定理 ; ToothFairy3 ; 牙位标定

Abstract

To improve the performance of panoramic segmentation of complex maxillofacial structures, a multi-scale feature extraction model (MC-UKAN) was proposed, which combined the Kolmogorov-Arnold representation theorem with the U-Net architecture. The model integrated position priors, learnable nonlinear activation functions, and multi-scale feature extraction to effectively enhance feature expression ability. Based on this model, a three-stage maxillofacial structure panoramic segmentation framework was designed. In the first stage, coarse segmentation and tooth position calibration were performed on low-resolution images using MC-UKAN. In the second stage, the target structures were localized using the coarse segmentation results on the original images, the K-means clustering algorithm was then applied to categorize these targets into five classes, and corresponding networks were employed for fine-grained segmentation. In the third stage, a lightweight network was used to segment the jawbones and pharynx on the original images. By fusing multi-scale segmentation results, precise segmentation of structures such as teeth, dental pulp, jawbones, and nerve canals was achieved. Experimental results on the ToothFairy3 dataset demonstrated that the proposed method achieved an 88.3% Dice coefficient and 5.04 mm HD95 for the segmentation of 74 categories of oral and maxillofacial structures, with an average inference time of 27.04 seconds. These results fully validated the superior performance of the proposed method in complex maxillofacial structure segmentation tasks.

Keywords: oral segmentation ; cone beam computed tomography (CBCT) ; Kolmogorov-Arnold representation theorem ; ToothFairy3 ; dental alignment

PDF (2185KB) 元数据 多维度评价 相关文章 导出 EndNote| Ris| Bibtex  收藏本文

本文引用格式

蔡智, 周正东, 袁晓曦, 杨泽毅, 袁梦瑶. 基于KAN和U-Net网络的颌面结构全景分割方法. 浙江大学学报(工学版)[J], 2026, 60(4): 772-781 doi:10.3785/j.issn.1008-973X.2026.04.009

CAI Zhi, ZHOU Zhengdong, YUAN Xiaoxi, YANG Zeyi, YUAN Mengyao. A panoramic segmentation method for maxillofacial structures based on KAN and U-Net networks. Journal of Zhejiang University(Engineering Science)[J], 2026, 60(4): 772-781 doi:10.3785/j.issn.1008-973X.2026.04.009

口腔(cone beam computed tomography, CBCT)图像分割是数字化诊疗的关键,直接影响手术路径和正畸方案的制定. 下牙槽神经管、上颌窦、颌骨等结构的准确分割,对预防术中神经血管损伤至关重要[1-2]. 然而,牙齿及牙周组织结构复杂多变,下牙槽神经管(inferior alveolar canal, IAC)与牙槽骨的灰度差别较小且走形蜿蜒,加上金属伪影,导致全景分割极具挑战. 传统方法如阈值、水平集、区域增长和分水岭算法[3-5],虽简单高效,但依赖人工参数,鲁棒性不足,难以应对边界模糊和复杂拓扑结构的CBCT影像.

近年来,深度学习在颌面结构分割中取得明显进展[6-7]. Cui等[8]提出的ToothNet利用两阶段深度网络提取边缘、相似性和空间关系实现牙齿实例分割,但缺乏缺牙推理机制,难以稳定完成牙位标定. Liu等[9]利用骨分割网络获取牙槽骨、牙齿和上颌窦的分割结果,进而将牙齿和下颌区域作为感兴趣区域实现牙齿和下牙槽神经管的分割,但未涵盖严重金属伪影,导致模型鲁棒性不足. Wu等[10]结合感兴趣区域提取和边界优化策略,实现下颌髁突皮质骨与骨髓的分割. Wei等[11]通过多平面重建和纹理增强提升IAC的对比度,采用二维线追踪实现精准分割. Morgan等[12]采用双阶段3D U-Net架构,通过粗-精分割生成上颌窦分割结果. Daza等[13]基于Transformer网络提取局部和全局特征,并融合语言信息指导实体分割. 薄士仕等[14]基于ResNet设计多网络体系,分别进行牙齿实例分割和牙位标定. 然而,现有研究多局限于有限的口腔解剖结构,缺乏全景分割能力,难以辅助医生全面掌握患者口腔状况;此外,卷积神经网络(CNN)难以对长距离依赖进行有效建模,导致内部结构语义信息提取不足、牙位标定精度较低,进而限制了定量分析效果.

针对现有分割方法在复杂颌面结构中的不足,本研究结合Kolmogorov-Arnold表示定理与U-Net架构,提出多尺度特征提取模型MC-UKAN,并基于该模型设计了三阶段分割框架. 第1阶段,在低分辨率图像上通过MC-UKAN完成粗分割,该网络基于编码器-解码器架构,在第1层编码器前嵌入3D位置编码模块,为初步提取的特征注入位置先验信息,从而强化网络对长距离位置依赖的建模能力与绝对位置感知能力;提出多尺度通道可分离KAN(multi-scale channel-separable KAN,MC-KAN)卷积替代传统卷积解码器,提升非线性建模能力并扩大感受野,提升模型特征提取能力. 第2阶段在原始分辨率图像上,基于粗分割结果定位目标结构,再通过颌面结构相似性与K-means聚类算法定量分析,将目标划分为前牙、磨牙、修复体、上颌窦和IAC共5个类别,根据粗分割标签确定所属类别并应用对应网络进行精细分割. 第3阶段采用轻量网络单独分割出上、下颌骨与咽喉结构. 最后融合粗分割标签与原始图像上的分割结果,实现完整精准的全景结构分割. 在公开数据集ToothFairy3上进行模型训练和测试,以验证方法的性能.

1. 研究方法

1.1. 三阶段颌面分割框架

当前颌面结构分割算法普遍存在2大局限,多数研究集中于对局部结构的分割,缺乏针对全景结构的整体结果,且难以输出符合FDI标准的精确牙位标定. 为此,本研究设计了三阶段颌面分割框架,3个阶段分别对应3个核心模块:粗分割模块、局部高分辨细分割模块和大尺度结构分割模块,具体架构见图1.

图 1

图 1   三阶段颌面分割框架

Fig.1   Three-stage maxillofacial segmentation framework


由于原始图像尺寸较大,为了适应网络输入,首先将图像统一降采样至160×160×108(ToothFairy3的Set B/C中样本的上颌结构缺失,因此先将尺寸缩至160×160×80再补充28层背景切片). 图像经预处理后输入粗分割模块,采用高效的MC-UKAN模型进行分割,获得42类粗分割结果(不包含牙髓),并为后续局部精细分割提供全局结构定位基础.

基于解剖学相似性,局部高分辨细分割模块将特征划分为5类:前牙(包括切牙和尖牙,位于牙弓前部,形态窄长)、磨牙(位于牙弓后部,牙合面宽大且常为多根)、修复体(如金属或陶瓷修复体)、上颌窦(位于磨牙区上方的含气空腔)以及IAC(下牙槽神经管,沿下颌骨内走行). 研究进一步提取了6项量化特征,包括CT值25%分位数、CT值中位数、CT值偏度、质心位置、边界框体积和表面积/体积比,并采用K-means聚类算法对5类结构进行聚类分析,并结合t-SNE可视化工具呈现特征分布. 结果如图2所示,除少数前牙与磨牙样本同修复体存在轻微重叠外,5类结构均呈现清晰的聚类中心与分布边界. 实验针对 5 类目标结构分别设定固定区块尺寸并从原始 CBCT 影像中截取对应区域进行分割:前牙与磨牙统一采用 48×48×72 尺寸(用于牙齿、牙髓及背景的分割),上颌窦为 64×96×48,下牙槽神经管为 120×200×200,修复体为 48×48×48. 对于实际尺寸超出设定区块的目标结构,采用智能滑块分块推理,再通过最大概率法完成区块拼接. 这种在固定区域内进行局部细分的方法,能够有效解决微小结构的分割难题. 例如,牙髓在原始影像中仅占十万分之一的体积,但通过准确定位至牙齿中心,只需局部区域的高分辨率图像,即可实现亚体素级别的分割精度. 大尺度结构分割模块则使用轻量网络专责分割上、下颌骨与咽喉. 最终通过概率图融合机制实现多模块信息互补,将精细分割结果与粗分类标签融合,输出精确的全景分割结果. 该方法融合了全局定位与局部细分的优势,优化了计算资源.

图 2

图 2   5类结构的 K-means 与 t-SNE 可视化结果图

Fig.2   Visualization results of K-means and t-SNE for five types of structures


1.2. MC-UKAN架构

针对3D U-Net非线性建模能力不足和感受野受限问题,提出MC-UKAN架构,其结构如图3所示. 包括初始特征提取模块、3D位置编码模块、MC-KAN卷积层编码器与卷积解码器. 首先,输入图像通过卷积模块完成特征提取,输出64 个通道的特征图,再通过3D位置编码模块后显式注入位置先验信息,以增强模型长距离位置依赖建模和绝对位置感知能力. 随后,这些特征图被送入MC-KAN卷积层,采用多尺度KAN卷积核逐通道提取特征,结合残差连接构建层次化多尺度表征,以增强网络对复杂目标与形变结构的适应性. 在架构中,网络以MC-KAN卷积层替换传统3D U-Net中的编码器卷积层,通过使用可学习的非线性激活函数和多尺度卷积提高全局特征的提取能力. 每层编码器使用2×2×2的最大池化将特征分辨率减半,并在卷积块后添加SE模块[15],利用全局注意力机制强化特征表示. 因粗分割任务对低维纹理特征敏感度较低,取消了首层与解码器的跳跃连接. 最终,特征经上采样与跳跃连接传递至解码器,通过逐点卷积和Sigmoid激活生成42类结构的通道概率分布图,利用argmax函数提取最大概率标签,获得含牙位标定的粗分割结果.

图 3

图 3   MC-UKAN架构

Fig.3   Architecture of MC-UKAN


1.3. 3D位置编码模块

口腔结构在空间上的排列具有一定的规律性,而传统3D U-Net存在长距离位置依赖建模与绝对位置感知能力不足的问题. 针对这个问题,本研究采用3D位置编码模块(positional encoding 3D, PE3D). 通过该模块,在第1层编码器之前显式注入空间位置先验信息,从而提升模型特征感知能力. 模块输入为初始特征提取后的特征图$ {\boldsymbol{X}}_{\text{in}\mathrm{it}} ({\boldsymbol{X}}_{\text{in}\mathrm{it}}\in {\mathbf{R}}^{\mathrm{C} \times D \times H \times W}) $,首先将输入数据的物理坐标归一化至[0,1.0]区间以消除尺寸差异影响,生成三维网格坐标;随后采用对数间隔频率分布生成多尺度频率带,计算各空间维度(x, y, z)的正弦与余弦分量并拼接,形成包含6倍频率带数量的6D位置编码;最后通过1×1×1卷积将高维位置编码压缩至原始特征通道数,并与初始特征按可控比例融合. 该模块通过多频率分解策略,同步捕捉全局尺度的低频位置特征与局部尺度的高频位置特征;结合基于输入图像特征的自适应坐标归一化策略与灵活的特征融合机制,有效补充了模型的位置先验知识. 计算公式如下:

$ \lambda_k=10^{\tfrac{k-1}{{N}-1} \cdot \log _{10}\;(\rm{max\_freq})}; \; k=1,2, \cdots, {{N}} . $

$ \begin{split}{\bf{PE}}(x, y, z)=& \operatorname{concat}\;\left[\sin\; \left(2 {\text{π}} \lambda_k x\right), \cos\; \left(2 {\text{π}} \lambda_k x\right)\right., \\& \sin\; \left(2 {\text{π}} \lambda_k y\right), \cos\; \left(2 {\text{π}} \lambda_k y\right), \sin\; \left(2 {\text{π}} \lambda_k z\right), \\& \left.\cos\; \left(2 {\text{π}} \lambda_k z\right)\right]_{k=1}^N .\end{split} $

$ \boldsymbol{X}_{\mathrm{pos}}=\boldsymbol{X}_{\mathrm{init}}+\alpha_{\mathrm{pos}} \operatorname{Conv}_{1 \times 1 \times 1}\left(\boldsymbol{X}_{\mathrm{enc}}\right) . $

式中:$ {\lambda }_{k} $为间隔频率,$ \mathrm{max}\_ \mathrm{freq}=5 $为最大频率,$ {N}=6 $为频带数量,$ \mathbf{PE}\left(x,y,z\right) $为每个像素点的位置编码,$ {\boldsymbol{X}}_{\text{enc}} $表示位置编码经过通道压缩后的中间特征,$ {\alpha }_{\text{pos}} $为融合权重,$ {\boldsymbol{X}}_{\text{po}\mathrm{s}} $为位置增强后的特征图.

1.4. MC-KAN卷积层

本研究提出多尺度通道可分离KAN卷积层(MC-KAN),通过融合KAN的非线性逼近能力与多尺度特征提取优势,增强模型表达能力与泛化性. 如图4(a)所示,输入特征$ {\boldsymbol{X}}_{\text{in}}\in {\mathbf{R}}^{C \times D \times H \times W} $经通道降维后,通道降低为原来的一半,随后逐通道分别应用3×3×3和5×5×5的KAN卷积核. 将特征图分别重塑为[(C/2)×[(D×H×W)/27],27]和[(C/2)×[(D×H×W)/125],125]的二维特征向量,再输入2层KAN网络(见图4(b))进行非线性空间特征提取.

图 4

图 4   MC-KAN卷积模块结构

Fig.4   MC-KAN convolution module architecture


Liu等[16]从Kolmogorov-Arnold表示定理中汲取灵感,提出Kolmogorov-Arnold网络(KAN). K层的KAN网络可以表示为多个KAN层的嵌套:

$ \operatorname{KAN}(\boldsymbol{Z})=\left(\boldsymbol{\varPhi}_{K-1} \circ \boldsymbol{\varPhi}_{K-2} \circ \boldsymbol{\varPhi}_{K-3} \circ \cdots \circ \boldsymbol{\varPhi}_0\right) \boldsymbol{Z} . $

式中:$ {\boldsymbol{\varPhi}}_{{k}} $表示第k层的KAN网络. 从第k到第k+1层的计算结果可以用矩阵$ {\boldsymbol{Z}}_{k+1}={\boldsymbol{\varPhi }}_{k}{\boldsymbol{Z}}_{k} $表示,其中激活函数$ {\boldsymbol{\varPhi }}_{k} $可以表示为

$ \boldsymbol{\varPhi}_k=\left[\begin{array}{cccc}\varphi_{k, 1,1}(\cdot) & \varphi_{k, 1,2}(\cdot) & \cdots & \varphi_{k, 1, n_k}(\cdot) \\\varphi_{k, 2,1}(\cdot) & \varphi_{k, 2,2}(\cdot) & \cdots & \varphi_{k, 2, n_k}(\cdot) \\\vdots & \vdots & & \vdots \\\varphi_{k, n_{k+1,1}}(\cdot) & \varphi_{k, n_{k+1,2}}(\cdot) & \cdots & \varphi_{k, n_{k+1}, n_k}(\cdot)\end{array}\right] . $

式中:$ \varphi $为可学习的非线性激活函数.

$ \varphi(x)=\omega_{\mathrm{b}} b(x)+\omega_{\mathrm{s}} \operatorname{Spline}(x), $

$ b(x)=\operatorname{SiLU}(x)=\frac{x}{1+\mathrm{e}^{-x}}, $

$ \text { Spline }(x)=\sum_i c_i B_i(x). $

式中:$ {\omega }_{{\mathrm{b}}}、{\omega }_{{\mathrm{s}}} $分别为函数$ b\left(x\right) $$ \text{Spline}(x) $的权重因子,它们是可学习的;$ {c}_{i} $$ {B}_{i}(x) $为样条函数$ \text{Spline}(x) $的第i个可学习参数与单变量非线性函数. 这种机制使KAN卷积核能动态适配局部特征分布,在提取底层纹理的同时建模高阶关联.

特征经残差连接后,通过点卷积与批量归一化实现通道融合. 残差机制通过跨层直连加速梯度传播,缓解网络退化问题[17],同时,配合输入缩放与偏移操作稳定各层分布,能提升收敛效率与表达能力.

2. 数据准备与网络训练

2.1. 实验数据集

本研究采用口腔CBCT图像分割领域具有代表性的公开数据集ToothFairy3[18-20]. 该数据集包含公开的532例标注训练样本及50例未公开测试样本. 训练集分为3个子集:Set A(67例)具备完整的上下牙列标注,Set B(413例)和Set C(52例)包含完整下颌结构标注与部分上颌结构标注. 其中Set A与Set B数据源自同一家设备制造商,Set C则来自另一家厂商,所有数据均采用0.3 mm各向同性的体素间距.

ToothFairy3数据集共涵盖77个标签类别,包括使用FDI牙位表示法的各恒牙、牙髓、种植体修复体(牙桥、牙冠、种植牙体)、上下颌骨、左右上颌窦、咽喉、左右下牙槽神经管(IAC)等(见图5(a)~(d)). 本研究暂不涉及舌侧管与切牙管分割.

图 5

图 5   ToothFairy3的完整注释样本

Fig.5   Complete annotation sample of ToothFairy3


为了保证数据划分科学性,采用分层留出法,按6∶2∶2比例从3个子集中选取训练集(318例)、验证集(106例)和测试集(108例),确保各子集在训练、验证和测试阶段合理分布,提升模型评估可靠性.

2.2. 图像预处理

在预处理阶段,图像的CT值被截断至[−1000, 3500]范围,并归一化至[0,1.0],以剔除异常值,减少金属伪影干扰并提升边界分割准确性.

为了缓解降采样导致的分辨率损失及精细结构辨识困难,对降采样图像进行特征增强处理,如图6(a)~(d)所示,使用三维Sobel算子计算梯度幅值平均值,生成边缘特征图;对CT值为800~1 600的骨组织区域应用自适应直方图均衡化,增强骨小梁、皮质骨、牙槽骨骨板等骨组织微结构对比度;利用如下公式将降采样图像及其边缘特征图、骨组织增强图进行融合,得到特征融合图像:

图 6

图 6   预处理图像

Fig.6   Preprocessed images


$ {{\boldsymbol{I}}}_{\rm{fusion }}= \alpha_1 {{\boldsymbol{I}}}_{\rm{original}}+\alpha_2 {{\boldsymbol{I}}}_{\rm{edge\_enhance }}+ \alpha_3 {{\boldsymbol{I}}}_{\rm{bone}} . $

式中:$ {\boldsymbol{I}}_{\text{fusion}} $$ {\boldsymbol{I}}_{\text{original}} $$ {\boldsymbol{I}}_{\mathrm{edge}\_ \text{enhance}} $$ {\boldsymbol{I}}_{\text{bone}} $分别表示特征融合图、降采样图、边缘特征图和骨组织增强图;$ {\alpha }_{1}\mathrm{、}{\alpha }_{2} $$ {\alpha }_{3} $为权重系数,通过基于任务性能的网格搜索方法在验证集上确定,在满足权重归一化($ {\alpha }_{1}+{\alpha }_{2}{+\alpha }_{3}=1.0 $)的约束下,以0.1为步长,实验得到最优融合权重为$ {\alpha }_{1}=0.5,{\alpha }_{2}{=0.2,\alpha }_{3}=0.3 $.

2.3. 运行环境

本研究模型训练采用GeForce RTX 4070Ti SUPER显卡平台与PyTorch-cuda=12.40框架. MC-UKAN模型配置具体参数如下:输入图像大小为160×160×108,批大小设为1,训练周期为100,优化器选择Adam,初始学习率为1×10−4,损失函数采用Dice Loss.

2.4. 评价指标

采用2项通用评估指标衡量分割性能:Dice系数与第95百分位豪斯多夫距离(95th percentile Hausdorff Distance,HD95). 表达式分别如下:

$ \mathrm{Dice}=\frac{2\times \left| \boldsymbol{X}\cap \boldsymbol{Y}\right| }{\left| \boldsymbol{X}\right|+\left| \boldsymbol{Y}\right| }, $

$ {d}_{95}\left(X,Y\right)=x_{a\in X}^{95}\left\{{\min }_{b\in Y}d(a,b)\right\}, $

$ \mathrm{HD}95\left({X},{Y}\right)=\mathrm{max}\left\{{d}_{95}\left({X},{Y}\right),{d}_{95}\left({Y},{X}\right)\right\}. $

式中:$ \boldsymbol{X} $$ \boldsymbol{Y} $为预测区域和真实区域的二值分割矩阵;XY为对应矩阵提取的前景点集;$ x_{a\in X}^{95} $表示集合$ {{\mathrm{min}}}_{b\in Y}d(a,b) $中元素的第95个百分位数,$ d\left(a,b\right) $表示点a和点b之间的距离.

3. 实验结果与分析

3.1. 比较实验

为了验证方法的有效性,在ToothFairy3数据集上进行对比实验. 该数据集在ToothFairy2的基础上新增了另一设备制造商提供的52例CBCT图像,并统一添加牙髓标注,新数据集分类结构更多,同时能够更好地支持模型泛化能力评估. 实验结果将74类目标结构分7组计算平均值,包括:颌骨、IAC、上颌窦、咽喉、修复体、牙齿与牙髓(含牙位标定). 须说明的是,由于对比方法基于ToothFairy2训练集进行训练,为了最大限度保证比较的公平性,在计算总体均值时排除牙髓相关统计项,从而使评价维度保持一致. 此外,公开训练集Set B和Set C中上颌结构标注不全,因此上颌骨、上颌窦及上颌牙齿也未纳入均值计算.

Dice系数及HD95系数对比结果如表12所示. 可以看出,本研究提出的基于MC-UKAN的三阶段分割框架,在颌面全景分割任务中综合性能优于固定Patch Size的CNN、Transformer和Mamba类模型. 其分类平均Dice系数达到88.87%,较次优方法UMamba提升3.82个百分点;除了IAC与上颌窦分割外,在其余任务中均取得最优性能. HD95指标平均值为5.04 mm,仅次于Swin-UMamba的,且在颌骨、上颌窦、咽喉及牙齿的分割任务中均展现出最优性能. 分析原因,这种多阶段分割框架通过特征融合机制,有效建模了颌面结构间的语义关联,同时兼顾全局拓扑约束与局部边界细节,而对比方法中除Mamba使用二维切片外,其他方法均通过从原图裁取固定大小的三维Patch并拼接的方式进行处理,无论哪种方法,都缺乏全面捕捉和学习颌面区域三维空间结构的能力. 此外,在粗分割阶段应用不同模型的对比表明,MC-UKAN的Dice与HD95最优,进一步验证了其更优秀的非线性建模能力.

表 1   不同的方法Dice系数比较

Tab.1  Comparison of Dice coefficients of different methods

网络Dice/%
均值(不计牙髓)颌骨IAC上颌窦咽喉牙齿修复体牙髓
CNNsnnU-Net[20]70.9290.3171.3464.8195.6673.1729.50
nnU-Net ResEnc[20]74.1691.7773.0165.7195.2676.4837.10
Transf.TransU-Net[20]70.3290.3381.9659.6987.8972.4627.68
nnFormer[20]76.7991.5072.2875.1190.8579.3718.95
UNETR++[20]71.4392.3868.8774.5191.6073.7026.21
MambaUMamba[20]85.0590.0585.2677.0292.1886.5843.89
VMamba[20]73.1390.7560.6273.2088.2375.9914.86
Swin-UMamba[20]79.6494.2972.6487.7593.0580.7125.30
3-Stage3D UKAN_SE86.5194.9582.6276.8495.9689.4980.4986.09
PMFSNet3D87.9695.9484.9973.8095.9688.8280.2785.10
本研究模型88.8795.9584.2282.0995.9689.5181.1887.55

新窗口打开| 下载CSV


表 2   不同的方法HD95系数比较

Tab.2  Comparison of HD95 coefficients of different methods

网络HD95/mm
均值(不计牙髓)颌骨IAC上颌窦咽喉牙齿修复体牙髓
CNNsnnU-Net[20]17.8612.5329.1128.3919.2318.3220.95
nnU-Net ResEnc[20]14.4812.5327.8129.9917.7514.2616.32
Transf.TransU-Net[20]20.1749.0211.9959.7642.8715.0422.65
nnFormer[20]5.4520.0910.068.2224.532.9413.67
UNETR++[20]17.235.4415.1015.4818.9617.9119.70
MambaUMamba[20]5.2822.1716.234.3525.252.2313.97
VMamba[20]5.177.179.949.8923.953.3914.63
Swin-UMamba[20]2.944.252.022.382.792.5914.93
3-Stage3D UKAN_SE5.271.629.968.201.172.1824.872.86
PMFSNet3D5.481.6311.385.251.172.3729.032.80
本研究模型5.041.5910.782.331.171.9624.822.11

新窗口打开| 下载CSV


表3所示对比了本研究方法与其他改进模型在颌面结构分割任务中的分类平均Dice系数. 在更具挑战性的条件下(包含修复体和牙髓),基于MC-UKAN的口腔智能分割模型仍展现出最优异的性能. 实验数据表明,本方法的平均Dice系数达到88.3%,较次优的方法(排除了修复体干扰)提升了0.42个百分点. 这一结果表明,MC-UKAN模型在复杂口腔解剖结构的分割任务中具有优势,能够有效处理多类别分割带来的挑战,同时保持较高的分割精度.

表 3   带牙位标定的分类平均Dice系数比较

Tab.3  Comparison of categorical mean Dice coefficients with dental alignment

方法数据集分割结构测试集样本数Dice/%
Daza等[13]ToothFairy2上下颌骨、IAC、上颌窦、咽喉、牙齿、修复体5085.90
Wodzinski等[21]ToothFairy2上颌骨、上颌窦、上颌牙齿、修复体、咽喉5073.80
下颌骨、IAC、下颌牙齿、修复体5087.80
薄士仕等[14]私有数据集牙齿(有修复体)1484.74
牙齿(无修复体)987.88
本研究模型ToothFairy3上下颌骨、IAC、上颌窦、咽喉、牙齿、修复体、牙髓10888.30

新窗口打开| 下载CSV


图7所示给出本研究方法对74类结构的全景分割结果,其中图7(a)~(c)为二维切片展示;图7(d)~(i)为三维视图,所有样本中的同一结构使用相同的颜色映射,可见正常牙列、缺失牙、牙冠、修复体及残根均被准确分割与标定;图7(d)、(e)展示上/下颌骨、咽喉、上颌窦与IAC;图7(f)展示右下颌牙列,红色框内为修复体(牙冠与种植体)的分割细节;图7(g)显示,右下颌跨越1颗缺失牙的目标结构可被模型精准分割并标定;图7(h)红框呈现修复体(牙冠)与残根;图7(i)显示,左下颌跨越2颗缺失牙的目标结构可被模型精准分割并标定.

图 7

图 7   上/下颌骨、咽喉、上颌窦、IAC与牙齿及其牙髓的分割结果

Fig.7   Segmentation results of maxilla/mandible, pharynx, maxillary sinus, IAC, teeth and their dental pulps


3.2. 各个模块性能表现

3.2.1. 粗分割模块

表4所示对比了粗分割模块中不同方法的性能表现,包括3D U-Net、3D Unet_SE、3D U-KAN[22]、3D UKAN_SE和PMFSNet3D[23]等基准方法. 实验数据表明,本研究提出的MC-UKAN模型以86.89%的分类平均Dice系数领先,较次优的3D UKAN_SE方法提升0.70个百分点. 尤其在牙齿和修复体分类任务中,MC-UKAN表现尤为突出,其Dice系数分别较3D UKAN_SE提高了1.72和2.48个百分点. 原因在于模型的多尺度结构设计有效扩展了感受野,从而增强了复杂解剖结构的语义分割能力. 然而,在固定位置结构的分类任务中,本方法性能略有下降,这可能是由于多尺度特征提取过程对局部空间信息产生了一定干扰. 此外,使用单一设备数据(Set A/B)训练得到的模型在另一设备数据Set C上推理时,Dice系数仅下降1.18个百分点,进一步证明了该方法具有良好的泛化能力.

表 4   粗分割模块不同网络的分类Dice系数比较

Tab.4  Comparison of classification Dice coefficients of different networks of coarse segmentation module

网络Dice/%
均值颌骨IAC上颌窦咽喉牙齿修复体
3D U-Net83.7186.9077.4695.5095.3683.3578.95
3D Unet_SE86.0088.3678.0695.4296.4885.7482.73
3D U-KAN85.8488.7179.3097.7795.6385.6280.50
3D UKAN_SE86.1988.5678.5694.4196.5786.1581.27
PMFSNet3D84.8087.8279.1688.6396.5084.7980.21
MC-UKAN(3×3×3)83.7085.4077.1583.5195.8883.6883.25
MC-UKAN(5×5×5)84.1386.5076.2181.4995.9383.9683.58
MC-UKAN(单一设备商)85.7195.90(下颌)79.3194.3385.9182.64
MC-UKAN86.8986.1077.1396.6196.0787.8783.75

新窗口打开| 下载CSV


U-KAN较U-Net的改进在于,在瓶颈层通过CNN卷积的线性投影将特征映射到潜在嵌入空间,生成令牌序列后再利用KAN网络对高维特征进行非线性建模,并以隐式方式编码位置信息. 而MC-UKAN通过直接采用MC-KAN卷积替代编码器,实现了多方面的优势. 首先,MC-KAN卷积不仅有效扩大了模型的感受野,还通过PE3D模块显式注入空间位置信息,增强了模型对复杂颌面结构的特征提取能力. 图8(c)、(d)展示了第2层编码器中MC-KAN卷积层与传统CNN卷积层提取的特征图. 随着下采样和高维特征提取,MC-KAN能更准确地捕捉口腔内部的多结构特征,而传统CNN在下颌特征提取上出现明显失真. 这是因为KAN卷积的可学习非线性激活函数提升了特征提取能力(见图8 (a)、(b)). 另一方面,由表4可知,相较于采用单一 KAN 卷积核的 MC-UKAN(3×3×3)与 MC-UKAN(5×5×5)模型,融合双 KAN 卷积核的多尺度 MC-UKAN 模型有效扩大了感受野,兼顾局部细节与全局上下文信息,平均 Dice 系数较2种模型分别提升 3.19 和 2.26 个百分点. 实验结果表明,在本研究涉及的各类基础模型中,引入SE注意力模块后均观察到了性能的提升. 这归因于 SE 模块的全局通道注意力机制可对特征通道间的权重进行动态调整,增强关键特征的表示能力,并抑制无关噪声,从而优化分割效果.

图 8

图 8   不同卷积方式下第2层编码器后横截面切片

Fig.8   Cross-sectional slices after second layer encoder with different convolution methods


3.2.2. 局部高分辨细分割模块与大尺度结构分割模块

鉴于这2个模块的处理目标明确,本研究在保证分割精度的前提下,采用轻量化 3D Unet_SE 模型以提升计算效率. 如表5所示展示了局部高分辨细分割模块与大尺度结构分割模块的性能表现. 须说明的是,由于上颌骨仅在Set A中完整存在,表中上颌骨、上颌窦的分割性能是基于测试集中的14例样本计算所得的,其余结构则使用完整测试集数据测试. 实验结果表明,基于精确分割定位的局部高分辨细分割模块在各类解剖结构上均表现出色,特别是上颌窦的平均Dice系数与HD95距离分别达到98.26%和1.00 mm. 大尺度结构分割模块对对比度明显的解剖结构(上颌骨、下颌骨与咽喉)分割效果优异. 其中下颌骨与咽喉的平均Dice系数分别为96.45%、95.96%,对应的HD95 距离分别2.57、2.60 mm.

表 5   局部高分辨细分割模块与大尺度结构分割模块的实验结果

Tab.5  Experimental results of local high-resolution fine segmentation module and large-scale structural segmentation module

模块结构Dice/%HD95/mm
局部高分辨细
分割模块
IAC94.690.97
上颌窦98.261.00
前牙及牙髓93.582.03
磨牙及牙髓90.693.30
修复体93.492.27
大尺度结构
分割模块
上颌骨85.7211.10
下颌骨96.452.57
咽喉95.962.60

新窗口打开| 下载CSV


3.2.3. 各模块推理时间

表6所示,本研究三阶段分割方法,在 108 例测试样本上的单样本平均推理时间为 27.04 s. 表明在单块GPU硬件下本研究模型仍具有较高的推理效率. 在本模型中,在局部精细分割阶段须对5种结构进行独立推理,若采用多块GPU硬件,则可通过并行化实现这5类结构的并行推理,从而有望显著提高推理效率. 总体而言,尽管多阶段设计带来一定的开销,但在现有硬件条件下仍显示出较高的临床应用潜力,未来工作将聚焦模型优化以进一步提升效率.

表 6   三阶段模块推理时间

Tab.6  Three-stage modular reasoning time

模块耗时/s
粗分割模块3.86
大尺度结构分割模块2.46
局部高分辨细分割模块20.72
总计27.04

新窗口打开| 下载CSV


3.3. 消融实验

为了验证MC-UKAN核心模块(PE3D模块与MC-KAN卷积层)的有效性,配置不同MC-KAN层数量,记为NMC-KAN. 其中取消的MC-KAN层均替换为包含3×3×3卷积层、批量归一化和ReLU激活的2组级联结构,数量记为$ {N}_{\text{CNN}} $. 同时,还考察不同参数规模的MC-KAN层对性能的影响. 消融实验结果如表7所示. 可以看出,单独部署PE3D模块能使性能提升0.83个百分点,说明位置先验注入增强了模型长距离位置依赖建模和绝对位置感知能力. 从第1层开始,逐层用MC-UKAN替换传统卷积层,随着层数的增加,模型的精度持续提升,当使用5层MC-KAN时,Dice系数比全部采用传统卷积的编码器提升了0.89个百分点. 这表明,MC-UKAN的可学习的非线性激活函数和多尺度设计通过非线性建模和扩大空间感受野,增强了模型对不同尺度结构(如牙齿、IAC和上颌窦等)的语义表征能力,从而优化了网络的分割表现.

表 7   PE3D模块与MC-KAN卷积层的消融实验结果

Tab.7  Ablation experiment results of PE3D module and MC-KAN convolutional layer

PE3DNMC-KAN$ {N}_{\text{CNN}} $Dice%
0586.00
1482.66
2385.79
3285.54
4185.95
5086.89
×5086.06

新窗口打开| 下载CSV


表8所示为不同规模的MC-UKAN模型分割实验结果对比. 结果表明,网络的规模对性能有较大影响,最大规模的MC-UKAN网络比中等和小规模网络在Dice系数上分别提升了3.10、15.61个百分点. 这说明更大规模的网络结构能够更有效地建立结构间的语义联系,进一步改善分割效果.

表 8   不同规模MC-UKAN模型的分割实验结果对比

Tab.8  Comparison of segmentation experimental results of MC-UKAN models with different scales

Model Scale(C1,C2, C3, C4, C5)Dice/%
MC-UKAN_S(16,32,64,128,256)71.28
MC-UKAN_M(32,64,128,256,512)83.79
MC-UKAN(32,64,256,512,1024)86.89

新窗口打开| 下载CSV


3.4. 鲁棒性实验

相比传统CT图像,CBCT图像减少了辐射剂量,使得CBCT图像易受噪声污染,因此有必要讨论模型鲁棒性. 有文献表明,CBCT中常见3类噪声干扰:高斯白噪声[24](标准差记为$ \sigma $)、泊松分布原子噪声[25](泊松率记为$ \lambda $)及随机脉冲噪声[26](脉冲比例记为$ \delta $). 本研究在ToothFairy3测试集上分别及组合添加这些噪声进行测试,结果如表9所示. 实验结果表明,本研究方法对3种噪声均表现出良好的鲁棒性,验证了算法在临床实际场景下的稳定性.

表 9   ToothFairy3 测试集上添加不同噪声的分割实验结果对比

Tab.9  Comparison of segmentation experimental results with different noises on Toothfairy3 test set

噪声类型$ \sigma $$ \lambda $$ \delta $Dice/%
高斯噪声0.0286.50
泊松噪声0.587.94
脉冲噪声0.0186.68
高斯+泊松0.020.586.00
高斯+脉冲0.020.0184.42
泊松+脉冲0.50.0186.09
高斯+泊松+脉冲0.020.50.0183.98
无噪声88.30

新窗口打开| 下载CSV


4. 结 语

针对口腔颌面结构全景分割中存在的多尺度结构难以精准分割、复杂拓扑关系建模困难以及全局与局部特征协同的挑战,融合Kolmogorov-Arnold 表示定理的非线性建模能力与U-Net的层级特征融合优势,提出MC-UKAN网络,并构建三阶段分割框架,实现了涵盖牙齿、牙髓、颌骨、下牙槽神经管、上颌窦、咽喉及修复体等74类结构的口腔颌面全景分割. 该方法通过PE3D模块注入位置先验,结合MC-KAN卷积层的非线性建模和多尺度特征聚合机制,有效建立了跨结构语义关联. 三阶段框架的设计兼顾了全局大尺度结构的完整性与局部细微结构的精确性. 在ToothFairy3上的实验表明,该方法有效实现了从宏观到微观的全景式分割覆盖. 作为口腔颌面全景分割方案,其能全面输出各类解剖结构的分割结果,为数字化口腔诊疗中的结构分析、牙位标定及缺牙评估等提供完整信息支撑,可辅助医务人员提升诊疗计划的制定效率与精准度,减轻人工分割的工作负担.

未来研究将聚焦优化模型,提升对极端金属伪影的鲁棒性,并降低计算复杂度,探索构建端到端的模型架构,以减少当前多阶段流程间的依赖,从而提升临床应用中的流程效率,进一步提升全景分割在临床实际场景中的适用性.

参考文献

LOPES DOS SANTOS G, IKUTA C R S, SALZEDAS L M P, et al

Canalis sinuosus: an anatomic repair that may prevent success of dental implants in anterior maxilla

[J]. Journal of Prosthodontics, 2020, 29 (9): 751- 755

DOI:10.1111/jopr.13256      [本文引用: 1]

LIU Z, YANG D, ZHANG M, et al

Inferior alveolar nerve canal segmentation on CBCT using U-Net with frequency attentions

[J]. Bioengineering, 2024, 11 (4): 354

DOI:10.4274/meandros.galenos.2021.14632      [本文引用: 1]

JIANG B, ZHANG S, SHI M, et al

Alternate level set evolutions with controlled switch for tooth segmentation

[J]. IEEE Access, 2022, 10: 76563- 76572

DOI:10.1109/ACCESS.2022.3192411      [本文引用: 1]

SABANCı S, ŞENER E, TURHAL R I, et al

Is manual segmentation the real gold standard for tooth segmentation? a preliminary in vivo study using cone-beam computed tomography images

[J]. Meandros Medical and Dental Journal, 2021, 22 (3): 263- 273

DOI:10.4274/meandros.galenos.2021.14632     

TRELENBERG-STOLL V, DRESCHER D, WOLF M, et al

Automated tooth segmentation as an innovative tool to assess 3D-tooth movement and root resorption in rodents

[J]. Head and Face Medicine, 2021, 17 (1): 3

DOI:10.1186/s13005-020-00254-y      [本文引用: 1]

POLIZZI A, QUINZI V, RONSIVALLE V, et al

Tooth automatic segmentation from CBCT images: a systematic review

[J]. Clinical Oral Investigations, 2023, 27 (7): 3363- 3378

DOI:10.1007/s00784-023-05048-5      [本文引用: 1]

ABESI F, HOZURI M, ZAMANI M

Performance of artificial intelligence using cone-beam computed tomography for segmentation of oral and maxillofacial structures: a systematic review and meta-analysis

[J]. Journal of Clinical and Experimental Dentistry, 2023, 15 (11): e954- e962

DOI:10.4317/jced.60287      [本文引用: 1]

CUI Z, LI C, WANG W. ToothNet: automatic tooth instance segmentation and identification from cone beam CT images [C]// IEEE/CVF Conference on Computer Vision and Pattern Recognition. Long Beach: IEEE, 2019: 6361–6370.

[本文引用: 1]

LIU Y, XIE R, WANG L, et al

Fully automatic AI segmentation of oral surgery-related tissues based on cone beam computed tomography images

[J]. International Journal of Oral Science, 2024, 16: 34

DOI:10.1038/s41368-024-00294-z      [本文引用: 1]

WU Q, FENG B, LI W, et al

Automatic segmentation and visualization of cortical and marrow bone in mandibular condyle on CBCT: a preliminary exploration of clinical application

[J]. Oral Radiology, 2025, 41 (1): 88- 101

DOI:10.1007/s11282-024-00780-4      [本文引用: 1]

WEI X, WANG Y

Inferior alveolar canal segmentation based on cone-beam computed tomography

[J]. Medical Physics, 2021, 48 (11): 7074- 7088

DOI:10.1002/mp.15274      [本文引用: 1]

MORGAN N, VAN GERVEN A, SMOLDERS A, et al

Convolutional neural network for automatic maxillary sinus segmentation on cone-beam computed tomographic images

[J]. Scientific Reports, 2022, 12: 7523

DOI:10.1038/s41598-022-11483-3      [本文引用: 1]

DAZA L, SCHNABEL J. DiENTeS: dynamic ENTity segmentation with local-global transformers [C]// International Conference on Medical Image Computing and Computer-Assisted Intervention. Cham: Springer Nature Switzerland, 2025: 21–29.

[本文引用: 2]

薄士仕, 高承志

基于卷积神经网络实现锥形束CT牙齿分割及牙位标定

[J]. 北京大学学报: 医学版, 2024, 56 (4): 735- 740

DOI:10.19723/j.issn.1671-167X.2024.04.030      [本文引用: 2]

BO Shishi, GAO Chengzhi

Tooth segmentation and identification on cone-beam computed tomography with convolutional neural network based on spatial embedding information

[J]. Journal of Peking University: Health Sciences, 2024, 56 (4): 735- 740

DOI:10.19723/j.issn.1671-167X.2024.04.030      [本文引用: 2]

HU J, SHEN L, SUN G. Squeeze-and-excitation networks [C]// IEEE/CVF Conference on Computer Vision and Pattern Recognition. Salt Lake City: IEEE, 2018: 7132–7141.

[本文引用: 1]

LIU Z, WANG Y, VAIDYA S, et al. KAN: Kolmogorov-Arnold networks [EB/OL]. (2025−02−09) [2025−10−13]. https://arxiv.org/pdf/2404.19756.

[本文引用: 1]

IMAK A, ÇELEBI A, POLAT O, et al

ResMIBCU-Net: an encoder–decoder network with residual blocks, modified inverted residual block, and bi-directional ConvLSTM for impacted tooth segmentation in panoramic X-ray images

[J]. Oral Radiology, 2023, 39 (4): 614- 628

DOI:10.1007/s11282-023-00677-8      [本文引用: 1]

LUMETTI L, PIPOLI V, BOLELLI F, et al

Enhancing patch-based learning for the segmentation of the mandibular canal

[J]. IEEE Access, 2024, 12: 79014- 79024

DOI:10.1109/ACCESS.2024.3408629      [本文引用: 1]

BOLELLI F, LUMETTI L, VINAYAHALINGAM S, et al

Segmenting the inferior alveolar canal in CBCTs volumes: the ToothFairy challenge

[J]. IEEE Transactions on Medical Imaging, 2025, 44 (4): 1890- 1906

DOI:10.1109/TMI.2024.3523096     

BOLELLI F, MARCHESINI K, VAN NISTELROOIJ N, et al. Segmenting maxillofacial structures in CBCT volumes [C]// IEEE/CVF Conference on Computer Vision and Pattern Recognition. Nashville: IEEE, 2025: 5238–5248.

[本文引用: 17]

WODZINSKI M, MÜLLER H. Automatic multi-structure segmentation in cone beam computed tomography volumes using deep encoder-decoder architectures [C]// International Conference on Medical Image Computing and Computer-Assisted Intervention. Cham: Springer Nature Switzerland, 2025: 63–71.

[本文引用: 1]

LI C, LIU X, LI W, et al

U-KAN makes strong backbone for medical image segmentation and generation

[J]. Proceedings of the AAAI Conference on Artificial Intelligence, 2025, 39 (5): 4652- 4660

DOI:10.1609/aaai.v39i5.32491      [本文引用: 1]

ZHONG J, TIAN W, XIE Y, et al

PMFSNet: polarized multi-scale feature self-attention network for lightweight medical image segmentation

[J]. Computer Methods and Programs in Biomedicine, 2025, 261: 108611

DOI:10.1016/j.cmpb.2025.108611      [本文引用: 1]

LIU Y, CASTRO M, LEDERLIN M, et al

An improved nonlinear diffusion in Laplacian pyramid domain for cone beam CT denoising during image-guided vascular intervention

[J]. BMC Medical Imaging, 2018, 18 (1): 25

DOI:10.1186/s12880-018-0269-1      [本文引用: 1]

ZHU L, WANG J, XING L

Noise suppression in scatter correction for cone-beam CT

[J]. Medical Physics, 2009, 36 (3): 741- 752

DOI:10.1118/1.3063001      [本文引用: 1]

LEE H, YOON J, LEE E

Anisotropic total variation denoising technique for low-dose cone-beam computed tomography imaging

[J]. Progress in Medical Physics, 2018, 29 (4): 150

DOI:10.14316/pmp.2018.29.4.150      [本文引用: 1]

/