<img src="https://www.zjujournals.com/eng/images/1008-973X/images/logo.png" class="img-responsive">

图 1 KUNet模型的架构图

Fig.1 Architecture diagram of KUNet model

1) 用CKAN替换卷积层. 编码器和解码器中的卷积层被CKAN替换，增强了网络的非线性特性. 在每个CKAN层后，依次添加批归一化、ReLU激活函数和最大池化下采样操作，特征通道数从64逐步增加到1 024. 这样的设计使得模型更适合图像任务中的局部特征提取.

2) KAN特征增强模块. 在解码器中的每次上采样后，插入KAN特征增强模块，用于对上采样后的特征图进行非线性变换，进一步优化特征表达. KAN层的输出表达式为

(1)$ z=\sum\limits_{i=1}^{m}{w}_{i}{\phi }_{i}({F}_{{\mathrm{up}}}) . $

式中：$ {F}_{{\mathrm{up}}} $为上采样后的特征图，$ {w}_{i} $为权重，$ {\phi }_{i} $ 为可学习基函数.

3)优化跳跃连接. 传统UNet中的跳跃连接直接拼接编码器和解码器的特征图，这可能导致信息冗余. 提出在跳跃连接中引入KAN进行预处理，使得编码器特征图经过KAN处理后与解码器特征图拼接，拼接后使用3×3卷积调整通道数. 优化后的跳跃连接公式为

(2)$ {F}_{{\mathrm{skip}}}=\text{Concat(}{F}_{{\mathrm{dec}}}\text{，}\text{KAN(}{F}_{{\mathrm{enc}}}\text{))} . $

式中：$ {F}_{{\mathrm{enc}}} $和$ {F}_{{\mathrm{dec}}} $分别为编码器和解码器的特征图.

4)自适应基函数学习. KAN和CKAN的基函数是通过引入基于三次样条函数的自适应基函数学习动态调整的. 三次样条函数是分段多项式函数，具有平滑性（连续二阶导数）和可微性^[24-25]，能够有效捕捉输入数据的复杂非线性模式. 这种特性使得该模式特别适合用于图像分割任务中的特征表示. 通过引入可训练的三次样条基函数，模型能够在训练过程中学习数据集特定的非线性变换，避免了固定基函数的局限性. 这种自适应性使模型能够更好地处理多模态数据，例如 RGB 图像和灰度图像.

1.2. KAN与CKAN网络

1.2.1. KAN网络

KAN网络基于Kolmogorov-Arnold表示定理^[16]，核心思想是将输入变量映射到可学习的高维函数空间中，从而有效逼近复杂的非线性函数.

Kolmogorov-Arnold表示定理表明，任何连续的多变量函数$ f\colon {[0,1]}^{n}\rightarrow{{ {\bf{R}} }}$都可以通过下式进行表示：

(3)$ f({x}_{1},\cdots ,{x}_{n})=\sum\limits_{q=1}^{2n+1}{\phi }_{q}\left(\sum\limits_{p=1}^{n}{\psi }_{q,p}({x}_{p})\right) . $

式中：$ {\phi }_{q} $和$ {\psi }_{q,p} $为连续函数，分别用于对输入变量和其组合进行变换. 在KAN网络中，基函数$ {\psi }_{q,p}({x}_{p}) $通常是由神经网络学习得到的非线性映射函数，组合函数$ {\phi }_{q} $可以是多项式或其他高维映射形式. KAN网络的数学特性使得它能够有效逼近复杂的非线性映射，尤其是在高维数据上的表现优异. 通过利用这些可学习基函数，KAN网络能够提取输入数据的复杂特征，提升模型的学习能力.

1.2.2. 卷积KAN网络

卷积KAN（convolutional Kolmogorov-Arnold network, CKAN）网络是在KAN网络的基础上，将卷积操作引入模型中^[17]，从而结合卷积神经网络（CNN）和KAN的优点. 卷积操作提供了局部感受野的特性， KAN通过高维非线性映射加强了表达能力. 因此CKAN也更适合用于图像任务，特别是图像的局部特征提取，弥补了传统卷积在复杂图像任务中的局限性，模型架构图见图2.

图 2

图 2 CKAN网络模型的架构图

Fig.2 Architecture diagram of convolutional Kolmogorov-Arnold network model

KAN卷积与CNN中使用的卷积的主要区别在于内核. 在CNN中，内核由权重组成，而在卷积KAN中，内核的每个元素$ \phi $是利用b样条的可学习非线性函数. 形式上，每个元素被定义为

(4)$ \phi \text={w}_{1}\cdot \text{spline}(x)+{w}_{2}\cdot \text{silu}(x) . $

在KAN卷积中，内核在图像上滑动并将相应的激活函数$ {\phi }_{ij} $应用于相应的像素$ {a}_{kl} $，将输出像素计算为$ {\phi }_{ij}({a}_{kl}) $的总和. 设KAN的内核为${\boldsymbol{K}}\in {{{\bf{R}}}}^{N\times M} $，图像矩阵为

(5)$ {{\bf{{Image}=}}}\left[\begin{matrix}{a}_{11} & \ldots & {a}_{1n}\\\vdots & &\vdots\\{a}_{m1} & \cdots & {a}_{mn}\end{matrix}\right], $

则KAN卷积的定义为

(6)$ {({{\bf{Image}}}\ast {\boldsymbol{K}})}_{i,j}=\sum\limits_{k=1}^{N}\sum\limits_{l=1}^{M}{\phi }_{kl}({a}_{i+k,j+l}) . $

结合卷积操作与KAN的高维函数映射，CKAN能够在图像特征提取中实现更强的表现力和鲁棒性.

1.2.3. KAN/CKAN的计算复杂度分析

传统卷积的计算成本随输入/输出通道数和卷积核面积呈乘法增长. CKAN通过通道内基展开与1×1线性混合，主导开销与基的个数呈线性关系，基本不受空间核大小的影响. 当基数小于卷积核面积时，CKAN在参数量和乘加次数上通常显著低于标准卷积，基函数评估的固定开销在高效实现下可忽略. 例如，在2D UNet常见配置下，CKAN可将参数量和计算量降低约50%，该优势在3D分割中随核体积增大而进一步放大. 尽管基展开导致的瞬时通道放大（输入通道数×基数）会对显存和带宽造成压力，但可以通过分组混合、高分辨率阶段自适应设置更小的基数及融合算子等方式缓解.

2. 数据集及预处理

为了全面评估所提模型在多样化应用场景下的性能，选取4个具有代表性的数据集. 这些数据集涵盖医学影像（肝脏、肺部）与眼科诊断（角膜神经、眼底血管）领域，旨在测试模型在不同任务类型和数据结构下的分割能力. 利用这些数据集能够验证模型的鲁棒性和泛化能力. 各数据集的详细信息可以参照表1.

表 1 数据集的统计表

Tab.1 Dataset statistics table

数据集	样本数量	分辨率	分割目标
LiTS	400	512×512	肝脏
CORN	1238	384×384	角膜神经
DRIVE	20	565×584	眼底血管
Lungs	200	512×512	肺

LiTS（Liver Tumor Segmentation Challenge）数据集包含400张肝脏CT/MRI图像，主要用于医学影像中的器官分割任务. 该数据集中存在器官形态变异及图像噪声，要求模型具备较强的鲁棒性和抗噪能力. 由于肝脏分割精度直接影响后续诊断和治疗方案的制定，该数据集中复杂的解剖结构和病理表现对模型的医学影像分割性能提出了显著挑战^[23].

CORN数据集包含1 238张角膜神经图像^[14]，这些图像中的神经结构极为纤细，使得精确分割成为关键难题. 由于角膜神经的准确分割对眼科诊断，尤其是早期角膜疾病检测，具有重要的临床价值，因此要求分割模型必须具备出色的局部细节提取能力.

DRIVE数据集包含20张眼底血管图像^[15]. 尽管样本数量有限，但每张图像均蕴含复杂的纹理与细节，这使得该数据集成为评估模型在小样本下性能的理想选择. 该数据集的核心挑战是如何在数据稀缺的条件下，保证分割结果的精度与稳定性.

Lungs数据集源自2017年Kaggle图像分割竞赛的2D部分，提供200张2D肺部病灶图像. 该任务专注于肺部病灶的精确分割，在肺部疾病早期诊断中具有广泛应用. 这类图像通常展现出较强的结构化特征，因此要求模型能够有效识别并精确分割不同类型的病变区域，保持较高的分割精度和召回率.

为了确保数据处理的一致性并提升模型的训练效果，对所有数据集进行统一的标准化预处理：将像素归一化至[0,1.0]，图像随机裁剪至512×512分辨率，以适配模型输入并降低计算负担. 同时，为了增强模型的泛化能力和鲁棒性，实施随机水平与垂直翻转增强（概率均为0.5），有助于模型学习图像的空间变换特性. 在数据集划分方面，所有数据均严格遵循70%训练集、15%验证集和15%测试集的比例，旨在利用现有数据并确保模型在独立测试集上的泛化能力.

3. 实验与分析

3.1. 评估指标

使用Dice系数，评估模型的分割精度. Dice系数用于衡量预测区域$ P $与真实标签$ G $的重叠程度：

(7)$ {\mathrm{Dice}}=\frac{2|P\cap G|}{|P|+|G|} . $

该指标特别适用于医学图像分割任务，尤其是在处理类不平衡问题时，Dice系数能够反映前景区域的分割质量. 当处理肝脏、肺部或眼科等医学影像时，Dice系数常被用来衡量模型的性能^[26].

交并比（IoU）作为另一种常用指标，通过计算预测区域与真实区域的交集与并集的比值来衡量分割效果^[27]，公式为

(8)$ {\mathrm{IoU}}=\frac{|P\cap G|}{|P\cup G|} . $

IoU在自动驾驶、视频监控及医学影像等领域中被广泛应用，尤其在处理复杂目标和背景时，它能够提供比Dice系数更细致的性能评估.

为了更好地衡量优化模型与基线模型在相同训练周期下的性能差距，定义最大性能差异（maximum absolute performance gap，MAPG）指标：

(9)$ {\text{MAPG}}_{m}=\underset{t\in T}{\max }\,[{M}_{\text{opt}}(t)-{M}_{\text{base}}(t)] . $

式中：$ {M}_{\text{opt}}(t) $和$ {M}_{\text{base}}(t) $分别为优化模型与基线模型在训练周期$ t $上的性能指标（如Dice或IoU）. MAPG 能够反映在相同训练代价下，优化模型相对于基线模型在整个训练过程中的最大性能提升，尤其适用于评估模型在早期训练阶段的收敛速度与优势幅度.

在图像分割任务中，模型性能在经过充分训练后，常常在常规指标（如Dice系数与交并比IoU）上趋近饱和值（即接近1.0）. 在这种情况下，尽管模型在优化后相较于基线模型仍有性能提升，但传统的绝对指标（如Dice增加了0.002）往往难以有效反映优化的真实效益.

为了更合理地评估在高性能区间的相对提升效果，引入归一化相对提升指标$ \varDelta $，定义如下：

(10)$ \varDelta =\frac{A-B}{1-(A+B)/2} . $

式中：$ A $为优化后模型的评估指标（如Dice或IoU），$ B $为基线模型的评估指标，$ A,B\in (0,1.0) $.

式（10）将性能的绝对提升值（即$ A-B $）相对于当前模型与理论上限之间的剩余空间（即$ 1-(A+B)/2 $）进行归一化，衡量单位潜力空间所实现的实际提升，该指标具有如下特点. 1)适应高分段性能评估. 当原始指标接近1时，$ \varDelta $能够有效放大细微的实际改进，更真实地反映优化难度与价值. 2)提升的归一化度量. 该指标将性能提升与“剩余提升空间”联系起来，具有良好的相对评估能力. 3)适用于比较不同的模型优化策略. 在传统指标差异微小的情况下，$ \varDelta $可以提供更具区分度的相对提升视角.

本次实验采用$ \varDelta $指标，衡量KUNet模型相对于其他模型的性能提升. 尤其当Dice和IoU精度指标普遍超过0.9时，$ \varDelta $提供了对优化效果更敏感、更具区分度的评估手段. 通过模型参数量（反映复杂度）和训练时间（决定开发部署效率与实际可行性），评估模型的计算效率.

3.2. 损失函数与模型训练

为了优化分割效果，采用Dice损失与交叉熵损失相结合的混合损失函数，以利用两者在处理类不平衡问题上的互补优势^[28]. 混合损失函数的定义为

(11)$ L=\alpha {L}_{{\mathrm{Dice}}}+(1-\alpha ){L}_{{\mathrm{CE}}} . $

其中，$ \alpha =0.5 $用于平衡2种损失的贡献. Dice损失的公式为

(12)$ {L}_{{\mathrm{Dice}}}=1-\frac{2|P\cap G|}{|P|+|G|} . $

交叉熵损失的公式为

(13)$ {L}_{{\mathrm{CE}}}=-\sum\limits_{c}{G}_{c}\ \mathrm{ln}\; {P}_{c}. $

式中：P_c为当前像素属于类别c的概率；G_c表示真实标签的指示器，即表示对于当前像素，真实类别是否为c.

该损失函数的设计能够有效解决不同数据集中的类不平衡问题，通过优化预测区域$ P $与真实标签$ G $的重叠程度，提高模型的分割精度.

实验基于PyTorch框架开展，训练平台为NVIDIA RTX 4070Ti Super显卡（16 GB显存）. 训练的超参数配置如下：初始学习率设定为10⁻⁴，采用余弦退火调度策略^[29]，最小学习率为10⁻⁶；批次大小设为8，以保证稳定的梯度更新；优化器选择Adam，参数设置为$ {\beta }_{1}=0.9 $，$ {\beta }_{2}=0.999 $. 模型训练过程分为短周期和长周期2种模式. 在短周期模式下，各数据集的训练轮数上限分别如下：LiTS为 15轮，CORN为 2000轮，DRIVE 为1000轮，Lungs为20轮. 在长周期模式下，训练至模型完全收敛.

3.3. 模型可视化分割结果的对比分析

为了验证KUNet的有效性，对比基线模型（UNet、nnUNet、Swin-UNet）与优化模型KUNet在4个数据集（LiTS、CORN、DRIVE及Lungs）上相同训练周期的分割可视化结果. 鉴于数据划分的随机性，各模型测试阶段的可视化样本可能并非源自完全相同的原始图像，故尽可能选取分割难度相近的样本，以确保性能对比的公平性. 具体的分割效果如图3~6所示.

图 3

图 3 在LiTS数据集上的可视化分割结果

Fig.3 Visual segmentation result on LiTS dataset

图 4

图 4 在CORN数据集上的可视化分割结果

Fig.4 Visual segmentation result on CORN dataset

图 5

图 5 在DRIVE数据集上的可视化分割结果

Fig.5 Visual segmentation result on DRIVE dataset

图 6

图 6 在Lungs数据集上的可视化分割结果

Fig.6 Visual segmentation result on Lungs dataset

如图3所示，在LiTS数据集的分割结果中，相较于传统UNet、Swin-UNet及nnUNet，所提出的KUNet模型展现出更优的性能. 从可视化结果分析可知，UNet虽能初步定位肿瘤区域，但边界细节处理模糊，且部分微小区域存在遗漏，表明其在复杂结构特征提取方面存在局限. Swin-UNet借助自注意力机制增强了全局信息建模能力，但分割边界不平滑，并伴随一定程度的块状伪影. nnUNet在结构连续性与边缘准确性方面取得显著提升，分割区域相对完整，但在处理细微结构时存在轻微的像素偏移. KUNet在分割区域提取中展现出更优异的边界贴合度与精确的形状保持能力.

如图4所示，在CORN数据集上的分割结果对比中，各模型间的性能差异显著. UNet模型在提取角膜神经结构时存在明显的漏检现象，尤其是在图像细节部分，分割不连贯，致使部分关键细节丢失. 引入自注意力机制后，Swin-UNet在CORN数据集上的分割能力大幅下降，不能实现有效的分割. 与UNet和Swin-UNet相比，nnUNet模型具备更佳的分割边界连续性，但在处理复杂细节时，存在边界模糊和部分细微结构缺失的问题. 相较而言，KUNet模型在此任务中表现尤为出色，分割结果高度完整，边界保持连贯且细节捕捉更清晰. 尤其在角膜神经的纤细分支区域，KUNet能够更精确地捕捉到丰富的细节，有效抑制噪声干扰.

如图5所示，在DRIVE数据集上，各模型分割性能呈现显著差异. UNet虽能捕捉眼底图像中的主要血管结构，但细节处理存在模糊与遗漏，尤其在纤细血管分割精度上不足. Swin-UNet在引入自注意力机制后，虽在大范围血管结构提取上有所改善，但面对复杂交错血管区域时难以有效处理细节，导致分割边界不连续. nnUNet在血管结构分割精度上有所提升，边界更为连贯，但在处理特定复杂交错血管（尤其是图像边缘与血管分叉处）时灵活性不足. KUNet在该任务中表现最优，分割结果细节清晰且边界连贯，尤其在分支血管捕捉上展现出超越其他模型的精确性，能够高效处理纤细与复杂血管结构，有效避免遗漏与伪分割现象.

如图6所示，在Lungs数据集上各模型呈现显著性能差异. 短周期训练下，UNet甚至未能生成有效分割结果. Swin-UNet虽利用Transformer自注意力机制提升了对大范围结构的捕捉能力，但分割边界处理欠佳，尤其在细小区域分割中出现断裂，导致细节丢失. nnUNet通过结构改进实现了最精确的分割结果，尤其在整体轮廓上呈现出更强的连贯性. KUNet虽在某些方面（如整体轮廓的最高精确度）略逊于nnUNet，但展现了强大的分割性能，不仅在肺部整体区域提取上表现精准，且在细节处理上表现出色，尤其在较小或复杂形状的肺区域能够保持较高的边缘清晰度，有效避免了其他模型常见的漏检与伪分割问题.

综上所述，在4个典型医学图像分割数据集（LiTS、CORN、DRIVE及Lungs）上的实验结果表明，各模型在不同任务中展现出差异化的性能特征. UNet作为基础模型具备一定的结构识别能力，但在复杂场景中常出现边界模糊、细节缺失与小结构漏检等问题，尤其在CORN与DRIVE这类对细节要求较高的数据集上表现相对较弱. 引入Transformer后，Swin-UNet的全局建模能力有所增强，在结构复杂区域（如LiTS与Lungs数据集）能够提取更多上下文信息，但受限于高计算成本与局部连接弱化，在小尺度目标分割与边缘连续性上仍显不足. nnUNet通过自适应网络配置机制显著提升了模型泛化性，在各数据集上均表现稳定，尤其在DRIVE与CORN数据集上边界保持能力较强，但在处理高复杂度场景时存在潜在的过拟合风险或形态偏差. 所提出的KUNet模型综合了多尺度特征融合与边缘感知机制，在所有数据集上均取得最优或近最优的分割效果，尤其在肿瘤、神经与血管等复杂结构识别中展现出卓越的边界精度、细节完整性与鲁棒性，验证了该模型作为优化方案在多类型医学图像分割任务中的有效性与通用性.

3.4. 模型性能曲线的对比分析

为了全面评估KUNet模型相对于nnUNet、Swin-UNet及基线UNet模型的性能优势，绘制4个模型在LiTS、CORN、DRIVE和Lungs数据集上的Dice系数和IoU随训练周期的变化曲线. 鉴于KUNet模型是基于UNet架构改进而成，为了量化其相对于基线模型的性能提升幅度，在曲线图中标注了两者之间的最大绝对性能差距（maximum absolute performance gap, MAPG）. 如图7~10所示分别为4个数据集上各模型在不同训练周期E_n的性能表现.

图 7

图 7 UNet、KUNet、nnUNet、Swin-UNet模型在LiTS数据集上的性能曲线

Fig.7 Performance curve of UNet, KUNet, nnUNet and Swin-UNet model on LiTS dataset

图 8

图 8 UNet、KUNet、nnUNet、Swin-UNet模型在CORN数据集上的性能曲线

Fig.8 Performance curve of UNet, KUNet, nnUNet and Swin-UNet model on CORN dataset

图 9

图 9 UNet、KUNet、nnUNet、Swin-UNet模型在DRIVE数据集上的性能曲线

Fig.9 Performance curve of UNet, KUNet, nnUNet and Swin-UNet model on DRIVE dataset

图 10

图 10 UNet、KUNet、nnUNet、Swin-UNet模型在Lungs数据集上的性能曲线

Fig.10 Performance curve of UNet, KUNet, nnUNet and Swin-UNet model on Lungs dataset

如图7所示为各模型在LiTS数据集上的性能曲线对比结果. KUNet模型在LiTS数据集上表现出优于其他对比模型的性能. Dice系数和IoU曲线表明，KUNet在训练初期便超越UNet、nnUNet和Swin-UNet，并在后续训练过程中持续保持领先优势，最终2项指标均接近1，展现出良好的拟合能力与泛化性能. UNet的性能提升缓慢，最终Dice系数和IoU均处于较低水平，表明该模型在处理复杂医学图像分割任务时存在明显的局限性. Swin-UNet虽然通过引入自注意力机制获得了一定的性能提升，但在训练过程中性能波动较大，收敛稳定性有待改善.

如图8所示为各模型在CORN数据集上的性能曲线对比结果. KUNet在Dice和IoU 2项评价指标上均展现出显著优势. 具体而言，nnUNet虽然在训练初期呈现较快的收敛特性，但最终分割性能不仅低于UNet，且与KUNet存在明显差距. Swin-UNet尽管引入Transformer架构以增强全局上下文信息的捕获能力，但在CORN数据集上的分割效果欠佳，几乎未能进行有效地分割.

如图9所示为各模型在DRIVE数据集上的性能曲线对比结果. KUNet展现出最优的分割性能，Dice系数与IoU系数均显著优于其他对比模型. 具体而言，KUNet在训练初期便实现Dice与IoU系数的快速提升，尽管在前期收敛速度略低于nnUNet，但最终两项指标均达到最高值，体现出优异的收敛特性与鲁棒性. UNet的性能提升较缓慢且波动显著，最终稳定于较低水平，暴露出该模型在此任务中的固有局限性. nnUNet前期分割性能略优于UNet，后期Dice与IoU系数虽然有所提升，但整体收敛速度不及KUNet. Swin-UNet在训练早期呈现较快上升趋势，但后续增长趋缓，最终性能未能超越KUNet与nnUNet. 综上所述，KUNet在DRIVE数据集上兼具快速收敛能力与高精度稳定性，充分验证了其在视网膜血管分割任务中的优越性.

如图10所示为各模型在Lungs数据集上的性能曲线对比结果. KUNet与nnUNet均在训练早期迅速达到较高性能水平，并在中后期保持稳定. nnUNet的最终性能略低于KUNet，验证了KUNet在分割精度与稳定性方面的优势. UNet的训练过程呈现明显的性能滞后特征：前20轮迭代内Dice与IoU系数近乎为零，直至中后期才出现显著增长，暴露出其在特征提取与边界定位方面的固有缺陷. Swin-UNet虽然依托Transformer架构展现出良好的整体收敛趋势，且早期性能提升迅速，但收敛阶段略有延迟，最终性能不及KUNet与nnUNet.

综合CORN、DRIVE、LiTS及Lungs 4个典型医学图像分割数据集上的性能曲线图可知，所提出的KUNet模型在Dice与IoU两项关键评价指标上均展现出显著优势. 从整体趋势分析，KUNet于训练初期即呈现快速收敛特性，并在中后期保持稳定增长，于全部4个数据集上均达到或接近最优性能，体现了其卓越的全局上下文建模与细节表征能力. nnUNet的性能曲线相对平稳，具备一定的泛化能力，但在收敛速度与最终精度方面均略逊于KUNet. Swin-UNet凭借自注意力机制在特定训练阶段实现了性能的快速增长，然而收敛阶段存在波动性，稳定性不足. 综上所述，KUNet在4个数据集上均实现了更快的收敛速度、更高的分割精度及更强的鲁棒性，充分验证了其在多种医学图像分割任务中的通用性与优越性.

3.5. 性能对比分析

为了更全面地量化KUNet在训练过程中相对于基线模型UNet的性能提升幅度，引入最大性能提升指标（MAPG）. 该指标旨在度量KUNet与UNet在同一训练周期下的最大性能增益，详细数据见表2. 该指标在图7~10中均予以标记.

表 2 KUNet模型与UNet基线模型在各数据集上的最大性能差距

Tab.2 Maximum performance gap between KUNet model and UNet baseline model on each dataset

数据集	周期	Dice		MAPG₁	IoU		MAPG₂
数据集	周期	UNet模型	KUNet模型	MAPG₁	UNet模型	KUNet模型	MAPG₂
LiTS	10	0	0.9786	0.9786	0	0.9582	0.9582
CORN	200	0.0653	0.1264	0.0611	0.0339	0.0677	0.0338
DRIVE	300	0	0.7147	0.7147	0	0.5561	0.5561
Lungs	10	0	0.9651	0.9651	0	0.9332	0.9332
均值	—	—	—	0.6799	—	—	0.6203

表2呈现了KUNet模型相对于UNet基线模型的性能提升幅度（MAPG）. 结果表明，KUNet在不同数据集上的性能增益存在显著差异. 具体而言，在LiTS数据集上，Dice系数（MAPG₁）与IoU系数（MAPG₂）的性能提升分别达到0.9786与0.9582；在DRIVE数据集上，两项指标分别为0.7147与0.5561；在Lungs数据集上，则分别为0.9651与0.9332. 上述结果充分表明，KUNet在早期训练阶段即可实现快速收敛，并取得显著的分割性能提升. 然而，在CORN数据集上，MAPG₁与MAPG₂仅为0.0611与0.0338，表明KUNet与UNet在该数据集上的性能差距相对较小，提升幅度较为有限. 从总体均值来看，MAPG₁与MAPG₂分别达到0.6799与0.6203，验证了KUNet在多数医学图像分割任务中的有效性.

综上所述，实验结果表明，KUNet模型在多个数据集上均较UNet基线模型获得了显著的性能提升，尤其是在早期训练阶段，KUNet模型能够更快地达到更高的性能水平. 尽管在部分复杂数据集（如CORN）上，KUNet的优化效果相对有限，但总体而言，KUNet模型展现出更强的适应性和更高的分割精度.

为了评估所提优化策略的有效性，在LiTS、CORN、DRIVE和Lungs4个数据集上对nnUNet、Swin-UNet、UNet及KUNet模型进行了训练与测试，并采用标准评估指标进行性能量化. 为系统化分析KUNet模型相对于对比模型的性能差异，定义相对提升指标$ \varDelta $及其均值$ \overline{\varDelta } $，用于衡量KUNet与各数据集上最优或次优模型的性能差距. 具体而言，若KUNet在某数据集上取得最优性能，则$ \varDelta $表示其相对于次优模型的提升幅度（正值）；若KUNet为次优，则$ \varDelta $表示其与最优模型的性能差距（负值，在表中以“↓”标识）；若KUNet未进入前两名，则该数据集不纳入$ \varDelta $计算. 表3中，最优结果以加粗字体标注.

表 3 UNet、KUNet、nnUNet、SWin-UNet模型在各数据集上的最佳性能

Tab.3 Best performance of UNet, KUNet, nnUNet and SWin-UNet model on each dataset

网络模型	Dice				IoU
网络模型	LiTS	CORN	DRIVE	Lungs	LiTS	CORN	DRIVE	Lungs
UNet	0.9809	0.5133	0.8104	0.9609	0.9626	0.3531	0.6813	0.9248
nnUNet	0.9917	0.3219	0.7981	0.9747	0.9837	0.2049	0.6521	0.9563
Swin-UNet	0.9842	0.0815	0.6875	0.9571	0.9688	0.043	0.5239	0.9177
KUNet	0.9905	0.5302	0.9301	0.9842	0.9811	0.3681	0.8694	0.9689
$ \varDelta $	0.1348↓	0.0353	0.9225	0.4623	0.1477↓	0.0235	0.8373	0.3369
$ \overline{\varDelta } $	0.3213				0.2625

表3展示了各模型在不同数据集上的最终分割性能. 结果表明，KUNet在多数数据集上均展现出显著优势，验证了所提优化策略的有效性. 具体而言，在LiTS数据集上，KUNet取得Dice系数0.9905与IoU系数0.9301，均为次优性能，与最优的nnUNet相差仅0.0012与0.0026，相对提升指标分别为−0.134 8与−0.147 7. 在CORN数据集上，nnUNet与Swin-UNet的分割性能均低于UNet基线模型，而KUNet显著优于UNet，Dice与IoU系数的相对提升指标分别为0.0353与0.0235，体现了其在复杂数据集上的处理能力. 在DRIVE数据集上，KUNet表现最优，Dice系数（0.9301）与IoU系数（0.8694）均位列第一，较次优的UNet模型具有显著优势，相对提升指标达到最高值0.9225与0.8373. 在Lungs数据集上，KUNet的Dice系数与IoU系数分别为0.9842与0.9698，相对提升指标为0.4623与0.3369，展现了该模型对于复杂数据分布的强适应性与鲁棒性. 综上所述，KUNet在4个数据集中3项指标最优、1项次优，综合性能位居首位. 平均而言，Dice与IoU系数的相对提升指标分别为0.3213与0.2625，证明了KUNet模型的有效性与泛化能力.

为了对比各模型的计算效率，统计各模型达到最佳性能时所需的训练周期数及相应的训练时间，如表4所示. 其中，$ {E}_{\text{UNet}} $、 $ {E}_{\text{nnUNet}} $、$ {E}_{\text{Swin-UNet}} $、$ {E}_{\text{KUNet}} $分别为各模型的最佳周期，$ {T}_{\text{UNet}} $、$ {T}_{\text{nnUNet}} $、$ {T}_{\text{Swin-UNet}} $、$ {T}_{\text{KUNet}} $分别为相应的训练时间.

表 4 UNet、KUNet、nnUNet、Swin-UNet模型在各数据集上的计算效率

Tab.4 Calculation efficiency of UNet, KUNet, nnUNet and Swin-UNet model on each dataset

数据集	$ {E}_{\text{UNet}} $	$ {E}_{\text{nnUNet}} $	$ {E}_{\text{Swin-UNet}} $	$ {E}_{\text{KUNet}} $	$ {T}_{\text{UNet}} $/s	$ {T}_{\text{nnUNet}} $/s	$ {T}_{\text{Swin-UNet}} $/s	$ {T}_{\text{KUNet}} $/s
LiTS	100	100	100	100	557.11	4344	544	998.17
CORN	2000	100	2000	2000	37674.04	5507	15380	57941.40
DRIVE	5000	5000	5000	10000	1630.20	63932	1659	5458.41
Lungs	100	100	100	50	262.87	5509	383	241.84

从表4可以看出，不同模型在效率与性能权衡方面存在显著差异. UNet在LiTS与Lungs数据集上展现出相对较快的训练速度，尤其在Lungs数据集上仅需262.87 s. 在CORN与DRIVE数据集上，该模型需要较多的训练轮次（分别为2000与5000轮），导致训练时间分别达到37674.04 s与1630.20 s，反映出该模型对不同数据规模与复杂度的适应能力有限. nnUNet则表现出良好的稳定性，但训练时间普遍较长，在DRIVE数据集上高达63 932 s，表明其自动配置机制在提升泛化能力的同时伴随较高的计算代价. Swin-UNet的训练周期与UNet相近（LiTS与Lungs均为100轮，CORN为2 000轮），但训练时间普遍较短，在LiTS与Lungs上分别仅需544 s与383 s，体现出较高的训练效率；在CORN数据集上需要15380 s，说明Swin-UNet的计算效率优势随着数据规模或复杂度的增加而减弱. KUNet在CORN与DRIVE数据集上分别需要2000与10000轮训练周期，总体训练时间处于合理范围；在Lungs数据集上仅需50轮即可达到最佳性能，训练用时为241.8 s，表明KUNet对轻量级数据具有良好的适应性.

综上所述，KUNet在多数数据集上取得了优异性能，但在LiTS数据集上略逊于nnUNet. 经分析可知，该差异主要源于模型针对特定数据集的适配策略不同，而非主干网络表达能力不足. nnUNet的优势在于其针对腹部CT影像的自适应处理流程. 通过自动调整体素间距与重采样方案，处理各向异性分辨率. 利用强度归一化与软组织窗口化技术，增强对比度. 采用前景优先采样策略、Dice与交叉熵联合损失函数及深度监督机制，应对类别不平衡问题并提升小病灶检出率. 运用级联策略实现粗定位与精细化分割，增强对形态变异与噪声的鲁棒性. 通过优化的数据增强（强度偏移、伽马变换、弹性形变）、推理策略（滑窗预测、测试时增强、2D/3D集成）及后处理（连通域过滤、空洞填充），抑制假阳性. 上述策略对于处理LiTS数据集中形态变异显著、噪声突出、前景稀疏等问题具有关键作用，使得nnUNet在该数据集上表现出优势.

KUNet在CORN数据集上的性能提升有限，可能原因如下. 1）KAN模块的可训练基函数在处理极细目标结构时存在适应性限制，影响特征映射质量. 2）CKAN的感受野设计侧重多尺度特征提取，对于微小且密集分布的神经末梢，可能出现覆盖不足或特征稀释的现象. 3）当前模型缺乏针对角膜神经细结构的专门优化机制（如局部上下文建模或细节增强模块）. 后续研究可以考虑引入轻量级局部注意力机制、基函数尺度自适应调节或基于形态学先验的细结构引导策略，提升模型在细小目标分割任务中的性能与泛化能力.

KUNet在部分任务中训练效率下降的问题主要源于CKAN与KAN模块的较高计算复杂度. CKAN虽然增强了多尺度特征提取能力，但复杂的核函数计算与多通道交互操作增加了计算开销. 编码器与解码器中引入的KAN层虽然提升了细节保留与特征融合能力，但基于可训练基函数的非线性表达机制导致计算量显著增加. 针对该问题，可以采用以下优化策略：通道剪枝、低秩分解（用于压缩CKAN卷积核与KAN参数矩阵）、KAN模块稀疏化或知识蒸馏等轻量化方法；或将CKAN替换为深度可分离卷积结构，以降低推理与训练成本.

3.6. 消融实验

为了评估KUNet模型中各优化模块的具体贡献，在LiTS数据集上设计消融实验. KUNet在UNet基线模型的基础上引入3项关键改进：在跳跃连接中嵌入KAN层，在解码器上采样后引入KAN层，以及采用CKAN替代传统卷积层. 实验采用控制变量法，每组实验仅变更单一模块，其余配置均与完整的KUNet模型保持一致. 在与主实验相同的训练配置下，对以下4种变体模型进行评估，结果如表5所示. 1）变体A：移除跳跃连接中的KAN层. 2）变体B：移除解码器上采样后的KAN层. 3）变体C：将所有CKAN层替换为传统的双卷积模块. 4）变体D：将自适应基函数（三次样条函数）替换为固定基函数，即冻结基函数参数（线性层权重），仅学习共享系数.

表 5 不同模块配置下的消融实验结果比较

Tab.5 Comparison of ablation study result under different module configuration

模型	Dice	IoU
完整KUNet	0.9905	0.9811
变体A	0.9886	0.9774
变体B	0.9904	0.9810
变体C	0.9825	0.9657
变体D	0.9892	0.9786

变体A的Dice系数与IoU分别下降0.0019与0.0037，表明跳跃连接中的KAN层通过增强低级特征与高级特征的语义匹配，有效促进了多尺度特征融合，使解码器能够生成更精确的分割结果. 变体B的Dice系数与IoU仅分别下降0.0001，与完整模型的性能基本持平，表明解码器上采样后的KAN层对模型性能的提升具有边际效应，该配置可以为后续网络结构设计提供参考. 变体C的Dice系数与IoU分别下降0.0080与0.0154，降幅最显著，表明CKAN层在特征提取阶段发挥关键作用. 相较于传统卷积层，CKAN层凭借自适应特性与多尺度信息融合能力，能够在不同尺度特征间建立更强的非线性关联，提升特征表示的丰富性与判别性. 变体D的Dice系数与IoU分别下降0.001 3与0.002 5，表明自适应基函数能够在训练过程中学习数据特定的非线性变换，克服了固定基函数的表达能力局限性，进而提升模型的分割精度.

上述消融实验结果定量验证了各优化模块对KUNet性能的贡献程度. 其中，CKAN层贡献最显著，证实了其在多尺度特征提取中的核心作用. 跳跃连接中的KAN层次之，验证了其在特征融合阶段的有效性. 自适应基函数机制表现出明显的优势，体现了数据自适应学习的必要性. 解码器上采样后的KAN层贡献相对有限，但保留了一定的性能提升潜力. 综上所述，4项优化模块的协同作用共同构成了KUNet的性能优势.

4. 结　语

提出基于KAN与CKAN的UNet优化模型KUNet. 该模型采用CKAN模块替代传统卷积层，结合特征增强机制、优化的跳跃连接与自适应基函数策略，有效提升了模型的非线性表达能力与细节还原能力. 在4个多模态数据集上的实验表明，该模型在Dice和IoU等评价指标上均优于对比模型，尤其在小样本和短周期训练条件下展现出更高的分割精度与泛化能力. 尽管训练时间有所增加，但考虑到性能的显著提升，该计算开销在可接受范围内. 后续研究将重点关注模型的轻量化设计，以提升性能并推动模型在实际应用场景中的部署.

参考文献

原文顺序

文献年度倒序

文中引用次数倒序

被引期刊影响因子

[1]

GARCIA-GARCIA A, ORTS-ESCOLANO S, OPREA S, et al. A review on deep learning techniques applied to semantic segmentation [EB/OL]. [2025-08-17]. https://arxiv.org/abs/1704.06857.

[2]

MINAEE S, BOYKOV Y, PORIKLI F, et al

Image segmentation using deep learning: a survey

[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2021, 44 (7): 3523- 3542

[3]

ROTH H R, LU L, FARAG A, et al. DeepOrgan: multi-level deep convolutional networks for automated pancreas segmentation [C]//Medical Image Computing and Computer-Assisted Intervention. Cham: Springer, 2015: 556–564.

[4]

LITJENS G, KOOI T, BEJNORDI B E, et al

A survey on deep learning in medical image analysis

[J]. Medical Image Analysis, 2017, 42: 60- 88

DOI:10.1016/j.media.2017.07.005 [本文引用: 1]

[5]

DEVALLA S K, PHAM T H, PANDA S K, et al

Towards label-free 3D segmentation of optical coherence tomography images of the optic nerve head using deep learning

[J]. Biomedical Optics Express, 2020, 11 (11): 6356- 6378

DOI:10.1364/BOE.395934 [本文引用: 1]

[6]

CORDTS M, OMRAN M, RAMOS S, et al. The cityscapes dataset for semantic urban scene understanding [C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas: IEEE, 2016: 3213–3223.

[7]

RONNEBERGER O, FISCHER P, BROX T. U-Net: convolutional networks for biomedical image segmentation [C]//Medical Image Computing and Computer-Assisted Intervention. Cham: Springer, 2015: 234–241.

[8]

ZHOU Z, RAHMAN SIDDIQUEE M M, TAJBAKHSH N, et al. UNet++: a nested U-Net architecture for medical image segmentation [C]//Deep Learning in Medical Image Analysis and Multimodal Learning for Clinical Decision Support. Cham: Springer, 2018: 3–11.

[本文引用: 2]

[9]

ZHAO H, SHI J, QI X, et al. Pyramid scene parsing network [C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Honolulu: IEEE, 2017: 6230–6239.

[10]

CHEN L C, PAPANDREOU G, KOKKINOS I, et al

DeepLab: semantic image segmentation with deep convolutional nets, atrous convolution, and fully connected CRFs

[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2018, 40 (4): 834- 848

DOI:10.1109/TPAMI.2017.2699184 [本文引用: 1]

[11]

CAO H, WANG Y, CHEN J, et al. Swin-Unet: Unet-like pure transformer for medical image segmentation [C]// European Conference on Computer Vision. Cham: Springer, 2023: 205–218.

[12]

ISENSEE F, JAEGER P F, KOHL S A A, et al

nnU-NET: a self-configuring method for deep learning-based biomedical image segmentation

[J]. Nature Methods, 2021, 18 (2): 203- 211

DOI:10.1038/s41592-020-01008-z [本文引用: 1]

[13]

ISENSEE F, PETERSEN J, KLEIN A, et al. nnU-NET: self-adapting framework for U-Net-based medical image segmentation [EB/OL]. [2025-08-17]. https://arxiv.org/abs/1809.10486.

[14]

MOU L, ZHAO Y, CHEN L, et al. CS-Net: channel and spatial attention network for curvilinear structure segmentation [C]//Medical Image Computing and Computer Assisted Intervention. Cham: Springer, 2019: 721–730.

[本文引用: 3]

[15]

STAAL J, ABRAMOFF M D, NIEMEIJER M, et al

Ridge-based vessel segmentation in color images of the retina

[J]. IEEE Transactions on Medical Imaging, 2004, 23 (4): 501- 509

DOI:10.1109/TMI.2004.825627 [本文引用: 3]

[16]

LIU Z, WANG Y, VAIDYA S, et al. KAN: Kolmogorov-Arnold networks [EB/OL]. [2025-08-17]. https://arxiv.org/abs/2404.19756.

[本文引用: 3]

[17]

BODNER A D, TEPSICH A S, SPOLSKI J N, et al. Convolutional Kolmogorov-Arnold networks [EB/OL]. [2025-08-17]. https://arxiv.org/abs/2406.13155.

[本文引用: 3]

[18]

LI C, LIU X, LI W, et al

U-KAN makes strong backbone for medical image segmentation and generation

[J]. Proceedings of the AAAI Conference on Artificial Intelligence, 2025, 39 (5): 4652- 4660

DOI:10.1609/aaai.v39i5.32491 [本文引用: 1]

[19]

MA X, WANG Z, HU Y, et al. Kolmogorov-Arnold network for remote sensing image semantic segmentation [EB/OL]. [2025-08-17]. https://arxiv.org/abs/2501.07390.

[20]

AGRAWAL A, AGRAWAL A, GUPTA S, et al. KAN-Mamba FusionNet: redefining medical image segmentation with non-linear modeling [EB/OL]. [2025-08-17]. https://arxiv.org/abs/2411.11926.

[21]

OKTAY O, SCHLEMPER J, FOLGOC L L, et al. Attention U-Net: learning where to look for the pancreas [EB/OL]. [2025-08-17]. https://arxiv.org/abs/1804.03999.

[22]

ZHANG Z, LIU Q, WANG Y

Road extraction by deep residual U-Net

[J]. IEEE Geoscience and Remote Sensing Letters, 2018, 15 (5): 749- 753

DOI:10.1109/LGRS.2018.2802944 [本文引用: 1]

[23]

BILIC P, CHRIST P, LI H B, et al

The Liver tumor segmentation benchmark (LiTS)

[J]. Medical Image Analysis, 2023, 84: 102680

DOI:10.1016/j.media.2022.102680 [本文引用: 2]

[24]

SCHOENBERG I J. Contributions to the problem of approximation of equidistant data by analytic functions: part A. -on the problem of smoothing or graduation. a first class of analytic approximation formulae [J]. Quarterly of Applied Mathematics, 1946, 4(1): 45–99.

DOI:10.1090/s0025-5718-1957-0093894-6 [本文引用: 1]

[25]

HOLLADAY J C

A smoothest curve approximation

[J]. Mathematical Tables and Other Aids to Computation, 1957, 11 (60): 233- 243

[26]

MILLETARI F, NAVAB N, AHMADI S A. V-net: fully convolutional neural networks for volumetric medical image segmentation [C]// Proceedings of the Fourth International Conference on 3D Vision. Stanford: IEEE, 2016: 565–571.

DOI:10.1016/j.compmedimag.2019.04.005 [本文引用: 1]

[27]

EVERINGHAM M, VAN GOOL L, WILLIAMS C K I, et al

The pascal visual object classes (VOC) challenge

[J]. International Journal of Computer Vision, 2010, 88 (2): 303- 338

DOI:10.1007/s11263-009-0275-4 [本文引用: 1]

[28]

TAGHANAKI S A, ZHENG Y, ZHOU K S, et al

Combo loss: handling input and output imbalance in multi-organ segmentation

[J]. Computerized Medical Imaging and Graphics, 2019, 75: 24- 33

[29]

LOSHCHILOV I, HUTTER F. SGDR: stochastic gradient descent with warm restarts [EB/OL]. [2025-08-17]. https://arxiv.org/abs/1608.03983.