浙江大学学报(工学版), 2026, 60(5): 1082-1091 doi: 10.3785/j.issn.1008-973X.2026.05.017

计算机技术、控制工程

多尺度残差学习结合Dilformer的双流医学图像配准网络

彭静,, 闫佳荣, 刘佳英, 魏子易, 白珊, 邓亚红

兰州交通大学 电子与信息工程学院,甘肃 兰州 730070

Multi-scale residual learning combined with Dilformer for dual-stream medical image registration network

PENG Jing,, YAN Jiarong, LIU Jiaying, WEI Ziyi, BAI Shan, DENG Yahong

School of Electronic and Information Engineering, Lanzhou Jiaotong University, Lanzhou 730070, China

收稿日期: 2025-06-3  

基金资助: 国家自然科学基金资助项目(62241106,61861025);智能化隧道监理机器人研究项目(中铁科研院字2020-KJ016-Z016-A2);甘肃省重点研发计划(甘科计[2024]10号-24YFGA037);甘肃省科技专员专项(甘科计[2023]18号-23CXGA0008).

Received: 2025-06-3  

Fund supported: 国家自然科学基金资助项目(62241106,61861025);智能化隧道监理机器人研究项目(中铁科研院字2020-KJ016-Z016-A2);甘肃省重点研发计划(甘科计[2024]10号-24YFGA037);甘肃省科技专员专项(甘科计[2023]18号-23CXGA0008).

作者简介 About authors

彭静(1981—),女,副教授,从事图像处理研究.E-mail:pj@mail.lzjtu.cn , E-mail:pj@mail.lzjtu.cn

摘要

针对现有医学图像配准算法存在复杂形变配准精度低和模型泛化能力差的问题,提出多尺度残差学习结合多膨胀感知Transformer(Dilformer)的双流医学图像配准网. 提出多尺度残差学习模块(MSR),在双流金字塔特征提取阶段,增强网络特征的表达能力. 设计Dilformer,通过多膨胀率扩张卷积构建异质感受野特征交互机制,增强模型在低尺度空间的全局建模能力. 提出可分离残差融合模块(SRF),融合多尺度特征信息以提升模型预测形变场的准确性. 引入多分辨率损失函数,在不同尺度上约束网络训练,提升配准性能. 实验结果表明,所提网络在3D MRI脑部LPBA40和预处理的IXI数据集上配准精度均优于现有对比模型. 在IXI数据集上,所提网络的戴斯相似系数为0.769,95%分位豪斯多夫距离为8.937,负雅克比行列式比率为0.029,推理时间为0.29 s,证明了该网络在复杂形变医学图像配准中的有效性和实用性.

关键词: 图像配准 ; 扩张卷积 ; Transformer ; 核磁共振图像 ; 多分辨率损失

Abstract

To address the challenges of low registration accuracy under complex deformations and limited generalization ability in existing medical image registration algorithms, a dual-stream registration network that integrates multi-scale residual learning with a multi-dilated perception Transformer (Dilformer) was proposed. First, a multi-scale residual learning block (MSR) was introduced to enhance feature representation during the dual-stream pyramid feature extraction stage. Then, the Dilformer module was designed to construct a heterogeneous receptive field interaction mechanism using multi-rate dilated convolutions, thereby improving the model’s global modeling capacity at low-resolution scales. Subsequently, a separable residual fusion block (SRF) was developed to effectively fuse multi-scale features and enhance the accuracy of the predicted deformation field. Finally, a multi-resolution loss function was introduced to supervise network training across multiple scales, further improving registration performance. Experimental results on the 3D brain MRI datasets LPBA40 and preprocessed IXI demonstrate that the proposed network achieves superior accuracy compared to state-of-the-art models. Specifically, on the IXI dataset, the proposed network achieves a Dice similarity coefficient of 0.769, a 95th percentile Hausdorff distance of 8.937, a negative Jacobian determinant rate of 0.029, and an inference time of 0.29 s. These results confirm the effectiveness and practical applicability of the proposed network in complex deformation medical image registration tasks.

Keywords: image registration ; dilated convolution ; Transformer ; MRI image ; multi-resolution loss

PDF (6002KB) 元数据 多维度评价 相关文章 导出 EndNote| Ris| Bibtex  收藏本文

本文引用格式

彭静, 闫佳荣, 刘佳英, 魏子易, 白珊, 邓亚红. 多尺度残差学习结合Dilformer的双流医学图像配准网络. 浙江大学学报(工学版)[J], 2026, 60(5): 1082-1091 doi:10.3785/j.issn.1008-973X.2026.05.017

PENG Jing, YAN Jiarong, LIU Jiaying, WEI Ziyi, BAI Shan, DENG Yahong. Multi-scale residual learning combined with Dilformer for dual-stream medical image registration network. Journal of Zhejiang University(Engineering Science)[J], 2026, 60(5): 1082-1091 doi:10.3785/j.issn.1008-973X.2026.05.017

医学图像配准作为图像分析中的基本任务,用于评估移动图像和固定图像之间的非线性映射关系,使两幅图像上的像素点坐标达到空间上的一致,已广泛应用于病情诊断、术前计划和术中导航[1-2]. 传统图像配准方法通过最小化目标函数实现两幅图像在空间上的配准,如SyN[3]、LDDMM[4]. 上述方法须对每幅图像都进行迭代优化,存在耗时长、计算成本高和处理复杂形变能力不足的问题[5-6].

随着深度学习的快速发展,卷积神经网络(CNN)已广泛应用于医学图像分析领域,在医学图像配准任务中取得良好效果. Balakrishnan等[7]提出的VoxelMorph模型,使用U-Net[8]和分割掩码进行模型训练,预测出形变场,结合空间变换网络[9](spatial transformation network,STN)对移动图像进行配准. VoxelMorph网络感受野大小有限,对复杂形变配准效果不佳. Jia等[10]提出轻量化的LKU-Net模型,使用4层并行大内核卷积模块,在扩大感受野的同时提升了配准精度. 这些方法是以CNN为基础构建的网络,缺乏长距离依赖建模能力,对复杂形变信息捕获能力不足. Transformer[11]在自然语言处理领域有出色表现,被广泛应用在医学图像处理领域,并取得显著成效[12]. Qiu等[13]提出UTR模型,采用通道和滑动窗口注意力构建融合注意力模块(fusion attention block,FAB),结合CNN和Transformer的优势,充分捕获图像的全局上下文关系和局部细粒度信息,显著提升了模型的配准性能. 该模型参数量较大,在实时配准任务中的应用受到一定限制. Ma等[14]提出PIViT模型,使用新的迭代金字塔配准网络和Swin Transformer[15],利用金字塔结构和低尺度迭代配准的方法,从粗到细逐步细化形变场. 该模型在金字塔编码端特征提取能力不足,无法有效捕获图像的细粒度信息. Wang等[16]提出RDP-Net模型,将残差模块作为特征提取的骨干,使用递归策略和融合高级语义信息预测形变场,提高预测形变场的准确性. 该模型在面对不同数据集时泛化能力有限.

现有医学图像配准中存在复杂形变配准精度低和模型泛化性差的问题,本研究提出多尺度残差学习结合多膨胀感知Transformer(Dilformer)的双流医学图像配准网络(multi-scale residual learning combined with Dilformer for dual-stream medical image registration network,MSRD-Net). 1)提出双流金字塔编码结构和多尺度残差学习模块(multi-scale residual learning block,MSR),提升模型对不同尺度下细粒度信息的捕捉能力. 2)构建新型的Transformer架构多膨胀感知Transformer(Dilformer),通过多膨胀率扩张卷积和稀疏注意力机制实现在低尺度空间全局形变的精准预测. 3)设计可分离残差融合模块(separable residual fusion block,SRF),通过逐级配准策略融合多尺度语义信息,引入残差连接结构以提升特征融合效率与形变场建模的稳定性. 4)引入多分辨率损失函数,在不同层级上捕捉形变信息,从全局视角优化形变估计,提高模型在解剖结构复杂区域的配准性能. 在预处理的IXI和LPBA40这2个3D医学图像数据集上进行实验分析,验证MSRD-Net对复杂形变图像配准的有效性.

1. 配准方法

1.1. 无监督双流医学图像配准框架

图1所示为无监督双流医学图像配准框架:移动图像$ {\boldsymbol{I}}_{\mathrm{M}} $和固定图像$ {\boldsymbol{I}}_{\mathrm{F}} $分别输入MSRD-Net中,预测出形变场;利用空间变换网络,对移动图像进行插值重采样操作,得到配准后的图像$ {\boldsymbol{I}}_{\mathrm{W}} $.

图 1

图 1   无监督双流医学图像配准框架

Fig.1   Unsupervised dual-stream medical image registration framework


1.2. 多尺度残差学习结合Dilformer的双流医学图像配准网络

现有模型通常采用单编码-解码结构,将移动图像和固定图像同时输入网络,进行特征提取和形变场预测. 这种单流架构依赖CNN或Transformer对固定图像和移动图像的特征进行交互融合,难以对复杂形变信息进行准确建模,限制了配准精度[17]. 鉴于此,本研究提出的双流配准网络MSRD-Net由多尺度残差特征提取模块、Dilformer模块和可分离残差融合模块组成,实现从特征提取到形变建模,再到多尺度信息融合的高效流程,如图2所示. 1)在双流金字塔特征提取阶段,将移动图像和固定图像分别作为输入,依次通过3个连续的多尺度残差特征学习模块和下采样操作,提取不同尺度下的特征信息,以增强模型对局部细节与全局结构的感知能力. 2)在低尺度迭代配准阶段,将连续下采样的低尺度特征拼接后输入Dilformer,以提取形变特征并预估形变场. 3)利用STN对低尺度移动特征图像进行变换,得到配准后特征图像. 4)将配准后的特征图像和低尺度固定特征图像进行拼接,输入Dilformer模块,经过2次迭代提取,生成最终的低尺度特征,使模型具备更强的全局语义表达能力. 5)对低尺度特征图像进行上采样,并与编码端相同尺度的特征图像分别输入可分离残差融合模块中,通过连续3层计算,以生成高精度的形变场.

图 2

图 2   多尺度残差学习结合Dilformer的双流医学图像配准网络

Fig.2   Multi-scale residual learning combined with Dilformer for dual-stream medical image registration network


1.3. 多尺度残差学习模块

为了提升模型对图像中多尺度特征的表达能力,设计MSR,用于捕获局部细节和全局上下文信息[18]. 如图3所示,MSR由4条并行路径构成,分别采用1×1×1、3×3×3、5×5×5、7×7×7的卷积核从不同感受野下提取丰富特征信息,有效增强纹理模糊或低对比度区域的上下文感知能力. 直接拼接多尺度特征容易引入低层分支中的高频噪声,干扰高层语义表达,造成特征表示不一致、语义冗余的问题. 借鉴InceptionNet和ResNet的设计思想,在多尺度特征融合前引入1×1×1卷积进行降维,用于整合不同尺度特征深层语义信息,并增强细粒度特征表达. 通过残差连接保留原始输入特征,并结合ReLU激活函数和批归一化操作,进一步提升模型的非线性建模能力与训练稳定性. 为了降低多内核带来的计算开销,MSR采用卷积分解策略[19],将k×k×k的卷积分解为3步:k×1×1、1×k×1和1×1×k的卷积操作,即保留了大感受野特性,又有效减少了参数量与计算复杂度.

图 3

图 3   多尺度残差学习模块

Fig.3   Multi-scale residual learning block


1.4. 多膨胀感知Transformer模块

在医学图像配准任务中,低尺度形变场预测阶段对整体配准性能至关重要. 在低尺度配准阶段,现有模型多采用普通卷积层进行特征聚合,难以有效建模全局形变信息,导致在处理复杂变形结构时估计形变场精度受限. 设计Dilformer,通过引入多尺度上下文信息和稀疏注意力机制,有效缓解传统卷积在复杂形变结构及低对比度区域配准中的不足,显著提升配准精度. 每个Dilformer模块主要由多膨胀率稀疏注意力(multi-dilated sparse attention,MDSA)和前馈网络(multi-dilated feed forward network,MDFN)组成. 如图4所示,在Dilformer模块中,输入特征$ {\boldsymbol{Z}}_{i-1} $经归一化层稳定特征分布,通过MDSA计算注意力并结合残差连接优化特征表示$ {\boldsymbol{Z}}_{i} $;特征再次归一化后输入MDFN进行非线性建模,最终与原始特征残差相加,输出优化特征$ {\boldsymbol{Z}}_{i+1} $. Dilformer模块的整体计算流程如下:

图 4

图 4   多膨胀感知Transformer模块

Fig.4   Multi-dilated perception Transformer module


$ {\boldsymbol{Z}}_{i}=\mathrm{MDSA}\left(\mathrm{LN}\left({\boldsymbol{Z}}_{i-1}\right)\right)+{\boldsymbol{Z}}_{i-1} \text{,} $

$ {\boldsymbol{Z}}_{i\mathbf+1}=\mathrm{MDFA}\left(\mathrm{LN}\left({\boldsymbol{Z}}_{i}\right)\right)+{\boldsymbol{Z}}_{i} . $

尽管扩张卷积的稀疏采样特性可有效扩大感受野,增强全局信息建模能力,但其非连续的内存访问模式会降低GPU并行计算效率,进而影响模型的推理速度. 在模块中采用较小的卷积核(3×3×3),并限制膨胀率的范围,以降低冗余和计算开销,有效提升整体计算效率.

1.4.1. 多尺度稀疏注意力

为了增强模型全局和局部细节信息的感知能力,提出多尺度膨胀卷积和稀疏注意力机制,代替Transformer中的自注意力机制. 相比于标准卷积,膨胀卷积通过设定步长来对像素进行加权,使得特征提取在多尺度上更加高效,不会因下采样操作而损失空间信息.

$ g(i)=\sum\limits_{l=1}^{L}f(i+r\cdot l)\cdot h(l) . $

式中:$ f(i) $为输入特征,$ g(i) $为输出特征,$ h(l) $为长度为$ l $的卷积滤波器,$ r $为膨胀率. MDSA先使用1×1×1卷积进行线性投影,以提取低尺度初始特征并降低计算复杂度;再利用$ r $=1、2、3的3×3×3膨胀卷积计算多尺度查询$ \boldsymbol{Q} $,增强注意力机制对不同感受野的特征捕获能力. MDSA利用多尺度特征捕获不同空间位置间的相关性,提升对弱纹理区域的特征响应能力,增强模型在此类区域的匹配鲁棒性. Transformer中Softmax归一化会保留查询$ \boldsymbol{Q} $与键$ \boldsymbol{K} $之间所有Token的相似性. 并非所有查询Token都与键Token相关,使用Softmax归一化计算自注意力可能会影响后续的特征聚合. ReLU能够去除负特征并保留正特征,是有效的激活函数,因此采用ReLU增强信息筛选能力,特征聚合过程中自适应地保持注意力分布的稀疏性. 稀疏注意力的计算式为

$ {{{\bf{SA}}}}=\mathrm{ReLU}\left(\frac{{\boldsymbol{Q}}^{\mathrm{T}}\boldsymbol{K}}{\alpha }\right)\boldsymbol{V} . $

式中:$ {{{\bf{SA}}}} $为稀疏注意力,$ \alpha $为可学习的参数.

1.4.2. 多膨胀前馈网络

Transformer通过前馈网络(feed-forward network,FFN)对每个Token进行非线性变换,并支持数据在Token维度上的扩展与压缩,但其局部感受野有限,不利于捕捉丰富的上下文空间信息. MDFN通过引入多尺度膨胀卷积扩大局部感受野,有效增强特征的多尺度表达能力. 输入特征$ \boldsymbol{X}\mathbf{'} $依次通过3个并行分支,每个分支包含1个1×1×1卷积降维映射和3个r=1、2、3的3×3×3膨胀卷积,再经过ReLU激活函数. 各分支输出通过逐点加权融合,通过1个1×1×1卷积恢复通道维度与输入$ {\boldsymbol{X'}} $通过残差相加形成输出$ \boldsymbol{Y}\mathbf{'} $.

$ {\boldsymbol{F}}_{i}=\text{ReLU}\left(\text{DilConv}_{3\times 3\times 3}^{{r}_{i}}\left(W_{1\times 1\times 1}^{i} {\boldsymbol{X'}}\right)\right),\,\,\,\,\,{r}_{i}\in \{\text{1,2,3}\} \text{;} $

$ \boldsymbol{F}=\sum\limits_{i\text{=1}}^{3}{\boldsymbol{F}}_{i} \text{;} $

$ \boldsymbol{Y}'={W}_{\text{1}\times \text{1}\times \text{1}}\left(\boldsymbol{F}\right)+\boldsymbol{X}' . $

式中:$ W_{1\times 1\times 1}^{i} $为第$ i $个分支的1×1×1卷积权重,$ \text{DilConv}_{\text{3}\times \text{3}\times \text{3}}^{{r}_{i}} $为膨胀率$ {r}_{i} $的三维膨胀卷积操作,$ {W}_{\text{1}\times \text{1}\times \text{1}} $为融合后通道恢复的卷积权重. MDFN使模型不仅保留了Transformer前馈神经网络的非线性映射能力,还能够融合多尺度空间上下文信息,有效扩展感受野,增强局部特征表达的多样性,提升形变场预测的精度.

1.5. 可分离残差融合模块

为了有效整合多尺度特征并提升形变场预测的准确性,提出SRF. 该模块采用深度可分离卷积,在保持结构信息完整性的同时,有效抑制噪声传播与特征干扰,促进了形变场在局部区域内的连续性和平滑过渡;有效保留了输入的原始空间信息,避免深层特征提取过程中过度的信息损失和细节模糊. SRF将多个输入特征$ ({\boldsymbol{I}}_{\text{M}i}\mathbf{,}{\boldsymbol{I}}_{\text{W}i}\mathbf{,}{\boldsymbol{I}}_{\text{F}i}) $进行拼接,并通过标准卷积与归一化操作统一特征尺度与分布. 为了进一步增强通道间的高阶特征表达能力,SRF引入深度卷积在每个输入通道内独立提取空间特征,保留不同尺度下的结构信息;逐点卷积对所有通道特征进行线性组合,显著提升通道间的信息交互效率,解决传统卷积融合中通道孤立、特征耦合能力弱的问题. 为了缓解深层卷积带来的信息损失,SRF在结构上引入残差连接机制,将BN+ReLU处理后的原始输入特征与深度可分离卷积输出进行逐点加权融合. 这种设计不仅有助于梯度的稳定传递,还保留了原始结构信息与细节表达能力,进一步增强了模块在复杂解剖结构下的适应性.

1.6. 多分辨率损失函数

无监督医学图像配准的实质是通过最小化损失函数以优化图像对之间的相似性,寻求最优的空间变换. 这种方式只对全分辨率下的形变场和配准图像进行损失计算,在涉及复杂形变时可能无法捕捉整体形变,优化过程易陷入局部最优,导致全局配准精度不佳. 引入多分辨率损失函数[20],在解码端网络逐步预测多分辨下的形变场,并对同分辨率下的移动图像进行变换. 多分辨率损失引导关注全局结构,稳定低对比区域的匹配. 该方法的相似性损失$ {L}^{K}_{{\mathrm{sim}}} $和正则化损失${L}^{K}_{\mathrm{smooth}}({\bf\textit{φ}} )$计算式分别为

$ {L}^{K}_{\mathrm{sim}}({\boldsymbol{I}}_{\text{F}},{\boldsymbol{I}}_{\text{W}})=\sum\limits_{i\in [1,K]}-\frac{1}{{2}^{(k-i)}}\mathrm{NCC}\,\,({\boldsymbol{I}}_{\text{F}},{\boldsymbol{I}}_{\text{W}}) \text{,} $

$ L_{\mathrm{smooth}}^{K}({\bf\textit{φ}})=\sum\limits_{i\in [1,K]}-\frac{1}{{2}^{(k-i)}}\sum\limits_{p\in \varOmega }{\left|\left|{\bf\textit{φ}}(p)\right|\right|}^{2} . $

式中:$ K $为金字塔的最大分辨率数,$ 1/{2}^{(k-i)} $为权重因子,NCC为归一化互相关计算,${\bf\textit{φ}} $为形变场,$ p $Ω空间中的体素块. 为了防止来自较低级别相似性的扰动,将较低的权重分配给具有较低分辨率的相似性值. 最终的损失函数表达式为

$ {L}^{K}({\boldsymbol{I}}_{\text{F}},{\boldsymbol{I}}_{\text{W}},{\bf\textit{φ}})={L}^{K}_{\mathrm{sim}}({\boldsymbol{I}}_{\text{F}},{\boldsymbol{I}}_{\text{W}})+\lambda L_{\text{smooth}}^{K}({\bf\textit{φ}}) . $

式中:$ \lambda $为平衡因子.

2. 分析与讨论

2.1. 数据集与实验环境

IXI和LPBA40是2个具有代表性的复杂形变与跨个体差异的公开脑部MRI数据集,本实验选用这个2个数据全面评估MSRD-Net在复杂解剖结构下的配准精度与泛化能力. IXI数据集由伦敦帝国学院生物医学影像组采集并发布,包含约600名正常健康个体的T1加权脑部MRI图像,共计576幅图像及对应的46个解剖结构分割掩码. LPBA40数据集由洛杉矶加州大学的脑图谱项目(LONI probabilistic brain atlas,LPBA)发布,包含40个不同个体的高分辨率T1加权脑部MRI图像及对应的56个解剖分割掩码. 所有图像均已非线性对齐至MNI305标准空间,分辨率为160×192×224. 如图5所示为这2个数据集冠状面、矢状面和横断面的二维切面实例,以及相应的解剖分割掩码. 为了增强模型对复杂形变的学习能力,采用交叉循环训练策略,即每对图像在训练过程中分别作为移动图像和固定图像进行双向配准,增强模型对空间变换的泛化能力.

图 5

图 5   IXI和LPBA40数据集的二维切片图

Fig.5   2D slice images from IXI and LPBA40 datasets


为了提升模型的学习效率,实验采用Chen等[21]提出的预处理策略. 对于IXI数据集的每张图像重采样到256×256×256的规格,体素间距调整为1 mm×1 mm×1 mm;使用FreeSurfer[22]对重采样后的图像进行颅骨剥离和仿射对齐,将图像裁剪为160×192×224对数据进行归一化. 如图6所示为IXI数据集的预处理流程.

图 6

图 6   IXI数据集预处理流程

Fig.6   IXI dataset preprocessing procedure


实验硬件环境:Intel(R)R Core(TM) i7-13600KF CPU @3.50GHz,NVIDIA GeForce RTX 3090 24G GPU. 在实验设置中,使用Adam优化器,初始学习率为1.0×10−4,批量大小为1,设置迭代轮次epoch=300,总计迭代120900次.

2.2. 评价指标

采用戴斯相似系数(Dice similarity coefficient,DSC)、95%的豪斯多夫距离(95th percentile Hausdorff distance,HD95)、负雅克比行列式比率RJac、参数量Np和浮点运算数Flops、推理时间t 来客观评估模型的配准性能. DSC用于评估配准图像和固定图像中对应区域的重叠度,值范围为[0,1.0],数值越接近1.0,表示两幅图像的相似度越高.

$ \mathrm{DSC}\;({\boldsymbol{I}}_{\text{F}},{\boldsymbol{I}}_{\text{W}})=2\times \frac{\left| {\boldsymbol{I}}_{\text{F}}\cap {\boldsymbol{I}}_{\text{W}}\right| }{\left| {\boldsymbol{I}}_{\text{F}}\right|+\left| {\boldsymbol{I}}_{\text{W}}\right| } . $

HD95衡量运动图像的解剖分割掩码中任意点到固定图像解剖分割掩码最近点的最大距离,数值越小表示两幅图像的形状或边界越相似,反映图像间的一致性.

$ \text{HD95}\;({\boldsymbol{I}}_{\text{F}},{\boldsymbol{I}}_{\text{W}})=\max \left\{\underset{{\boldsymbol{x}}\in {\boldsymbol{I}}_{\text{F}}}{\sup }\underset{{\boldsymbol{y}}\in {\boldsymbol{I}}_{\mathrm{W}}}{\inf }\| \boldsymbol{x}-\boldsymbol{y}\| ,\underset{{\boldsymbol{y}}\in {\boldsymbol{I}}_{\text{W}}}{\sup }\underset{\boldsymbol{x}\in {\boldsymbol{I}}_{\text{F}}}{\inf }\| \boldsymbol{y}-\boldsymbol{x}\| \right\} . $

式中:$ \| \boldsymbol{x}-\boldsymbol{y}\| $为欧几里得距离,sup和inf分别为上确界和下确界. 负雅可比行列式比率即形变场的折叠体素值,用以评估预测的形变场$ {\bf\textit{φ}} $的质量,在点$ p $形变场的雅可比行列式为

$ {{\mathrm{det}}}\left({J}_{{\bf\textit{φ}}}(p)\right)=\left| \begin{matrix}\dfrac{\partial {\varphi }_{x}(p)}{\partial x} & \dfrac{\partial {\varphi }_{x}(p)}{\partial y} & \dfrac{\partial {\varphi }_{x}(p)}{\partial z}\\\dfrac{\partial {\varphi }_{y}(p)}{\partial x} & \dfrac{\partial {\varphi }_{y}(p)}{\partial y} & \dfrac{\partial {\varphi }_{y}(p)}{\partial z}\\\dfrac{\partial {\varphi }_{z}(p)}{\partial x} & \dfrac{\partial {\varphi }_{z}(\mathrm{p})}{\partial y} & \dfrac{\partial {\varphi }_{z}(p)}{\partial y}\end{matrix}\right| . $

式中:$ {{\varphi}}_{x}(p) $$ {{\varphi}}_{y}(p) $$ {{\varphi}}_{z}(p) $分别为形变场在点$ p $的3个空间方向的分量. $ R_{{\mathrm{Jac}}} $越接近0,表示形变场发生折叠的区域较少,生成的形变场整体越平滑,质量越高.

2.3. 对比实验

为了验证所提方法的有效性,在IXI数据集上与10种主流的医学图像配准方法进行对比,涵盖传统方法SyN[3]和LDDMM[4],以及基于深度学习的经典配准方法VoxelMorph[7]、CycleMorph[23]、ViT-V-Net[24]、TransMorph[21]、LKU-Net[10]、TransMatch[25]、PIVit[14]和RDP-Net[16].

2.3.1. 客观评价比较

不同模型在IXI数据集上的定量分析结果如表1所示. 在配准精度方面,MSRD-Net模型在DSC和HD95上均达到最优结果,分别为76.9%和8.937,显著优于传统深度学习的配准方法,这一优势充分体现了所提模型在保持解剖结构一致性和提升关键区域配准精度方面的能力. 在形变场的拓扑合理性方面,MSRD-Net的$ R_{{\mathrm{Jac}}} $仅为0.029,远低于所有对比方法,有效避免了形变场折叠现象. 在计算效率方面,MSRD-Net的参数量为13.95×106,Flops为863.17×109,推理时间为0.29 s,在保证高配准精度的同时实现了较低的计算负载. 相较于典型的Transformer架构模型TransMorph,参数量减少约87%,显著降低了计算开销与训练成本,同时DSC提升至76.9%,展现出更优的配准性能. 尽管FLOPs相对较高,主要源于大核多尺度卷积与特征融合模块的引入,但得益于结构优化,MSRD-Net依然具备优异的推理效率,远优于TransMorph,体现出良好的并行计算能力与实时应用潜力. RDP-Net利用递归金字塔结构提升了局部配准精度,$ {R}_{{\mathrm{Jac}}} $达到次优,为0.136,但模型参数量和计算开销显著高于MSRD-Net,限制了其在资源有限场景下的适用性. TransMatch借助交叉注意力机制提升跨图像对的全局建模能力,但整体配准性能未显著优于TransMorph,同时GPU占用大,对设备资源依赖性强. 此外VoxelMorph、CycleMorph和LKU-Net等基于CNN的经典方法在参数量和推理时间方面表现较为较好,但在DSC和HD95指标上与MSRD-Net存在一定差距,难以有效捕捉长距离和多尺度结构信息,影响配准精度. 综上所述,MSRD-Net在配准精度、形变场合理性及计算效率方面均优于现有主流方法,能够在保持解剖结构一致性的同时,有效避免形变折叠现象,并兼具较高的计算效率,具备较好的配准精度.

表 1   各医学图像配准模型在IXI数据集上的定量分析结果

Tab.1  Quantitative analysis results of each medical image registration model on IXI dataset

模型DSC/%HD95$ {R}_{{\mathrm{Jac}}} $Np/106Flops/109t/s
SyN64.1±1.610.878<0.00141.83
LDDMM67.9±1.510.672<0.00131.60
VoxelMorph72.9±1.210.4311.6040.28304.310.21
CycleMorph73.6±1.810.3481.5230.36160.570.25
LKU-Net76.4±1.110.1070.7132.09272.630.23
ViT-V-Net73.0±1.210.3051.68131.56389.210.31
TransMorph75.1±1.39.7411.565107.76713.540.38
TransMatch75.0±3.09.6531.59470.71717.230.37
PIVit75.7±2.69.3270.4540.6571.190.26
RDP-Net76.1±1.19.1560.1368.922889.000.27
MSRD-Net76.9±2.08.9370.02913.95863.170.29

新窗口打开| 下载CSV


2.3.2. 主观评价比较

在冠状切面上进行定性实验分析,实验结果如图7所示. 从图7箭头标记的典型复杂形变区域可以看出,传统方法如SyN和LDDMM在形变估计中易出现局部扭曲与边界模糊的现象,尤其是在结构复杂且个体差异显著的区域,如顶叶感觉皮层、丘脑与脑室交界区以及脑岛叶区域. 这些区域常伴随复杂的非刚性形变与纹理弱结构,对配准算法提出较高要求. 相比之下,MSRD-Net在这些复杂区域表现出更强的建模能力与更好的空间对齐精度,形变场整体平滑、连续,几乎无折叠现象,体现出良好的微分同胚性. 差异图结果也进一步验证了MSRD-Net在复杂区域的配准一致性与鲁棒性.

图 7

图 7   各医学图像配准模型在IXI数据集上的定性分析结果

Fig.7   Qualitative analysis results of each medical image registration model on IXI dataset


2.4. 膨胀率参数分析

为了验证不同膨胀因子与激活函数设置对Dilformer模块性能的影响,在完整的MSRD-Net网络结构上进行参数分析实验,结果如表2所示. 当使用膨胀率组合设置为$ r $=1,2,3时,模型在IXI数据集上的DSC优于未使用膨胀卷积的基线配置. 这表明适度扩大感受野有助于捕捉结构信息,同时避免细节特征的损失. 使用$ r $=2,2,2时,性能下降至76.2%,说明过大或不对称的膨胀率会引起特征提取稀疏化,进而引起局部信息丢失,影响配准效果. 为了优化注意力机制的特征筛选能力,在稀疏注意力机制中将传统Softmax替换为ReLU激活函数. 实验结果表明,引入ReLU后DSC提升至76.9%,推理时间保持在0.29 s,整体优于Softmax配置. 这表明ReLU更利于保持注意力稀疏性,强化关键特征表达,提升整体配准性能与效率.

表 2   在IXI数据集上的膨胀率分析结果

Tab.2  Dilation rate analysis results on IXI dataset

DilConvr=1,1,1r=1,2,3r=2,2,2DSC/%t/s
××××75.3±1.50.28
××76.2±1.70.31
×××76.8±2.10.29
×××75.6±1.80.32

新窗口打开| 下载CSV


2.5. 消融实验

在IXI数据集上设计6组消融实验,验证所提模块的有效性. 第1组采用原始的Dual-PRNet++[26]配准模型作为基准. 第2组在双流金字塔配准网络的基础上,加入MSR替换单一的卷积层,提取多尺度特征信息,增强模型对空间结构的感知能力. 第3组在低尺度配准阶段,使用Dilformer模块,提升模型在低尺度空间上的全局形变建模能力和模型对复杂形变的适应性. 第4组在解码端结合SRF,采用逐步配准的策略,实现从粗到细的配准. 第5组将MSR、Dilformer和SRF都保留在模型中. 第6组在第5组的基础上,加入多分辨率损失函数,验证损失对整体模型的优化情况.

图8所示为不同模型实验组的配准可视化结果. 可以看出,第6组完整模型在形变场的平滑性与解剖分割掩码对齐准确性方面比其他5个降级模型表现好. 特别是在处理方框区域存在边界模糊或内部纹理较为单一的问题上,完整模型的配准效果更精确,细节保留更为完整,形变结构无明显折叠,显示出更好的配准能力. 分析原因: 1)MSR通过多尺度特征增强,提升了模型对细粒度信息的捕捉能力,即使在对比度不高的情况下也能提取到有效的细节结构特征. 2)Dilformer通过融合多膨胀感受野与稀疏注意力机制,增强了模型对低分辨率特征的全局上下文建模能力,提高了预测复杂形变的准确性. 3)SRF通过多尺度语义融合与残差连接,实现了对形变场的逐级细化,多分辨率损失函数有效引导模型在不同尺度空间中优化形变场. 不同模型组3个性能指标的定量分析结果如表3所示. 实验结果表明,MSR、Dilformer、SRF以及多分辨率损失函数在提升配准精度、增强形变场平滑性与稳定性方面均发挥了关键作用,验证了各模块在整体架构中的有效性.

图 8

图 8   在IXI数据集上的模块消融实验结果

Fig.8   Module ablation study results on IXI dataset


表 3   在IXI数据集上的模块消融实验性能评价指标对比

Tab.3  Comparison of performance metrics for module ablation study on IXI dataset

模型组别MSRDBTSRFMR LossDSC/%HD95$ {R}_{{\mathrm{Jac}}} $
1××××74.6±1.69.8390.574
2×××75.6±1.79.6450.387
3×××76.3±1.89.1210.213
4×××75.8±1.59.5160.316
5×76.7±1.69.0130.127
676.9±2.08.9370.029

新窗口打开| 下载CSV


2.6. 泛化性实验

为了验证MSRD-Net的泛化能力,采用跨数据集测试策略,在IXI数据集上训练模型,并在LPBA40数据集上与10种主流方法进行测试与比较,实验结果如图9所示. 可以看出,所提模型在多个关键解剖区域具备高的配准精度,尤其是方框标记的区域,MSRD-Net的配准效果优于对比算法,泛化性最好. 如表4所示为各模型在泛化测试集上的定量分析结果. 可以观察到,MSRD-Net在DSC、HD95以及$ {R}_{{\mathrm{Jac}}} $上均取得较优结果,进一步验证所提模型不仅在特定数据集上表现优越,在跨数据集配准任务中也具有良好的稳定性.

图 9

图 9   在LPBA40数据集上的模型泛化性实验结果

Fig.9   Model generalization performance experimental results on LPBA40 dataset


表 4   在LPBA40数据集上的模型泛化性验证数据

Tab.4  Generalization validation data of model on LPBA40 dataset

模型DSC/%HD95$ {R}_{{\mathrm{Jac}}} $t/s
SyN62.7±1.27.59±1.62<0.00135.8
LDDMM61.3±1.57.61±1.53<0.00132.6
VoxelMorph65.7±2.97.65±1.470.6070.20
CycleMorph67.1±2.97.58±1.450.4970.22
LKU-Net70.3±1.57.39±1.570.2030.29
ViT-V-Net67.0±2.97.57±1.720.2070.35
TransMorph69.4±2.17.43±1.850.1610.36
TransMatch70.3±1.67.49±1.440.1830.35
PIVit71.5±1.56.51±1.560.0220.26
RDP-Net71.6±1.76.43±1.83<0.0010.28
MSRD-Net72.9±1.56.32±1.710.1170.27

新窗口打开| 下载CSV


3. 结 语

为了解决配准模型存在复杂形变配准精度低及模型泛化能力不足的问题,本研究提出基于多尺度残差学习和Dilformer的双流医学图像配准网络. 1)通过构建双流金字塔编码架构和设计多尺度残差特征提取模块,提高模型对脑部结构特征的提取能力. 2)提出Dilformer模块,利用多膨胀率的扩张卷积实现全局形变的精准预估. 3)设计可分离残差融合模块,逐步优化形变场. 实验结果表明,在IXI数据集上,所提网络的戴斯相似系数、95%分位豪斯多夫距离、负雅克比行列式比率分别为0.769、8.937和0.029,配准性能较好;在LPBA40数据集上,该网络表现出良好的泛化能力. 目前研究主要聚焦于单模态MRI图像配准,尚未在多模态图像取得有效验证.

参考文献

CHEN J, LIU Y, WEI S, et al

A survey on deep learning in medical image registration: new technologies, uncertainty, evaluation metrics, and beyond

[J]. Medical Image Analysis, 2025, 100: 103385

DOI:10.1016/j.media.2024.103385      [本文引用: 1]

沈瑜, 魏子易, 严源, 等

基于多尺度约束的大形变3D医学图像配准

[J]. 中国激光, 2024, 51 (21): 2107109

DOI:10.3788/CJL241180      [本文引用: 1]

SHEN Yu, WEI Ziyi, YAN Yuan, et al

Large-deformation 3D medical image registration based on multi-scale constraints

[J]. Chinese Journal of Lasers, 2024, 51 (21): 2107109

DOI:10.3788/CJL241180      [本文引用: 1]

AVANTS B B, TUSTISON N J, SONG G, et al

A reproducible evaluation of ANTs similarity metric performance in brain image registration

[J]. NeuroImage, 2011, 54 (3): 2033- 2044

DOI:10.1016/j.neuroimage.2010.09.025      [本文引用: 2]

HERNANDEZ M, RAMON JULVEZ U

Insights into traditional large deformation diffeomorphic metric mapping and unsupervised deep-learning for diffeomorphic registration and their evaluation

[J]. Computers in Biology and Medicine, 2024, 178: 108761

DOI:10.1016/j.compbiomed.2024.108761      [本文引用: 2]

李文举, 孔德卿, 曹国刚, 等

基于训练-推理解耦架构的2D-3D医学图像配准

[J]. 激光与光电子学进展, 2022, 59 (16): 1610015

DOI:10.3788/LOP202259.1610015      [本文引用: 1]

LI Wenju, KONG Deqing, CAO Guogang, et al

2D-3D medical image registration based on training-inference decoupling architecture

[J]. Laser and Optoelectronics Progress, 2022, 59 (16): 1610015

DOI:10.3788/LOP202259.1610015      [本文引用: 1]

林立昊, 易见兵, 曹锋, 等

多尺度并行全卷积神经网络的肺计算机断层扫描图像非刚性配准算法

[J]. 激光与光电子学进展, 2022, 59 (16): 1617004

DOI:10.3788/LOP202259.1617004      [本文引用: 1]

LIN Lihao, YI Jianbing, CAO Feng, et al

Non-rigid registration algorithm of lung computed tomography image based on multi-scale parallel fully convolutional neural network

[J]. Laser and Optoelectronics Progress, 2022, 59 (16): 1617004

DOI:10.3788/LOP202259.1617004      [本文引用: 1]

BALAKRISHNAN G, ZHAO A, SABUNCU M R, et al

VoxelMorph: a learning framework for deformable medical image registration

[J]. IEEE Transactions on Medical Imaging, 2019, 38 (8): 1788- 1800

DOI:10.1109/TMI.2019.2897538      [本文引用: 2]

尹艺晓, 马金刚, 张文凯, 等

从U-Net到Transformer: 混合模型在医学图像分割中的应用进展

[J]. 激光与光电子学进展, 2025, 62 (2): 1- 23

DOI:10.3788/LOP240875      [本文引用: 1]

YIN Yixiao, MA Jingang, ZHANG Wenkai, et al

From U-Net to transformer: progress in the application of hybrid models in medical image segmentation

[J]. Laser and Optoelectronics Progress, 2025, 62 (2): 1- 23

DOI:10.3788/LOP240875      [本文引用: 1]

JADERBERG M, SIMONYAN K, ZISSERMAN A. Spatial transformer networks [C]// Proceedings of the 29th International Conference on Neural Information Processing Systems. [S.l.]: MIT Press, 2015: 2017–2025.

[本文引用: 1]

JIA X, BARTLETT J, ZHANG T, et al. U-Net vs Transformer: is U-Net outdated inMedical image registration? [C]// Machine Learning in Medical Imaging. [S.l.]: Springer, 2022: 151–160.

[本文引用: 2]

VASWANI A, SHAZEER N, PARMAR N, et al. Attention is all you need [C]// Proceedings of the 31st International Conference on Neural Information Processing Systems. [S.l.]: Curran Associates Inc. , 2017: 5998–6008.

[本文引用: 1]

石磊, 籍庆余, 陈清威, 等

视觉Transformer在医学图像分析中的应用研究综述

[J]. 计算机工程与应用, 2023, 59 (8): 41- 55

DOI:10.3778/j.issn.1002-8331.2206-0022      [本文引用: 1]

SHI Lei, JI Qingyu, CHEN Qingwei, et al

Review of research on application of vision transformer in medical image analysis

[J]. Computer Engineering and Applications, 2023, 59 (8): 41- 55

DOI:10.3778/j.issn.1002-8331.2206-0022      [本文引用: 1]

QIU W, XIONG L, LI N, et al

UTR: a UNet-like transformer for efficient unsupervised medical image registration

[J]. Image and Vision Computing, 2024, 150: 105209

DOI:10.1016/j.imavis.2024.105209      [本文引用: 1]

MA T, DAI X, ZHANG S, et al. PIViT: large deformation image registration with Pyramid-iterative vision transformer [C]// Medical Image Computing and Computer Assisted Intervention – MICCAI 2023. [S.l.]: Springer, 2023: 602–612.

[本文引用: 2]

LIU Z, LIN Y, CAO Y, et al. Swin Transformer: hierarchical vision transformer using shifted windows [C]// Proceedings of the IEEE/CVF International Conference on Computer Vision. Montreal: IEEE, 2022: 9992–10002.

[本文引用: 1]

WANG H, NI D, WANG Y

Recursive deformable pyramid network for unsupervised medical image registration

[J]. IEEE Transactions on Medical Imaging, 2024, 43 (6): 2229- 2240

DOI:10.1109/TMI.2024.3362968      [本文引用: 2]

NAN J, FAN G, ZHANG K, et al. MsMorph: an unsupervised pyramid learning network for brain image registration [EB/OL]. (2024–10–23)[2025–05–29]. https://arxiv.org/abs/2410.18228.

[本文引用: 1]

刘卫朋, 李旭, 任子文, 等

多尺度残差可变形肺部CT图像配准算法

[J]. 华南理工大学学报: 自然科学版, 2024, 52 (10): 135- 145

DOI:10.12141/j.issn.1000-565X.230726      [本文引用: 1]

LIU Weipeng, LI Xu, REN Ziwen, et al

Algorithm for multiscale residual deformable lung CT image registration

[J]. Journal of South China University of Technology: Natural Science Edition, 2024, 52 (10): 135- 145

DOI:10.12141/j.issn.1000-565X.230726      [本文引用: 1]

YANG H, YUAN C, LI B, et al

Asymmetric 3D convolutional neural networks for action recognition

[J]. Pattern Recognition, 2019, 85: 1- 12

DOI:10.1109/icip.2019.8802910      [本文引用: 1]

MA Y, NIU D, ZHANG J, et al

Unsupervised deformable image registration network for 3D medical images

[J]. Applied Intelligence, 2022, 52 (1): 766- 779

DOI:10.1007/s10489-021-02196-7      [本文引用: 1]

CHEN J, FREY E C, HE Y, et al

TransMorph: transformer for unsupervised medical image registration

[J]. Medical Image Analysis, 2022, 82: 102615

DOI:10.1016/j.media.2022.102615      [本文引用: 2]

FISCHL B

FreeSurfer

[J]. NeuroImage, 2012, 62 (2): 774- 781

DOI:10.1016/j.neuroimage.2012.01.021      [本文引用: 1]

KIM B, KIM D H, PARK S H, et al

CycleMorph: cycle consistent unsupervised deformable image registration

[J]. Medical Image Analysis, 2021, 71: 102036

DOI:10.1016/j.media.2021.102036      [本文引用: 1]

CHEN J, HE Y, FREY E C, et al. ViT-V-Net: vision transformer for unsupervised volumetric medical image registration [EB/OL]. (2021–04–13)[2025–05–29]. https://arxiv.org/abs/2104.06468.

[本文引用: 1]

CHEN Z, ZHENG Y, GEE J C

TransMatch: a transformer-based multilevel dual-stream feature matching network for unsupervised deformable image registration

[J]. IEEE Transactions on Medical Imaging, 2024, 43 (1): 15- 27

DOI:10.1109/TMI.2023.3288136      [本文引用: 1]

KANG M, HU X, HUANG W, et al

Dual-stream pyramid registration network

[J]. Medical Image Analysis, 2022, 78: 102379

DOI:10.1016/j.media.2022.102379      [本文引用: 1]

/