<img src="https://www.zjujournals.com/eng/images/1008-973X/images/logo.png" class="img-responsive">

图 1 VNTM 网络结构示意图

Fig.1 Overview of VNTM network architecture

(8)$\left.\begin{split} & \boldsymbol{S}={E}_{\omega}\left(\left(\boldsymbol{F}^{\mathrm{H}} \boldsymbol{k}^{t-1}\right) \oslash \operatorname{SOS}\left(\boldsymbol{F}^{\mathrm{H}} \boldsymbol{k}^{t-1}\right)\right),\; t=1, \dfrac{T}{2}-1 ; \\& \tilde{\boldsymbol{k}}=\boldsymbol{FS}{A}_{\text {post }}\left({G}_{\theta^t}\left({A}_{\text {pre }}\left(\boldsymbol{S}^{\mathrm{H}} \boldsymbol{F}^{\mathrm{H}} \boldsymbol{k}^{t-1}\right)\right)\right) ; \\& \boldsymbol{k}^t=\boldsymbol{k}^{t-1}-\beta^t\left(\boldsymbol{M k}^{t-1}-\boldsymbol{Y}\right)+\lambda^t\left[\tilde{\boldsymbol{k}}-\rho^t(\boldsymbol{M} \tilde{\boldsymbol{k}}-\boldsymbol{Y})\right] .\end{split}\right\} $

式中：${A_{{\mathrm{pre}}}}$和${A_{{\mathrm{post}}}}$分别表示前、后处理模块；$ \oslash $表示逐元素相除；${\beta ^t}$、${\lambda ^t}$和${\rho ^t}$为可学习参数，其初始值分别为1.0、0.1和1.0；$ {{\boldsymbol{S}}^{\text{H}}}{{\boldsymbol{F}}^{\text{H}}}{{\boldsymbol{k}}^t} $表示将多线圈k空间数据$ {{\boldsymbol{k}}^t} $经傅里叶反变换后再通过$ {{\boldsymbol{S}}^{\text{H}}} $合并成单个线圈图像数据；$ {G_\theta } $为U形多尺度重建模块中的网络，由于$ {G_\theta } $的输入为合并的单线圈图像，与接收线圈的数量无关，因此，该网络可以处理任意线圈数量的MRI数据.

1.2.1. 灵敏度图估计(SME)模块

对于基线模型E2E-VN中的灵敏度估计方法而言，就是将多线圈欠采样k空间的ACS区域作为输入进行一次性估计. 然而，当ACS区域有限时，灵敏度图估计的准确度将大大降低，导致传统方法(如SENSE和ESPIRiT)和深度学习方法(如E2E-VN)产生较差的重建图像. 这些方法的不足部分归因于它们依赖ACS区域数据一次性估计的灵敏度图. 为了更准确地估计每个线圈的灵敏度图，提出灵敏度图中期增强策略. 具体而言，采用多线圈欠采样k空间数据估计灵敏度图，由于一次性估计出灵敏度图不够准确，因此，当VNTM进行到T/2次迭代时，使用UMRB的输出数据作为SME的输入，进行灵敏度图的重新估计与更新，这一创新的设计旨在提高灵敏度图与重建结果的关联性，使重建结果与灵敏度图相互促进. 如图1(b)所示展示了SME模块的结构.

1.2.2. UMRB模块

UMRB结构如图1(g)所示，包含前处理模块、 UMRNet和后处理模块. 灵敏度图作为UMRB的输入之一，灵敏度图不够准确可能会导致重建图像出现混叠伪影. 为了解决这一问题，本研究设计了UMRNet，它是一种多尺度的编码器-解码器结构，其核心构建块为Swin Transformer Layer Block (STLB). 具体而言，UMRNet的输入尺寸从$ \dfrac{H}{{\text{2}}}{{ \times }}\dfrac{W}{{\text{2}}} \times 66 $开始，逐步通过下采样缩减到$\dfrac{H}{{16}}{{ \times }}\dfrac{W}{{16}} \times 528$的最小尺度. 随后，在上采样过程中，每个尺度通过跳跃连接与相应分辨率的特征进行融合，逐步恢复至原始尺寸$ \dfrac{H}{{\text{2}}}{{ \times }}\dfrac{W}{{\text{2}}} \times 66 $，实现了特征图的多尺度融合，并且通过跳跃连接，保留了不同尺度的特征信息. STLB中的STL来自于在图像去噪和超分辨领域取得成功的SwinIR^[24]. 与SwinIR相比，本研究在STL层之间进行了进一步的残差处理，结构如图1(f)所示，可以表示为如下公式：

(9)$ \left.\begin{split} & \boldsymbol{X}_{\mathrm{STL} 1}=\operatorname{STL}\left(\mathrm{STL}\left(\boldsymbol{X}_{\mathrm{in}}\right)\right)+\boldsymbol{X}_{\mathrm{in}} ， \\& \boldsymbol{X}_{\mathrm{STL} 2}=\operatorname{STL}\left(\mathrm{STL}\left(\boldsymbol{X}_{\mathrm{STL} 1}\right)\right)+\boldsymbol{X}_{\mathrm{STL} 1} ，\\& \boldsymbol{X}_{\mathrm{out}}=\operatorname{Conv}\left(\boldsymbol{X}_{\mathrm{STL} 2}\right)+\boldsymbol{X}_{\mathrm{in}} .\end{split}\right\} $

在MRI重建任务中，输入图像的分辨率通常高于常用的图像数据集(32×32~256×256^)[25]，加上Transformer模型固有的全局时间自注意力机制所引发的二次计算成本挑战，特别是在处理更高分辨率输入时，对计算设备性能提出了更为严苛的要求. 为了在保留空间信息和减少计算资源之间取得平衡，本研究设计了前后处理模块，嵌入至UMRNet框架的两侧. 前处理模块包含小波变换(discrete wavelet transform, DWT)^[26]、卷积（Conv）、实例归一化(instance normalization, IN)和LeakyReLU（LReLU）激活函数，其中小波变换不仅可以降低分辨率，还能在频域上分离图像特征，特别是高频和低频成分，从而提取边缘和纹理之类的高频细节，为网络提供更丰富的细节信息. 在小波分解过程中，每一级将图像分解为4个子图(LL、LH、HL和HH)，并在通道上拼接，从而实现分辨率减半. 本实验中使用了一级小波分解. 前后处理模块显著降低了随后在UMRNet内部处理的数据的复杂性与空间占用，从而大幅提升了计算效率. 如图1(d)所示展示了前处理模块的结构，该结构可表示为如下公式：

(10)$ \left.\begin{split} & \boldsymbol{Z}_{\mathrm{CIL}}=\operatorname{CIL}\left(\operatorname{CIL}\left(\boldsymbol{Z}_{\mathrm{in}}\right)\right) ,\\& \boldsymbol{Z}_{\text {out }}=\operatorname{Conv}\left(\operatorname{DWT}\left(\boldsymbol{Z}_{\mathrm{CIL}}\right)\right), \\& \operatorname{CIL}(\boldsymbol{Z})=\operatorname{LReLU}(\operatorname{IN}(\operatorname{Conv}(\boldsymbol{Z}))) .\end{split}\right\} $

式中：$ \{ {{\boldsymbol{X}}_{{\text{LL}}}},{{\boldsymbol{X}}_{{\text{HL}}}},{{\boldsymbol{X}}_{{\text{LH}}}},{{\boldsymbol{X}}_{{\text{HH}}}}\}={\text{DWT}}({\boldsymbol{X}}) $，$ {{\boldsymbol{X}}_{{\text{LL}}}} $表示低频子带，$ {{\boldsymbol{X}}_{{\text{HL}}}}、{{\boldsymbol{X}}_{{\text{LH}}}}、{{\boldsymbol{X}}_{{\text{HH}}}} $表示3个高频子带，分别表示原始图像的垂直、水平和对角线特征；Conv的卷积核为3×3；$ {\text{CIL}} $操作由Conv、In和LReLU组成.

后处理模块采用小波逆变换(inverse discrete wavelet transform, IDWT)与一系列卷积操作相结合的方式，旨在恢复数据的分辨率至与输入时相同的大小，从而确保数据在经过UMRNet处理后的完整性. 如图1(e)所示展示了后处理模块的结构，该结构可表示为如下公式：

(11)$\left. \begin{aligned}& \boldsymbol{Q}_{\mathrm{IDWT}}=\operatorname{IDWT}\left(\operatorname{Conv}\left(\boldsymbol{Q}_{\mathrm{in}}\right)\right) , \\& \boldsymbol{Q}_{\mathrm{out}}=\operatorname{Conv}\left(\operatorname{CIL}\left(\operatorname{CIL}\left(\operatorname{Cat}\left(\boldsymbol{Q}_{\mathrm{IDWT}}, \boldsymbol{Z}_{\mathrm{CIL}}\right)\right)\right) \right).\end{aligned} \right\}$

式中：$ {{\boldsymbol{X}}'} = {\text{IDWT}}(\{ {{\boldsymbol{X}}_{{\text{LL}}}},{{\boldsymbol{X}}_{{\text{HL}}}},{{\boldsymbol{X}}_{{\text{LH}}}},{{\boldsymbol{X}}_{{\text{HH}}}}\} ) $，$ {{\boldsymbol{Z}}_{{\text{CIL}}}} $来自前处理模块，$ {\text{Cat}} $表示拼接操作.

1.2.3. 数据一致性(DC)模块

E2E-VN对前一次重建的k空间数据进行数据一致性处理，但并未对当前迭代中网络的输出数据进行数据一致性操作. 实验表明，如果对当前迭代次数的UMRNet输出值进行数据一致性处理，可提高重建质量. 在消融实验中，本研究进一步证明了对当前迭代次数的UMRNet输出值进行数据一致性操作对VNTM造成的影响.

如图1(c)所示展示了DC模块的结构，该结构可表示为如下公式：

(12)$ \mathrm{DC}_\beta\left(\boldsymbol{M}, \boldsymbol{k}^t, \boldsymbol{Y}\right)=\boldsymbol{k}^t-\beta^t \boldsymbol{M}\left(\boldsymbol{k}^t-\boldsymbol{Y}\right) , $

(13)$ \mathrm{DC}_\rho\left(\boldsymbol{M}, \tilde{\boldsymbol{k}}^t, \boldsymbol{Y}\right)=\tilde{\boldsymbol{k}}^t-\rho^t \boldsymbol{M}\left(\tilde{\boldsymbol{k}}^t-\boldsymbol{Y}\right) . $

式中：${{\boldsymbol{k}}^t}$表示当前迭代重建的输出，${\tilde {\boldsymbol{k}}^t}$表示UMRNet模块的输出值，${\boldsymbol{Y}}$表示欠采样k空间数据，${\boldsymbol{M}}$表示欠采样掩码，$\beta $与$\rho $表示可学习的参数.

2. 实验及结果分析

在公开的大脑和膝盖数据集上，使用不同的采样掩码和加速因子，并与当前最先进的几种方法进行比较. 本研究中所有的实验指标结果均只计算感兴趣区域(region of interest，ROI).

2.1. 实验数据

使用公开的膝盖和大脑数据对所提出的模型进行测试. 具体而言，膝盖数据来源于公开数据集NYULH Radiology-Reconstruction-Data^[15]，包括冠状面质子密度加权(coronal proton-density, Coronal-PD)序列和矢状面质子密度加权(sagittal proton-density, Sagittal-PD)序列，大脑数据集则来自于纽约大学fastMRI Initiative数据库的T2大脑数据集(fastMRI-T2Brain)^[27].

膝盖数据集是利用3T磁共振扫描仪对病人的膝盖进行全采样得到的，包含了5个不同对比度和不同解剖面的快速自旋回波(turbo spin echo, TSE)序列，每个序列采集20位不同的病人的数据. 本次实验选取了冠状面质子密度加权(Coronal-PD)序列(TR=2750 ms，TE=27 ms，TF=4，平面内分辨率为 0.49×0.44 mm²，切片厚度为3 mm，35~42个切片)和矢状面质子密度加权(Sagittal-PD)序列(TR=2800 ms，TE=27 ms，TF=4，平面内分辨率为 0.46×0.36 mm²，切片厚度为3 mm，31~38个切片)对模型的重建效果进行验证. 在实验过程中，在每个序列中随机选取14个病人的数据作为训练集，3个病人的数据作为验证集，以及3个病人的数据作为测试集. 同时，为了排除数据中噪声对实验结果的影响，选取每个病人的20个切片并将图像裁剪为320×320大小进行实验，每个切片均为15个线圈，即每个实验样本大小为320×320×15.

大脑数据集在3T或1.5T扫描仪上采集的. 原始的多线圈k空间数据经过傅立叶逆变换后，被裁剪为320×320大小. 为了标准化线圈数量，使用几何分解线圈压缩(geometric decomposition coil compression，GCC)技术，将线圈数量标准化为15. 实验过程中，从原始数据集中随机选择80名受试者进行训练，20名受试者进行验证，以及20名受试者用于测试，每个受试者包含前5个切片的数据，即每个实验样本大小为320×320×15.

2.2. 实验设置

所提出的VNTM是在PyTorch框架^[28]下实现的. 由于实验设备性能限制，训练过程中，将Batch Size设置为1，采用余弦退火策略对学习率进行不断调整，并使用提前停止策略时刻关注模型是否过拟合. 具体的模型参数如表1所示. 实验在配备64G RAM的IntelCore i9-13900K@3.2 GHz和24 G的NVIDIA GeForce RTX 4090上进行.

表 1 VNTM模型参数表

Tab.1 VNTM model parameters

参数	数值
Batch Size	1
卷积核大小	3×3
初始学习率	1×10⁻³
最小学习率	1×10⁻⁶
Epoch	100
级联数量T	8
优化器	Adam
损失函数	L1 Loss
早停策略阈值	30

为了评估提出的VNTM网络的性能，在实验过程中选择了不同加速因子的采样掩码进行欠采样实验. 具体来说，采用了5种欠采样掩码，分别为一维等间隔欠采样(1DUU)、一维笛卡尔随机欠采样(1DRU)、二维随机欠采样(2DRU)、伪径向欠采样(RADU)和泊松盘欠采样(2DPU). 对于一维采样掩码，采用了2个加速因子(acceleration factor, AF)，分别为3和5，而对于二维采样掩码，则选择了5和10作为加速因子，不同采样掩码的ACS大小如表2所示. 为了定量评估重建图像的质量，选择峰值信噪比(peak signal-to-noise ratio， PSNR)^[29]和结构相似性指数(structural similarity， SSIM)^[30]作为评价指标来定量评估重建图像，其中PSNR和SSIM的数值越高代表重建质量越好.

表 2 不同欠采样掩码的ACS大小

Tab.2 ACS sizes of different undersampling masks

采样掩码	ACS	采样掩码	ACS
3× 1DRU	320×20	10× 2DRU	3×6
5× 1DRU	320×20	5× RADU	29×29
3× 1DUU	320×21	10× RADU	19×13
5× 1DUU	320×22	5× 2DPU	20×20
5× 2DRU	8×12	10× 2DPU	20×20

2.3. 实验结果

为了验证所提出VNTM的优势，将其与当前在基于校准的欠采样MRI重建领域内的先进方法进行对比，这些方法包括E2E-VN^[16]、RecurrentVN^[17]、Deep-SLR^[31]、Deepcomplex^[32]、DONet^[33]和SwinMR^[20]. 其中，E2E-VN和RecurrentVN是用于多线圈MRI重建的代表性深度展开网络，都采用深度学习的方法进行灵敏度图估计. SwinMR基于Swin Transformer进行重建，损失函数部分使用ESPIRiT估计的全采样数据的灵敏度图. 而其余3种方法并未使用灵敏度图进行多个线圈图像的重建. 为了确保对比的公正性与科学性，本研究严格按照这些作者论文中设置的参数进行训练.

如表3~5所示，详尽对比了几种方法在不同数据集、采样掩码以及加速因子条件下的重建性能，并通过PSNR和SSIM指标进行定量分析，最好的结果用加粗标记. 从表3中可以观察到，在3倍加速的一维笛卡尔采样掩码应用场景下，RecurrentVN的SSIM与本研究提出VNTM的相当，但VNTM在PSNR上优于RecurrentVN. 进一步观察发现，在其他采样掩码上，VNTM不仅在PSNR上，同时在SSIM上也超越了RecurrentVN. 与其他5种方法相比，VNTM的重建质量在PSNR和SSIM上均达到了更优水平. 从表4可以观察到，在所有采样掩码的应用场景下，VNTM都具有较好的重建性能. 从表5可以观察到，虽然RecurrentVN在一维采样掩码应用场景下的SSIM与VNTM基本相同，但VNTM在PSNR上表现依旧更好，这与表1中的观察结果是一致的. 总体而言，VNTM在不同采样掩码与加速因子下都具有稳定且优异的定量结果.

表 3 不同方法在膝盖数据（冠状面质子密度加权序列）上重建结果的评价指标

Tab.3 Evaluation metrics for reconstruction results of different methods on knee data (Coronal-PD)

评价指标	方法	3× 1DRU	5× 1DRU	3× 1DUU	5× 1DUU	5× 2DRU	10× 2DRU	5× RADU	10× RADU	5× 2DPU	10× 2DPU
PSNR/dB	E2E-VN	36.39	34.75	34.33	32.26	36.27	33.13	35.86	31.82	34.64	32.11
	RecurrentVN	37.61	35.46	35.17	32.71	36.44	33.00	36.08	33.95	35.75	34.00
	Deep-SLR	33.75	32.22	31.05	28.74	36.68	34.23	36.64	33.20	35.96	34.29
	Deepcomplex	36.55	33.95	33.43	30.13	38.73	36.19	38.29	34.79	38.82	36.64
	DONet	36.85	34.58	34.08	31.31	39.02	36.37	38.52	35.08	39.34	36.88
	SwinMR	33.95	33.10	32.89	31.99	35.86	32.85	36.67	32.83	35.13	33.65
	VNTM	37.79	35.80	36.36	33.57	39.22	36.76	38.91	35.52	39.76	37.37
SSIM	E2E-VN	0.938	0.916	0.921	0.886	0.940	0.904	0.934	0.880	0.933	0.898
	RecurrentVN	0.949	0.920	0.926	0.885	0.937	0.899	0.931	0.896	0.940	0.907
	Deep-SLR	0.902	0.868	0.874	0.811	0.938	0.905	0.937	0.882	0.935	0.902
	Deepcomplex	0.938	0.898	0.899	0.839	0.953	0.923	0.949	0.902	0.956	0.929
	DONet	0.941	0.908	0.910	0.861	0.955	0.925	0.950	0.906	0.959	0.932
	SwinMR	0908	0.886	0.893	0.868	0.923	0.884	0.927	0.866	0.919	0.887
	VNTM	0.949	0.921	0.935	0.893	0.956	0.930	0.952	0.911	0.962	0.937

表 5 不同方法在T2大脑数据上重建结果的评价指标

Tab.5 Evaluation metrics for reconstruction results of different networks on fastMRI-T2Brain

评价指标	方法	3× 1DRU	5× 1DRU	3× 1DUU	5× 1DUU	5× 2DRU	10× 2DRU	5× RADU	10× RADU	5× 2DPU	10× 2DPU
PSNR/dB	E2E-VN	40.09	37.36	39.11	36.12	37.54	35.20	37.87	35.88	36.83	36.77
	RecurrentVN	40.32	38.06	39.46	36.32	39.11	36.92	37.62	36.07	37.15	34.73
	Deep-SLR	36.47	35.26	34.55	32.79	37.72	35.25	37.29	34.45	37.63	36.04
	Deepcomplex	38.58	36.02	37.22	32.92	38.27	36.19	38.25	35.14	38.56	36.90
	DONet	38.81	36.35	37.47	33.97	38.44	36.26	38.47	35.33	38.61	36.93
	SwinMR	36.31	35.16	35.91	34.04	36.91	34.63	37.99	34.31	36.35	31.41
	VNTM	40.44	38.22	39.67	36.71	39.99	38.03	39.96	37.03	40.04	38.56
SSIM	E2E-VN	0.972	0.959	0.968	0.951	0.964	0.952	0.966	0.952	0.962	0.956
	RecurrentVN	0.973	0.962	0.969	0.951	0.968	0.958	0.964	0.952	0.962	0.947
	Deep-SLR	0.959	0.946	0.943	0.921	0.963	0.947	0.960	0.938	0.962	0.949
	Deepcomplex	0.966	0.950	0.957	0.920	0.964	0.951	0.963	0.942	0.964	0.952
	DONet	0.967	0.951	0.959	0.930	0.965	0.952	0.964	0.944	0.964	0.953
	SwinMR	0.950	0.940	0.948	0.930	0.952	0.934	0.959	0.932	0.947	0.913
	VNTM	0.973	0.962	0.969	0.952	0.971	0.962	0.970	0.955	0.971	0.963

表 4 不同方法在膝盖数据（矢状面质子密度加权序列）上重建结果的评价指标

Tab.4 Evaluation metrics for reconstruction results of different networks on knee data (Sagittal-PD)

评价指标	方法	3× 1DRU	5× 1DRU	3× 1DUU	5× 1DUU	5× 2DRU	10× 2DRU	5× RADU	10× RADU	5× 2DPU	10× 2DPU
PSNR/dB	E2E-VN	36.64	34.25	36.27	32.52	37.95	35.18	36.68	33.12	36.17	33.49
	RecurrentVN	38.83	34.31	36.75	32.83	38.44	35.52	37.47	33.79	37.31	36.40
	Deep-SLR	36.27	33.91	34.69	30.41	38.68	36.06	37.92	34.34	38.40	35.98
	Deepcomplex	37.67	35.02	35.86	31.06	39.93	37.29	38.97	35.24	39.87	37.78
	DONet	38.22	35.75	36.50	32.07	39.95	37.58	39.17	35.63	40.32	38.00
	SwinMR	33.99	32.62	33.46	30.81	36.34	33.26	36.93	32.90	35.33	33.79
	VNTM	39.83	37.08	38.53	33.33	40.76	38.18	39.90	36.18	41.08	38.85
SSIM	E2E-VN	0.940	0.911	0.937	0.875	0.949	0.921	0.942	0.891	0.944	0.913
	RecurrentVN	0.954	0.902	0.938	0.875	0.949	0.920	0.939	0.886	0.944	0.926
	Deep-SLR	0.930	0.891	0.911	0.819	0.949	0.919	0.942	0.887	0.948	0.916
	Deepcomplex	0.944	0.908	0.925	0.837	0.959	0.933	0.951	0.902	0.959	0.937
	DONet	0.947	0.916	0.931	0.856	0.959	0.936	0.952	0.908	0.962	0.939
	SwinMR	0.899	0.869	0.894	0.830	0.925	0.888	0.925	0.860	0.915	0.882
	VNTM	0.959	0.931	0.949	0.881	0.964	0.942	0.957	0.916	0.966	0.946

如图2所示展示了不同算法在3个数据集（Coronal-PD、Sagittal-PD 和 fastMRI-T2Brain）上的 PSNR 整体表现，反映了各算法在图像重建任务中性能的差异. 具体来看，VNTM 算法在3个数据集上的 PSNR 平均值均为最高，比次优方法分别提高了0.903、1.054、1.290 dB. DONet 在 Coronal-PD 和 Sagittal-PD 数据集上的表现虽不及 VNTM，但优于其他方法；而在 fastMRI-T2Brain 数据集中，Recurrent-VN 的表现相对较好. 相比之下，Deep-SLR 和 SwimMR 在所有数据集上的 PSNR 平均值较低，表现不佳. 总之，VNTM 在3个数据集中的定量结果最佳.

图 2

图 2 不同算法在多个数据集上PSNR 的整体表现比较

Fig.2 Overall comparison of PSNR performance of different algorithms across multiple datasets

如图3所示展示了不同算法在3个数据集（Coronal-PD、Sagittal-PD 和 fastMRI-T2Brain）上的 SSIM 整体表现，反映了各算法在图像重建任务中的性能差异. 具体来看，VNTM 算法在3个数据集上的 SSIM 平均值均为最高；在 Coronal-PD 和 fastMRI-T2Brain 数据集中，Recurrent-VN 的 SSIM 表现次优，仅次于 VNTM，而在 Sagittal-PD 数据集中，DONet 表现相对较好. 相比之下，Deep-SLR 和 SwimMR 在所有数据集上的 SSIM 平均值较低，整体表现不佳. 值得注意的是，在 fastMRI-T2Brain 数据集上，各算法的 SSIM 普遍较高，且不同算法间的差距较小. 总体而言，VNTM 算法在3个数据集上的定量结果最佳.

图 3

图 3 不同算法在多个数据集上SSIM 的整体表现比较

Fig.3 Overall comparison of SSIM performance of different algorithms across multiple datasets

如图4~6所示，本研究分别展示了在膝盖和大脑数据集下，7种先进方法(E2E-VN、RecurrentVN、Deep-SLR、Deepcomplex、DONet、SwinMR和VNTM)在不同采样掩码下的视觉比较，每组视觉比较分为3行：第1行中的第1列为Ground truth，其余则分别展示了各方法的重建结果；第2行中的第1列是该组所使用的采样掩码，其余则是通过误差图直观反映了各方法的重建误差；第3行中的第1列是该组所使用的采样掩码和加速因子，其余则是各方法重建图像的PSNR和SSIM. 其中，$\Delta p $表示归一化相素值的差值.

图 4

图 4 3倍加速的1DUU采样掩码下7种网络在膝关节数据（Coronal-PD）上的视觉重建效果比较

Fig.4 Visual comparison of seven networks on knee data (Coronal-PD) under 3× acceleration with a 1DUU mask

图 5

图 5 3倍加速的1DRU采样掩码下7种网络在膝关节数据（Sagittal-PD）上的视觉重建效果比较

Fig.5 Visual comparison of seven networks on knee data (Sagittal-PD) under 3× acceleration with a 1DRU mask

图 6

图 6 5倍加速的RADU采样掩码下7种网络在大脑数据上的视觉重建效果比较

Fig.6 Visual comparison of seven networks on fastMRI-T2Brain under 5× acceleration with a RADU sampling mask

观察图4可以发现，几乎所有的误差都集中在重建图像的中部偏下区域. 其中，Deep-SLR和SwinMR中出现了较多的块状伪影，表现相对较差. 而相比之下，本研究提出的VNTM方法表现最好. 然而，E2E-VN的误差图上仍然存在较多的误差区域，而VNTM的误差区域更少，保留了更为丰富的细节信息.

观察图5可以发现，E2E-VN、Deep-SLR、 Deepcomplex和SwinMR在误差图像的中部和左侧边缘出现了较多的伪影区域，SwinMR的误差区域最多且比较严重，相比之下，RecurrentVN、DONet和本研究提出的VNTM在边缘部分的重建细节处理的相对较好. 尤其是VNTM，相较于RecurrentVN误差区域更少.

观察图6可以发现，Deep-SLR的误差图出现了比较多的误差区域. 相比之下，E2E-VN、RecurrentVN、Deepcomplex、DONet、SwinMR和VNTM显示出的混叠伪影主要集中在重建图像的边缘区域，而VNTM的整体表现更好.

2.4. 消融实验

为了评估所提出方法的有效性，本研究设计了一系列的消融实验. 这些消融实验以E2E-VN作为基准模型(Baseline)，并在Coronal-PD上使用5倍加速的二维随机的采样掩码. 在消融实验中，设计了5个算法来评估所提出方法的有效性，即：VNTM-A、VNTM-B、VNTM-C、VNTM-D和VNTM-E. 具体而言，VNTM-A与VNTM-B在基准模型中分别应用UMRNet和UMRB；VNTM-C和VNTM-D与VNTM相比，分别去除了${\text{D}}{{\text{C}}_\rho }$模块和中期增强；VNTM-E与VNTM相比去除了前后处理模块，上述的消融实验结果见表6，最好的结果用加粗标记.

表 6 VNTM消融实验结果

Tab.6 Results of VNTM ablation experiment

方法	DC_ρ	中期增强	UMRB		PSNR/dB	SSIM
方法	DC_ρ	中期增强	前后处理	UMRNet	PSNR/dB	SSIM
Baseline	—	—	—	—	36.27	0.940
VNTM-A	—	—	—	√	36.88	0.942
VNTM-B	—	—	√	√	37.61	0.946
VNTM-C	—	√	√	√	39.17	0.955
VNTM-D	√	—	√	√	37.90	0.947
VNTM-E	√	√	—	√	38.91	0.953
VNTM (本研究)	√	√	√	√	39.22	0.956

从消融实验结果可以看出，所提出的改进策略均提升了模型性能. 其中，灵敏度图的中期增强提升效果最强，而${\text{D}}{{\text{C}}_\rho }$的提升效果相对较弱. 当所有改进策略相结合时，模型达到了最优的重建效果，其效果优于基准模型E2E-VN，这一结果充分验证了所提出改进方法的有效性.

为了探究灵敏度图中期增强与非中期增强对模型重建性能的影响，针对不同的迭代点(T/4、T/2、3T/4)进行了灵敏度图增强实验，其中T/2迭代为中期增强，T/4和3T/4迭代为非中期增强. 通过对实验结果的分析(见表7)可以发现，在T/2迭代增强时，模型性能达到了最优. 因此，本研究后续将主要聚焦于T/2迭代的深入分析，以进一步优化模型性能，而对T/4和3T/4迭代不再展开深入讨论.

表 7 灵敏度图中期增强与非中期增强实验结果

Tab.7 Results of experiments on mid-phase and non-mid-phase enhancements of sensitivity maps

方法	PSNR/dB	SSIM
VNTM-T/4	39.15	0.955
VNTM-T/2	39.22	0.956
VNTM-3T/4	39.14	0.955

为了评估处理模块对模型计算性能的影响，对其在使用前后的计算量FLOPs、参数量Para和推理时间t_I进行对比. 处理模块在减少计算复杂度的同时，保持了参数量的相对稳定性，并提升了推理效率. 具体数据如表8所示，其中，VNTM-E表示没有使用处理模块，VNTM-F表示使用了处理模块. 通过处理模块，FLOPs减少了约61%，模型的计算复杂度降低；推理时间减少了约65%，推理速度提高，说明模块优化效果明显；参数量在使用处理模块后仅略微增加，表明模块的引入对模型的存储需求影响较小. 综上所述，验证了所提出处理模块的有效性.

表 8 前后处理模块使用前后计算效率比较结果

Tab.8 Comparison of computational efficiency before and after module integration

方法	FLOPs /10¹²	Para/10⁸	t_I/s
VNTM-E	1.28	1.27	0.417
VNTM-F	0.50	1.28	0.144

为了确定模型级联数量T对模型性能的影响，对T进行消融实验，实验中评估了不同级联数量(2, 4, 6, 8, 10, 12)对 PSNR 和 SSIM 的影响，结果如表9所示. 实验结果表明，当级联数量从2增加至8时，PSNR和SSIM均稳步提升，在 T=8时性能达到最佳. 然而，进一步增加T至10 和12时，性能提升趋于平缓，且计算量会相对增加. 因此，本研究选择T=8作为最终模型，以在性能和计算资源之间取得平衡.

表 9 级联数量对模型性能的消融实验结果

Tab.9 Ablation study results on effect of cascade number on model performance

方法	T	PSNR/dB	SSIM
VNTM	2	38.69	0.953
VNTM	4	39.03	0.955
VNTM	6	39.16	0.955
VNTM	8	39.22	0.956
VNTM	10	39.14	0.955
VNTM	12	39.25	0.956

2.5. ACS区域大小的鲁棒性研究

对于重建过程中需要利用ACS区域估计灵敏度图的方法，ACS区域大小尤为重要. 由于E2E-VN在估计灵敏度图时仅使用ACS区域，因此ACS区域过小，可能会产生严重的混叠伪影. 为了解决这一问题，使用欠采样多线圈k空间数据估计灵敏度图，并利用T/2次迭代时的输出数据重新估计灵敏度图，这种策略不仅加强了与重建数据之间的关联程度，而且还更新了灵敏度，进一步增加灵敏度图的准确性，并减少了对于ACS区域的依赖. 为了验证本研究的方法对于不同的ACS区域大小的鲁棒性，在Sagittal-PD上进行实验，使用3倍加速二维泊松采样掩码(3× 2DPU)进行欠采样，ACS区域大小分别设置为4×4，8×8，12×12，16×16和20×20，并将VNTM方法与E2E-VN和RecurrentVN这2种方法进行比较. 上述的消融实验结果如图7所示. 可以看出，在ACS区域从20×20降低到4×4时，本研究提出的方法在PSNR和SSIM这2种评估指标上仍然保持一个相对稳定范围，而E2E-VN和RecurrentVN则出现了较大的波动. 具体来说，当ACS从20×20降低到4×4时，VNTM的PSNR仅下降了0.31 dB，显示出良好的稳定性. 相比之下，E2E-VN和RecurrentVN的PSNR分别下降了3.57、4.79 dB. 进一步地，当ACS从20降低到4时，VNTM的SSIM下降了0.003，而E2E-VN和RecurrentVN分别下降了0.007和0.01.

图 7

图 7 不同方法对于不同ACS大小的鲁棒性实验结果

Fig.7 Robustness experimental results of different methods for various ACS sizes

如图8、9所示分别展示了ACS大小为4×4和20×20这2种场景下，3种方法的重建图像和对应的误差图. 可以看出，当ACS足够大(20×20)时，E2E-VN和RecurrentVN可以产生较接近Ground truth的重建图像，而VNTM则产生了误差更小的重建图像. 另外，即使当ACS区域有限(如4×4)时，从误差图可以观察到VNRM的误差区域依旧很少，而其他2种方法则出现多个高误差区域. 上述实验结果验证了所提出方法对于ACS大小变化的鲁棒性，有效降低了对ACS大小的依赖.

图 8

图 8 4×4大小的ACS区域视觉比较

Fig.8 Visual comparison of 4×4 ACS region

图 9

DOI:10.1002/(SICI)1522-2594(199911)42:5<952::AID-MRM16>3.0.CO;2-S [本文引用: 1]

图 9 20×20大小的ACS区域视觉比较

Fig.9 Visual comparison of 20×20 ACS region

3. 结　语

提出基于变分模型和Transformer的多尺度并行磁共振成像重建模型(VNTM). 该模型充分考虑了ACS区域大小对灵敏度图估计的影响，提出了灵敏度图中期增强策略，有效降低了对ACS区域大小的依赖. 为了进一步提高重建图像的质量，利用残差Swin Transformer的出色性能设计了UMRB模块. 针对Transformer模型固有的计算复杂度挑战，设计了前处理和后处理模块，以在保留空间信息和减少计算资源之间取得平衡. 通过在大脑和膝盖数据集上的实验可以看出，所提出的VNTM与最先进的重建方法相比，在定量和定性上都表现出优异的重建性能. 在之后的工作中，会继续尝试设计不同的网络架构，以获得更高的重建性能和更广泛的应用前景.

参考文献

原文顺序

文献年度倒序

文中引用次数倒序

被引期刊影响因子

[1]

PRUESSMANN K P

Encoding and reconstruction in parallel MRI

[J]. NMR in Biomedicine, 2006, 19 (3): 288- 299

DOI:10.1002/nbm.1042 [本文引用: 1]

[2]

LARKMAN D J, NUNES R G

Parallel magnetic resonance imaging

[J]. Physics in Medicine and Biology, 2007, 52 (7): R15

DOI:10.1088/0031-9155/52/7/R01

[3]

LUSTIG M, PAULY J M

SPIRiT: iterative self-consistent parallel imaging reconstruction from arbitrary k-space

[J]. Magnetic Resonance in Medicine, 2010, 64 (2): 457- 471

DOI:10.1002/mrm.22428 [本文引用: 2]

[4]

DONOHO D L

Compressed sensing

[J]. IEEE Transactions on Information Theory, 2006, 52 (4): 1289- 1306

DOI:10.1109/TIT.2006.871582 [本文引用: 1]

[5]

LUSTIG M, DONOHO D, PAULY J M

Sparse MRI: the application of compressed sensing for rapid MR imaging

[J]. Magnetic Resonance in Medicine, 2007, 58 (6): 1182- 1195

DOI:10.1002/mrm.21391 [本文引用: 1]

[6]

PRUESSMANN K P, WEIGER M, SCHEIDEGGER M B, et al

SENSE: sensitivity encoding for fast MRI

[J]. Magnetic Resonance in Medicine, 1999, 42 (5): 952- 962

[7]

UECKER M, LAI P, MURPHY M J, et al

ESPIRiT: an eigenvalue approach to autocalibrating parallel MRI: where SENSE meets GRAPPA

[J]. Magnetic Resonance in Medicine, 2014, 71 (3): 990- 1001

DOI:10.1002/mrm.24751 [本文引用: 1]

[8]

LUSTIG M, DONOHO D L, SANTOS J M, et al

Compressed sensing MRI

[J]. IEEE Signal Processing Magazine, 2008, 25 (2): 72- 82

DOI:10.1109/MSP.2007.914728 [本文引用: 1]

[9]

RUDIN L I, OSHER S, FATEMI E

Nonlinear total variation based noise removal algorithms

[J]. Physica D: Nonlinear Phenomena, 1992, 60 (1/2/3/4): 259- 268

[10]

RAVISHANKAR S, BRESLER Y. Sparsifying transform learning for compressed sensing MRI [C]// IEEE 10th International Symposium on Biomedical Imaging. San Francisco: IEEE, 2013: 17–20.

[11]

ZHANG K, ZUO W, CHEN Y, et al

Beyond a Gaussian denoiser: residual learning of deep CNN for image denoising

[J]. IEEE Transactions on Image Processing, 2017, 26 (7): 3142- 3155

DOI:10.1109/TIP.2017.2662206 [本文引用: 1]

[12]

LIU G, REDA F A, SHIH K J, et al. Image inpainting for irregular holes using partial convolutions [C]// European Conference on Computer Vision. Cham: Springer International Publishing, 2018: 89–105.

[13]

LIM B, SON S, KIM H, et al. Enhanced deep residual networks for single image super-resolution [C]// Computer Vision and Pattern Recognition Workshops. Honolulu: IEEE, 2017: 1132–1140.

[14]

WU Z, LIAO W, YAN C, et al

Deep learning based MRI reconstruction with transformer

[J]. Computer Methods and Programs in Biomedicine, 2023, 233: 107452

DOI:10.1016/j.cmpb.2023.107452 [本文引用: 1]

[15]

HAMMERNIK K, KLATZER T, KOBLER E, et al

Learning a variational network for reconstruction of accelerated MRI data

[J]. Magnetic Resonance in Medicine, 2018, 79 (6): 3055- 3071

DOI:10.1002/mrm.26977 [本文引用: 4]

[16]

SRIRAM A, ZBONTAR J, MURRELL T, et al. End-to-end variational networks for accelerated MRI reconstruction [C]// Medical Image Computing and Computer Assisted Intervention. Cham: Springer, 2020: 64–73.

[本文引用: 2]

[17]

YIASEMIS G, SONKE J J, SÁNCHEZ C, et al. Recurrent variational network: a deep learning inverse problem solver applied to the task of accelerated MRI reconstruction [C] // IEEE/CVF Conference on Computer Vision and Pattern Recognition. New Orleans: IEEE, 2022: 722–731.

[本文引用: 2]

[18]

GUO P, MEI Y, ZHOU J, et al

ReconFormer: accelerated MRI reconstruction using recurrent transformer

[J]. IEEE Transactions on Medical Imaging, 2024, 43 (1): 582- 593

DOI:10.1109/TMI.2023.3314747 [本文引用: 1]

[19]

HUANG J, XING X, GAO Z, et al. Swin deformable attention U-Net transformer (SDAUT) for explainable fast MRI [C]// Medical Image Computing and Computer Assisted Intervention. Cham: Springer, 2022: 538–548.

[20]

HUANG J, FANG Y, WU Y, et al

Swin transformer for fast MRI

[J]. Neurocomputing, 2024, 493: 281- 304

[本文引用: 2]

[21]

WANG B, LIAN Y, XIONG X, et al

DCT-net: dual-domain cross-fusion transformer network for MRI reconstruction

[J]. Magnetic Resonance Imaging, 2024, 107: 69- 79

DOI:10.1016/j.mri.2024.01.007 [本文引用: 1]

[22]

LIU X, XU W, YE X. The ill-posed problem and regularization in parallel magnetic resonance imaging [C]// 3rd International Conference on Bioinformatics and Biomedical Engineering. Beijing: IEEE, 2009: 1–4.

[23]

ROEMER P B, EDELSTEIN W A, HAYES C E, et al

The NMR phased array

[J]. Magnetic Resonance in Medicine, 1990, 16 (2): 192- 225

DOI:10.1002/mrm.1910160203 [本文引用: 1]

[24]

LIANG J, CAO J, SUN G, et al. SwinIR: image restoration using swin transformer [C]// International Conference on Computer Vision Workshops. Montreal: IEEE, 2021: 1833–1844.

[25]

FABIAN Z, TINAZ B, SOLTANOLKOTABI M. HUMUS-Net: hybrid unrolled multi-scale network architecture for accelerated MRI reconstruction [EB/OL]. (2023-03-17)[2024-08-01]. https://arxiv.org/abs/2203.08213.

[26]

LAI Z, QU X, LIU Y, et al

Image reconstruction of compressed sensing MRI using graph-based redundant wavelet transform

[J]. Medical Image Analysis, 2016, 27: 93- 104

DOI:10.1016/j.media.2015.05.012 [本文引用: 1]

[27]

KNOLL F, ZBONTAR J, SRIRAM A, et al

fastMRI: a publicly available raw k-space and DICOM dataset of knee images for accelerated MR image reconstruction using machine learning

[J]. Radiology Artificial Intelligence, 2020, 2 (1): e190007

DOI:10.1148/ryai.2020190007 [本文引用: 1]

[28]

PASZKE A, GROSS S, MASSA F, et al. PyTorch: an imperative style, high-performance deep learning library [EB/OL]. (2019-12-03)[2024-08-01]. https://arxiv.org/abs/1912.01703.

[29]

HORÉ A, ZIOU D. Image quality metrics: psnr vs. SSIM [C]// 20th International Conference on Pattern Recognition. Istanbul: IEEE, 2010: 2366–2369.