浙江大学学报(工学版), 2025, 59(7): 1434-1442 doi: 10.3785/j.issn.1008-973X.2025.07.011

计算机技术与控制工程

改进Transformer的肺部CT图像超分辨率重建

刘杰,, 吴优, 田佳禾, 韩轲

1. 哈尔滨理工大学 测控技术与通信工程学院,黑龙江 哈尔滨 150080

2. 哈尔滨理工大学 荣成学院,山东 威海 264300

3. 哈尔滨商业大学 计算机与信息工程学院,黑龙江 哈尔滨 150028

Based on improved Transformer for super-resolution reconstruction of lung CT images

LIU Jie,, WU You, TIAN Jiahe, HAN Ke

1. School of Measurement-Control Technology and Communications Engineering, Harbin University of Science and Technology, Harbin 150080, China

2. Rongcheng Campus, Harbin University of Science and Technology, Weihai 264300, China

3. School of Computer and Information Engineering, Harbin University of Commerce, Harbin 150028, China

收稿日期: 2024-09-2  

基金资助: 黑龙江省自然科学基金资助项目(LH2023E086);黑龙江省交通运输厅科技项目(HJK2024B002).

Received: 2024-09-2  

Fund supported: 黑龙江省自然科学基金资助项目(LH2023E086);黑龙江省交通运输厅科技项目(HJK2024B002).

作者简介 About authors

刘杰(1980—),女,副教授,博士,从事图像处理、大数据模型预测研究.orcid.org/0009-0004-8073-0085.E-mail:liujie@hrbust.edu.cn , E-mail:liujie@hrbust.edu.cn

摘要

肺部CT图像灰度级别丰富,导致特征提取不充分、重建细节较差,为此提出基于局部增强Transformer和U-Net的肺部CT图像超分辨率重建网络. 采用空洞卷积进行多感受野的深层特征提取,在不同膨胀率的空洞卷积层下获得全局图像信息,进行不同感受野下的特征信息融合. 将通过3×3卷积层获得的原始特征送入结合所提网络的编解码结构中,在局部增强窗口模块的作用下减小计算量并捕获局部信息. 在解码阶段,为了提高重建图像的质量,使用跳跃连接并加入融合空间注意力和通道注意力的分割注意模块,进行无用信息丢弃和有用信息利用. 实验结果表明,在SARS-CoV-2数据集中,所提网络与Transformer网络相比,4倍超分辨率的结构相似性和峰值信噪比分别提高了0.029和0.186 dB.

关键词: 肺部CT图像 ; 超分辨率重建 ; Transformer ; 空洞卷积 ; 分割注意力

Abstract

A super-resolution reconstruction network for lung CT images based on a locally enhanced Transformer and U-Net was proposed for the rich grey scale of the lung CT images leading to insufficient feature extraction and poor reconstruction details. The dilated convolution was used for deep feature extraction in multiple receptive fields, the global image information was obtained under the dilated convolution layers with different dilation rates, and the feature information under these different receptive fields was fused. The original features were obtained through the 3×3 convolutional layers, which were sent to the coding and decoding structure combining the proposed network, and the local enhancement window module reduced the computation and captured the local information. In the decoding stage, a skip connection was utilized, along with a segmentation attention block that fused spatial and channel attention to discard irrelevant information and utilize useful information, in order to obtain high-quality reconstructed images. Experimental results showed that, on the SARS-CoV-2 dataset, compared with the Transformer network, the proposed network improved the structural similarity index measure and the peak signal-to-noise ratio for 4-fold super-resolution by 0.029 and 0.186 dB, respectively.

Keywords: lung CT image ; super-resolution reconstruction ; Transformer ; dilated convolution ; segmentation attention

PDF (2460KB) 元数据 多维度评价 相关文章 导出 EndNote| Ris| Bibtex  收藏本文

本文引用格式

刘杰, 吴优, 田佳禾, 韩轲. 改进Transformer的肺部CT图像超分辨率重建. 浙江大学学报(工学版)[J], 2025, 59(7): 1434-1442 doi:10.3785/j.issn.1008-973X.2025.07.011

LIU Jie, WU You, TIAN Jiahe, HAN Ke. Based on improved Transformer for super-resolution reconstruction of lung CT images. Journal of Zhejiang University(Engineering Science)[J], 2025, 59(7): 1434-1442 doi:10.3785/j.issn.1008-973X.2025.07.011

肺部CT图像的高精度成像设备成本高昂,无法大规模推广[1]. 图像超分辨率重建(super-resolution reconstruction,SR)技术被逐渐应用于医疗领域,它是指通过计算机软件增加图像的像素点,从低分辨率(low resolution,LR)图像中重建高分辨率(high resolution,HR)图像的方法[2].

针对肺部CT图像的超分辨率重建网络研究取得突破性进展,该网络主要基于卷积神经网络(CNN)、生成对抗网络(generative adversarial network,GAN)和基于Transformer网络. 基于CNN的网络[3-4]恢复高频信息的能力强,但在多尺度特征分析方面存在局限性. 基于GAN的网络[5]在主观视觉感知方面优势明显,但图像细节的恢复性能不完善. 谷歌机器翻译团队提出Transformer[6],在自然语言处理领域取得优异表现. 这种结构不依赖CNN和循环神经网络,通过全局自注意力机制捕获数据中的长距离依赖关系. 之后,Transformer被应用于超分辨率重建任务,SwinIR[7]结合CNN和Transformer的优点,衍生出一系列以SwinIR为基础的、性能优越的超分辨率重建网络[8]. Yu等[9]提出基于注意力机制的Transformer体积超分辨率网络(Transformer volume super-resolution network,TVSRN),结合注意力机制并利用体积数据的空间位置关系,在医学图像的超分辨率上获得了令人满意的成果. 赵凯光[10]将通道注意力与卷积结合,进一步融合肺部CT图像的全局与局部特征信息. 刘伟[11]采用Transformer和CNN混合框架进行磁共振图像(magnetic resonance imaging,MRI)重建,增强了纹理细节的呈现效果. 李光远[12]设计基于Transformer的多尺度特征重建网络,解决了多尺度和长距离依赖的问题,提高了MRI的图像质量.

现有网络在处理重建灰度级别丰富的肺部CT图像时存在特征提取不充分、重建细节较差的问题. 如TVSRN[9]在特征提取阶段,依赖多层自注意力机制而缺乏卷积计算,导致网络对局部特征的提取不充分. DCA[10]的通道注意力与卷积串联提取特征方式会造成信息丢失,特别是在进行特征融合时,未能有效整合不同层次的信息. MCMRSR[12]使用单一尺寸的卷积无法重建出肺部CT图像的细微病灶变化. 本研究利用Transformer捕获全局信息的优势来保证肺部CT图像重建后整体结构的连续性,考虑到Transformer对于细微结构的特征提取存在局限性,应用U-Net多层特征提取的结构,提出基于局部增强Transformer和U-Net的超分辨率重建网络(super-resolution reconstruction network based on a locally enhanced Transformer and U-Net,DCUformer). 1)在深层特征提取阶段设计基于多感受野的特征提取块,采用不同膨胀率的空洞卷积层获取不同感受野下的全局特征信息. 2)设计基于局部增强模块(LeWin Transformer)的U型结构,在局部增强前馈网络中引入深度卷积,促进图像细节恢复. 3)在解码阶段的跳跃连接中加入分割注意模块,充分利用有用的高频信息获得精确的重建图像.

1. 新的超分辨率重建网络

图1所示,DCUformer借助U-Net的结构思想,将上、下采样与LeWin Transformer融合,形成U型结构. 1)输入图像通过3×3的卷积层提取原始特征,网络结构的左侧分支是LeWin Transformer与下采样结合的编码器结构,右侧分支是LeWin Transformer与上采样结合的解码器结构,LeWin Transformer模块在编解码结构中的堆栈能够捕获更长的依赖关系. 2)在跳跃连接1中同时引入融合空间注意力和通道注意力的分割注意模块(segmentation attention block,SAB),使有效信息得到充分利用;在跳跃连接2中引入多感受野特征提取模块(multi-sensory field feature extraction block,MFFEB),使用不同膨胀率的空洞卷积进行深层特征提取,获得多尺度全局图像信息. 3)将深层特征信息与编解码结束后提取到的信息融合,输出SR图像.

图 1

图 1   所提超分辨率重建网络与U-Net的结构对比

Fig.1   Structure comparison of proposed super-resolution reconstruction network with U-Net


1.1. 多感受野特征提取

采用单一卷积层提取特征信息的网络无法充分利用局部图像的相邻像素信息,较深的网络层主要提取深层特征,浅层特征信息往往被忽略,导致在重建复杂纹理时效果较差[13]. 如图2所示,MFFEB通过3×3的卷积层提取原始特征,利用不同膨胀率的空洞卷积层进行深层特征提取,通过融合不同尺度下提取的特征信息,捕捉到更丰富的细节特征,使重建图像的质量得到显著提升. MFFEB采用1×1卷积层来减小特征的通道维度:

图 2

图 2   多感受野特征提取模块示意图

Fig.2   Diagram of multi-sensory field feature extraction block


$ {\boldsymbol{H}} = {\text{ReLU}}\left( {{{\mathrm{Conv}}_{1 \times 1}}\left( {\boldsymbol{F}} \right)} \right) . $

式中:$ {\boldsymbol{F}} $为输入特征图;$ {\boldsymbol{H}} $为输出特征图,使用激活函数ReLU压缩特征. 空洞卷积的膨胀率l=(1,2,5),获取不同尺度和层次的特征表示,使MFFEB具备较好的语义理解能力:

$ {{\boldsymbol{y}}_i} = {\mathrm{ReLU}}\left( {{\mathrm{DConv}}_{3 \times 3}^l\left( {\boldsymbol{F}} \right)} \right) . $

式中:$ {{\boldsymbol{y}}_i} $为第$ i $层空洞卷积的输出,$ {\mathrm{DConv}}_{3 \times 3}^l $为膨胀率为$ l $的空洞卷积层. 采用3×3卷积,将上一层提取的特征信息进行分组;一组直接传递到下一层,反馈全局特征信息;另一组与相邻的输入特征相连接,以丰富纹理信息. 第三层3×3卷积输入不同感受野下的特征信息,并且与第一层的结构连接,送入1×1卷积中进行特征融合. 输出的特征为

$ \begin{split} {{\boldsymbol{F}}^{'}} =& {{\mathrm{Conv}}_{1 \times 1}}\Biggr\{ {\boldsymbol{H}} \oplus {{\boldsymbol{y}}_{1,1}} \oplus \\ &\left[ {\sum\limits_{i = 1}^2 {{{\mathrm{Conv}}_{3 \times 3}}\left( {{{\boldsymbol{y}}_{i+1}} \oplus {{\boldsymbol{y}}_{i,i}}} \right)} } \right] \oplus {\boldsymbol{G}} \Biggr\} .\end{split} $

式中:$ {{\boldsymbol{y}}_{i,i}} $为第$ i $层空洞卷积输入第$ i $层3×3卷积得到的特征图,$ {\boldsymbol{G}} $为经过全局平均池化输出的特征图,$ \oplus $为特征融合拼接. 将输入特征和非线性变化后的特征叠加,得到最终的特征提取信息.

1.2. 融合U-Net结构的编码器-解码器

编解码阶段采用LeWin Transformer,以U型方式连接. 如图3所示,该模块包括基于非重叠窗口的多头自注意力模块(W-MSA)和局部增强前馈网络(LeFF). W-MSA的主要作用是减少全局计算的复杂度,具备更好的扩展性;LeFF的主要作用是增强局部信息的提取和利用能力. Transformer使用全局自注意力机制,W-MSA在非重叠的局部窗口内执行自注意操作,在很大程度上减小了计算量. 给定二维特征映射$ {\boldsymbol{X}} \in {{\bf{R}}^{H \times W \times C}} $,其中HW为映射的高和宽,将$ {\boldsymbol{X}} $分割成非重叠的窗口,窗口大小为$ M \times M $,从每个窗口i中得到平面化和转置的特征$ {{\boldsymbol{X}}^i} \in {{\bf{R}}^{{M^2} \times C}} $,对这些序列做自注意力操作. 非重叠窗口内的第k个头部自注意为

图 3

图 3   融合U-Net结构的编解码模块示意图

Fig.3   Diagram of encoder-decoder block integrated with U-Net structure


$ \left. \begin{gathered} {\boldsymbol{X}} = \left\{ {{{\boldsymbol{X}}^1},{{\boldsymbol{X}}^2}, \cdots ,{{\boldsymbol{X}}^N}} \right\},\;\;N = HW/{M^2}; \\ {\boldsymbol{Y}}_k^i = {\mathrm{Att}}\;({{\boldsymbol{X}}^i}{\boldsymbol{W}}_k^Q,{{\boldsymbol{X}}^i}{\boldsymbol{W}}_k^V),\;\;i = 1, \cdots ,N; \\ {{\hat {\boldsymbol{X}}}_k} = \left\{ {{\boldsymbol{Y}}_k^1,{\boldsymbol{Y}}_k^2, \cdots ,{\boldsymbol{Y}}_k^N} \right\}. \\ \end{gathered} \right\} $

式中:QKV分别为查询矩阵、键值矩阵和数值矩阵,$ {\boldsymbol{W}}_k^Q $$ {\boldsymbol{W}}_k^K $$ {\boldsymbol{W}}_k^V $分别为第k个头部自注意力的QKV的投影矩阵,$ {\hat {\boldsymbol{X}}_k} $为第k个头部自注意力的输出. 将相对位置编码应用到注意力模块中,注意力计算过程为

$ {\mathrm{Att}}\;({\boldsymbol{Q}},{\boldsymbol{K}},{\boldsymbol{V}}) = {\mathrm{SoftMax}}\left(\frac{{{{\boldsymbol{QK}}^{\mathrm{T}}}}}{{\sqrt {{d_k}} }}+B\right){\boldsymbol{V}}. $

式中:B为相对位置偏差,$ {d_k} $$ {\boldsymbol{K}} $的维度. 前馈神经网络(feedforward neural network,FNN)在重建图像过程中缺乏对邻域像素的处理能力, LeFF在FNN的基础上引入深度卷积块:1)应用一个线性投影层来增加特征维数;2)将标记的临时数据重塑为二维特征映射,使用3×3深度卷积来获取局部信息;3)将特征映射重新转变为标记数据,通过另一个线性层缩小通道,以匹配输入通道的维度.

1.3. 分割注意力模块

为了筛选有用的多尺度特征信息,提出SAB,进行选择性特征聚集,在保留有用信息的同时,丢弃无用信息. 如图4所示,在SAB中,空间注意力模块(spatial attention module,SAM)被置于通道注意力模块(channel attention module,CAM)之前,充分利用输入特征实现特征分割. 在SAM中,输入特征$ {{\boldsymbol{X}}_{{\mathrm{in}}}} $先经过3×3卷积,再通过Sigmoid函数,将通道数减少为1,获得空间注意力映射$ {{\boldsymbol{X}}_{{\mathrm{SAM}}}} \in {{\bf{R}}^{H \times W \times 1}} $.$ {{\boldsymbol{X}}_{{\mathrm{in}}}} $沿通道轴逐元素与$ {{\boldsymbol{X}}_{{\mathrm{SAM}}}} $相乘,生成空间注意特征$ {{\boldsymbol{X}}_{{\mathrm{SO}}}} \in {{\bf{R}}^{H \times W \times n}} $. 在CAM中,输入$ {{\boldsymbol{X}}_{{\mathrm{SO}}}} $,分别采用全局平均池化和全局最大池化提取通道特征信息,通过1×1卷积和ReLU激活函数来改变特征通道的数量,采用1×1卷积恢复原始的特征通道数,产生输出全局平均池化分支的输出特征图$ {{\boldsymbol{X}}_{{\text{ave,o}}}} \in {{\bf{R}}^{1 \times 1 \times n}} $和全局最大池化分支的输出特征图$ {{\boldsymbol{X}}_{\max ,{\mathrm{o}}}} \in {{\bf{R}}^{1 \times 1 \times n}} $,2个输出按元素求和相加,通过Sigmoid函数得到通道注意映射$ {{\boldsymbol{X}}_{{\mathrm{CAM}}}} \in {{\bf{R}}^{1 \times 1 \times n}} $.$ {{\boldsymbol{X}}_{{\mathrm{in}}}} $$ {{\boldsymbol{X}}_{{\mathrm{CAM}}}} $沿通道轴相乘,得到最终的注意力特征$ {{\boldsymbol{X}}_{{\mathrm{FO}}}} \in {{\bf{R}}^{H \times W \times n}} $. 给定输入$ {{\boldsymbol{X}}_{{\mathrm{in}}}} \in {{\bf{R}}^{H \times W \times n}} $,生成的特征注意力为

图 4

图 4   分割注意力模块示意图

Fig.4   Diagram of segmentation attention block


$ {{\boldsymbol{Y}}_{{\mathrm{FO}}}} = {f_{\mathrm{c}}}({f_{\mathrm{s}}}({{\boldsymbol{X}}_{{\mathrm{in}}}}) \otimes {{\boldsymbol{X}}_{{\mathrm{in}}}}) \otimes {{\boldsymbol{X}}_{{\mathrm{in}}}} . $

式中:$ {{\boldsymbol{Y}}_{{\mathrm{FO}}}} \in {{\bf{R}}^{H \times W \times n}} $为SAB的输出,$ {f_{\mathrm{c}}}( \cdot ) $$ {f_{\mathrm{s}}}( \cdot ) $分别为生成的通道注意力映射和空间注意力映射,$ \otimes $为沿通道轴的逐元素乘法运算.

2. 实验与结果分析

2.1. 数据集与实验设置

实验采用2个公共数据集:COVID-CT[14]和SARS-CoV-2[15]. COVID-CT数据集中的图像主要来自武汉各大医院,其中感染新冠病毒者的CT图像有349幅,未感染新冠病毒者的CT图像有397幅. SARS-CoV-2数据集中的图像主要来自巴西圣保罗公立医院,包含1 252幅感染新冠病毒者的CT图像和1 230幅未感染新冠病毒者的CT图像. 在2个数据集中随机取出20%的图像作为测试集,其他作为训练集. 训练时采用随机水平翻转和随机垂直翻转进行数据增强,对公共数据集进行2倍扩充,将扩充后的图像输入网络进行训练. 采用基于结构重叠的下采样方法获得HR图像对应的LR图像,使二者匹配. 实验环境:显存为11 GB的Nvidia GTX 1080Ti GPU,CPU为8核Intel i9 9900K,主频为3.6 GHz,使用Python语言和Pytorch框架.

2.2. 评价指标

通过主观评价和客观评价标准衡量重建图像的质量,其中主观评价是指视觉效果,客观评价采用峰值信噪比(peak signal to noise ratio,PSNR)[16]和结构相似性(structural similarity index measure,SSIM)[17]指标评定,PSNR和SSIM的数值越大,说明重建图像质量越好.

$ {\mathrm{PSNR}} = 10\lg \left( {\frac{{{{\max }^2}}}{{{\mathrm{MSE}}}}} \right) , $

$ {\mathrm{SSIM}} = L({\mathrm{HR}},{\mathrm{SR}}) \cdot C({\mathrm{HR}},{\mathrm{SR}}) \cdot S({\mathrm{HR,SR}}). $

式中:max为图像中的像素最大值,MSE为HR与SR像素的均方误差,$ L({\mathrm{HR,SR}}) $$ C({\mathrm{HR,SR}}) $$ S(\mathrm{HR}, {\mathrm{SR}}) $分别为HR与SR在亮度、对比度和结构3个方面的相似性.

2.3. 实验参数确定

2.3.1. 选择膨胀率

DCUformer在特征提取策略中添加了空洞卷积,不同膨胀率的卷积获得的感受野大小不同,提取多尺度特征的效果也不同,为了使多个空洞卷积能够覆盖所有的底层特征,设计6种膨胀率,量化结果如表1所示. 表中,加粗数据为最优结果,下划线数据为次优结果. 连续使用多个膨胀系数相同的空洞卷积,会导致栅格效应,破坏信息的连续性,并且膨胀率的公约数应不大于1[18]. 为了便于选择合适的膨胀率,文献[18]中定义了2个非零元素的最大间距,

表 1   所提网络在2个数据集中6种膨胀率下的图像质量客观评价结果

Tab.1  Objective evaluation results of image quality for proposed network at six dilation rates in two datasets

数据集SSIMPSNR/dB
l=(1,1,1)l=(1,2,5)l=(1,2,3)l=(1,3,5)l=(2,4,8)l=(6,6,6)l=(1,1,1)l=(1,2,5)l=(1,2,3)l=(1,3,5)l=(2,4,8)l=(6,6,6)
COVID-CT0.6940.7920.7760.7830.7230.67026.93827.21027.11427.27527.01226.701
SARS-CoV-20.8120.8490.8370.8240.7370.70426.97628.36228.17528.19027.24426.917

新窗口打开| 下载CSV


$ {M_i} = \max \;[{M_{i+1}} - 2{r_i},{M_{i+1}} - 2\left( {{M_{i+1}} - {r_i}} \right),{r_i}]. $

式中:${r_i}$为第$i$层的膨胀系数,$k$为该层卷积核的大小. 最后一层2个非零元素的间距为该层的膨胀率,限制条件为${M_i} \leqslant k$.表1可知,在DCUformer中,当膨胀率为(1,1,1)、(6,6,6)和(2,4,8)时,产生的栅格效应会导致PSNR和SSIM偏低;当膨胀率为(1,2,5)、(1,2,3)和(1,3,5)时,满足${M_i} \leqslant k$,其中(1,2,5)的评价指标最优. 膨胀率设置为(1,2,5)时满足全局信息和局部信息的提取要求,因此设置实验的膨胀率均为(1,2,5).

2.3.2. 对比主干网络

设置2个网络:1)将DCUformer中的LeWin Transformer替换为基于卷积的残差模块,得到传统的U-Net;2)去掉U-Net,保留传统Transformer. 将这2个网络和DCUformer进行对比,量化结果如表2所示. 在2个数据集中,DCUformer在评价指标上的表现明显优于对比网络,网络改进的有效性得到验证.

表 2   不同主干网络的重建图像质量客观评价结果对比

Tab.2  Comparison of objective evaluation results for reconstructed image quality in different backbone networks

主干网络COVID-CTSARS-CoV-2
SSIMPSNR/dBSSIMPSNR/dB
Transformer0.80227.0370.83327.687
U-Net0.66226.1010.71426.115
DUCformer0.83127.5480.86228.873

新窗口打开| 下载CSV


2.3.3. 跳跃连接中注意力机制的影响

跳跃连接能够有效修复图像细节,不同的跳跃连接会对重建图像的质量产生影响,为此开展不同种类的跳跃连接测试实验,结果如表3所示. 表中,Concat表示直接连接,SPA表示基于空间注意力的跳跃连接,CA表示基于通道注意力的跳跃连接,所提网络为基于分割注意力的跳跃连接. 对比可知,在4种跳跃连接方式中,DCUformer的性能最好,在COVID-CT数据集上,相比CA,SSIM和PSNR分别提高了0.019和0.195 dB;在SARS-COV-2数据集上,分别提高了0.013和1.288 dB. 该结果验证了基于分割注意力的跳跃连接的有效性.

表 3   不同跳跃连接方式对重建图像质量的影响

Tab.3  Effect of different skip connections on quality of reconstructed images

跳跃连接方式COVID-CTSARS-CoV-2
SSIMPSNR/dBSSIMPSNR/dB
Concat0.80127.3250.82727.580
SPA0.79127.1300.83327.325
CA0.81227.3530.84927.585
DOUformer0.83127.5480.86228.873

新窗口打开| 下载CSV


2.4. 消融实验

为了进一步验证DCUformer的有效性,在2个数据集中开展模块消融实验,重组的网络编号如下:①Transformer(基线网络)、②Transformer+MFFEB、③Transformer+局部增强(LeWin Transformer+ U-Net)、④Transformer+SAB、⑤DCUformer,结果如表4所示. 由表可知,在MFFEB阶段引入空洞卷积后,能够提取多尺度的图像特征,兼顾全局信息和局部信息,有利于图像重建质量的提高;LeWin Transformer可以有效利用特征提取阶段的全部信息,获得更好的指标效果,U-Net在特征融合阶段表现突出,可以将通道维度进行拼接,形成全面的特征,2种改进叠加,SSIM和PSNR有效增大;跳跃连接阶段的SAB能够筛选有用特征信息,增强重建图像质量. 可视化以上5种网络的训练过程,结果如图5所示. 由图可知,所提网络的收敛速度更快,在epoch=550时收敛,PSNR也更大;其他网络均在epoch=550后收敛,且PSNR低于所提网络的PSNR. 该结果再次验证了DCUformer在收敛速度和重建效果方面的优越性.

表 4   所提网络在2个数据集中的模块消融实验

Tab.4  Modular ablation experiments of proposed network in two datasets

编号MFFEB局部
增强
SABCOVID-CTSARS-CoV-2
SSIMPSNR/dBSSIMPSNR/dB
×××0.80227.0370.83327.687
××0.81227.2100.84927.362
××0.82427.3850.85527.507
××0.82627.4010.85827.798
0.83127.5480.86227.873

新窗口打开| 下载CSV


图 5

图 5   不同网络的收敛速度与客观指标的对比

Fig.5   Comparison of convergence speed and objective index for different networks


2.5. 对比不同网络的客观评价指标与主观效果

在2个数据集中分别对比PBPN[19]、Transformer、SwinIR、Restormer[20]、HNCT[21]、CuNeRF[22]、SARGD[23]和DCUformer的客观评价指标和主观视觉效果. 通过对输入的低分辨率肺部CT图像进行2倍、3倍、4倍的尺寸放大和重建(×2LR、×3LR和×4LR分别表示低分辨率图像的尺寸放大倍数),获得客观指标如表5表6表7所示. 由表可知,在3种放大倍数下,所提网络均优于主流网络(HNCT、CuNeRF、SARGD). 分析原因:本研究设计多尺度空洞卷积来聚焦全局和局部信息,同时设计非重叠窗口的自注意力机制和深度卷积,进一步增强了特征之间的关联性,使不同层级间的灰度信息得到有效融合. 以放大4倍为例,与Transformer网络相比,DCUformer在SARS-CoV-2数据集中,SSIM和PSNR分别提高了0.029和0.186 dB,在COVID-CT数据集中,SSIM和PSNR分别提高了0.029和0.511 dB.

表 5   不同网络在2个数据集上的定量对比(×2LR)

Tab.5  Quantitative comparison of different networks in two datasets (×2LR)

网络COVID-CTSARS-CoV-2
PSNR/dBSSIMPSNR/dBSSIM
PBPN32.0610.79232.3680.815
Transformer32.5080.85632.9920.882
SwinIR33.1430.86333.6130.887
Restormer32.8960.86533.5020.899
HNCT33.1290.86833.4180.900
CuNeRF33.2470.86033.5060.896
SARGD33.1640.85733.4520.882
DCUformer33.8680.88334.3000.929

新窗口打开| 下载CSV


表 6   不同网络在2个数据集上的定量对比(×3LR)

Tab.6  Quantitative comparison of different networks in two datasets (×3LR)

网络COVID-CTSARS-CoV-2
PSNR/dBSSIMPSNR/dBSSIM
PBPN28.8450.76229.4040.780
Transformer29.4930.82429.8450.850
SwinIR29.8320.83030.1810.855
Restormer29.8650.83430.2460.868
HNCT29.8830.83630.1490.868
CuNeRF29.8740.83930.3750.890
SARGD29.6790.82630.1670.872
DCUformer30.2960.85231.1820.892

新窗口打开| 下载CSV


表 7   不同网络在2个数据集上的定量对比(×4LR)

Tab.7  Quantitative comparison of different networks in two datasets (×4LR)

网络COVID-CTSARS-CoV-2
PSNR/dBSSIMPSNR/dBSSIM
PBPN26.4980.73526.8130.756
Transformer27.0370.80227.6870.833
SwinIR27.2110.81327.7280.840
Restormer27.2200.80927.7310.842
HNCT27.2240.81127.7260.841
CuNeRF27.4350.82427.6710.856
SARGD27.2170.80727.4400.847
DCUformer27.5480.83127.8730.862

新窗口打开| 下载CSV


图6~8展示了在COVID-CT数据集中不同网络的重建对比图,每组的第一幅图像下方文字为该图像的名称. 图6中,PBPN的重建误差较大,包含的细节较少;Transformer和SwinIR对于边缘的恢复效果较差,图像整体表现出模糊效果;Restormer和HNCT重建后的图像与HR图像相差较大;CuNeRF、SARGD网络重建后的图像对于右上角的细节恢复不清晰;所提网络与HR图像相似度最高,边缘轮廓清晰,左下角区域恢复情况良好. 图7中,PBPN、Transformer、SwinIR和Restormer网络重建后的图像均有不同程度的模糊,伴有磨玻璃影和伪影现象;HNCT重建后的图像清晰度较高,但会出现HR中不存在的线条,且存在伪影;CuNeRF重建的浅色纹理较为模糊;SARGD重建后的图像伪影较重;所提网络与HR图像视觉效果最接近. 图8中,PBPN、Transformer、SwinIR和Restormer均出现纹理模糊,边缘信息模糊的情况,HNCT肺部纹理涂抹感较重;CuNeRF和SARGD网络重建后的图像清晰度较好,但伴有重影和细节模糊;所提网络重建后的图像灰度级别层次分明,整体结构更加完整.

图 6

图 6   不同图像超分辨率重建网络的视觉效果对比(×2LR)

Fig.6   Comparison of visual effects for different image super-resolution reconstruction networks(×2LR)


图 7

图 7   不同图像超分辨率重建网络的视觉效果对比(×3LR)

Fig.7   Comparison of visual effects for different image super-resolution reconstruction networks(×3LR)


图 8

图 8   不同图像超分辨率重建网络的视觉效果对比(×4LR)

Fig.8   Comparison of visual effects for different image super-resolution reconstruction networks(×4LR)


3. 结 语

本研究提出新的超分辨率重建网络. 通过多尺度空洞卷积增强全局特征提取;在编码阶段结合LeWin Transformer和U-Net,优化局部特征的利用,保留了图像的纹理细节;在解码阶段改进跳跃连接,使用分割注意力保留关键信息,增强了重建图像效果. 实验结果表明,在主观视觉感受上,由所提网络重建的图像拥有比主流网络更丰富的纹理细节. 未来计划在保持高性能的基础上减小算法复杂度,缩短重建时间,进一步完善网络架构,以获得更高质量的CT图像.

参考文献

范金河. 基于深度学习的超分辨率CT图像重建算法研究[D]. 绵阳: 西南科技大学, 2023: 1–66.

[本文引用: 1]

FAN Jinhe. Research on super-resolution CT image reconstruction algorithm based on deep learning [D]. Mianyang: Southwest University of Science and Technology, 2023: 1–66.

[本文引用: 1]

赵小强, 王泽, 宋昭漾, 等

基于动态注意力网络的图像超分辨率重建

[J]. 浙江大学学报: 工学版, 2023, 57 (8): 1487- 1494

[本文引用: 1]

ZHAO Xiaoqiang, WANG Ze, SONG Zhaoyang, et al

Image super-resolution reconstruction based on dynamic attention network

[J]. Journal of Zhejiang University: Engineering Science, 2023, 57 (8): 1487- 1494

[本文引用: 1]

郑跃坤, 葛明锋, 常智敏, 等

基于残差网络的结直肠内窥镜图像超分辨率重建方法

[J]. 中国光学(中英文), 2023, 16 (5): 1022- 1033

DOI:10.37188/CO.2022-0247      [本文引用: 1]

ZHENG Yuekun, GE Mingfeng, CHANG Zhimin, et al

Super-resolution reconstruction for colorectal endoscopic images based on a residual network

[J]. Chinese Optics, 2023, 16 (5): 1022- 1033

DOI:10.37188/CO.2022-0247      [本文引用: 1]

李嫣, 任文琦, 张长青, 等

基于真实退化估计与高频引导的内窥镜图像超分辨率重建

[J]. 自动化学报, 2024, 50 (2): 334- 347

[本文引用: 1]

LI Yan, REN Wenqi, ZHANG Changqing, et al

Super-resolution of endoscopic images based on real degradation estimation and high-frequency guidance

[J]. Acta Automatica Sinica, 2024, 50 (2): 334- 347

[本文引用: 1]

宋全博, 李扬科, 范业莹, 等

先验GAN的CBCT牙齿图像超分辨率方法

[J]. 计算机辅助设计与图形学学报, 2023, 35 (11): 1751- 1759

[本文引用: 1]

SONG Quanbo, LI Yangke, FAN Yeying, et al

CBCT tooth images super-resolution method based on GAN prior

[J]. Journal of Computer-Aided Design and Computer Graphics, 2023, 35 (11): 1751- 1759

[本文引用: 1]

VASWANI A, SHAZEER N, PARMAR N, et al. Attention is all you need [C]// Conference on Neural Information Processing Systems. Long Beach: MIT Press, 2017: 6000–6010.

[本文引用: 1]

LIANG J, CAO J, SUN G, et al. SwinIR: image restoration using swin transformer [C]// Proceedings of the IEEE/CVF International Conference on Computer Vision Workshops. Montreal: IEEE, 2021: 1833–1844.

[本文引用: 1]

吕鑫栋, 李娇, 邓真楠, 等

基于改进Transformer的结构化图像超分辨网络

[J]. 浙江大学学报: 工学版, 2023, 57 (5): 865- 874

[本文引用: 1]

LV Xindong, LI Jiao, DENG Zhennan, et al

Structured image super-resolution network based on improved Transformer

[J]. Journal of Zhejiang University: Engineering Science, 2023, 57 (5): 865- 874

[本文引用: 1]

YU P, ZHANG H, KANG H, et al. RPLHR-CT dataset and transformer baseline for volumetric super-resolution from CT scans [C]// Medical Image Computing and Computer Assisted Intervention. [S. l.]: Springer, 2022: 344–353.

[本文引用: 2]

赵凯光. 基于深度学习的肺部CT图像超分辨率重建[D]. 长春: 长春理工大学, 2022: 1–55.

[本文引用: 2]

ZHAO Kaiguang. Deep learning based on super-resolution reconstruction of lung CT images [D]. Changchun: Changchun University of Science and Technology, 2022: 1–55.

[本文引用: 2]

刘伟. 基于深度学习的三维头部MRI超分辨率重建[D]. 桂林: 桂林电子科技大学, 2022: 1–54.

[本文引用: 1]

LIU Wei. 3D Head MRI super-resolution reconstruction based on deep learning [D]. Guilin: Guilin University of Electronic Technology, 2023: 1–54.

[本文引用: 1]

李光远. 基于深度学习的磁共振成像超分辨率重建[D]. 烟台: 烟台大学, 2023: 1–77.

[本文引用: 2]

LI Guangyuan. Deep learning-based magnetic resonance imaging super-resolution reconstruction [D]. Yantai: Yantai University, 2023: 1–77.

[本文引用: 2]

李众, 王雅婧, 马巧梅

基于空洞卷积的医学图像超分辨率重建算法

[J]. 计算机应用, 2023, 43 (9): 2940- 2947

[本文引用: 1]

LI Zhong, WANG Yajing, MA Qiaomei

Super-resolution reconstruction algorithm of medical images based on dilated convolution

[J]. Journal of Computer Applications, 2023, 43 (9): 2940- 2947

[本文引用: 1]

YANG X, HE X, ZHAO J, et al. COVID-CT-dataset: a CT scan dataset about COVID-19 [EB/OL]. (2020−06−17)[2024−07−18]. https://arxiv.org/pdf/2003.13865.

[本文引用: 1]

SOARES E, ANGELOV P, BIASO S, et al. SARS-CoV-2 CT-scan dataset: a large dataset of real patients CT scans for SARS-CoV-2 identification [EB/OL]. (2020−05−14)[2024−07−18]. https://www.medrxiv.org/content/10.1101/2020.04.24.20078584v3.full.pdf.

[本文引用: 1]

WANG C, LV X, SHAO M, et al

A novel fuzzy hierarchical fusion attention convolution neural network for medical image super-resolution reconstruction

[J]. Information Sciences, 2023, 622: 424- 436

DOI:10.1016/j.ins.2022.11.140      [本文引用: 1]

WANG Z, BOVIK A C, SHEIKH H R, et al

Image quality assessment: from error visibility to structural similarity

[J]. IEEE Transactions on Image Processing, 2004, 13 (4): 600- 612

DOI:10.1109/TIP.2003.819861      [本文引用: 1]

WANG P, CHEN P, YUAN Y, et al. Understanding convolution for semantic segmentation [C]// Proceedings of the IEEE Winter Conference on Applications of Computer Vision. Lake Tahoe: IEEE, 2018: 1451–1460.

[本文引用: 2]

SONG Z, ZHAO X, HUI Y, et al

Progressive back-projection network for COVID-CT super-resolution

[J]. Computer Methods and Programs in Biomedicine, 2021, 208: 106193

DOI:10.1016/j.cmpb.2021.106193      [本文引用: 1]

ZAMIR S W, ARORA A, KHAN S, et al. Restormer: efficient transformer for high-resolution image restoration [C]// Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. New Orleans: IEEE, 2022: 5718–5729.

[本文引用: 1]

FANG J, LIN H, CHEN X, et al. A hybrid network of CNN and transformer for lightweight image super-resolution [C]// Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition Workshops. New Orleans: IEEE, 2022: 1102–1111.

[本文引用: 1]

CHEN Z, YANG L, LAI J H, et al. CuNeRF: cube-based neural radiance field for zero-shot medical image arbitrary-scale super resolution [C]// Proceedings of the IEEE/CVF International Conference on Computer Vision. Paris: IEEE, 2023: 21128–21138.

[本文引用: 1]

ZHENG Q, ZHENG L, GUO Y, et al. Self-adaptive reality-guided diffusion for artifact-free super-resolution [C]// Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. Seattle: IEEE, 2024: 25806–25816.

[本文引用: 1]

/