<img src="https://www.zjujournals.com/eng/images/1008-973X/images/logo.png" class="img-responsive">

图 1 沙漏块结构图

Fig.1 Hourglass block diagram

1.2. Transformer

Transformer^[15]的多头自注意力层和前反馈MLP层堆叠起来容易捕捉单词之间的远程相关性. 受到Transformer在自然语言处理（natural language processing，NLP）领域的激励，人们尝试着探索和利用Transformer在各种视觉任务中的优势，以强调提取全局特征的重要性. Dosovitskiy等^[16]提出的Vision Transformer，它将16×16图像块视为序列，并通过一个唯一的类令牌预测图像的类别. Swin Transformer^[17]表现出巨大的潜力，因为它整合了CNN和Transformer的优势. 一方面，由于局部注意机制，Swin Transformer具有CNN处理大尺寸图像的优势；另一方面，Swin Transformer具有Transformer的优点，可以用移位的窗口对长期依赖关系进行建模.

1.3. 通道注意力机制

近年来，通道注意机制在提高深度卷积神经网络性能方面体现出巨大的潜力. Hu等^[18]提出SENet利用全连接层预测通道注意力权重，减少对冗余通道的关注. Wang等^[19]指出SENet中的降维会给通道注意力机制带来副作用，并且捕获所有通道之间的依赖关系，增加网络复杂度. 为了平衡性能与网络复杂度，Wang等还提出一种高效通道注意力（effificient channel attention，ECA）模块，该模块只涉及很少参数，却能带来明显的绩效提升. ECA模块利用一维卷积实现不降维的局部跨通道交互，同时开发了一种自适应选择一维卷积核大小的方法，以确定局部跨通道相互作用的覆盖范围.

2. 网络框架设计

2.1. 网络总体结构

TransSRNet的整体架构如图2所示. 它由5个部分组成：编码器、空间注意力模块、自注意力模块、特征融合模块和解码器. 网络的输入和输出分别为 $ {{\boldsymbol{I}}_{{\text{LR}}}} $、 $ {{\boldsymbol{I}}_{{\text{SR}}}} $，具体操作如下.

图 2

图 2 TransSRNet结构图

Fig.2 TransSRNet structure diagram

1）深层特征提取：使用双三次插值对低分辨图像进行上采样得到网络输入 $ {{\boldsymbol{I}}_{{\text{LR}}}} $；从输入图像 $ {{\boldsymbol{I}}_{{\text{LR}}}} $中，使用卷积层提取包含丰富结构信息的浅层特征. 浅层特征作为编码器的输入，进一步提取深层特征.

2）建立映射关系：深层特征作为空间注意力模块和自注意力模块的输入，分别提取局部特征和全局特征. 在获得局部和全局特征后，使用特征融合模块进行特征融合，该模块先对局部特征和全局特征在通道维度进行Concat拼接，然后依次经过ECA模块、卷积层和ECA模块得到融合特征.

3）图像上采样重建：融合后的特征送入解码器进行图片恢复，随后通过卷积层输出RGB的三通道图像 $ {{\boldsymbol{I}}_{{\text{SR}}}} $.

2.2. 空间注意力模块

空间注意力旨在提升关键区域的特征表达，本质上是将原始图片中的空间结构化信息通过空间转换模块，变换到另一个空间中并保留关键信息，为每个位置生成结构化特征的注意力权重并加权输出，从而增强感兴趣的特定目标区域同时弱化不相关的背景区域.

使用沙漏块构建空间注意力单元，空间注意力单元结构如图3所示, 整体采用残差结构，图中H、W、C分别为特征图的高、宽、通道数. 沙漏块中下采样卷积是一个步长为2的卷积层，上采样卷积则是先进行最近邻插值，再进行卷积操作，有助于避免棋盘形伪像. 以第j个空间注意力单元为例，空间注意力单元的输入特征和输出特征分别为 $ {{\boldsymbol{I}}_{j{\text{ - }}1}} $、 $ {{\boldsymbol{I}}_j} $：

图 3

图 3 空间注意力单元结构图

Fig.3 Spatial attention unit structure diagram

(1) $ \left.\begin{array}{l}{{\boldsymbol{I}}_{{\text{att}}}} = F_{{\text{CB}}}^{}({{\boldsymbol{I}}_{j - 1}}),\\ {{\boldsymbol{I}}_j} = {{\boldsymbol{I}}_{j - 1}}+\phi F_{{\text{Conv}}}^{3 \times 3}\\ (({F_{{\text{HB}}}}({{\boldsymbol{I}}_{{\text{att}}}}))) \otimes {{\boldsymbol{I}}_{{\text{att}}}}.\end{array}\right\} $

式中： $ F_{{\text{CB}}}^{}() $为一个由批量归一化层、LeakyRelu激活函数和卷积层组成的卷积块，目的是从输入特征中提取包含更高维度信息的特征 $ {{\boldsymbol{I}}_{{\text{att}}}} $； $ F_{{\text{HB}}}^{}() $为沙漏块结构； $ \otimes $为矩阵乘； $ \phi () $为sigmoid函数，用来生成注意力权重矩阵.

空间注意力单元采用可以在结构化图像上捕捉多尺度的结构化特征信息，通过将空间注意力单元堆叠在一起，使得重要的空间结构化特征不断增强，从而输出像素级的预测. 编码器和解码器也采用类似的结构，编码器和解码器结构如图4所示. 编码器中的下采样卷积与沙漏块中下采样卷积相同，解码器中的上采样卷积与沙漏块中上采样卷积相同.

图 4

图 4 编码器和解码器结构图

Fig.4 Encoder and Decoder structure diagram

2.3. 自注意力模块

使用Swin Transformer构造自注意力模块，残差Transformer块结构如图5所示，残差Transformer块是由Swin Transformer块和卷积层构成的残差块. MSA为多头自注意力层，MLP为多层感知机. 假设第i个残差Transformer块的输入特征为 $ {{\boldsymbol{I}}_{i,0}} $，那么第i个残差Transformer块中第j个Swin Transformer块的输出特征为

图 5

图 5 残差Transformer块结构图

Fig.5 Residual Transformer block structure diagram

(2) $ {{\boldsymbol{I}}_{i,j}} = {F_{{\text{ST}}{{\text{B}}_{i,j}}}}({{\boldsymbol{I}}_{i,j - 1}}).$

式中： $ {F_{{\text{ST}}{{\text{B}}_{i,j}}}}() $为第i个残差Transformer块中的第j个Swin Transformer模块. 第i个残差Transformer块的输出特征向量为

(3) $ {{\boldsymbol{I}}_{i,{\rm{out}}}} = F_{{\rm{Conv}}}^{3*3}({{\boldsymbol{I}}_{i,J}})+{{\boldsymbol{I}}_{i,0}}. $

式中： $ {{\boldsymbol{I}}_{i,J}} $为第i个残差Transformer块中最后一个Swin Transformer块的输出特征， $ F_{{\rm{Conv}}}^{3*3}() $为一个卷积核大小为3*3的卷积层. Swin Transformer通过将自注意力计算限制在不重叠的局部窗口中，同时允许跨窗口连接，移位的窗口方案带来更高的效率. 这种分层体系结构具有在各种尺度上建模的灵活性，并且相对于图像大小具有线性计算复杂性. 对于输入特征 $ {\boldsymbol{X}} $的传播过程为

(4) $ {\boldsymbol{X}} = {\rm{MSA}}({\rm{LN}}({\boldsymbol{X}}))+{\boldsymbol{X}}, $

(5) $ {\boldsymbol{X}} = {\rm{MLP}}({\rm{LN}}({\boldsymbol{X}}))+{\boldsymbol{X}}. $

式中： $ {\rm{MSA}}() $为多头自注意力层， $ {\rm{MLP}}() $为多层感知机.

在多头自注意力层和多层感知机之前添加LayerNorm（LN）层，2个模块均采用残差连接. 在多头自注意力层中，首先将输入特征划分为不重叠的N²个本地窗口，分别计算每个窗口的局部自注意. 对于特征 $ {\boldsymbol{X}} $，查询矩阵Q、键矩阵K和值矩阵 $ {\boldsymbol{V}} $、 $ {\boldsymbol{K}} $和 $ {\boldsymbol{V}} $为

(6) $ {\boldsymbol{Q}} = {\boldsymbol{Xo}}, {\boldsymbol{K}} = {\boldsymbol{X\kappa }}, {\boldsymbol{V}} = {\boldsymbol{X\upsilon }}{\boldsymbol{.}} $

式中： $ {\boldsymbol{o}} $， $ {\boldsymbol{\kappa }} $和 $ {\boldsymbol{\upsilon }} $为需要训练更新的权重参数矩阵.

与绝对位置编码相比，经典的Transformer^[15-16]使用确定性的位置编码或可学习的位置编码. 相对位置编码^[20]能够在局部内容之间学习更强的“关系”，在大规模数据集训练的情况下，带来重要的性能提升，并得到广泛的应用^[21]. 本研究中的 Transformer添加相对位置编码，通过局部窗口内的自注意机制计算出注意力矩阵. 注意力矩阵为

(7) $ {\rm{Attention}}\;({\boldsymbol{Q}},{\boldsymbol{K}},{\boldsymbol{V}}) = {\rm{sofmax}}\left(\frac{{{\boldsymbol{Q}}{{\boldsymbol{K}}^{\rm{T}}}}}{{{d^{1/2}}}}{\text+}{\boldsymbol{E}}\right){\boldsymbol{V}}. $

式中：d=C/M，C为特征 $ {\boldsymbol{X}} $的通道数，M为多头自注意力层中的自注意力头数； $ {\boldsymbol{E}} $为可学习的相对位置编码,作为偏置项加入到注意力图中.

为了实现窗口之间的交互，交替使用正则窗口划分和移位窗口划分来实现跨窗口连接，其中移位窗口划分就是在划分前将特征移动（N/2, N/2）个像素. 多层感知机利用全连接层和GELU非线性激活函数做进一步的特征转换.

2.4. ECA模块

使用ECA模块关注空间注意力模块和自注意力模块中的通道重要性差异，同时在特征融合时减少对冗余通道的关注. ECA模块结构图6所示，图中GAP为全局平均池化层. 假设ECA模块的输入特征为 $ {{\boldsymbol{I}}_{{\rm{in}}}} $，那么ECA模块的输出特征为

图 6

图 6 ECA模块结构图

Fig.6 ECA module structure diagram

(8) $ {{\boldsymbol{I}}_{{\rm{out}}}} = \phi (F_{{\rm{1DConv}}}^{}({F_{{\rm{GAP}}}}({{\boldsymbol{I}}_{{\text{in}}}}))) \otimes {{\boldsymbol{I}}_{{\rm{in}}}}. $

式中： $ {{\boldsymbol{I}}_{{\rm{in}}}} $在经过全局平均池化层 $ {F_{{\rm{GAP}}}}() $后，利用一维卷积 $ {F_{1{\text{D}}{\rm{Conv}}}}() $在局部相邻通道之间建立连接关系，局部跨通道交互范围的大小由一维卷积的卷积核大小决定.

卷积核大小与ECA模块输入特征 $ {{\boldsymbol{I}}_{{\rm{in}}}} $的通道维度大小呈正相关. 一维卷积的输出特征经过sigmoid函数得到通道注意力权重，ECA模块的输入特征与通道注意力权重进行元素相乘后得到输出特征 $ {{\boldsymbol{I}}_{{\rm{out}}}} $.

2.5. 优化器与损失函数

使用Adam优化器，参数β₁= 0.90，β₂=0.99. 学习率衰减策略选择线性衰减. 联合多个损失函数对网络进行训练. 联合损失函数为

(9) $ l = \alpha {l_{{\text{pixel}}}}+\beta {l_{{\text{ssim}}}}+\gamma {l_{{\text{style}}}}. $

式中： $ \alpha $、 $ \;\beta $、 $ \gamma $为各自损失对应的权重. 在图像转换问题中，像素损失是一种基于输出图像与真实图像之间的差值方法，计算2幅图片中所有对应位置的像素点之间的平均绝对误差，最小化差值就会使得2幅图像越相似，定义为

(10) $ {l_{{\text{pixel}}}}({{\boldsymbol{I}}_{{\text{HR}}}},{{\boldsymbol{I}}_{{\text{SR}}}}){\text{ = }}\frac{1}{{HWC}}\sum\limits_{i,j,k} {\left| {{\boldsymbol{I}}_{{\text{HR}}}^{i,j,k} - {\boldsymbol{I}}_{{\text{SR}}}^{i,j,k}} \right|} . $

式中： $ H $、 $ W $、 $ C $分别为图像的高度、宽度和通道数， $ {\boldsymbol{I}}_{}^{i,j,k} $为图像 $ {\boldsymbol{I}} $位于(i, j, k)上的像素值. 像素损失采用L1损失（平均绝对误差）来约束SR图像在像素值上与HR图像足够接近. 与像素损失类似，SSIM损失是为了改善超分辨图像的SSIM而设计，原理如下：

(11) $ {l_{{\text{ssim}}}}({{\boldsymbol{I}}_{{\text{HR}}}},{{\boldsymbol{I}}_{{\text{SR}}}}) = \frac{1}{2}(\mathop {1 - {\rm{SSIM}}({{\boldsymbol{I}}_{{\text{HR}}}}}\limits^{} - {{{\boldsymbol{I}}}_{{\text{SR}}}})). $

式中： $ \mathop {{\rm{SSIM}}(}\limits^{} ) $为SSIM的计算. SSIM损失通常用于生成细节更精细、视觉质量更好的超分辨图像. Gatys等^[22]提出风格损失，并用于图像样式传输. 在某种程度上，这种损失与感知损失相似，因为都是特征层面上的损失功能. 超分辨重建图像 $ {{\boldsymbol{I}}_{{\text{SR}}}} $和真实高分辨图像 $ {{\boldsymbol{I}}_{{\text{HR}}}} $都被输入到一个预先训练的VGG（visual geometry group）网络中，以获得它们相应的特征 $ {{\boldsymbol{F}}_{{\text{SR}}}} $和 $ {{\boldsymbol{F}}_{{\text{HR}}}} $，计算Gram矩阵，这些矩阵用于计算损失，定义为

(12) $ {l_{{\text{style}}}}({{\boldsymbol{I}}_{{\text{HR}}}},{{\boldsymbol{I}}_{{\text{SR}}}}) = {\left\| {\mathop {{\boldsymbol{G}}({{\boldsymbol{F}}_{{\text{HR}}}})}\limits^{} - {\boldsymbol{G}}({{\boldsymbol{F}}_{{\text{SR}}}})} \right\|_2}. $

式中： $ {\boldsymbol{G}}() $为获取特征Gram矩阵的操作. 使用以上3个损失联合训练可以从多个角度加速网络的收敛，进一步提高网络性能.

3. 实验与分析

3.1. 实验配置

3.1.1. 数据集及参数设置

实验过程使用CelebA数据集^[23]进行训练，从Helen数据集^[24]中随机选取200张作为测试集进行测试. 另外使用癌症影像档案（the cancer imaging archive, TCIA）网站公开的TCGA－ESCA食道癌和TCGA－COAD结肠腺癌的CT数据集，共计26 522张图像进行放大因子分别为2、3、4、8的训练. 将1 000张图片进行测试，实验设置批处理大小为16，迭代次数设置为20，网络初始化方式设置为xavier，并确定学习速率为2×10⁻⁴，学习率衰减策略选择线性衰减. 实验在一台单独的 Tesla V100 GPU上进行训练和评估，所有代码都是用Pytorch和Python编写和测试的.

3.1.2. 数据集预处理

对人脸数据集进行预处理，使用多任务卷积网络（multi-task convolutional neural network，MTCNN）^[25]检测人脸并粗略地裁剪出人脸区域，通过双三次插值将大小调整为128×128，并用作HR训练集. 通过对HR图像进行下采样得到LR（16×16）训练集，产生大约202 K的图像对. 对CT图像数据集进行预处理则需要将27 522张DCM格式的CT图像转换为PNG格式，通过双三次插值调整图像大小为256×256，并将26 522张图像作为训练集. 为了避免过拟合，通过随机水平翻转、图像缩放（缩放比例在1.0~1.3）进行数据增强.

3.1.3. 评价指标

在实验中使用评价指标图像峰值信噪比（peak signal to noise ratio，PSNR）和图像结构相似度（structural similarity，SSIM）进行量化评估. PSNR是有损变换（如图像压缩、图像修补）中最常用的重构质量度量之一. 对于图像超分辨率，PSNR是通过图像之间的最大像素值（L）和均方误差（MSE）来定义的. 给定具有N 个像素的真实高分辨率图像 h和重建图像s，h 和 s之间的 PSNR 定义为

(13) $ {\rm{PSNR}} = 10 \cdot {\log _{10}}\left(\frac{{{L^2}}}{{\dfrac{1}{N}\displaystyle\sum\nolimits_{i = 1}^N {{{({{\boldsymbol{I}}_{{h}}}(i) - {{\boldsymbol{I}}_{{s}}}(i))}^2}} }}\right). $

式中：在图像像素使用8个bit位表示的情况下，L=255.

PSNR仅与像素级的均方误差相关，只关心相应像素之间的差异，PSNR是目前SR模型中使用最广泛的评估标准. SSIM用来测量图像之间的亮度、对比度和结构的差异. 对于具有N个像素的真实高分辨率图像h和重建图像s，SSIM定义为

(14) $ {\rm{SSIM}} = \frac{{(2{\mu _s}{\mu _h}+{C_1})(2{\sigma _s}{\sigma _h}+{C_2})({\omega _{s,h}}+{C_3})}}{{(\mu _s^2+\mu _h^2+{C_1})(\sigma _s^2+\sigma _h^2+{C_2})({\sigma _s}{\sigma _h}+{C_3})}}. $

式中： $ {\mu _s} $为图像s的平均值， $ {\sigma _s} $为图像s的方差， $ {\mu _h} $为图像h的平均值， $ {\sigma _h} $为图像h的方差， $ {\omega _{s,h}} $为图像s和图像h的协方差.

3.2. 消融实验及模型分析

消融实验使用CelebA数据集进行放大因子为8的训练,使用Helen数据集进行测试，分别进行以下实验，目的是确定在网络重建性能达到最佳时的空间注意力单元数量和残差Transformer块数量；探究空间注意力模块和自注意力模块各自对重建性能的影响；探究联合不同的损失函数进行训练对重建性能的影响；探究利用通道注意力机制进行特征融合时，不同的通道注意力模块对重建性能的影响.

为了确定在网络重建性能达到最佳时的空间注意力单元数量N，实验在移除自注意力模块和ECA模块的条件下进行，实验结果如图7所示. 三角形点为PSNR值，圆形点为SSIM值. 结果表明，随着空间注意力单元数量的增加，PSNR、SSIM逐渐增加，性能增益逐渐饱和，并在空间注意力单元数量为16时到达峰值. 因此，在其余实验中空间注意力块设置为16. 由此可见，由沙漏块构成的空间注意力单元经过堆叠后可以对局部空间信息有效进行有效建模. 过多的空间注意力单元反而会导致网络性能下降，原因在于过多的空间注意力单元会造成信息的冗余，从而影响网络性能.

图 7

图 7 不同空间注意力单元数量对PSNR、SSIM的影响

Fig.7 Effects of different numbers of spatial attention units on PSNR and SSIM

为了确定在网络重建性能达到最佳时的残差Transformer块数量，实验在空间注意力单元数量设置为16的前提下进行. 表1展示不同残差Transformer块数量对模型性能的影响. 结果表明，随着残差Transformer块数量增加，PSNR和SSIM也逐渐增加. 当残差Transformer块数量数为6时到达峰值，在其余实验中，残差Transformer块数量设置为6. 添加一定数量的残差Transformer块可以使得网络利用自注意力机制对全局上下文进行关注，从而对全局信息建立映射关系，由此可以验证自注意力机制对结构化图像超分辨重建的有效性.

表 1 不同残差Transformer块数量对PSNR、SSIM的影响

Tab.1 Effects of different numbers of residual Transformer blocks on PSNR and SSIM

N_T	PSNR/dB	SSIM
2	28.479	0.838
4	28.535	0.839
6	28.568	0.839
8	28.343	0.834

为了探究空间注意力模块和自注意力模块各自对重建性能的影响，进行3个实验，实验结果如表2所示. 其中模型1（Model1）是去除自注意力模块，保留空间注意力模块后的网络模型；模型2（Model2）是去除空间注意力模块，保留自注意力模块后的网络模型；模型3（Model3）是同时保留空间注意力模块和自注意力模块后的网络模型. 在这些实验中，空间注意力块中的空间注意力单元数量设置为16，自注意力模块中残差Transformer块数量设置为6. 分析实验结果可以得出以下结论: 1）从实验2、3中可以看出，去除空间注意力模块后，重构性能严重下降，因为网络缺少对图像局部结构化信息的建模能力; 2）从实验1~3中可以看出，添加自注意力模块可以通过捕获全局信息来约束局部信息生成，从而提高网络性能.

表 2 保留不同注意力模块对PSNR、SSIM的影响

Tab.2 Effects of retaining different attention modules on PSNR and SSIM

实验	PSNR/dB	SSIM
1	28.341	0.834
2	26.089	0.763
3	28.568	0.839

为了探究联合不同的损失函数进行训练对重建性能的影响而进行的实验结果如表3所示. 从表3中观察到联合风格损失进行训练可以对PSNR评价指标有一定程度的提升. 这是由于风格损失使用Gram矩阵来代替协方差矩阵，使得生成图片与真实图片的特征统计数据相近. 联合SSIM损失进行训练能够尽可能地提升SSIM指标，这是因为SSIM损失时刻关注图像之间的结构相似性差异.

表 3 联合不同损失函数对PSNR、SSIM的影响

Tab.3 Effect of joint different loss functions on PSNR and SSIM

损失函数	PSNR/dB	SSIM
l_pix	28.568	0.839
l_pix和l_style联合	28.598	0.839
l_pix、l_style和l_ssim联合	28.632	0.841

为了探究通道注意力机制的特征融合、不同的通道注意力模块对重建性能的影响，在基础网络分别添加SE模块和ECA模块. 实验结果如图8所示. 图中BL为基础网络，SE为基础网络中添加SE模块后的网络，ECA为基础网络中添加ECA模块后的网络，划线柱形为PSNR指标值，空心柱形为SSIM指标值. 从图8中看出， SE模块使得PSNR值和SSIM值有一定的提升. ECA模块对网络性能的提升效果要优于SE模块，主要原因是ECA模块中的一维卷积比SE模块中的全连接层更能够有效地提取通道特征，减少冗余特征对网络性能的影响.

图 8

图 8 SE模块和ECA模块对PSNR、SSIM的影响

Fig.8 Effects of SE module and ECA module on PSNR and SSIM

通过以上实验可以得出结论：提出的TransSRNet经过堆叠适当数量的空间注意力单元和残差Transformer块能够一定程度上，提高对结构化图像的重建效果.该网络以空间注意力模块为主要模块和自注意力模块为辅助模块，对LR到HR建立映射关系，多损失联合训练和ECA通道注意力模块的加入也可以进一步提升超分辨重建性能.

3.3. 与已有算法的对比

为了探讨TransSRNet对不同结构化图像数据集的重建性能，将所提方法与当前优秀的重建算法进行比较，包括基于生成对抗网络的SRGAN^[2]，利用梯度图关注图像结构特征的SPSR^[3]，基于先验信息约束的人脸超分辨率重建网络FSRNet^[9]和EIPNet^[12]，这些方法与本研究的实验条件相似，在TCGA-ESCA 食道癌、TCGA-COAD结肠腺癌CT图像数据集上进行对比试验. 通过实验可以验证TransSRNet能够对不同类型的结构化图像保持良好的重建效果.

表4展示在Helen测试数据集上进行放大因子为2、3、4、8的超分辨率重建实验结果，表中最优指标为加粗字体，TransSRNet在PSNR和SSIM指标上明显优于其他对比方法. 在这些对比结果中，可以发现基于人脸先验信息约束的FSRNet方法和EIPNet方法并没有比所提的TransSRNet重建效果好，导致这一结果的主要原因在于人脸先验信息约束的模型性能够受先验信息预测准确度的影响，不准确的先验信息会严重影响重建效果.

表 4 不同方法在Helen数据集上的对比结果

Tab.4 Comparison results of different methods on Helen dataset

放大因子	Bicubic	SRGAN	FSRNet	SPSR	EIPNet	TransSRNet(Our)
放大因子	PSNR/dB, SSIM	PSNR/dB, SSIM	PSNR/dB, SSIM	PSNR/dB, SSIM	PSNR/dB, SSIM	PSNR/dB, SSIM
2	34.942, 0.955	35.831, 0.962	37.699, 0.971	37.729, 0.966	37.899, 0.972	38.930, 0.975
3	31.130, 0.901	32.400, 0.920	33.526, 0.935	33.268, 0.921	33.942, 0.940	35.227, 0.949
4	28.999, 0.850	30.034, 0.871	32.338, 0.916	30.580, 0.872	32.569, 0.919	33.215, 0.925
8	24.531, 0.698	25.278, 0.717	26.934, 0.795	25.579, 0.722	26.898, 0.791	28.726, 0.844

图9展示不同方法在Helen测试数据集上进行放大因子为2、3、4、8的主观效果对比图. 可以从放大因子为8的实验中发现，由于SRGAN未考虑图像结构信息，SRGAN对人脸图像的重建效果较差. 与SRGAN相比，SPSR可以恢复出图像的大致轮廓，这是因为SPSR利用梯度信息和梯度损失帮助生成器网络关注图像的几何结构，FSRNet和EIPNet重建的结果则相对较好. 与TransSRNet重建结果相比，FSRNet和EIPNet对眼睛和嘴唇的重建产生不同程度的失真，TransSRNet的重建结果更好地保留结构信息.

图 9

图 9 在Helen数据集上放大因子为2、3、4和8的主观效果对比图

Fig.9 Comparison of subjective effects with upscalefactors of 2, 3, 4 and 8 on Helen dataset

FSRNet和EIPNet是用于人脸图像这一特定领域的超分辨重建算法，并不适用于医学图像超分辨重建. 另取RNAN算法^[4]和基于非局部稀疏注意力的图像超分辨率网络（NLSN）^[26]进行对比实验. 表5展示不同方法在医学CT数据集上的超分辨率重建实验对比结果，表中最优指标为加粗字体. 从表5中可以看出，TransSRNet在放大因子为3、4、8时的评价指标优于其他算法，在放大因子为2时的评价指标略低于NLSN算法，由此可以证明TransSRNet能够对不同类型的结构化图像数据集保持相同的重建效果，原因在于TransSRNet的沙漏块只需要考虑图像的结构信息，不需要考虑特定类型结构化图像的先验知识，而且该网络利用Transformer的自注意力机制，提高了对结构化图像重建效果的自然度和逼真度.

表 5 不同方法在医学CT数据集上的对比结果

Tab.5 Comparison results of different methods on medical CT dataset

放大因子	Bicubic	SRGAN	RNAN	SPSR	NLSN	TransSRNet(Our)
放大因子	PSNR/dB, SSIM	PSNR/dB, SSIM	PSNR/dB, SSIM	PSNR/dB, SSIM	PSNR/dB, SSIM	PSNR/dB, SSIM
2	30.111, 0.937	31.838, 0.942	36.223, 0.976	34.917, 0.969	36.514, 0.977	36.378, 0.976
3	27.310, 0.889	28.635, 0.909	31.764, 0.951	30.648, 0.941	31.840, 0.952	32.829, 0.956
4	25.751, 0.852	26.357, 0.875	29.467, 0.928	28.092, 0.914	29.552, 0.929	30.449, 0.936
8	22.872, 0.774	23.005, 0.802	24.546, 0.838	23.677, 0.828	24.597, 0.840	26.392, 0.881

图10~13分别展示不同方法在医学CT数据集上放大因子为2、3、4、8时的重建效果对比图. 其中，图10~13的第1幅图片为TCGA-ESCA食道癌图像、第2幅图片为TCGA-COAD结肠腺癌图像，图像下方的数字为该图像和对应HR图像之间的PSNR值和SSIM值，可以看出TransSRNet在放大因子为3、4、8时的评价指标上优于其他方法.

图 10

图 10 在医学CT数据集上放大因子为2的主观效果对比图

Fig.10 Comparison of subjective effects with upscale factor of 2 on medical CT dataset

图 11

图 11 在医学CT数据集上放大因子为3的主观效果对比图

Fig.11 Comparison of subjective effects with upscale factor of 3 on medical CT dataset

图 12

图 12 在医学CT数据集上放大因子为4的主观效果对比图

Fig.12 Comparison of subjective effects with upscale factor 4 on medical CT dataset

图 13

图 13 在医学CT数据集上放大因子为8的主观效果对比图

Fig.13 Comparison of subjective effects with upscale factor 8 on medical CT dataset

4. 结　语

本研究提出一种基于改进Transformer的结构化图像超分辨网络，该网络利用Swin Transformer对全局信息进行关注，并且与沙漏块构成的空间注意力模块做特征融合，在关注局部结构化特征的同时保持对全局信息的一致性，在一定程度上提高了重建效果的保真度，可以应用于不同类型的结构化图像数据集.本研究还利用ECA模块的通道注意力机制，减少网络对冗余特征的关注，通过大量消融实验证明TransSRNet的有效性. TransSRNet存在一定局限性，虽然TransSRNet在一些评价指标上取得较好的表现，从网络参数量和计算量的角度出发，所提的TransSRNet还有待优化，因此在保证重建性能的前提下如何优化网络结构、减少训练参数量，将成为下一步的研究重点.

参考文献

原文顺序

文献年度倒序

文中引用次数倒序

被引期刊影响因子

[1]

DONG C, LOY C C, HE K, et al. Learning a deep convolutional network for image super-resolution [C]// Proceedings of the European Conference on Computer Vision. Columbus: CVPR, 2014: 184-199.

[2]

LEDIG C, THEIS L, HUSZAR F, et al. Photo-realistic single image super-resolution using a generative adversarial network [C]// Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. Honolulu: CVPR, 2017: 105-114.

[3]

MA C, RAO Y, CHENG Y, et al. Structure-preserving super-resolution with gradient guidance [C]// Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. Seattle: CVPR, 2020: 7766-7775.

[4]

ZHANG Y, LI K, LI K, et al. Residual non-local attention networks for image restoration [EB/OL]. [2019-03-24]. https://arxiv.org/pdf/1903.10082.pdf.

[5]

徐永兵, 袁东, 余大兵, 等

多注意力机制引导的双目图像超分辨率重建算法

[J]. 电子测量技术, 2021, 44 (15): 103- 108

DOI:10.19651/j.cnki.emt.2106993 [本文引用: 1]

XU Yong-bing, YUAN Dong, YU Da-bing, et al

Binocular image super-resolution reconstruction algorithm guided by multi-attention mechanism

[J]. Electronic Measurement Technology, 2021, 44 (15): 103- 108

DOI:10.19651/j.cnki.emt.2106993 [本文引用: 1]

[6]

ZHOU E, FAN H, CAO Z, et al. Learning face hallucination in the wild [C]// Proceeding of the Association or the Advancement of Artificial Intelligence. San Francisco: AAAI, 2015: 3871-3877.

[7]

LIU H, HAN Z, GUO J, et al. A noise robust face hallucination framework via cascaded model of deep convolutional networks and manifold learning [C]// Proceeding of the IEEE International Conference on Multimedia and Expo. Santiago: ICME, 2018: 1-6.

[8]

LIU S, XIONG C Y, SHI X D, et al

Progressive face super-resolution with cascaded recurrent convolutional network

[J]. Neurocomputing, 2021, 449 (8): 357- 367

[9]

CHEN Y, TAI Y, LIU X, et al. FSRNet: end-to-end learning face super-resolution with facial priors [C]// Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. Salt Lake City: CVPR, 2018: 2492-2501.

[本文引用: 4]

[10]

ZHANG Y, WU Y, CHEN L. MSFSR: a multi-stage face super-resolution with accurate facial representation via enhanced facial boundaries [C]// Proceeding of the IEEE/CVF Conference on Computer Vision and Pattern Recognition Workshops. Seattle: CVPR, 2020: 2120-2129.

[11]

YIN Y, ROBINSON J P, ZHANG Y, et al. Joint super-resolution and alignment of tiny faces [C]// Proceeding of the Association for the Advancement of Artificial Intelligence. Honolulu: AAAI, 2019: 12693–12700.

[12]

KIM J, LI G, YUN I, et al

Edge and identity preserving network for face super-resolution

[J]. Neurocomputing, 2021, 446 (7): 11- 22

[13]

刘朋伟, 高媛, 秦品乐, 等

基于多感受野的生成对抗网络医学MRI影像超分辨率重建

[J]. 计算机应用, 2022, 42 (3): 938- 945

LIU Peng-wei, GAO Yuan, QIN Pin-le, et al

Medical MRI image super-resolution reconstruction based on multi-receptive field generative adversarial network

[J]. Journal of Computer Applications, 2022, 42 (3): 938- 945

[14]

NEWELL A, YANG K, DENG J. Stacked hourglass networks for human pose estimations [C]// Proceedings of the European Conference on Computer Vision. Amsterdam: ECCV, 2016: 483-499.

[15]

VASWANI A, SHAZEER N, PARMAR N, et al. Attention is all you need [EB/OL]. [2017-06-12]. https://arxiv.org/pdf/1706.03762.pdf.

[16]

DOSOVITSKIY A, BEYER L, KOLESNIKOV A, et al. An image is worth 16x16 words: transformers for image recognition at scale [EB/OL]. [2020-10-22]. https://arxiv.org/pdf/2010.11929.pdf.

[17]

LIU Z, LIN Y, CAO Y, et al. Swin transformer: hierarchical vision transformer using shifted windows [C]// Proceedings of the IEEE/CVF International Conference on Computer Vision. Montreal: ICCV, 2021: 9992-10002.

[18]

HU J, SHEN L, SUN G. Squeeze-and-excitation networks [C]// Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. Salt Lake City: CVPR, 2018: 7132-7141.

[19]

WANG Q, WU B, ZHU P, et al. ECA-Net: efficient channel attention for deep convolutional neural networks [C]// Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. Seattle: CVPR, 2020: 11531-11539.

[20]

SHAW P, USZKOREIT J, VASWANI A. Self-attention with relative position representations [EB/OL]. [2018-03-06]. https://arxiv.org/pdf/1803.02155.pdf.

[21]

RAFFEL C, SHAZEER N, ROBERTS A, et al. Exploring the limits of transfer learning with a unified text-to-text transformer [EB/OL]. [2019-10-23]. https://arxiv.org/ pdf/1910.10683.pdf.

[22]

GATYS L A, ECKER A S, BETHGE M. Image style transfer using convolutional neural networks [C]// Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. Las Vegas: CVPR, 2016: 2414-2423.

[23]

LIU Z, LUO P, WANG X, et al. Deep learning face attributes in the wild [C]// Proceedings of the IEEE/CVF International Conference on Computer Vision. Santiago: ICCV, 2015: 3730-3738.

[24]

LE V, BRANDT J, LIN Z, et al. Interactive facial feature localization [C]// Proceedings of the European Conference on Computer Vision. Florence: ECCV, 2012: 679-692.

[25]

ZHANG K, ZHANG Z, LI Z, et al

Joint face detection and alignment using multitask cascaded convolutional networks

[J]. IEEE Signal Processing Letters, 2016, 23 (10): 1499- 1503

DOI:10.1109/LSP.2016.2603342 [本文引用: 1]

[26]

MEI Y, FAN Y, ZHOU Y. Image super-resolution with non-local sparse attention [C]// Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. Online: CVPR, 2021: 3516-3525.