浙江大学学报(工学版), 2025, 59(12): 2516-2526 doi: 10.3785/j.issn.1008-973X.2025.12.006

计算机技术

双维度交叉融合驱动的图像超分辨率重建方法

贾晓芬,, 王子祥, 赵佰亭, 梁镇洹, 胡锐

1. 安徽理工大学 煤炭无人化开采数智技术全国重点实验室,安徽 淮南 232001

2. 安徽理工大学 人工智能学院,安徽 淮南 232001

3. 安徽理工大学 电气与信息工程学院,安徽 淮南 232001

Image super-resolution reconstruction method driven by two-dimensional cross-fusion

JIA Xiaofen,, WANG Zixiang, ZHAO Baiting, LIANG Zhenhuan, HU Rui

1. State Key Laboratory of Digital Intelligent Technology for Unmanned Coal Mining, Anhui University of Science and Technology, Huainan 232001, China

2. Institute of Artificial Intelligence, Anhui University of Science and Technology, Huainan 232001, China

3. Institute of Electrical and Information Engineering, Anhui University of Science and Technology, Huainan 232001, China

收稿日期: 2024-12-3  

基金资助: 国家自然科学基金资助项目(52174141);安徽省自然科学基金资助项目(2108085ME158);合肥综合性国家科学中心大健康研究院职业医学与健康联合研究中心科研资助项目(OMH-2023-10);安徽理工大学引进人才科研启动基金(2022yjrc44).

Received: 2024-12-3  

Fund supported: 国家自然科学基金资助项目(52174141);安徽省自然科学基金资助项目(2108085ME158);合肥综合性国家科学中心大健康研究院职业医学与健康联合研究中心科研资助项目(OMH-2023-10);安徽理工大学引进人才科研启动基金(2022yjrc44).

作者简介 About authors

贾晓芬(1978—),女,教授,从事图像处理、深度学习、数字孪生研究.orcid.org/0000-0002-1891-7613.E-mail:jxfzbt2008@163.com , E-mail:jxfzbt@163.com

摘要

针对现有图像超分辨率模型对图像深层语义信息中的底层特征提取不充分,导致重建图像细节丢失的问题,提出从空间、通道双维度交叉融合驱动的图像超分辨率模型. 该模型利用Transformer的注意力机制,在空间维度搭建空间密集全局注意力(SIGA),捕捉深层空间区域位置关系;在通道维度搭建通道交叉注意力(CCA),捕获通道间的特征依赖性. SIGA与CCA分别并联深度可分离卷积,增强模型高层语义信息中底层特征的提取能力,并使用空间压缩策略开发交叉融合模块(CFB),保证注意力模块与卷积之间的细粒特征高效融合. 级联双维度融合模块,助力深层语义信息全面交汇与聚合,实现恢复图像中的细腻结构. 实验表明,在比例因子为4的Urban100和Manga109中,相较于最新方法BiGLFE,该模型在PSNR上分别提高了0.52、0.81 dB.

关键词: 图像超分 ; Transformer ; CNN ; 融合 ; 空间注意力 ; 通道注意力

Abstract

The existing image super-resolution models do not extract the underlying features in the deep semantic information of the image sufficiently, leading to the loss of details of the reconstructed image. Thus, an image super-resolution model driven by the cross-fusion of two dimensions of space and channel was proposed. The model used Transformer’s attention mechanism to build spatial intensive global attention (SIGA) in the spatial dimension to capture the location relationship of deep spatial regions. Channel cross attention (CCA) was built in the channel dimension to capture the feature dependence between channels. SIGA and CCA were respectively connected in parallel with deep separable convolutions to enhance the model’s ability to extract low-level features from high-level semantic information. Meanwhile, a cross fusion block (CFB) was developed by using a spatial compression strategy to ensure the efficient fusion of fine-grained features between the attention modules and deep separable convolutions. The cascaded two-dimensional cross-fusion modules facilitate the comprehensive intersection and aggregation of deep semantic information, thus realizing the restoration of delicate structures in the image. The experimental results showed that the proposed model achieved a PSNR improvement of 0.52 dB and 0.81 dB respectively compared with the latest method BiGLFE, in Urban100 and Manga109 with a scale factor of 4.

Keywords: image super-resolution ; Transformer ; CNN ; fusion ; spatial attention ; channel attention

PDF (2088KB) 元数据 多维度评价 相关文章 导出 EndNote| Ris| Bibtex  收藏本文

本文引用格式

贾晓芬, 王子祥, 赵佰亭, 梁镇洹, 胡锐. 双维度交叉融合驱动的图像超分辨率重建方法. 浙江大学学报(工学版)[J], 2025, 59(12): 2516-2526 doi:10.3785/j.issn.1008-973X.2025.12.006

JIA Xiaofen, WANG Zixiang, ZHAO Baiting, LIANG Zhenhuan, HU Rui. Image super-resolution reconstruction method driven by two-dimensional cross-fusion. Journal of Zhejiang University(Engineering Science)[J], 2025, 59(12): 2516-2526 doi:10.3785/j.issn.1008-973X.2025.12.006

单幅图像超分辨率(single image super resolution, SISR)重建旨在将一幅低分辨率(low resolution, LR)图像恢复成高分辨率(high resolution,HR)图像. SISR可以解决图像纹理丢失、色彩失真或重影模糊等问题,已广泛应用在卫星遥感[1]、医学影像[2]和无人机等领域[3].

传统SISR方法重建的图像质量较低,卷积神经网络(convolutional neural network, CNN)可以提高重建质量. SRCNN[4]首次将CNN应用至SISR. Kim等[5]采用深度残差网络的思想构建深度网络VDSR,获得了比SRCNN更好的重建图像质量,证明加深网络深度有助于学习图像特征. RCAN[6]首次将通道注意力用于图像SR,使用嵌套残差结构并自适应地调整不同通道的权重,提高了图像重建质量. SENet[7]通过建模各个特征通道的重要程度,实现了对不同任务针对性的增强或者抑制. 增加网络深度、建立残差结构和注意力机制[8],在SR任务中均有着较好表现. 但是,CNN的局部机制会限制对长距离关系信息的建模效果,从而限制模型性能的提升.

Transformer[9]的自注意力机制能够有效捕获全局关系,此特性在SR任务中比CNN表现更优. SwinIR[10]采用空间窗口注意和移位操作,将滑动窗口策略引入Transformer用于SR任务. Chu等[11]提出在空间维度中可分离的注意力模型,分别计算各局部空间的自注意力,再利用全局自注意力机制对其进行融合. Yang等[12]采用分层结构交替排列2个不同的注意力模块,沿着2个维度运行以更高效地获取特征信息. 然而,Transformer对局部信息的处理能力较弱,往往忽略一些至关重要的图像局部表征.

结合CNN与Transformer的优点,增强网络对高频特征因子的聚合能力,成为当下新的研究方向. DETR[13]采用先CNN再Transformer的串联拼接方式. ViT-FRCNN[14]采用先Transformer再CNN的串联拼接,并验证了以Transformer作为主体骨干架构可以保留足够的空间信息. Conformer[15]将CNN和Transformer并联拼接,并设计特征耦合单元(feature coupling unit, FCU)实现并行融合两者特征. 上述方法均在单个维度中获取图像语义特征,空间注意力能丰富空间层次的特征表达,有助于通道与通道之间相关性建模. 通道注意力为空间提供全局通道特征信息,拓展了空间窗口的感受域[7]. Omni-SR[16]分别从空间与通道维度建立注意力模型,2个维度的特征信息互为补充,更充分地捕获高频特征信息. 综上,利用串联或并联的方式结合CNN与Transformer可以提高SR重建质量. 不过,虽然上述CNN与Transformer结合的方法行之有效,但仍未能充分提取图像深层语义中的底层特征.

针对上述问题,提出双维度交叉融合驱动的图像超分辨率重建模型CGT(cross gathering transformer). 模型借助空间压缩融合策略,增强对深层语义信息中底层特征的提取能力. 设计双维度特征聚合框架,充分发挥Transformer和CNN两者优势,实现高性能图像重建. 本研究主要工作如下:1)开发交叉融合模块(cross fusion block, CFB),突破了简单叠加特征的传统方式,更为精细地融合来自Transformer注意力和CNN卷积的特征;2)设计交叉聚拢模块(cross gathering transformer block, CGTB),内部的空间聚拢块(spatial gathering block, SGB)与通道聚拢块(channel gathering block, CGB)级联交互,不仅关注单维度内特征的独立提取与融合,更通过多维度的结构保证深层语义信息的完整性;3)提出从空间和通道,即纵、横双维度交叉融合Transformer与CNN的超分辨率模型.

1. 相关工作

1.1. 基于CNN的SISR模型

CNN借助其平移不变性、高鲁棒性和局部感知能力,在SR任务中有着较好的表现. CNN实现SR的数学模型可表示为

$ \boldsymbol{X}_{\mathrm{out}}=f\left(\boldsymbol{X}_{\mathrm{input}}\right)=s\left(W_1 * \boldsymbol{X}_{\mathrm{input}}+\boldsymbol{b}_1\right) . $

式中:${ \boldsymbol{X}_{{\text{input}}}}$为输入图像,大小为$ C \times H \times W $(通道数×高度×宽度);${W_1}$为卷积核权重,$ * $表示卷积操作;${ \boldsymbol{b}_1}$为偏置项;$s\left( \cdot \right)$为激活函数;${ \boldsymbol{X}_{{\text{out}}}}$为输出图像.

在卷积操作中,卷积核的数量与大小决定了模型复杂度及其捕捉特征的能力. 数量过多会导致计算冗余,而太少可能无法充分表达输入. 卷积核的感受野大小,直接决定了单个输出特征图像素的计算复杂度及其所能捕获的局部特征范围. 因此,CNN不擅长对整体信息建模,难以在空间或通道维度上有效地模拟高频全局依赖关系.

1.2. 基于Transformer的SISR模型

Transformer[9]早期应用于自然语言、处理序列相关的任务. 近几年被应用于视觉领域,并有着出色的性能表现. Transformer的核心为注意力机制,激活函数以softmax为例时,SISR数学模型为

$ \left.\begin{array}{l}\operatorname{Attention}({\boldsymbol{Q}}, {\boldsymbol{K}}, {\boldsymbol{V}})=\operatorname{softmax}\left(\dfrac{{\boldsymbol{Q}} {\boldsymbol{K}}^{\mathrm{T}}}{\sqrt{d_k}}\right) {\boldsymbol{V}}, \\{{\bf{head}}}_i=\operatorname{Attention}\left({\boldsymbol{Q}} {\boldsymbol{W}}_i^{\boldsymbol{Q}}, {\boldsymbol{K}} {\boldsymbol{W}}_i^{\boldsymbol{K}}, {\boldsymbol{V}} {\boldsymbol{W}}_i^{\boldsymbol{V}}\right) ,\\\operatorname{MultiHead}({\boldsymbol{Q}}, {\boldsymbol{K}}, {\boldsymbol{V}})= \\\qquad {{\mathrm{Concat}}}\left({{\bf{head}}}_1, {{\bf{head}}}_2, \cdots, {{\bf{head}}}_h\right) {\boldsymbol{W}}^{\mathrm{O}}.\end{array}\right\} $

式中:${\boldsymbol{Q}}$为查询矩阵,${\boldsymbol{K}}$为键矩阵,${\boldsymbol{V}}$为值矩阵,${d_k}$为缩放因子;${\boldsymbol{W}}_i^{\boldsymbol{Q}} $${\boldsymbol{W}}_i^{\boldsymbol{K}} $${\boldsymbol{W}}_i^{\boldsymbol{V}} $为第i个头的可训练的线性变换矩阵;headi为多头注意力机制中第i个并行的注意力计算单元;${\boldsymbol{Q}}{{\boldsymbol{K}}^{\text{T}}}$为内积,计算每对查询和键之间的相似度,以衡量相关性,高相似度的值会被softmax操作增强并加权至值矩阵;$h$为头的数量,增加头的数量可以帮助捕捉不同的特征;${\text{Concat}}\left( \cdot \right)$为拼接操作;${{\boldsymbol{W}}^{\mathrm{O}}}$为共享的线性变换矩阵,它将所有头拼接后的结果进行线性投影,以整合信息并输出到最终的维度.

Transformer并行处理多个头,每个头从不同的子空间中提取信息,增强模型捕获多样化特征的能力. 然而,Transformer对局部信息的处理能力较弱,会忽略一些关键的局部特征,特别是对图像重建细节有着决定性作用的高频局部边缘信息.

1.3. 基于CNN和Transformer的SISR模型

相较于单纯CNN或Transformer网络,两者结合能够进一步提高网络的SISR性能. 以下为两者结合的表达形式,先对式(1)中CNN输出${ \boldsymbol{X}_{{\text{out}}}}$重塑形状,得到

$ \boldsymbol{X}_{\mathrm{f}}=\operatorname{reshape}\left(\boldsymbol{X}_{\mathrm{out}}\right) . $

式中:${\boldsymbol{X}_{\text{f}}} \in {{\bf{R}}^{H' \times W' \times C}}$表示重塑后的特征,$H' \times W'$表示重塑维度,${\text{reshape}}\left( \cdot \right)$为重塑操作.

接着,将原始特征映射线性变换为特征矩阵:

$ {\boldsymbol{Q}}=\boldsymbol{X}_{\mathrm{f}} {\boldsymbol{W}}_{\boldsymbol{Q}}, {\boldsymbol{K}}=\boldsymbol{X}_{\mathrm{f}} {\boldsymbol{W}}_{\boldsymbol{K}}, {\boldsymbol{V}}=\boldsymbol{X}_{\mathrm{f}} {\boldsymbol{W}}_{\boldsymbol{V}} . $

式中:${{\boldsymbol{W}}_{\boldsymbol{Q}}}$${\boldsymbol{W}}_{\boldsymbol{K}} $${\boldsymbol{W}}_{\boldsymbol{V}} $为映射变换矩阵. 然后,利用式(2)捕捉全局特征,再加入残差连接和层归一化,保持信息的流动:

$ {\boldsymbol{Y}}=\operatorname{LayerNorm}\left(\boldsymbol{X}_{\mathrm{f}}+\operatorname{MultiHead}({\boldsymbol{Q}}, {\boldsymbol{K}},{\boldsymbol{ V}})\right) . $

式中:${\boldsymbol{Y}}$为中间层特征.

最终,将输出通过上采样或反卷积操作得到超分辨率图像:

$ \boldsymbol{X}_{\mathrm{SR}}=g\left(\text { LayerNorm }\left(\boldsymbol{X}_{\mathrm{f}}+\operatorname{MultiHead}({\boldsymbol{Q}}, {\boldsymbol{K}}, {\boldsymbol{V}})\right)\right) . $

式中:${\boldsymbol{X}_{{\text{SR}}}}$为重建超分图像,$g\left( \cdot \right)$为上采样或反卷积操作.

结合CNN的局部特征提取能力和Transformer的全局上下文建模能力,可以高质完成SR任务,生成更清晰细致的高分辨率图像.

2. 交叉聚拢模型CGT

2.1. 设计思想

CGT的独特之处在于其双维度深层语义特征聚合架构设计的独特性、复杂信息融合的高效性以及在不同特征维度上的深度融合. 本研究致力于充分利用CNN与Transformer的优势,并借助信息融合策略结合两者的深层特征,解决图像深层语义信息未能全面提取的问题,提升图像重建质量.

设计CGT模型,其浅层采用CNN卷积,深层主框架采用Transformer注意力与前馈网络的编码层结构,构建核心模块CGTB捕捉深层语义信息,通过交叉融合模块CFB结合来自CNN卷积与注意力模块提取的底层和高层语义信息,最终利用Pixel Shuffle和2次卷积完成重建.

具体而言,首先,在空间和通道维度上分别利用Transformer的注意力机制,搭建空间密集注意力(spatial intensity global attention, SIGA)和通道交叉注意力(channel cross attention, CCA)以充分挖掘多维度高相关性的特征映射信息,把握图像整体语义结构. 其次,对SIGA与CCA分别并联深度可分离卷积,增强深层局部特征因子提取能力. 接着,鉴于注意力模块与卷积提取区域信息存在差异,简单叠加两者效果不佳,对双分支信息流使用不同的空间压缩策略构建CFB,完成特征信息自适应加权并交叉融合. 然后,利用SIGA、深度可分离卷积与CFB构建SGB,利用CCA、深度可分离卷积与CFB构建CGB. 最后,使用多组“SGB+CGB”构成CGTB,实现空间与通道深层信息的全面细粒交互,进一步提升特征融合效果.

2.2. 网络框架

按照上述思想搭建如图1所示的CGT模型,包括浅层特征提取、深层特征提取和图像重建模块. 浅层特征提取模块负责对输入图像低频特征进行初步的提取. 深层特征提取模块进一步提取图像的高频特征信息. 最后,结合浅层和深层提取的特征信息传送至重建模块进行上采样,完成对SR图像的重建.

图 1

图 1   CGT整体网络结构

Fig.1   Overall network structure of CGT


首先,定义输入图像为$ {\boldsymbol{I}}_{\text{LR}}\in {{\bf{R}}}^{H\times W\times C} $,借鉴IMDN[17]、CMSN[18]、HAN[19],对浅层特征提取仅使用一个3×3卷积,其结构简单且能将低级语义信息有效地映射到高维空间,实现过程为

$ \boldsymbol{F}_0=C_{3 \times 3}\left(\boldsymbol{I}_{\mathrm{LR}}\right) . $

式中:${C_{3 \times 3}}\left( \cdot \right)$为3×3卷积运算,${{\boldsymbol{F}}_0}$表示提取的浅层特征.

接着,传至深层特征提取部分. 作为CGT的核心模块,深层特征提取模块包括$l$$ l \in {{\bf{N}}^+} $)层CGTB,单个CGTB由$ n(n \in {{\bf{N}}^+}) $个“SGB+CGB”模块串联而成. $l$层CGTB组成的深层特征提取过程可表示为

$ \boldsymbol{F}_{\mathrm{d}}=H_{\mathrm{CGTB}_l}\left(H_{\mathrm{CGTB}_{l-1}}\left(\cdots H_{\mathrm{CGTB}_1}\left(\boldsymbol{F}_0\right) \cdots\right)\right) . $

式中:${H_{{\text{CGT}}{{\text{B}}_l}}}\left( \cdot \right)$表示第$l$层CGTB,${{\boldsymbol{F}}_{\text{d}}}$表示经过$l$层CGTB提取到的高频特征. 与SwinIR[10]相同,在CGTB最后引入一个3×3卷积层以细化每个块内提取的特征,并且每个CGTB内部也采用残差连接提高网络稠密程度. 提取深层特征为

$ \boldsymbol{F}_{\mathrm{D}}=C_{3 \times 3}\left(\boldsymbol{F}_{\mathrm{d}}\right) . $

最后,重建模块采用Pixel Shuffle与2层3×3卷积层直接整合浅层特征${\boldsymbol{F}_0}$与深层特征${\boldsymbol{F}_{\text{D}}}$,并将已提取好的特征重建为高清图像. 该过程为

$ \boldsymbol{I}_{\mathrm{SR}}=H_{\mathrm{RC}}\left(\boldsymbol{F}_0+\boldsymbol{F}_{\mathrm{D}}\right) . $

式中:${H_{{\text{RC}}}}\left( \cdot \right)$表示重建映射函数,$\boldsymbol{I}_{\mathrm{SR}} \in {{\bf{R}}}^{H \times W \times C}$为输出的SR图像.

使用${L_1}$损失函数对模型优化:

$ L(\theta)=\frac{1}{N} \sum_{i=1}^N\left\|\boldsymbol{I}_{\mathrm{SR}}^i-\boldsymbol{I}_{\mathrm{HR}}^i\right\|_1. $

式中:${\boldsymbol{I}_{{\text{SR}}}}$${\boldsymbol{I}_{{\text{LR}}}}$经CGT的输出,$\boldsymbol{I}_{{\text{HR}}}$为原高清图像,$N$为训练集样本数.

2.3. 交叉聚拢模块(CGTB)

CNN的固有特性决定了它对整体特征建模能力差,而Transformer容易忽略重要的深层纹理信息. 借鉴Peng等[15]的经验,将两者并联并添加融合单元FCU,设计双分支交叉融合模块CFB,增强对局部和全局特征的建模能力.

重建高质量图像意味着需要更多的深层语义信息. 单维度特征提取方法[6]效果较差,并且随着网络加深,重要图像信息会分散在不同维度. 为了更全面地挖掘出分布于不同维度的深层次信息,在空间、通道双维度上设计CGTB,见图1,整体采用Transformer的注意力和前馈网络框架,参考ScalableViT[12]双注意力先空间后通道的交替级联方式,从空间与通道维度建立特征聚合模块SGB与CGB. 两者采用相同结构,即深度可分离卷积并联注意力模块,接着分别连接CFB的局部分支和全局分支,最后,再通过层归一化和多层感知机MLP对各维度特征进一步整合.

此外,为了获取相关度更高的双维度深层次特征信息,对空间和通道注意力分别进行优化,提出了SIGA与CCA. 每个CGTB模板使用$ n(n \in {{\bf{N}}^+}) $个“SGB+CGB”模块串联,再利用残差结构和3×3卷积组成单层的CGTB,该模块能够利用空间与通道信息的互补性,更全面地捕捉到深层次高频图像特征因子.

2.3.1. 空间密集全局注意力(SIGA)

空间注意力旨在从空间维度赋予相关性较高的区域更高的关注度,而非平等考虑图像中的所有空间区域. 现有的空间注意力模块使用Softmax激活函数,用以保持查询矩阵${\boldsymbol{Q}}$和键矩阵$ {\boldsymbol{K }}$之间所拥有的相似性. 然而,并非所有来自${\boldsymbol{Q}}$${\boldsymbol{ K}} $的信息都相关. 使用Softmax生成的注意力会降低模型的空间整体建模能力,影响后续特征聚合. ReLU可以保留图像积极特征,屏蔽消极特征,提升图像重建能力[20]. 在空间注意力模块的基础上,使用ReLU搭建SIGA,结构见图2. 同时,为了提高空间维度整体特征的建模能力,保持全文上下空间信息因子有效聚合,借鉴SwinIR[10]中的移位窗口操作,在SIGA中使用矩形移位窗口获取更丰富的深层空间特征.

图 2

图 2   空间密集全局注意力(SIGA)结构

Fig.2   Structure of spatial intensity global attention(SIGA)


对于输入${\boldsymbol{X}_{\rm{in}}} \in {{{\bf{R}}}^{H \times W \times C}}$,使用线性映射得到查询矩阵${\boldsymbol{Q}}$,键矩阵$ {\boldsymbol{K}} $和值矩阵$ {\boldsymbol{V}} $(其中${\boldsymbol{Q}}$$ {\boldsymbol{K}} $$ {\boldsymbol{V}} \in $$ {{{\bf{R}}}^{H \times W \times C}}$),该过程可表示为

$ {\boldsymbol{Q}}=\boldsymbol{X}_{\rm{i n}} {\boldsymbol{W}}_{\boldsymbol{Q}},\; {\boldsymbol{K}}=\boldsymbol{X}_{\rm{i n}} {\boldsymbol{W}}_{\boldsymbol{K}}, \;{\boldsymbol{V}}=\boldsymbol{X}_{\rm{i n}} {\boldsymbol{W}}_{\boldsymbol{V}} . $

式中:${{\boldsymbol{W}}_{\boldsymbol{Q}}}$${{\boldsymbol{W}}_{\boldsymbol{K}}}$${{\boldsymbol{W}}_{\boldsymbol{V}}}$为省略偏置的线性映射.

${\boldsymbol{Q}}$$ {\boldsymbol{K}} $$ {\boldsymbol{V}} $划分为不重叠的窗口并展平,窗口大小为$N$. 然后利用多头注意力将它们划分并分别计算$h$次局部注意($h$为多头注意力的头数). 激活函数ReLU计算注意力的表达式为

$ {\bf{S A}}\left({\boldsymbol{Q}}_i, {\boldsymbol{K}}_i, {\boldsymbol{V}}_i\right)_i={\boldsymbol{V}}_i \cdot {\mathrm{R e L U}}\left(\frac{{\boldsymbol{K}}_i^{\mathrm{T}} \cdot {\boldsymbol{Q}}_i}{\sqrt{d_k}}+\boldsymbol{b}\right);\; i=1,2, \cdots, h. $

式中:$ {\bf{SA}}{\left( \cdot \right)_i} $为第$i$个局部注意力,${\boldsymbol{Q}}_i $${\boldsymbol{K}}_i $${\boldsymbol{V}}_i $分别为第i个头的查询、键、值矩阵,$\sqrt {{d_k}} $为可学习缩放参数,$\boldsymbol{b}$为可学习的相对位置编码.

将所有局部注意进行拼接操作得到完整的空间注意力:

$ {\text{SIGAtten}}\left( {{\boldsymbol{Q}},{\boldsymbol{K}},{\boldsymbol{V}}} \right) = {\text{Concat}}\left( {{{\bf{SA}}_1},{{\bf{SA}}_2}, \cdots ,{{\bf{SA}}_h}} \right){{\boldsymbol{W}}_{\text{s}}}. $

式中:$ {\text{SIGAtten}}\left( {{\boldsymbol{Q}},{\boldsymbol{K}},{\boldsymbol{V}}} \right) $为完整空间注意力,${\text{Concat}}\left( \cdot \right)$为拼接操作,${{\boldsymbol{W}}_{\text{s}}}$为输出线性变换矩阵,SAi为空间注意力中第i个并行的注意力计算单元. 最后再经线性映射保持维度为$H \times W \times C$就得到输出${\boldsymbol{X}_{{\text{out}}}} \in {{{\bf{R}}}^{H \times W \times C}}$.

2.3.2. 通道交叉注意力(CCA)

为了促进通道间信息的相互作用,增强不同通道之间的协同效应,使用通道注意力获取通道间特征关联信息,从而拓宽空间窗口感受域. 模块沿通道维度计算注意力需要大量的计算开销为支撑. 对于输入图像${\boldsymbol{X}_{\rm{in}}} \in {{{\bf{R}}}^{H \times W \times C}}$,计算任意2个像素间的相似度,其复杂度可表示为$ P({W^2}{H^2}) $. 显然,图像越大需要的计算成本越高,会限制网络性能提升.

Lin等[21]提出的交叉注意力,其核心思想为在图像块内捕获特征信息而非传统的在整幅图像上捕获,不仅降低了注意力层的计算开销,同时提高了通道间特征交互信息的捕获能力,有助于减少模型计算消耗. 受其启发,为了补充空间维度通道间特征关系,本研究使用通道交叉策略构建通道交叉注意力CCA,结构见图3. 对输入图像${\boldsymbol{X}_{\rm{in}}} \in {{{\bf{R}}}^{H \times W \times C}}$,经线性投影得到查询矩阵${\boldsymbol{Q}}$、键矩阵$ {\boldsymbol{K}} $和值矩阵$ {\boldsymbol{V}} $,并重塑其形状大小为$ {{{\bf{R}}}^{HW \times C}} $,用$ {{\boldsymbol{Q}}_{\text{c}}} $$ {{\boldsymbol{K}}_{\text{c}}} $$ {{\boldsymbol{V}}_{\text{c}}} $表示重构至通道维度的矩阵,其映射的过程为

图 3

图 3   通道交叉注意力(CCA)结构

Fig.3   Structure of channel cross attention(CCA)


$ {\boldsymbol{Q}}_{\mathrm{c}}=\boldsymbol{X}_{\rm{i n}} {\boldsymbol{W}}_{\boldsymbol{Q}},\; {\boldsymbol{K}}_{\mathrm{c}}=\boldsymbol{X}_{\rm{i n}} {\boldsymbol{W}}_{\boldsymbol{K}},\; {\boldsymbol{V}}_{\mathrm{c}}=\boldsymbol{X}_{\rm{i n}} {\boldsymbol{W}}_{\boldsymbol{V}}. $

式中:${{\boldsymbol{W}}_{\boldsymbol{Q}}}$${{\boldsymbol{W}}_{\boldsymbol{K}}}$${{\boldsymbol{W}}_{\boldsymbol{V}}}$为线性投影,为简化省略了偏差.

随后,将通道分成$h$个头并行计算其注意力:

$ \begin{split} {\mathrm{ C A}}&\left({\boldsymbol{Q}}_{\mathrm{c}}^i, {\boldsymbol{K}}_{\mathrm{c}}^i, {\boldsymbol{V}}_{\mathrm{c}}^i\right)_i={\boldsymbol{V}}_{\mathrm{c}}^i \cdot \operatorname{SoftMax}\left(\frac{\left({\boldsymbol{Q}}_{\mathrm{c}}^{i}\right)^{\mathrm{T} } \cdot {\boldsymbol{K}}_{\mathrm{c}}^i}{\sqrt{c_k}}\right); \\& i=1,2, \cdots, h.\end{split} $

式中:$ {\mathrm{CA}} {\left( \cdot \right)_i} $为第$i$个通道局部注意力,$\sqrt {{c_k}} $表示可学习参数,${\mathrm{SoftMax}}\left( \cdot \right)$表示SoftMax激活函数.

接着,拼接所有局部注意通道,得到完整的通道注意力:

$ {\text{CCAtten}}({\boldsymbol{Q}},{\boldsymbol{K}},{\boldsymbol{V}}) = {\text{Concat}}({{\bf{CA}}_1},{{\bf{CA}}_2}, \cdots ,{{\bf{CA}}_h}){{\boldsymbol{W}}_{\text{c}}}. $

式中:$ {\text{CCAtten}}({\boldsymbol{Q}},{\boldsymbol{K}},{\boldsymbol{V}}) $为完整通道注意力,${{\boldsymbol{W}}_{\text{c}}}$为输出线性变换矩阵. 最后对拼接好的注意力再通过Reshape操作,将交叉注意力进行重构得到输出${\boldsymbol{X}_{{\text{out}}}} \in {{{\bf{R}}}^{H \times W \times C}}$.

2.3.3. 交叉融合模块(CFB)

Transformer注意力机制与深度可分离卷积对应的感兴趣区域特征存在显著差异,单纯增加卷积或激活分支并不能有效地耦合全局与局部特征. SENet[7]沿维度压缩输入,通过卷积、激活操作自适应生成相应的权重. 受其启发,对两者分支提取到的信息流分别采取不同空间压缩策略,使用分支交叉结构设计如图4所示的CFB.

图 4

图 4   交叉融合模块(CFB)结构

Fig.4   Structure of cross fusion block(CFB)


对卷积分支输入$ {\boldsymbol{X}_{\text{L}}} $,经1×1卷积和ReLU操作得到$ {\boldsymbol{Y}_{\text{L}}} $,再经Sigmoid操作得到注意力分支的权重$ {\boldsymbol{F}_{\text{G}}} $. 注意力分支的输入$ {\boldsymbol{X}_{\text{G}}} $经平均池化、1×1卷积和ReLU等操作得到$ {\boldsymbol{Y}_{\text{G}}} $,随后经Sigmoid操作得到卷积分支的权重$ {\boldsymbol{F}_{\text{L}}} $. 上述计算过程可以表示为

$ \boldsymbol{Y}_{\mathrm{G}}=H_{{\mathrm{A p}}}\left(C_{1 \times 1}\left(\operatorname{ReLU}\left(C_{1 \times 1}\left(\boldsymbol{X}_{\mathrm{G}}\right)\right)\right)\right), $

$ \boldsymbol{Y}_{\mathrm{L}}=C_{1 \times 1}\left(\operatorname{ReLU}\left(C_{1 \times 1}\left(\boldsymbol{X}_{\mathrm{L}}\right)\right)\right) , $

$ \boldsymbol{F}_{\mathrm{G}}=\sigma\left(\boldsymbol{Y}_{\mathrm{L}}\right), \quad \boldsymbol{F}_{\mathrm{L}}=\sigma\left(\boldsymbol{Y}_{\mathrm{G}}\right). $

各分支得到对应权重后与权重相乘,最后对2个分支相加得到输出$ { \boldsymbol{X}_{{\text{out}}}} $

$ \boldsymbol{X}_{\text {out }}=\left(\boldsymbol{X}_{\mathrm{G}} \cdot \boldsymbol{F}_{\mathrm{G}}\right)+\left(\boldsymbol{X}_{\mathrm{L}} \cdot \boldsymbol{F}_{\mathrm{L}}\right) . $

式中:$ {H_{{\mathrm{Ap}}}}\left( \cdot \right) $表示平均池化,$ {C_{1 \times 1}}\left( \cdot \right) $表示1×1卷积,$\cdot $表示元素相乘,$ \sigma \left( \cdot \right) $表示Sigmoid操作,$ {\boldsymbol{X}_{\text{G}}} $$ {\boldsymbol{X}_{\text{L}}} $$ {\boldsymbol{X}_{{\text{out}}}} $$ \in {{{\bf{R}}}^{H \times W \times C}} $. 通过对各个分支特征信息进行不同的压缩加权操作,有效促进卷积和注意力模块特征的交互与融合.

3. 实验结果与分析

3.1. 实现细节与评价指标

实验基于PyTorch框架,1块NVIDIA GeForce RTX 3080Ti的GPU实现. 通道维度为180,扩展因子为2,空间窗口设置成8×16,块大小(patch size)为64×64,批大小(batch size)为32,多头注意力头数为6[22]. 采用${L_1}$损失函数和Adam优化器[23]$ \beta_ 1 $=0.9,$ \beta_2 $=0.99)优化模型性能. 训练时,学习率初始值大小为2×10−4,并在迭代次数分别为[250000400000450000475000]时减半,总训练迭代次数设置成500000. 重建的比例因子为×2、×3和×4.

训练数据集DF2K,由DIV2K[24]和Flick2K组成,包含3000张分辨率为2000的高质量图像. 除裁剪外,还进行了90°、180°、270°和水平翻转. 测试集选择5个数据集:Set5[25]、Set14[26]、BSD100[27]、Urban100[28]和Manga109[29]. LR图像由HR图像经过双三次退化生成. 在YCbCr色彩空间的Y通道(亮度)上计算峰值信噪比(PSNR)和结构相似度(SSIM)[30]. PSNR与SSIM越大,说明模型重建后的图像质量越高.

3.2. 消融实验

为了验证CGT各组成结构的有效性,对其进行消融实验,浮点数(FLOPs)均通过输入为3×64×64计算得出. 模型参数量用PM表示,模型浮点数用FL表示.

3.2.1. 确定CGTB层数和内部组成

参考SwinIR[10]先固定内部为3个“SGB+CGB”串联,仅改变CGTB层数p,在Manga109(×4)上测试,结果如图5表1所示. 由图5可知,模型性能指标PSNR与SSIM均在CGTB个数为6之前上升趋势较为明显,在CGTB层数超过6时,虽然性能指标仍在上升但变化趋势较为缓慢.

图 5

图 5   不同数量的CGTB在Manga109(×4)中的对比测试

Fig.5   Comparative test of different numbers of CGTB in Manga109 (×4)


表 1   不同数量CGTB对应参数

Tab.1  Parameters for different quantities of CGTB

pPM/106FL/109
24.20320.132
47.70835.485
611.21250.838
814.71766.19
1018.22181.543

新窗口打开| 下载CSV


表1可以看出,随着CGTB数量的增加,模型参数量与训练计算量也在增加,10层CGTB参数量达到18.22×106,但模型性能并未有较大提升. 实验结果表明,在CGTB层数为6时模型不仅可以保持较低参数量,同时有着良好的表现能力,所以CGT中选择6层CGTB作为深层特征提取模块.

固定6层CGTB,研究不同数量“SGB+CGB”串联或并联对CGTB性能的影响,在5个数据集(比例因子为4)中对其总数量分别为2、3和4进行测试,结果见表2. 其中,NSC为“SGB+CGB”数量. 可以看出,当“SGB+CGB”串联,数量为3时,CGTB在5个数据集中均为最优值,且“SGB+CGB”并联的参数量与浮点数较之增加了5.14×106与15.671×109. 数量为4时,由于参数冗余数量增加,串联或并联方式下的模型性能均出现下降. 综上,选择3个“SGB+CGB”串联组成CGTB,6层CGTB组成深层特征提取模块.

表 2   不同数量SGB+CGB的串并联性能测试

Tab.2  Performance tests for series and parallel connections with different quantities of SGB+CGB

串/并联NSCPM/106FL/109Set5Set14BSD100Urban100
PSNR/dBSSIMPSNR/dBSSIMPSNR/dBSSIMPSNR/dBSSIM
SGB+CGB串联28.2935.06032.660.900228.930.789627.780.743926.870.8094
311.2150.83832.810.902429.030.792127.850.745627.120.8155
418.9177.74532.700.901228.960.790627.820.744927.010.8128
SGB+CGB并联211.7148.32132.620.900128.950.789327.780.743626.880.8092
316.3566.50932.660.900728.970.789927.810.744126.940.8110
420.9884.69832.630.900228.900.788727.780.743326.810.8071

新窗口打开| 下载CSV


3.2.2. 确定CGTB各组成模块的有效性

利用CGT的退化网络研究CGTB内部组成模块的有效性,在4个数据集(比例因子为4)上测试,结果见表3. 基准模块由CGT的浅层提取模块和重建模块组成,深度提取模块层数与CGT保持一致,仅对每个CGTB做改变.

表 3   5种CGT退化网络的实验结果

Tab.3  Experimental results of five CGT degenerative networks

方法基线模块SIGACCACFBPM/106FL/109Set5Set14BSD100Urban100
PSNR/dBSSIMPSNR/dBSSIMPSNR/dBSSIMPSNR/dBSSIM
CGT-S××11.2152.8232.610.900328.940.789927.790.744426.890.8105
CGT-SF×11.2153.4432.620.900828.950.790227.800.744626.940.8114
CGT-C××11.2047.6132.520.899128.810.786527.710.741226.570.7996
CGT-CF×11.2048.2332.530.899028.820.787127.720.741226.580.8006
CGT-SC×11.2150.2232.630.900628.940.789727.800.744326.840.8081
CGT11.2150.8332.810.902429.030.792127.850.745627.120.8155

新窗口打开| 下载CSV


在空间维度上,CGT-S与CFB组合成CGT-SF,可以验证空间的维度融合效果. 在Set14上,CGT-SF相较于CGT-S,PSNR增加了0.0154 dB,SSIM提高了0.0093,在Urban100中,PSNR提升0.0476 dB,SSIM提升0.0009. 在通道维度上,CGT-C与CFB组合为CGT-CF. 在Set14上,CGT-CF相较于CGT-C,PSNR提升0.0099 dB,SSIM增加0.0006,在Urban100中,PSNR提升0.0176 dB,SSIM指标提升0.0010. 由此证明,SIGA或CCA与深度可分离卷积在单个空间或通道维度内得到了有效结合,验证了所提出并行式交叉融合结构的合理性,证明了CFB的有效性.

CGT-SC含有双维度注意力SIGA和CCA. 相较于单维度网络,CGT-SC提取的特征包含2个维度的信息,因此在5个数据集上性能均有不同程度的提升. 在Set14中,相较于CGT-SF、CGT-CF,PSNR分别提升0.01、0.10 dB. 由此验证,双维度架构能够捕获更多的深层次特征信息.

CGT包含所有子模块,其参数量为11.21×106,FLOPs为50.83×109,低于CGT-S与CGT-SF的,并且在5个数据集上的PSNR与SSIM均为最优值. 综上,通过消融实验证明了CGT各设计组成的合理性与有效性.

为了更直观感受CGT各阶段的特征提取效果,对不同维度区域的特征进行了可视化,见图6. 其中图6(a)为原图;图6(b)的浅层特征较为模糊;图6(c)、(d)、(e)、(f)分别为双维度深层局部与全局特征,含有更多的纹理与细节;图6(g)、(h)为融合后的特征,表现出更为清晰的纹理以及边缘细节. 由此进一步验证本研究提出从双维度融合Transformer注意力与CNN卷积的可行性与有效性.

图 6

图 6   不同模块提取特征的可视化

Fig.6   Visualization of features extracted from different modules


3.3. 模型分析
3.3.1. 模型参数比较

网络参数的大小也是衡量模型优劣的指标之一,更少的网络参数意味着更低的计算成本. 为了衡量CGT的参数量,在Urban100(×4)上,与RCAN[6]、EDSR[8]、SwinIR[10]、HAN[19]、RDN[31]、SAN[32]、RFANET[33]和NLSA[34]开展了对比测试,结果见图7. SwinIR[10]在Urban100(×4)中PSNR为27.07 dB,参数量为11.9×106. RFANET[33]虽然获得了最低的参数量,但重建效果不佳. 针对Transformer的高计算开销,CGT通过优化其核心注意力模块,并引入CNN降低计算量. CGT参数量为11.21×106,比SwinIR小0.69×106,而PSNR较之提升了0.05 dB,可见在保持较低参网络数量的同时,依旧能拥有优秀的性能表现.

图 7

图 7   Urban100(×4)上的参数量对比

Fig.7   Comparison of parameter quantities on Urban100 (×4)


3.3.2. 模型定量分析

为了衡量CGT的重建效果,在5个数据集上开展测试,对比方法包括IMDN[17]、HAN[19]、SAN[32]、RFANET[33]、NLSA[34]、EMT[35]、BiGLFE[36]、CMSN[37]和CGT. 具体见表4,其中黑体字代表最优数值,斜体下划线代表次优值. 可以看出,CGT在5个数据集×2,×3和×4的比例因子下都表现优异. 与同为双注意力的NLSA[34]相比,为了从高级语义中充分提取底层特征,CGT模型通过融合双维度注意力与并联深度可分离卷积的策略来实现这一目标. 与NLSA[34]相比,在Urban100(×4)和Manga109(×4)中,PSNR分别提高0.27、0.39 dB. 当前最新方法CMSN[37]使用多尺度通道注意力有效捕获通道维度特征,但对空间维度信息提取不充分,CGT从空间与通道双维度更全面地捕获高级局部与全局信息,从而取得了更好的重建效果,在Urban100(×2)中PSNR提高了0.83 dB,在Urban100(×4)中PSNR提高了0.68 dB. 此外,训练数据集丰富度欠佳会导致模型泛化性能下降,面对Set14与BSD100之类包含更多复杂现实场景的数据集,在比例因子为2时CGT未能表现最优. 后续将针对现实复杂场景,丰富训练数据集并优化模型结构.

表 4   所提方法在5个基准数据集上与先进方法的对比

Tab.4  Comparison with advanced methods on five benchmark datasets

方法年份倍数Set5Set14BSD100Urban100Manga109
PSNR/dBSSIMPSNR/dBSSIMPSNR/dBSSIMPSNR/dBSSIMPSNR/dBSSIM
IMDN[17]2019×238.000.960533.630.917732.190.899632.170.9283
HAN[19]2019×238.270.961434.160.921732.410.902733.350.938539.460.9785
SAN[32]2020×238.310.962034.070.921332.420.902833.100.937039.320.9792
RFANET[33]2020×238.260.961534.160.922032.410.902633.330.938939.440.9783
NLSN[34]2021×238.340.961834.080.923132.430.902733.420.939439.590.9789
EMT[35]2024×238.290.961534.230.922932.400.902733.280.938539.590.9789
BiGLFE[36]2024×238.150.960133.800.919432.290.899432.710.932938.960.9771
CMSN[37]2024×238.180.961233.840.919532.300.901432.650.932939.110.9780
CGT(本研究模型)2024×238.360.961834.110.922032.410.902633.480.939539.670.9792
IMDN[17]2019×334.360.927030.320.841729.090.804628.170.851933.610.9445
HAN[19]2019×334.750.929930.670.848329.320.811029.100.870534.480.9500
SAN[32]2020×334.750.930030.590.847629.330.811228.930.867134.300.9494
RFANET[33]2020×334.790.930030.670.848729.340.811529.150.872034.590.9506
NLSN[34]2021×334.850.930630.700.848529.340.811729.250.872634.570.9508
EMT[35]2024×334.800.930330.710.848929.330.811329.160.871634.650.9508
BiGLFE[36]2024×334.590.927630.330.844929.240.805928.760.864234.030.9460
CMSN[37]2024×334.620.928830.500.845229.220.808228.600.861234.120.9476
CGT(本研究模型)2024×334.910.930830.750.849629.360.811929.260.872934.770.9514
IMDN[17]2019×432.210.894828.580.781127.560.735326.040.7838
HAN[19]2019×432.590.900028.870.789127.780.744426.960.810931.270.9184
SAN[32]2020×432.640.900328.920.788827.780.743626.790.806831.180.9169
RFANET[33]2020×432.660.900428.880.789427.790.744226.920.811231.410.9187
NLSN[34]2021×432.640.900228.900.789027.800.744226.850.809431.420.9177
EMT[35]2024×432.640.900328.970.790127.810.744126.980.811831.480.9190
BiGLFE[36]2024×432.520.897128.640.785827.740.737726.600.801631.000.9123
CMSN[37]2024×432.410.897528.770.785127.680.739826.440.796431.000.9133
CGT(本研究模型)2024×432.810.902429.030.792127.850.745627.120.815531.810.9224

新窗口打开| 下载CSV


模型定量分析表明,相比于现有基于注意力的SR方法,CGT通过CFB高效融合来自注意力模块与深度可分离卷积的深层语义信息,SGB与CGB级联交互,进一步保证了模型在空间和通道维度上的深层语义信息交织互补,提高了模型整体的特征表达能力.

3.3.3. 模型定性分析

图8~10所示为CGT与不同先进算法重建图像的细节对比. 左侧为原高清图像,右侧部分为不同方法重建图像红框部分放大图,包括原图、Bicubic、IMDN[16]、EDSR[8]、SAN[32]、SwinIR-S[10]、RFANet[33]和CGT. 主观视觉上,图8(b)~(f)重建的纵向斜纹细节均存在明显缺失,图8(g)左上角的纵向斜纹重建不充分,视觉上CGT对纹理和边缘细节的恢复比其余方法更为清晰;图9(b)~(g)均存在不同程度的边缘扭曲;图10(b)~(g)的远处物体边缘轮廓均表现出不同程度的模糊和伪影. 通过对比各方法重建后的图像,展示了CGT能更有效地恢复图像的边缘以及局部纹理细节,且恢复的图像更接近原图. 综上,通过定量与定性比较与分析,验证了本研究提出的CNN与Transformer驱动的双维度融合方法的有效性.

图 8

图 8   Set14(×2)上的重建视觉对比

Fig.8   Visual comparison of reconstructed images on Set14 (×2)


图 9

图 9   B100(×4)上的重建视觉对比

Fig.9   Visual comparison of reconstructed images on BSD100 (×4)


图 10

图 10   Urban100(×4)上的重建视觉对比

Fig.10   Visual comparison of reconstructed images on Urban100 (×4)


4. 结 语

提出以CNN与Transformer驱动的,在空间、通道双维度融合的图像超分辨率重建方法. 该方法利用深度可分离卷积与自注意力模型,分别从空间域和通道域对各自维度的局部细节以及全局特征信息高效提取. 搭建的交叉融合模块CFB,能够沿着对应的分支将提取好的局部与全局特征相融合,从而更充分地弥补深层语义特征中的局部表征信息,有效提升重建图像质量,保留更丰富的细节纹理信息. 实验结果表明,CGT在比例因子为2和4的定量实验中,在Urban100(×2)和Urban100(×4)中,相较于BiGLFE,PNSR分别提升了1.4%和1.2%. 因模型感受域大小固定,其性能受限,在后续的研究中,将考虑扩大网络有效感受域,进一步降低网络参数量,构建更轻的模型并保持高质量图像重建性能.

参考文献

DENG C, LUO X, WANG W

Multiple frame splicing and degradation learning for hyperspectral imagery super-resolution

[J]. IEEE Journal of Selected Topics in Applied Earth Observations and Remote Sensing, 2022, 15: 8389- 8401

DOI:10.1109/JSTARS.2022.3207777      [本文引用: 1]

MA J, LIU S, CHENG S, et al

STSRNet: self-texture transfer super-resolution and refocusing network

[J]. IEEE Transactions on Medical Imaging, 2022, 41 (2): 383- 393

DOI:10.1109/TMI.2021.3112923      [本文引用: 1]

ZHAO Z, ZHANG Y, LI C, et al

Thermal UAV image super-resolution guided by multiple visible cues

[J]. IEEE Transactions on Geoscience and Remote Sensing, 2023, 61: 5000314

[本文引用: 1]

DONG C, LOY C C, HE K, et al

Image super-resolution using deep convolutional networks

[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2016, 38 (2): 295- 307

DOI:10.1109/TPAMI.2015.2439281      [本文引用: 1]

KIM J, LEE J K, LEE K M. Accurate image super-resolution using very deep convolutional networks [C]// IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas: IEEE, 2016: 1646–1654.

[本文引用: 1]

ZHANG Y, TIAN Y, KONG Y, et al. Residual dense network for image super-resolution [C]// IEEE/CVF Conference on Computer Vision and Pattern Recognition. Salt Lake City: IEEE, 2018: 2472–2481.

[本文引用: 3]

HU J, SHEN L, SUN G. Squeeze-and-excitation networks [C]// IEEE/CVF Conference on Computer Vision and Pattern Recognition. Salt Lake City: IEEE, 2018: 7132–7141.

[本文引用: 3]

LIM B, SON S, KIM H, et al. Enhanced deep residual networks for single image super-resolution [C]// IEEE Conference on Computer Vision and Pattern Recognition Workshops. Honolulu: IEEE, 2017: 1132–1140.

[本文引用: 3]

VASWANI A, SHAZEER N M, PARMAR N, et al. Attention is all you need [C]// Proceedings of the 31st International Conference on Neural Information Processing Systems. California: Curran Associates Inc., 2017: 6000–6010.

[本文引用: 2]

LIANG J, CAO J, SUN G, et al. SwinIR: image restoration using swin transformer [C]// IEEE/CVF International Conference on Computer Vision Workshops. Montreal: IEEE, 2021: 1833–1844.

[本文引用: 7]

CHU X, TIAN Z, WANG Y, et al. Twins: revisiting the design of spatial attention in vision transformers [J]. Advances in Neural Information Processing Systems. 2021, 34: 9355–9366.

[本文引用: 1]

YANG R, MA H, WU J, et al. ScalableViT: rethinking the context-oriented generalization of vision transformer [C]// Proceedings of Computer Vision – ECCV 2022. Cham: Springer, 2022: 480–496.

[本文引用: 2]

CARION N, MASSA F, SYNNAEVE G, et al. End-to-end object detection with transformers [C]// Proceedings of Computer Vision – ECCV 2020. Cham: Springer, 2020: 213–229.

[本文引用: 1]

BEAL J, KIM E, TZENG E, et al. Toward Transformer-Based Object Detection [EB/OL]. (2020−12−17) [2025−09−15]. https://doi.org/10.48550/arXiv.2012.09958.

[本文引用: 1]

PENG Z, HUANG W, GU S, et al. Conformer: local features coupling global representations for visual recognition [C]// 2021 IEEE/CVF International Conference on Computer Vision (ICCV). Montreal: IEEE, 2021: 357−366.

[本文引用: 2]

WANG H, CHEN X, NI B, et al. Omni aggregation networks for lightweight image super-resolution [C]// IEEE/CVF Conference on Computer Vision and Pattern Recognition. Vancouver: IEEE, 2023: 22378–22387.

[本文引用: 2]

HUI Z, GAO X, YANG Y, et al. Lightweight image super-resolution with information multi-distillation network [C]// 27th ACM International Conference on Multimedia. [S.l.]: ACM, 2019: 2024−2032.

[本文引用: 5]

JI J, ZHONG B, WU Q, et al

A channel-wise multi-scale network for single image super-resolution

[J]. IEEE Signal Processing Letters, 2024, 31: 805- 809

DOI:10.1109/LSP.2024.3372781      [本文引用: 1]

WANG X, JI H, SHI C, et al. Heterogeneous Graph Attention Network [C]// The World Wide Web Conference. San Francisco: [s.n.], 2019: 2022–2032.

[本文引用: 6]

LI X, DONG J, TANG J, et al. DLGSANet: lightweight dynamic local and global self-attention network for image super-resolution [C]// IEEE/CVF International Conference on Computer Vision. Paris: IEEE, 2023: 12746–12755.

[本文引用: 1]

LIN H, CHENG X, WU X, et al. CAT: cross attention in vision transformer [C]// IEEE International Conference on Multimedia and Expo. Taipei: IEEE, 2022: 1–6.

[本文引用: 1]

CHEN Z, ZHANG Y, GU J, et al. Recursive Generalization Transformer for Image Super-Resolution [EB/OL]. (2023−03−11) [2025−09−15]. https://doi.org/10.48550/arXiv.2303.06373.

[本文引用: 1]

KINGMA D, BA J. Adam: a method for stochastic optimization [EB/OL]. (2014−12−14) [2025−09−15]. https://doi.org/10.48550/arXiv.1412.6980.

[本文引用: 1]

AGUSTSSON E, TIMOFTE R. NTIRE 2017 challenge on single image super-resolution: dataset and study [C]// IEEE Conference on Computer Vision and Pattern Recognition Workshops. Honolulu: IEEE, 2017: 1122–1131.

[本文引用: 1]

BEVILACQUA M, ROUMY A, GUILLEMOT C, et al. Low-complexity single-image super-resolution based on nonnegative neighbor embedding [C]// Proceedings of British Machine Vision Conference. Surrey: British Machine Vision Association, 2012.

[本文引用: 1]

ZEYDE R, ELAD M, PROTTER M. On single image scale-up using sparse-representations [C]// Proceedings of International Conference on Curves and Surfaces. Avignon: Springer, 2010: 711–730.

[本文引用: 1]

MARTIN D, FOWLKES C, TAL D, et al. A database of human segmented natural images and its application to evaluating segmentation algorithms and measuring ecological statistics [C]// 8th IEEE International Conference on Computer Vision. Vancouver: IEEE, 2001: 416–423.

[本文引用: 1]

HUANG J B, SINGH A, AHUJA N. Single image super-resolution from transformed self-exemplars [C]// IEEE Conference on Computer Vision and Pattern Recognition. Boston: IEEE, 2015: 5197–5206.

[本文引用: 1]

MATSUI Y, ITO K, ARAMAKI Y, et al

Sketch-based manga retrieval using manga109 dataset

[J]. Multimedia Tools and Applications, 2017, 76 (20): 21811- 21838

DOI:10.1007/s11042-016-4020-z      [本文引用: 1]

WANG Z, BOVIK A C, SHEIKH H R, et al

Image quality assessment: from error visibility to structural similarity

[J]. IEEE Transactions on Image Processing, 2004, 13 (4): 600- 612

DOI:10.1109/TIP.2003.819861      [本文引用: 1]

ZHANG Y, TIAN Y, KONG Y, et al. Residual dense network for image super-resolution [C]// IEEE/CVF Conference on Computer Vision and Pattern Recognition. Salt Lake City: IEEE, 2018: 2472–2481.

[本文引用: 1]

LYN J, YAN S. Non-local Second-order attention network for single image super resolution [C]// Proceedings of International Cross-Domain Conference for Machine Learning and Knowledge Extraction. Dublin: Springer, 2020: 267–279.

[本文引用: 6]

LIU J, ZHANG W, TANG Y, et al. Residual feature aggregation network for image super-resolution [C]// IEEE/CVF Conference on Computer Vision and Pattern Recognition. Seattle: IEEE, 2020: 2356–2365.

[本文引用: 7]

MEI Y, FAN Y, ZHOU Y. Image super-resolution with non-local sparse attention [C]// IEEE/CVF Conference on Computer Vision and Pattern Recognition. Nashville: IEEE, 2021: 3516–3525.

[本文引用: 7]

ZHENG L, ZHU J, SHI J, et al

Efficient mixed transformer for single image super-resolution

[J]. Engineering Applications of Artificial Intelligence, 2024, 133: 108035

DOI:10.1016/j.engappai.2024.108035      [本文引用: 4]

HWANG K, YOON G, SONG J, et al

Fusing bi-directional global–local features for single image super-resolution

[J]. Engineering Applications of Artificial Intelligence, 2024, 127: 107336

DOI:10.1016/j.engappai.2023.107336      [本文引用: 4]

JI J, ZHONG B, WU Q, et al

A channel-wise multi-scale network for single image super-resolution

[J]. IEEE Signal Processing Letters, 2024, 31: 805- 809

DOI:10.1109/LSP.2024.3372781      [本文引用: 5]

/