浙江大学学报(工学版), 2025, 59(5): 938-946 doi: 10.3785/j.issn.1008-973X.2025.05.007

计算机技术、信息工程

基于CNN和Transformer聚合的遥感图像超分辨率重建

胡明志,, 孙俊,, 杨彪, 常开荣, 杨俊龙

昆明理工大学 信息工程与自动化学院,云南 昆明 650500

Super-resolution reconstruction of remote sensing image based on CNN and Transformer aggregation

HU Mingzhi,, SUN Jun,, YANG Biao, CHANG Kairong, YANG Junlong

School of Information Engineering and Automation, Kunming University of Science and Technology, Kunming 650500, China

通讯作者: 孙俊,男,讲师,博士. orcid.org/0009-0004-4714-7111. E-mail: 31408891@qq.com

收稿日期: 2024-05-28  

基金资助: 国家自然科学基金资助项目(62363019);云南省基础研究计划资助项目(202401AT070355).

Received: 2024-05-28  

Fund supported: 国家自然科学基金资助项目(62363019);云南省基础研究计划资助项目(202401AT070355).

作者简介 About authors

胡明志(1998—),男,硕士生,从事图像处理分析的研究.orcid.org/0009-0001-9556-3396.E-mail:1404481618@qq.com , E-mail:1404481618@qq.com

摘要

针对现有的遥感图像超分辨模型很少考虑噪声、模糊、JPEG压缩等因素对图像重建所带来的影响,以及Transformer模块构建高频信息能力受限的问题,提出多层退化模块. 设计基于CNN和Transformer聚合的网络,使用CNN识别图像的高频信息,Transformer提取全局信息. 利用基于注意力机制的聚合模块将2个模块聚合,在保持全局结构连贯性的同时,显著增强局部高频细节的重建精度. 利用所提模型,在AID数据集上随机选取6个场景进行实验,与MM-realSR模型在PSNR和SSIM指标上进行比较.结果表明,所提模型在PSNR指标上相比于MM-realSR模型平均提高1.61 dB,SSIM指标平均提升0.023.

关键词: 遥感图像 ; 超分辨率重建 ; 多层退化模块 ; 高频信息 ; 全局信息 ; 聚合模块

Abstract

A multi-layer degradation module was proposed aiming at the problem that most remote sensing image super-resolution models rarely consider the impact of noise, blur, JPEG compression, and other factors on image reconstruction, as well as the limitations of Transformer modules in capturing high-frequency information. A CNN-Transformer hybrid network was designed, where CNN captures high-frequency details and Transformer extracts global information. These two components were combined by an attention-based aggregation module, enhancing local high-frequency detail reconstruction while maintaining global structural coherence. The model was tested on six random scenes from the AID dataset and compared with the MM-realSR model in PSNR and SSIM. Results show an average PSNR improvement of 1.61 dB and a SSIM increase of 0.023 over MM-realSR.

Keywords: remote sensing image ; super-resolution reconstruction ; multi-layer degradation module ; high-frequency information ; global information ; aggregation module

PDF (12404KB) 元数据 多维度评价 相关文章 导出 EndNote| Ris| Bibtex  收藏本文

本文引用格式

胡明志, 孙俊, 杨彪, 常开荣, 杨俊龙. 基于CNN和Transformer聚合的遥感图像超分辨率重建. 浙江大学学报(工学版)[J], 2025, 59(5): 938-946 doi:10.3785/j.issn.1008-973X.2025.05.007

HU Mingzhi, SUN Jun, YANG Biao, CHANG Kairong, YANG Junlong. Super-resolution reconstruction of remote sensing image based on CNN and Transformer aggregation. Journal of Zhejiang University(Engineering Science)[J], 2025, 59(5): 938-946 doi:10.3785/j.issn.1008-973X.2025.05.007

遥感图像在环境监测、国防安全、资源勘探和农业等领域至关重要. 受成像传感器的限制,超分辨率技术逐渐成为提升遥感图像清晰度的可行方案,相关研究逐渐受到重视[1-2]. 图像超分辨率重建技术[3-5]旨在从低分辨率图像中重建高分辨率图像(HR). 随着深度学习技术的发展[6-8],特别是卷积神经网络(CNN)在图像处理领域产生了深远影响. 最近,自然语言处理模型Transformer[9]在计算机视觉领域中获得了广泛的应用.

对于传统图像的超分辨率重建,Dong等[10]在CNN的基础上提出SRCNN模型. Kim等[11] 构建20层深度网络进行级联,在图像超分辨率任务上展示出了很有前景的实验结果. Li等[12]结合预定义滤波器与CNN,通过线性组合优化重建. Liang等[13]提出用于图像恢复的鲁棒基线模型Swinir. Chen等[14] 提出预训练的图像处理Transformer,证明预训练可以显著提升低级任务性能. 遥感图像较传统图像包含更多的高频信息,利用传统方法难以恢复图像高频细节. Lei等[15]提出LGCNet来学习遥感图像的多层次表示,融合局部细节与全局环境先验. Pan等[16]提出密集残差反投影网络,利用全局和局部的剩余学习. Zhang等[17]提出混合高阶注意力网络(MHAN),极大地节省了计算资源. 现有的超分辨模型多基于理想的双三次下采样,而真实图像受噪声、模糊、JPEG压缩等的影响,导致这些方法在实际应用中的效果不佳. 此外,Bai等[18]的研究表明,Transformer虽然擅长全局信息提取,但是高频细节的构建能力不及CNN. 目前,大多数研究仅采用CNN或Transformer单一方法,未充分结合两者的优势.

针对上述情况,本文设计多层退化模块,将经典退化过程转换为更符合真实场景的退化模型,更灵活地模拟噪声、模糊、JPEG压缩等复杂影响,提升重建效果. 为了增强遥感图像的高频信息提取能力,提出深层特征提取模块. 该模块由3部分组成:1)基于CNN的高频特征提取模块(high-frequency feature extraction,HFE),提取图像中的高频信息;2)基于Swin Transformer的全局特征提取模块(global feature extraction,GFE),捕捉图像长距离依赖性;3)基于交互注意力机制的聚合模块(aggregation module,AM),将CNN和Swin Transformer相融合,能够细化输出获得更好的表示.

1. 本文方法

1.1. 多层退化模块

经典的超分的目标是从具有未知和复杂退化的低分辨率图像中恢复出高分辨图像. 一般是采用经典退化模型[19-20]来合成低分辨率图像. 通常采用高清HR图像$x$和模糊核$k$进行卷积. 执行具有比例因子$r$的下采样操作. 低分辨率图像LR通过添加噪声$n$来获得. 使用JPEG压缩,因为它在真实世界的图像中被广泛使用.

$ y = {\left[ {{{\left( {x * k} \right)}_{ \downarrow r}}+n} \right]_{\rm{JPEG}}}. $

当采用传统退化模型时,模型可以解决一些真实的样本,但在面对现实世界诸多复杂情况时无法有效地解决问题. 利用传统方法合成的低分辨率图像与真实世界存在的低分辨率图像存在较大的差距. 将传统的单层退化过程扩展到多层的退化过程,以模拟更实际的退化. 多层退化中包括噪声、模糊、下采样和JPEG压缩操作,下面具体介绍这些退化形式.

模糊是常见的图像退化. 真实世界的LR图像可能是模糊的,使用这种模糊进行建模是可行的方式. 采用2个高斯模糊操作,即各向同性高斯内核和各向异性高斯内核. 噪声在真实的图像中是普遍存在的,因为它可以由不同的原因引起. 通常只考虑2种噪声类型:加性高斯噪声和泊松噪声. 加性高斯噪声的概率密度函数等于高斯分布的概率密度函数. 噪声强度由标准差$\sigma $控制. 通过对所有3个通道采用相同的采样噪声,合成灰度噪声. 泊松噪声服从泊松分布,具有与图像强度成比例的强度,且不同像素的噪声是独立的. 下采样是指降低图像的采样率,减少图像中的像素数量. 有几种常用的下采样方法:最近邻插值、区域调整大小、双线性插值和双三次插值. 不同的下采样操作会带来不一样的效果. 采用区域调整大小、双线性插值和双三次插值,进行下采样操作. JPEG压缩是广泛使用的图像压缩标准,经常用于存储和传输真实场景的图像. 将彩色图片转换为YCbCr颜色空间(其中Y表示亮度,Cb和Cr表示色度),对色度通道进行下采样. 将图像分成$8 \times 8$的块,每一块用离散余弦变换(DCT)将空域的图像数据转换为频域的系数,提取其中的频率信息. 对DCT产生的频域系数进行量化,即舍弃一些高频信息,这会导致信息丢失.

经典的退化模型包括上述的退化过程,可以理解为一层退化. 在实际的生活中,退化通常包含一系列的复杂过程,包括卫星的成像系统、互联网传输问题. 例如,当想要恢复从互联网上下载的低质量图像时,其中的退化过程涉及复杂的组合. 总的来说,一层退化过程难以准确地捕捉真实场景中复杂的图像退化过程. 在卫星信号的传输场景中,图像是动态变化和多样的,图像可能会面临不同的退化情况,一层退化无法灵活地适应这些变化.

本文提出多层退化模型,多层退化是将传统的一层退化进行级联. 在退化过程中,使用随机洗牌策略[21],对不同的降级操作(如模糊、降采样、添加噪声等)进行随机排列,能够更大地扩展退化空间,使图像退化过程变得更加复杂. 从经验上来说,本文采用的是二层的退化过程,因为它可以解决大多数的实际情况,同时保持简洁高效. 如图1所示为合成数据的整体过程.

图 1

图 1   单层退化模块与多层退化模块的数据合成过程

Fig.1   Data synthesis process of single-layer and multi-layer degradation modules


1.2. 深层特征提取模块

上述复杂的退化过程会导致图像损失更多的信息. 遥感图像拥有较多的高频信息,但大多数Transformer模型对高频信息的提取能力较弱. 设计深层特征提取模块,解决退化带来的信息缺失和Transformer对高频信息提取能力不足的问题.

图2所示,本文的网络模型主要包括3个组件:浅层特征提取模块、深层特征提取模块和重建模块. 浅层特征提取模块包括单个卷积层,输入的LR图像通过3×3卷积层获得浅层特征. 再经过3个深层特征提取模块,每一个深层特征提取模块包含1个高频特征提取模块(HFE)、2个全局特征提取模块(GFE)和1个聚合模块(AM),从中学到图像的深度特征. 在最后一个深层特征提取模块之后,经过3×3卷积层聚合特征,在输出和浅层特征之间建立跳跃连接,便于模型训练. 重建模块采用3×3卷积层来聚合特征,使用像素重组(pixel shuffle)层进行上采样,获得最终的输出图像. 下面详细介绍HFE、GFE、AM这3个模块的设计.

图 2

图 2   网络整体结构与深层特征提取模块的结构示意图

Fig.2   Diagram of overall network structure and deep feature extraction module structure


1.2.1. 高频信息提取模块

高频特征提取模块是重建图像的高频信息,如图2所示. 该模块包括局部特征提取分支和高频增强分支. 具体来说,将输入特征${{\boldsymbol{F}}_{\rm{in}}} \in {{\bf{R}}^{H \times W \times C}}$分成2个部分,然后分别由这2个分支进行处理:

$ {\boldsymbol{F}}_{\rm{in}}^{{\mathrm{L}}},{\boldsymbol{F}}_{\rm{in}}^{{\mathrm{H}}} = {{\mathrm{Split}}}\;({{\boldsymbol{F}}_{\rm{in}}}). $

式中:${\boldsymbol{F}}_{\rm{in}}^{{\mathrm{L}}}、{\boldsymbol{F}}_{\rm{in}}^{{\mathrm{H}}} \in {{\bf{R}}^{H \times W \times C/2}}$分别为局部特征提取分支和高频增强分支的输入,${{\mathrm{Split}}}\;( \cdot )$表示将输入的图像从通道维度进行划分. 对于局部特征提取分支,通过3×3卷积层,使用GELU激活函数来提取局部高频特征.

$ {\boldsymbol{F}}_{{{\mathrm{out}}}}^{{\mathrm{L}}} = {{{f}}}\left( {{{\mathrm{Con}}}{{{\mathrm{v}}}_{3 \times 3}}\left( {{\boldsymbol{F}}_{\rm{in}}^{{\mathrm{L}}}} \right)} \right). $

式中:${{\mathrm{Con}}}{{{\mathrm{v}}}_{3 \times 3}}( \cdot )$表示卷积层,${f(} \cdot {)}$表示GELU激活层. 对于高频增强分支,使用最大池化层从${\boldsymbol{F}}_{\rm{in}}^{{\mathrm{H}}}$中提取高频信息,最大池化会保留具有较高激活值的高频特征,降低池化窗口内变化不大的低频特征响应. 使用1×1卷积层,用GELU激活函数来增强高频特征.

$ {\boldsymbol{F}}_{{{\mathrm{out}}}}^{{\mathrm{H}}} = {{{f}}}\left( {{{\mathrm{Con}}}{{{\mathrm{v}}}_{1 \times 1}}({{\mathrm{MaxPooling}}}({\boldsymbol{F}}_{\rm{in}}^{{\mathrm{H}}}))} \right). $

式中:${{\mathrm{Con}}}{{{\mathrm{v}}}_{1 \times 1}}( \cdot )$表示卷积层,${{\mathrm{MaxPooling}}(} \cdot {)}$表示最大池化层. 将这2个分支的输出经过${{\mathrm{Concat}}(} \cdot {)}$级联起来并送到1×1卷积层,彻底融合信息. 为了使网络能够更好地保留多尺度信息,引入跳跃连接. 整个过程表示为

$ {{\boldsymbol{X}}_{{\mathrm{H}}}} = {{\mathrm{Con}}}{{{\mathrm{v}}}_{1 \times 1}}({{\mathrm{Concat}}}({\boldsymbol{F}}_{{{\mathrm{out}}}}^{{\mathrm{L}}},{\boldsymbol{F}}_{{{\mathrm{out}}}}^{{\mathrm{H}}}))+{{\boldsymbol{F}}_{\rm{in}}}. $

式中:${\boldsymbol{F}}_{{{\mathrm{out}}}}^{{\mathrm{L}}}、{\boldsymbol{F}}_{{{\mathrm{out}}}}^{{\mathrm{H}}}$分别为局部特征提取分支和高频增强分支的输出.

1.2.2. 全局信息提取模块

全局信息提取模块使用的Swin Transformer层[22]是基于原始Transformer层的标准多头注意力,主要区别在于局部注意和移动窗口机制. 如图2所示,给定输入$H \times W \times C$,Swin Transformer通过将输入划分为不重叠的$M \times M$局部窗口,将输入重塑为$({{HW}}/{{{M^2}}}) \times {M^2} \times C$特征,其中${{HW}}/{{{M^2}}}$为总窗口数. 分别计算每个窗口的标准自我注意. 将局部窗口特征表示为${{\boldsymbol{X}}_{\rm{in}}} \in {{\bf{R}}^{{M^2} \times C}}$,查询、键和值${{\boldsymbol{Q}}_{{\mathrm{s}}}}、{{\boldsymbol{K}}_{{\mathrm{s}}}}$${{\boldsymbol{V}}_{{\mathrm{s}}}}$的计算如下:

$ {{\boldsymbol{Q}}_{{\mathrm{s}}}} = {\boldsymbol{X}}{{\boldsymbol{P}}_{{\boldsymbol{Q}}}},{{\boldsymbol{K}}_{{\mathrm{s}}}} = {\boldsymbol{X}}{{\boldsymbol{P}}_{{\boldsymbol{K}}}},{{\boldsymbol{V}}_{{\mathrm{s}}}} = {\boldsymbol{X}}{{\boldsymbol{P}}_{{\boldsymbol{V}}}}. $

式中:${{\boldsymbol{P}}_{{\boldsymbol{Q}}}}、{{\boldsymbol{P}}_{{\boldsymbol{K}}}}$${{\boldsymbol{P}}_{{\boldsymbol{V}}}}$为跨不同窗口共享的投影矩阵. 一般来说,有${{\boldsymbol{Q}}_{{\mathrm{s}}}}、{{\boldsymbol{K}}_{{\mathrm{s}}}}、{{\boldsymbol{V}}_{{\mathrm{s}}}} \in {{\bf{R}}^{{M^2} \times d}}$. 局部窗口内的注意力矩阵通过自注意力机制计算如下:

$ \begin{gathered} {{\mathrm{Attention}}}\;({{\boldsymbol{Q}}_{{\mathrm{s}}}},{{\boldsymbol{K}}_{{\mathrm{s}}}},{{\boldsymbol{V}}_{{\mathrm{s}}}}) = {{\mathrm{SoftMax}}}\;({{\boldsymbol{Q}}_{{\mathrm{s}}}}{\boldsymbol{K}}_{{\mathrm{s}}}^{{\mathrm{T}}}/\sqrt {{d}} +{\boldsymbol{B}}){{\boldsymbol{V}}_{{\mathrm{s}}}}. \end{gathered} $

式中:${\boldsymbol{B}}$为可学习的相对位置编码[23]. 在实践中,并行执行h次注意函数,将结果连接到多头自注意(MSA).

使用多层感知器(MLP),对特征进行进一步转换. 该MLP有2个全连接层,2层之间采用GELU非线性激活函数. 在MSA和MLP之前添加LayerNorm(LN)层,并为2个模块使用剩余连接. 该过程表示如下:

$ \left.\begin{gathered} {\boldsymbol{X}} = {{\mathrm{MSA}}}\left( {{{\mathrm{LN}}}\left( {{{\boldsymbol{X}}_{\rm{in}}}} \right)} \right)+{{\boldsymbol{X}}_{\rm{in}}}, \\ {{\boldsymbol{X}}_{{\mathrm{S}}}} = {{\mathrm{MLP}}}\,({{\mathrm{LN}}}\,({\boldsymbol{X}}))+{\boldsymbol{X}}. \\ \end{gathered}\right\} $

1.2.3. 聚合模块

为了更好地整合CNN和Transformer的优点,设计聚合模块,如图2所示. 将高频特征提取模块(HFE)的输出表示为查询${{\boldsymbol{Q}}_{{\mathrm{A}}}}$,全局信息提取模块(GFE)的输出表示为关键字和值$\left( {{{\boldsymbol{K}}_{{\mathrm{A}}}},{{\boldsymbol{V}}_{{\mathrm{A}}}}} \right)$,通过计算关注度来细化GFE的全局特征. 此外,大多数现有方法集中在空间关系,忽略信道信息. 为了解决这一问题,使用交互注意力上的通道维度,探索通道的依赖关系. 这种设计有效降低了复杂度.

具体来说,如图2所示,使用1×1卷积层和3×3深度可分离卷积层,根据HFE的输出${{\boldsymbol{X}}_{{\mathrm{H}}}}$生成高频查询${{\boldsymbol{Q}}_{{\mathrm{A}}}} \in {{\bf{R}}^{H \times W \times C}}$. 对于GFE的输出${{\boldsymbol{X}}_{{\mathrm{S}}}}$,通过LayerNorm层对特征进行归一化,使用与查询${{\boldsymbol{Q}}_{{\mathrm{A}}}}$相同的操作来获得关键字${{\boldsymbol{K}}_{{\mathrm{A}}}} \in {{\bf{R}}^{H \times W \times C}}$和值${{\boldsymbol{V}}_{{\mathrm{A}}}} \in {{\bf{R}}^{H \times W \times C}}$.$ {{\boldsymbol{Q}}}_{\text{A}}、{{\boldsymbol{K}}}_{\text{A}} $${{\boldsymbol{V}}_{{\mathrm{A}}}}$执行整形操作,获得${\hat {\boldsymbol{Q}}} \in {{\bf{R}}^{C \times (HW)}}$${\hat {\boldsymbol{K}}} \in {{\bf{R}}^{C \times (HW)}}$$ {\hat {\boldsymbol{V}}} \in {{\bf{R}}^{C \times (HW)}} $. 计算交互注意力如下:

$ \begin{gathered} {{\mathrm{Inter}}\_A{\mathrm{ttention}}}\left( {{\hat {\boldsymbol{Q}}} ,{\hat {\boldsymbol{K}}} ,{\hat {\boldsymbol{V}}} } \right) = {{\mathrm{Softmax}}}\left( {\frac{{{\hat {\boldsymbol{Q}}} {{{\hat {\boldsymbol{K}}} }^{\text{T}}}}}{\alpha }} \right){\hat {\boldsymbol{V}}} . \end{gathered} $

式中:$\alpha $为可学习参数. 将细化特征添加到${{\boldsymbol{X}}_{{\mathrm{S}}}}$,获得聚合后的输出${{\boldsymbol{X}}_{{\mathrm{f}}}}$.${{\boldsymbol{X}}_{{\mathrm{f}}}}$馈送到改进的前馈网络[24]以进一步聚合特征,细节如图2所示. 引入门控机制,充分提取空间和通道信息,以获得更好的性能. 整个过程表述为

$ \left.\begin{gathered} {{\boldsymbol{X}}_{{\mathrm{f}}}} = {{\mathrm{Inter}}\_{\mathrm{Attention}}}\left( {{{\mathrm{LN}}}\left( {{{\boldsymbol{X}}_{{\mathrm{S}}}}} \right),{{\boldsymbol{X}}_{{\mathrm{H}}}}} \right)+{{\boldsymbol{X}}_{{\mathrm{S}}}}, \\ {{\boldsymbol{X}}_{{{\mathrm{AM}}}}} = {{\mathrm{IMLP}}}\left( {{{\mathrm{LN}}}\left( {{{\boldsymbol{X}}_{{\mathrm{f}}}}} \right)} \right)+{{\boldsymbol{X}}_{{\mathrm{f}}}}. \\ \end{gathered}\right\} $

式中:LN表示LayerNorm操作,IMLP表示改进的MLP,Inter_Attention表示交互注意力.

1.3. 损失函数

通过最小化${L_1}$像素损失,优化模型参数. ${L_1}$像素损失为生成图像和目标图像之间每个像素的绝对差值的平均值,有助于生成图像在像素级别上尽可能接近目标图像.

$ {L_1}\left( {{{\boldsymbol{I}}^{{{\mathrm{SR}}}}},{{\boldsymbol{I}}^{{{\mathrm{HR}}}}}} \right) = \frac{1}{N}\sum\limits_{i = 1}^N {\left| {{{I}}_{(i)}^{{{\mathrm{SR}}}} - {{I}}_{(i)}^{{{\mathrm{HR}}}}} \right|} . $

式中:${L_1}$为像素损失,${{\boldsymbol{I}}^{{{\mathrm{SR}}}}}$为将低分辨率遥感图像输入模型之后模型输出得到的重建图像,${{\boldsymbol{I}}^{{{\mathrm{HR}}}}}$为对应地面实况的HR图像,N为图像中的像素总数,$ {{I}}_{(i)}^{{{\mathrm{SR}}}} $$ {{I}}_{(i)}^{{{\mathrm{HR}}}} $分别为生成图像和目标图像的第i个像素值.

2. 实验部分

2.1. 数据集

AID数据集[25]是新的大规模遥感图像数据集,通过从Google Earth图像中收集样本图像而成,在图像分类、目标检测领域都有广泛的应用. 该数据集包含机场、火车站、学校、农田、森林等30类遥感场景,共10 000张图片. 每类包含数百幅分辨率为600×600像素的图像. 在训练过程中,从每个类别中选取40张图像作为测试集,剩余图像作为训练集.

WHU-RS19[26] 遥感数据集是从Google Earth导出的一组卫星图像,可以提供高达0.5 m的高分辨率卫星图像. 其中包含机场、海滩、桥梁、公园等19类卫星场景,每类包含50幅左右的图像,图像分辨率为600×600像素. 在后面的对比实验中,为了证明本文模型的泛化能力,采用该数据集对模型进行测试.

2.2. 训练参数的设置

采用的二阶退化模块是简单性和有效性的良好平衡,2次降解过程具有相同的设置,除非特殊说明. 模糊核的大小从$\left\{ {7 \times 7,11 \times 11,15 \times 15,19 \times 19} \right\}$中随机选取. $\sigma $为高斯函数的标准差,各向同性高斯核$\sigma $的取值为$\left[ {0.2,2.0} \right]$,各向异性高斯核$\sigma $$x$$y$方向的取值相同,为$\left[ {0.2,1.5} \right]$. 噪声采用概率分别为$ {0.5、0.5} $$ \mathrm{的} $高斯噪声和泊松噪声. 在第1个退化过程中,噪声$\sigma $的范围和泊松噪声的尺度分别设置为$\left[ {1,15} \right]$$\left[ {0.05,2} \right]$. 在第2个退化过程中,噪声$\sigma $的范围和泊松噪声的尺度分别设置为$\left[ {1,10} \right]$$\left[ {0.05,1.5} \right]$. 将灰色噪声概率设置为0.4,JPEG压缩质量因子设置为$\left[ {30,60} \right]$.

整个网络基于Pytorch架构,本文只训练应用最广的4倍上采样网络. 使用Adam优化器,初始学习率为$2 \times {10^{ - 4}}$,分别在训练迭代次数为5×105、8×105、9×105、9.5×105时学习率减半,将批量大小设置为8. 将输入模型的图像块大小设置为64,训练数据中高分辨率图像块大小设置为256,特征通道数设置为48,本文使用3个深层特征提取模块.

2.3. 评价指标

目前,超分辨率的客观评价指标有很多,主要原理是将原始HR图像和重建图像SR进行对比. 采用的评价算法是PSNR[27]和SSIM[28]. PSNR是基于像素的算法,通过均方误差损失计算2个图像之间的像素差异,PSNR越大表示图像失真度越低. 它是用于评价图像质量的最广泛使用的方法.

$ {{\mathrm{PSNR}}} = {10} {\lg}\left( {\frac{{{{\mathrm{MA}}}{{{\mathrm{X}}}^{2}}}}{{{{\mathrm{MSE}}}}}} \right). $

式中:MAX表示图像像素的最大可能值,通常设置为255;MSE为均方误差.

SSIM是2个图像的相似性的度量,根据图像的组成来评估亮度、对比度和结构,输出比例是0~1.0,越接近1.0,2个图像就越相似. 公式如下:

$ \begin{split} & \text{SSIM}\left({{\boldsymbol{I}}}^{\text{HR}}\text{,}{{\boldsymbol{I}}}^{\text{SR}}\right)=\\&\qquad \frac{\left(2{\mu }_{{{\boldsymbol{I}}}^{\text{HR}}}{\mu }_{{{\boldsymbol{I}}}^{\text{SR}}}+{{C}}_{\text{1}}\right)\left(2{\sigma }_{{{\boldsymbol{I}}}^{\text{HR}}{{\boldsymbol{I}}}^{\text{SR}}}+{{C}}_{\text{2}}\right)}{\left({\mu }_{{{\boldsymbol{I}}}^{\text{HR}}}^{\text{2}}+{\mu }_{{{\boldsymbol{I}}}^{\text{SR}}}^{\text{2}}+{{C}}_{\text{1}}\right)\left({\sigma }_{{{\boldsymbol{I}}}^{\text{HR}}}^{\text{2}}+{\sigma }_{{{\boldsymbol{I}}}^{\text{SR}}}^{\text{2}}+{{C}}_{\text{2}}\right)}. \end{split} $

式中:$ {\mu _{{{\boldsymbol{I}}^{\rm{HR}}}}} $${\mu _{{{\boldsymbol{I}}^{\rm{SR}}}}}$为图像${{\boldsymbol{I}}^{\rm{HR}}}$${{\boldsymbol{I}}^{\rm{SR}}}$的平均值,$\sigma _{{{\boldsymbol{I}}^{\rm{HR}}}}^{2}$$\sigma _{{{\boldsymbol{I}}^{\rm{SR}}}}^2$${{\boldsymbol{I}}^{\rm{HR}}}$${{\boldsymbol{I}}^{\rm{SR}}}$的方差,${\sigma _{{{\boldsymbol{I}}^{\rm{HR}}}{{\boldsymbol{I}}^{\rm{SR}}}}}$${{\boldsymbol{I}}^{\rm{HR}}}$${{\boldsymbol{I}}^{\rm{SR}}}$的协方差,$ {{C}_{1}} $$ {{C}_{2}} $是为了稳定性而添加的常数.

2.4. 模型对比

将本文模型与其他先进方法进行比较,包括realHAT-TG[29]、real-Esrgan[30]、Swinir[13]、BSRGAN[21]、MM-realSR[31]、CDC[32]、DAN[33]. 实验中,在AID数据集选取6个类型的场景,飞机场、城市、农田、停车场、运动场、港口,在每个场景中选择40张图片作为测试. 具体测试结果如表1所示. 本文方法在应对复杂退化过程和纹理细节恢复方面都优于之前方法. 当面对来自复杂未知的退化时,大多数算法不能有效地消除噪声、模糊、JPEG压缩等退化问题带来的干扰,而使用二层退化的模型可以很好地消除复杂退化带来的干扰. 本文模型相比于这些只基于CNN或Transformer的模型能够恢复逼真的纹理细节,同时能够有较好的评价指标,而利用其他方法不能很好地去除复杂退化或添加不自然的纹理. 选取6张图片,在不同的模型上对重建效果进行比较,效果如图3所示.

表 1   AID测试数据集6个随机场景下不同模型的PSNR和SSIM指标

Tab.1  PSNR and SSIM metrics of different models on six randomly selected scenes from AID test dataset

模型飞机场城市农田停车场运动场港口
PSNR/dBSSIMPSNR/dBSSIMPSNR/dBSSIMPSNR/dBSSIMPSNR/dBSSIMPSNR/dBSSIM
Bicubic26.220.687123.730.618229.490.734719.730.545125.450.690522.230.6699
Swinir24.430.659822.190.586728.150.714217.790.512624.200.666620.090.6401
CDC24.820.627222.500.586726.870.660120.040.554724.110.655021.710.6691
DAN25.700.692223.600.627728.750.730719.720.571125.310.696021.450.6682
real-Esrgan27.810.729624.820.676830.200.766421.060.646826.330.733822.840.7316
BSRGAN27.740.731825.240.675430.800.770421.790.641327.100.735123.570.7328
MM-realSR27.830.764925.640.722530.440.785222.420.694927.640.782623.950.7699
realHAT-TG27.760.747025.340.693330.530.773921.960.662226.930.749523.540.7426
本文模型29.500.785727.270.746232.430.806823.450.729229.570.806025.390.7860

新窗口打开| 下载CSV


图 3

图 3   不同模型的重建结果可视化对比:AID测试集6个样本的PSNR/SSIM定量评估

Fig.3   Visual comparison of reconstruction results across different models: quantitative PSNR/SSIM evaluation on six samples from AID test set


为了证明本文模型的泛化能力,在WHU-RS19遥感数据上随机选取4张图片,在不同模型上进行对比实验,记录每张图片的PSNR和SSIM. 结果表明,与近2年模型相比,本文模型在WHU-RS19遥感数据集上有不错的PSNR和SSIM指标. 具体结果如图4所示.

图 4

图 4   不同模型的重建结果可视化对比:WHU-RS19数据集4个样本的PSNR/SSIM定量评估

Fig.4   Visual comparison of reconstruction results across different models: quantitative PSNR/SSIM evaluation on four samples from WHU-RS19 dataset


2.5. 消融实验

为了验证提出的多层退化模块、高频特征提取模块(HFE)、全局特征提取模块(GFE)和聚合模块(AM)对超分辨率重建遥感图像质量的影响,开展消融实验. 设计3组消融实验. 第1组是在本文模型的基础上添加多层退化模块和没有添加多层退化模块进行对比. 如图5所示, 模型在没有使用退化模块时,重建图像出现了模糊、噪声、JPEG压缩等问题,在使用退化模块后,能够很好地解决这些真实场景下噪声、模糊、JPEG压缩等因素对图像重建带来的干扰问题,使得重建图像展示出更清晰的纹理细节.

图 5

图 5   退化模块对重建效果的影响

Fig.5   Impact of degradation module on reconstruction effect


第2组消融实验以无高频特征提取模块(HFE)、无全局特征提取模块(GFE)、无聚合模块(AM)的网络作为基准(Base). 分别逐步添加各个模块,对Base+HFE(B+H)、Base+HFE+GFE(B+H+G)、Base+HFE+GFE+AM(B+H+G+A)等网络进行测试. 对AM模块引入交互注意力机制,开展实验,A1表示没有引入交互注意力的聚合模块. 在飞机场、城市、农田、停车场、运动场、港口6个类别的数据集上进行测试,PSNR和SSIM结果如表2所示. 从实验结果来看,在基准网络上添加高频特征提取模块(B+H),性能得到显著提升,证明高频特征提取模块有助于恢复图像高频信息. 在此基础上添加全局特征模块(B+H+G),性能又得到进一步的提升,证明了全局特征提取模块学习长距离依赖关系的优势,但是简单的卷积无法很好地聚合高频和低频信息. 再添加没有引入注意力机制的聚合模块(B+H+G+A1),添加聚合模块使得高频信息和全局信息融合,更进一步提升了模型性能. 由于HFE和GFE聚焦于不同的频率,普通的聚合模块会影响网络学习高频信息和低频信息之间关系的能力. 在聚合模块引入交互注意力机制(B+H+G+A),为集成具有不同分量的特征提供了较好的解决方案,提升了PSNR. 结果证明,本文模块能够有效地提升遥感图像的重建质量,PSNR和SSIM指标较好.

表 2   不同消融模块在AID测试集6个场景下的PSNR和SSIM指标

Tab.2  PSNR and SSIM metrics of different ablation modules on six scenes selected from AID test set

方法飞机场城市农田停车场运动场港口
PSNR/dBSSIMPSNR/dBSSIMPSNR/dBSSIMPSNR/dBSSIMPSNR/dBSSIMPSNR/dBSSIM
B26.880.704624.650.651629.670.735520.630.603726.470.714822.820.7018
B+H28.550.750426.310.692931.470.779422.280.642228.300.760024.560.7343
B+H+G28.600.751126.320.702631.530.779022.670.677428.530.766824.670.7512
B+H+G+A129.070.771726.820.728332.120.796323.070.701829.080.788325.100.7724
B+H+G+A29.500.785727.270.746232.430.806823.450.729229.570.806025.390.7860

新窗口打开| 下载CSV


第3组消融实验是研究深层特征提取模块个数对模型性能的影响. 逐步添加深层特征提取模块,在上述6个场景的测试数据集上进行测试,将结果取平均值,结果如表3所示. 表中,Nb为深层特征提取模块的数量. 从消融实验的结果可以看出,随着深度特征提取模块数量的增大,模型性能得到明显的提升. 当深度特征提取模块数量为4个时模型达到收敛,模型性能没有了显著提升,并且出现了轻微的下降. 在兼顾性能的同时,还要做到尽可能轻量化模型,不要让模型过于庞大,影响训练. 采用3个深层特征提取模块,在兼顾性能的同时,减少训练时间.

表 3   不同深层特征提取模块数下AID数据集6个场景的平均PSNR和SSIM指标

Tab.3  Average PSNR and SSIM metrics across six scenes in AID dataset for deep feature extraction modules with varying counts

Nb测试集
PSNR/dBSSIM
127.760.7690
227.780.7724
327.940.7769
427.860.7740

新窗口打开| 下载CSV


2.6. 高频影响的分析

提出高频特征提取模块和全局特征提取模块. 为了验证高频特征提取模块能够更好地提取图像的高频信息,开展如下实验. 实验结果如图6所示. 从测试数据集中随机选取2张LR图像输入到模型中,将HFE和GFE模块的输入特征图可视化,如图6(c)所示. 从图2的模型结构可知,HFE和GFE模块的输入相同,所以只用图6(c)来表示. 将图像经过HFE模块后的特征图可视化,如图6(d)所示. 将图像经过GFE模块后的特征图可视化,如图6(e)所示. 通过归一化处理,所有特征图每个点的像素值px都被缩放到0~1.0.

图 6

图 6   高频模块和全局模块输入输出特征图的可视化展示

Fig.6   Visualization of input and output feature maps for high-frequency and global modules


从特征图可视化结果来看,经过HFE模块的特征图相比于输入特征图在纹理细节方面有更清晰的展示,尤其是一些重要边缘信息. 此外,GFE模块的高频处理能力有限,相比于HFE模块,GFE模块不能较好地提取图像中的高频信息,对一些边缘细节的处理较模糊. 这组实验可以证明,本文所提出的HFE模块在处理高频细节方面是有效的.

3. 结 语

使用多层退化模块合成训练对来训练模型,以解决现实场景中存在的噪声、模糊、JPEG压缩等问题对遥感图像超分辨率重建带来的影响. 遥感图像拥有更多的高频信息,但是Transformer重构高频细节的能力有限,所以本文设计新的聚合网络. 该网络包括3个模块:高频特征提取模块(HFE)、全局特征提取模块(GFE)、聚合模块(AM). HFE用来提取高频特征,GFE用来捕获全局表示,AM使用交互注意力机制来聚合HFE和GFE以细化全局表示. 在保留Transformer特点的同时,提升模型对高频细节的重构能力. 通过实验对比和消融研究证明,在实际情况下,利用该模型能够有效地实现遥感图像的超分辨率重建,输出更高质量、更接近真实场景的图像.

参考文献

ZHANG H, YANG Z, ZHANG L, et al

Super-resolution reconstruction for multi-angle remote sensing images considering resolution differences

[J]. Remote Sensing, 2014, 6 (1): 637- 657

DOI:10.3390/rs6010637      [本文引用: 1]

PAPATHANASSIOU C, PETROU M. Super resolution: an overview [C]// IEEE International Geoscience and Remote Sensing Symposium . Seoul: IEEE, 2005: 5655-5658.

[本文引用: 1]

GLASNER D, BAGON S, IRANI M. Super-resolution from a single image [C]// IEEE 12th International Conference on Computer Vision . Kyoto: IEEE, 2009: 349-356.

[本文引用: 1]

DONG C, LOY C C, HE K, et al

Image super-resolution using deep convolutional networks

[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2015, 38 (2): 295- 307

LIM B, SON S, KIM H, et al. Enhanced deep residual networks for single image super-resolution [C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition Workshops . Honolulu: IEEE, 2017: 136-144.

[本文引用: 1]

BEGIN I, FERRIE F R. Blind super-resolution using a learning-based approach [C]// Proceedings of the 17th International Conference on Pattern Recognition . Cambridge: IEEE, 2004: 85-89.

[本文引用: 1]

JOSHI M V, CHAUDHURI S, PANUGANTI R

A learning-based method for image super-resolution from zoomed observations

[J]. IEEE Transactions on Systems, Man, and Cybernetics, Part B (Cybernetics), 2005, 35 (3): 527- 537

DOI:10.1109/TSMCB.2005.846647     

CHAN T M, ZHANG J. An improved super-resolution with manifold learning and histogram matching [C]// Advances in Biometrics: International Conference . Hong Kong: Springer, 2005: 756-762.

[本文引用: 1]

DOSOVITSKIY A, BEYER L, KOLESNIKOV A, et al. An image is worth 16x16 words: transformers for image recognition at scale [C]// International Conference on Learning Representations . Ethiopia: [s. n.], 2020.

[本文引用: 1]

DONG C, LOY C C, HE K, et al. Learning a deep convolutional network for image super-resolution [C]// 13th European Conference on Computer Vision . Switzerland: Springer, 2014: 184-199.

[本文引用: 1]

KIM J, LEE J K, LEE K M. Accurate image super-resolution using very deep convolutional networks [C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition . Las Vegas: IEEE, 2016: 1646-1654.

[本文引用: 1]

LI W, ZHOU K, QI L, et al

Lapar: linearly-assembled pixel-adaptive regression network for single image super-resolution and beyond

[J]. Advances in Neural Information Processing Systems, 2020, 33: 20343- 20355

[本文引用: 1]

LIANG J, CAO J, SUN G, et al. Swinir: image restoration using swin transformer [C]// Proceedings of the IEEE/CVF International Conference on Computer Vision . Montreal: IEEE, 2021: 1833-1844.

[本文引用: 2]

CHEN H, WANG Y, GUO T, et al. Pre-trained image processing transformer [C]// Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition . Nashville: IEEE, 2021: 12299-12310.

[本文引用: 1]

LEI S, SHI Z, ZOU Z

Super-resolution for remote sensing images via local–global combined network

[J]. IEEE Geoscience and Remote Sensing Letters, 2017, 14 (8): 1243- 1247

DOI:10.1109/LGRS.2017.2704122      [本文引用: 1]

PAN Z, MA W, GUO J, et al

Super-resolution of single remote sensing image based on residual dense backprojection networks

[J]. IEEE Transactions on Geoscience and Remote Sensing, 2019, 57 (10): 7918- 7933

DOI:10.1109/TGRS.2019.2917427      [本文引用: 1]

ZHANG D, SHAO J, LI X, et al

Remote sensing image super-resolution via mixed high-order attention network

[J]. IEEE Transactions on Geoscience and Remote Sensing, 2020, 59 (6): 5183- 5196

[本文引用: 1]

BAI J, YUAN L, XIA S T, et al. Improving vision transformers by revisiting high-frequency components [C]// European Conference on Computer Vision . Cham: Springer, 2022: 1-18.

[本文引用: 1]

ELAD M, FEUER A

Restoration of a single superresolution image from several blurred, noisy, and undersampled measured images

[J]. IEEE Transactions on Image Processing, 1997, 6 (12): 1646- 1658

DOI:10.1109/83.650118      [本文引用: 1]

LIU C, SUN D

On Bayesian adaptive video super resolution

[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2013, 36 (2): 346- 360

[本文引用: 1]

ZHANG K, LIANG J, VAN GOOL L, et al. Designing a practical degradation model for deep blind image super-resolution [C]// Proceedings of the IEEE/CVF International Conference on Computer Vision . Montreal: IEEE, 2021: 4791-4800.

[本文引用: 2]

LIU Z, LIN Y, CAO Y, et al. Swin transformer: hierarchical vision transformer using shifted windows [C]// Proceedings of the IEEE/CVF International Conference on Computer Vision . Montreal: IEEE, 2021: 10012-10022.

[本文引用: 1]

VASWANI A, SHAZEER N, PARMAR N, et al. Attention is all you need [EB/OL]. [2024-05-15]. https://arxiv.org/abs/1706.03762.

[本文引用: 1]

ZAMIR S W, ARORA A, KHAN S, et al. Restormer: efficient transformer for high-resolution image restoration [C]// Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition . New Orleans: IEEE, 2022: 5728-5739.

[本文引用: 1]

XIA G, HU J, HU F, et al

AID: a benchmark data set for performance evaluation of aerial scene classification

[J]. IEEE Transactions on Geoscience and Remote Sensing, 2017, 55 (7): 3965- 3981

DOI:10.1109/TGRS.2017.2685945      [本文引用: 1]

DAI D, YANG W

Satellite image classification via two-layer sparse coding with biased image representation

[J]. IEEE Geoscience and Remote Sensing Letters, 2010, 8 (1): 173- 176

[本文引用: 1]

TANCHENKO A

Visual-PSNR measure of image quality

[J]. Journal of Visual Communication and Image Representation, 2014, 25 (5): 874- 878

DOI:10.1016/j.jvcir.2014.01.008      [本文引用: 1]

WANG Z, BOVIK A C, SHEIKH H R, et al

Image quality assessment: from error visibility to structural similarity

[J]. IEEE Transactions on Image Processing, 2004, 13 (4): 600- 612

DOI:10.1109/TIP.2003.819861      [本文引用: 1]

ZHANG W, LI X, SHI G, et al. Real-world image super-resolution as multi-task learning [J]. Advances in Neural Information Processing Systems , 2023, 36: 21003-21022.

[本文引用: 1]

WANG X, XIE Liangbin, DONG C, et al. Real-esrgan: training real-world blind super-resolution with pure synthetic data [C]// Proceedings of the IEEE/CVF International Conference on Computer Vision . Montreal: IEEE, 2021: 1905-1914.

[本文引用: 1]

MOU C, WU Y, WANG X, et al. Metric learning based interactive modulation for real-world super-resolution [C]// European Conference on Computer Vision . Cham: Springer, 2022: 723-740.

[本文引用: 1]

WEI P, XIE Z, LU H, et al. Component divide-and-conquer for real-world image super-resolution [C]// 16th European Conference on Computer Vision . Glasgow: Springer, 2020: 101-117.

[本文引用: 1]

HUANG Y, LI S, WANG L, et al

Unfolding the alternating optimization for blind super resolution

[J]. Advances in Neural Information Processing Systems, 2020, 33: 5632- 5643

[本文引用: 1]

/