基于CNN和Transformer聚合的遥感图像超分辨率重建
Super-resolution reconstruction of remote sensing image based on CNN and Transformer aggregation
通讯作者:
收稿日期: 2024-05-28
基金资助: |
|
Received: 2024-05-28
Fund supported: | 国家自然科学基金资助项目(62363019);云南省基础研究计划资助项目(202401AT070355). |
作者简介 About authors
胡明志(1998—),男,硕士生,从事图像处理分析的研究.orcid.org/0009-0001-9556-3396.E-mail:
针对现有的遥感图像超分辨模型很少考虑噪声、模糊、JPEG压缩等因素对图像重建所带来的影响,以及Transformer模块构建高频信息能力受限的问题,提出多层退化模块. 设计基于CNN和Transformer聚合的网络,使用CNN识别图像的高频信息,Transformer提取全局信息. 利用基于注意力机制的聚合模块将2个模块聚合,在保持全局结构连贯性的同时,显著增强局部高频细节的重建精度. 利用所提模型,在AID数据集上随机选取6个场景进行实验,与MM-realSR模型在PSNR和SSIM指标上进行比较.结果表明,所提模型在PSNR指标上相比于MM-realSR模型平均提高1.61 dB,SSIM指标平均提升0.023.
关键词:
A multi-layer degradation module was proposed aiming at the problem that most remote sensing image super-resolution models rarely consider the impact of noise, blur, JPEG compression, and other factors on image reconstruction, as well as the limitations of Transformer modules in capturing high-frequency information. A CNN-Transformer hybrid network was designed, where CNN captures high-frequency details and Transformer extracts global information. These two components were combined by an attention-based aggregation module, enhancing local high-frequency detail reconstruction while maintaining global structural coherence. The model was tested on six random scenes from the AID dataset and compared with the MM-realSR model in PSNR and SSIM. Results show an average PSNR improvement of 1.61 dB and a SSIM increase of 0.023 over MM-realSR.
Keywords:
本文引用格式
胡明志, 孙俊, 杨彪, 常开荣, 杨俊龙.
HU Mingzhi, SUN Jun, YANG Biao, CHANG Kairong, YANG Junlong.
对于传统图像的超分辨率重建,Dong等[10]在CNN的基础上提出SRCNN模型. Kim等[11] 构建20层深度网络进行级联,在图像超分辨率任务上展示出了很有前景的实验结果. Li等[12]结合预定义滤波器与CNN,通过线性组合优化重建. Liang等[13]提出用于图像恢复的鲁棒基线模型Swinir. Chen等[14] 提出预训练的图像处理Transformer,证明预训练可以显著提升低级任务性能. 遥感图像较传统图像包含更多的高频信息,利用传统方法难以恢复图像高频细节. Lei等[15]提出LGCNet来学习遥感图像的多层次表示,融合局部细节与全局环境先验. Pan等[16]提出密集残差反投影网络,利用全局和局部的剩余学习. Zhang等[17]提出混合高阶注意力网络(MHAN),极大地节省了计算资源. 现有的超分辨模型多基于理想的双三次下采样,而真实图像受噪声、模糊、JPEG压缩等的影响,导致这些方法在实际应用中的效果不佳. 此外,Bai等[18]的研究表明,Transformer虽然擅长全局信息提取,但是高频细节的构建能力不及CNN. 目前,大多数研究仅采用CNN或Transformer单一方法,未充分结合两者的优势.
针对上述情况,本文设计多层退化模块,将经典退化过程转换为更符合真实场景的退化模型,更灵活地模拟噪声、模糊、JPEG压缩等复杂影响,提升重建效果. 为了增强遥感图像的高频信息提取能力,提出深层特征提取模块. 该模块由3部分组成:1)基于CNN的高频特征提取模块(high-frequency feature extraction,HFE),提取图像中的高频信息;2)基于Swin Transformer的全局特征提取模块(global feature extraction,GFE),捕捉图像长距离依赖性;3)基于交互注意力机制的聚合模块(aggregation module,AM),将CNN和Swin Transformer相融合,能够细化输出获得更好的表示.
1. 本文方法
1.1. 多层退化模块
当采用传统退化模型时,模型可以解决一些真实的样本,但在面对现实世界诸多复杂情况时无法有效地解决问题. 利用传统方法合成的低分辨率图像与真实世界存在的低分辨率图像存在较大的差距. 将传统的单层退化过程扩展到多层的退化过程,以模拟更实际的退化. 多层退化中包括噪声、模糊、下采样和JPEG压缩操作,下面具体介绍这些退化形式.
模糊是常见的图像退化. 真实世界的LR图像可能是模糊的,使用这种模糊进行建模是可行的方式. 采用2个高斯模糊操作,即各向同性高斯内核和各向异性高斯内核. 噪声在真实的图像中是普遍存在的,因为它可以由不同的原因引起. 通常只考虑2种噪声类型:加性高斯噪声和泊松噪声. 加性高斯噪声的概率密度函数等于高斯分布的概率密度函数. 噪声强度由标准差
经典的退化模型包括上述的退化过程,可以理解为一层退化. 在实际的生活中,退化通常包含一系列的复杂过程,包括卫星的成像系统、互联网传输问题. 例如,当想要恢复从互联网上下载的低质量图像时,其中的退化过程涉及复杂的组合. 总的来说,一层退化过程难以准确地捕捉真实场景中复杂的图像退化过程. 在卫星信号的传输场景中,图像是动态变化和多样的,图像可能会面临不同的退化情况,一层退化无法灵活地适应这些变化.
图 1
图 1 单层退化模块与多层退化模块的数据合成过程
Fig.1 Data synthesis process of single-layer and multi-layer degradation modules
1.2. 深层特征提取模块
上述复杂的退化过程会导致图像损失更多的信息. 遥感图像拥有较多的高频信息,但大多数Transformer模型对高频信息的提取能力较弱. 设计深层特征提取模块,解决退化带来的信息缺失和Transformer对高频信息提取能力不足的问题.
如图2所示,本文的网络模型主要包括3个组件:浅层特征提取模块、深层特征提取模块和重建模块. 浅层特征提取模块包括单个卷积层,输入的LR图像通过3×3卷积层获得浅层特征. 再经过3个深层特征提取模块,每一个深层特征提取模块包含1个高频特征提取模块(HFE)、2个全局特征提取模块(GFE)和1个聚合模块(AM),从中学到图像的深度特征. 在最后一个深层特征提取模块之后,经过3×3卷积层聚合特征,在输出和浅层特征之间建立跳跃连接,便于模型训练. 重建模块采用3×3卷积层来聚合特征,使用像素重组(pixel shuffle)层进行上采样,获得最终的输出图像. 下面详细介绍HFE、GFE、AM这3个模块的设计.
图 2
图 2 网络整体结构与深层特征提取模块的结构示意图
Fig.2 Diagram of overall network structure and deep feature extraction module structure
1.2.1. 高频信息提取模块
高频特征提取模块是重建图像的高频信息,如图2所示. 该模块包括局部特征提取分支和高频增强分支. 具体来说,将输入特征
式中:
式中:
式中:
式中:
1.2.2. 全局信息提取模块
全局信息提取模块使用的Swin Transformer层[22]是基于原始Transformer层的标准多头注意力,主要区别在于局部注意和移动窗口机制. 如图2所示,给定输入
式中:
式中:
使用多层感知器(MLP),对特征进行进一步转换. 该MLP有2个全连接层,2层之间采用GELU非线性激活函数. 在MSA和MLP之前添加LayerNorm(LN)层,并为2个模块使用剩余连接. 该过程表示如下:
1.2.3. 聚合模块
为了更好地整合CNN和Transformer的优点,设计聚合模块,如图2所示. 将高频特征提取模块(HFE)的输出表示为查询
具体来说,如图2所示,使用1×1卷积层和3×3深度可分离卷积层,根据HFE的输出
式中:LN表示LayerNorm操作,IMLP表示改进的MLP,Inter_Attention表示交互注意力.
1.3. 损失函数
通过最小化
式中:
2. 实验部分
2.1. 数据集
AID数据集[25]是新的大规模遥感图像数据集,通过从Google Earth图像中收集样本图像而成,在图像分类、目标检测领域都有广泛的应用. 该数据集包含机场、火车站、学校、农田、森林等30类遥感场景,共10 000张图片. 每类包含数百幅分辨率为600×600像素的图像. 在训练过程中,从每个类别中选取40张图像作为测试集,剩余图像作为训练集.
WHU-RS19[26] 遥感数据集是从Google Earth导出的一组卫星图像,可以提供高达0.5 m的高分辨率卫星图像. 其中包含机场、海滩、桥梁、公园等19类卫星场景,每类包含50幅左右的图像,图像分辨率为600×600像素. 在后面的对比实验中,为了证明本文模型的泛化能力,采用该数据集对模型进行测试.
2.2. 训练参数的设置
采用的二阶退化模块是简单性和有效性的良好平衡,2次降解过程具有相同的设置,除非特殊说明. 模糊核的大小从
整个网络基于Pytorch架构,本文只训练应用最广的4倍上采样网络. 使用Adam优化器,初始学习率为
2.3. 评价指标
式中:MAX表示图像像素的最大可能值,通常设置为255;MSE为均方误差.
SSIM是2个图像的相似性的度量,根据图像的组成来评估亮度、对比度和结构,输出比例是0~1.0,越接近1.0,2个图像就越相似. 公式如下:
式中:
2.4. 模型对比
将本文模型与其他先进方法进行比较,包括realHAT-TG[29]、real-Esrgan[30]、Swinir[13]、BSRGAN[21]、MM-realSR[31]、CDC[32]、DAN[33]. 实验中,在AID数据集选取6个类型的场景,飞机场、城市、农田、停车场、运动场、港口,在每个场景中选择40张图片作为测试. 具体测试结果如表1所示. 本文方法在应对复杂退化过程和纹理细节恢复方面都优于之前方法. 当面对来自复杂未知的退化时,大多数算法不能有效地消除噪声、模糊、JPEG压缩等退化问题带来的干扰,而使用二层退化的模型可以很好地消除复杂退化带来的干扰. 本文模型相比于这些只基于CNN或Transformer的模型能够恢复逼真的纹理细节,同时能够有较好的评价指标,而利用其他方法不能很好地去除复杂退化或添加不自然的纹理. 选取6张图片,在不同的模型上对重建效果进行比较,效果如图3所示.
表 1 AID测试数据集6个随机场景下不同模型的PSNR和SSIM指标
Tab.1
模型 | 飞机场 | 城市 | 农田 | 停车场 | 运动场 | 港口 | |||||||||||
PSNR/dB | SSIM | PSNR/dB | SSIM | PSNR/dB | SSIM | PSNR/dB | SSIM | PSNR/dB | SSIM | PSNR/dB | SSIM | ||||||
Bicubic | 26.22 | 23.73 | 29.49 | 19.73 | 25.45 | 22.23 | |||||||||||
Swinir | 24.43 | 22.19 | 28.15 | 17.79 | 24.20 | 20.09 | |||||||||||
CDC | 24.82 | 22.50 | 26.87 | 20.04 | 24.11 | 21.71 | |||||||||||
DAN | 25.70 | 23.60 | 28.75 | 19.72 | 25.31 | 21.45 | |||||||||||
real-Esrgan | 27.81 | 24.82 | 30.20 | 21.06 | 26.33 | 22.84 | |||||||||||
BSRGAN | 27.74 | 25.24 | 30.80 | 21.79 | 27.10 | 23.57 | |||||||||||
MM-realSR | 27.83 | 25.64 | 30.44 | 22.42 | 27.64 | 23.95 | |||||||||||
realHAT-TG | 27.76 | 25.34 | 30.53 | 21.96 | 26.93 | 23.54 | |||||||||||
本文模型 | 29.50 | 27.27 | 32.43 | 23.45 | 29.57 | 25.39 |
图 3
图 3 不同模型的重建结果可视化对比:AID测试集6个样本的PSNR/SSIM定量评估
Fig.3 Visual comparison of reconstruction results across different models: quantitative PSNR/SSIM evaluation on six samples from AID test set
为了证明本文模型的泛化能力,在WHU-RS19遥感数据上随机选取4张图片,在不同模型上进行对比实验,记录每张图片的PSNR和SSIM. 结果表明,与近2年模型相比,本文模型在WHU-RS19遥感数据集上有不错的PSNR和SSIM指标. 具体结果如图4所示.
图 4
图 4 不同模型的重建结果可视化对比:WHU-RS19数据集4个样本的PSNR/SSIM定量评估
Fig.4 Visual comparison of reconstruction results across different models: quantitative PSNR/SSIM evaluation on four samples from WHU-RS19 dataset
2.5. 消融实验
为了验证提出的多层退化模块、高频特征提取模块(HFE)、全局特征提取模块(GFE)和聚合模块(AM)对超分辨率重建遥感图像质量的影响,开展消融实验. 设计3组消融实验. 第1组是在本文模型的基础上添加多层退化模块和没有添加多层退化模块进行对比. 如图5所示, 模型在没有使用退化模块时,重建图像出现了模糊、噪声、JPEG压缩等问题,在使用退化模块后,能够很好地解决这些真实场景下噪声、模糊、JPEG压缩等因素对图像重建带来的干扰问题,使得重建图像展示出更清晰的纹理细节.
图 5
第2组消融实验以无高频特征提取模块(HFE)、无全局特征提取模块(GFE)、无聚合模块(AM)的网络作为基准(Base). 分别逐步添加各个模块,对Base+HFE(B+H)、Base+HFE+GFE(B+H+G)、Base+HFE+GFE+AM(B+H+G+A)等网络进行测试. 对AM模块引入交互注意力机制,开展实验,A1表示没有引入交互注意力的聚合模块. 在飞机场、城市、农田、停车场、运动场、港口6个类别的数据集上进行测试,PSNR和SSIM结果如表2所示. 从实验结果来看,在基准网络上添加高频特征提取模块(B+H),性能得到显著提升,证明高频特征提取模块有助于恢复图像高频信息. 在此基础上添加全局特征模块(B+H+G),性能又得到进一步的提升,证明了全局特征提取模块学习长距离依赖关系的优势,但是简单的卷积无法很好地聚合高频和低频信息. 再添加没有引入注意力机制的聚合模块(B+H+G+A1),添加聚合模块使得高频信息和全局信息融合,更进一步提升了模型性能. 由于HFE和GFE聚焦于不同的频率,普通的聚合模块会影响网络学习高频信息和低频信息之间关系的能力. 在聚合模块引入交互注意力机制(B+H+G+A),为集成具有不同分量的特征提供了较好的解决方案,提升了PSNR. 结果证明,本文模块能够有效地提升遥感图像的重建质量,PSNR和SSIM指标较好.
表 2 不同消融模块在AID测试集6个场景下的PSNR和SSIM指标
Tab.2
方法 | 飞机场 | 城市 | 农田 | 停车场 | 运动场 | 港口 | |||||||||||
PSNR/dB | SSIM | PSNR/dB | SSIM | PSNR/dB | SSIM | PSNR/dB | SSIM | PSNR/dB | SSIM | PSNR/dB | SSIM | ||||||
B | 26.88 | 24.65 | 29.67 | 20.63 | 26.47 | 22.82 | |||||||||||
B+H | 28.55 | 26.31 | 31.47 | 22.28 | 28.30 | 24.56 | |||||||||||
B+H+G | 28.60 | 26.32 | 31.53 | 22.67 | 28.53 | 24.67 | |||||||||||
B+H+G+A1 | 29.07 | 26.82 | 32.12 | 23.07 | 29.08 | 25.10 | |||||||||||
B+H+G+A | 29.50 | 27.27 | 32.43 | 23.45 | 29.57 | 25.39 |
第3组消融实验是研究深层特征提取模块个数对模型性能的影响. 逐步添加深层特征提取模块,在上述6个场景的测试数据集上进行测试,将结果取平均值,结果如表3所示. 表中,Nb为深层特征提取模块的数量. 从消融实验的结果可以看出,随着深度特征提取模块数量的增大,模型性能得到明显的提升. 当深度特征提取模块数量为4个时模型达到收敛,模型性能没有了显著提升,并且出现了轻微的下降. 在兼顾性能的同时,还要做到尽可能轻量化模型,不要让模型过于庞大,影响训练. 采用3个深层特征提取模块,在兼顾性能的同时,减少训练时间.
表 3 不同深层特征提取模块数下AID数据集6个场景的平均PSNR和SSIM指标
Tab.3
Nb | 测试集 | |
PSNR/dB | SSIM | |
1 | 27.76 | |
2 | 27.78 | |
3 | 27.94 | |
4 | 27.86 |
2.6. 高频影响的分析
图 6
图 6 高频模块和全局模块输入输出特征图的可视化展示
Fig.6 Visualization of input and output feature maps for high-frequency and global modules
从特征图可视化结果来看,经过HFE模块的特征图相比于输入特征图在纹理细节方面有更清晰的展示,尤其是一些重要边缘信息. 此外,GFE模块的高频处理能力有限,相比于HFE模块,GFE模块不能较好地提取图像中的高频信息,对一些边缘细节的处理较模糊. 这组实验可以证明,本文所提出的HFE模块在处理高频细节方面是有效的.
3. 结 语
使用多层退化模块合成训练对来训练模型,以解决现实场景中存在的噪声、模糊、JPEG压缩等问题对遥感图像超分辨率重建带来的影响. 遥感图像拥有更多的高频信息,但是Transformer重构高频细节的能力有限,所以本文设计新的聚合网络. 该网络包括3个模块:高频特征提取模块(HFE)、全局特征提取模块(GFE)、聚合模块(AM). HFE用来提取高频特征,GFE用来捕获全局表示,AM使用交互注意力机制来聚合HFE和GFE以细化全局表示. 在保留Transformer特点的同时,提升模型对高频细节的重构能力. 通过实验对比和消融研究证明,在实际情况下,利用该模型能够有效地实现遥感图像的超分辨率重建,输出更高质量、更接近真实场景的图像.
参考文献
Super-resolution reconstruction for multi-angle remote sensing images considering resolution differences
[J].DOI:10.3390/rs6010637 [本文引用: 1]
Image super-resolution using deep convolutional networks
[J].
A learning-based method for image super-resolution from zoomed observations
[J].
Lapar: linearly-assembled pixel-adaptive regression network for single image super-resolution and beyond
[J].
Super-resolution for remote sensing images via local–global combined network
[J].DOI:10.1109/LGRS.2017.2704122 [本文引用: 1]
Super-resolution of single remote sensing image based on residual dense backprojection networks
[J].DOI:10.1109/TGRS.2019.2917427 [本文引用: 1]
Remote sensing image super-resolution via mixed high-order attention network
[J].
Restoration of a single superresolution image from several blurred, noisy, and undersampled measured images
[J].DOI:10.1109/83.650118 [本文引用: 1]
On Bayesian adaptive video super resolution
[J].
AID: a benchmark data set for performance evaluation of aerial scene classification
[J].DOI:10.1109/TGRS.2017.2685945 [本文引用: 1]
Satellite image classification via two-layer sparse coding with biased image representation
[J].
Visual-PSNR measure of image quality
[J].DOI:10.1016/j.jvcir.2014.01.008 [本文引用: 1]
Image quality assessment: from error visibility to structural similarity
[J].DOI:10.1109/TIP.2003.819861 [本文引用: 1]
Unfolding the alternating optimization for blind super resolution
[J].
/
〈 |
|
〉 |
