浙江大学学报(工学版), 2026, 60(7): 1427-1437 doi: 10.3785/j.issn.1008-973X.2026.07.006

计算机与控制工程

基于多路协同与空谱先验的高光谱与多光谱图像融合

杨艳春,, 李佳龙

兰州交通大学 电子与信息工程学院,甘肃 兰州 730070

Multi-path collaboration-based and spatial-spectral prior-based hyperspectral and multispectral image fusion

YANG Yanchun,, LI Jialong

School of Electronic and Information Engineering, Lanzhou Jiaotong University, Lanzhou 730070, China

收稿日期: 2025-04-16  

基金资助: 国家自然科学基金资助项目(62462043,62067006);甘肃省重点研发计划资助项目(25YFGA047);甘肃省自然科学基金资助项目(23JRRA847,21JR7RA300).

Received: 2025-04-16  

Fund supported: 国家自然科学基金资助项目(62462043,62067006);甘肃省重点研发计划资助项目(25YFGA047);甘肃省自然科学基金资助项目(23JRRA847,21JR7RA300).

作者简介 About authors

杨艳春(1979—),女,副教授,从事图像融合和图像处理研究.orcid.org/0009-0004-6106-9551.E-mail:yangyanchun102@sina.com , E-mail:yangyanchun102@sina.com

摘要

针对高光谱与多光谱图像融合中全局建模与局部细节捕捉不足以及光谱维度相邻波段相关性难以探索的问题,提出多路协同与空谱先验的高光谱与多光谱图像融合方法. 主干网络由局部瓶颈控制单元与Transformer并联构成,局部瓶颈控制单元学习局部结构并抑制冗余特征,Transformer处理长距离依赖,双向交互融合机制增强对局部细节与全局上下文的理解. 在空间与光谱联合先验模块中,对于空间注意力采用双路径池化策略,并采用光谱内部分组注意力机制衡量波段关联程度. 多路聚合网络通过残差块与逐层递进融合策略整合特征. 实验表明,在CAVE数据集上,该方法的PSNR和SSIM较其他8种方法分别平均提升4.5%、0.7%,在局部与全局特征捕捉及空谱先验信息融合方面优势明显.

关键词: 高光谱与多光谱图像融合 ; 局部与全局协同 ; Transformer ; 空间与光谱联合先验 ; 光谱分组注意力机制

Abstract

A multi-path collaboration-based and spatial-spectral prior-based fusion method was proposed for hyperspectral and multispectral images, to address the challenges of insufficient global modeling and local detail capture in hyperspectral-multispectral image fusion, as well as the difficulty in exploring correlations between adjacent spectral bands. Firstly, the backbone network integrated a Local Bottleneck Control Unit and a Transformer in a parallel architecture. The Local Bottleneck Control Unit learned local structures while suppressing redundant features, whereas the Transformer handled long-range dependencies. A bidirectional interactive fusion mechanism was adopted to enhance the comprehension of both local details and global contexts. Secondly, the spatial-spectral joint prior module employed a dual-path pooling strategy for spatial attention and introduced an intra-spectral grouped attention mechanism to quantify inter-band correlations. Finally, the multi-path aggregation network consolidated features through residual blocks and a progressive fusion strategy. Experimental results demonstrated that the proposed method achieved average improvements of 4.5% in PSNR and 0.7% in SSIM compared to eight other methods on the CAVE dataset, exhibiting superior performance in capturing local-global features and integrating spatial-spectral prior information.

Keywords: hyperspectral and multispectral image fusion ; local and global collaboration ; Transformer ; joint spatial and spectral priors ; spectral grouping attention mechanism

PDF (3061KB) 元数据 多维度评价 相关文章 导出 EndNote| Ris| Bibtex  收藏本文

本文引用格式

杨艳春, 李佳龙. 基于多路协同与空谱先验的高光谱与多光谱图像融合. 浙江大学学报(工学版)[J], 2026, 60(7): 1427-1437 doi:10.3785/j.issn.1008-973X.2026.07.006

YANG Yanchun, LI Jialong. Multi-path collaboration-based and spatial-spectral prior-based hyperspectral and multispectral image fusion. Journal of Zhejiang University(Engineering Science)[J], 2026, 60(7): 1427-1437 doi:10.3785/j.issn.1008-973X.2026.07.006

高光谱成像技术能同时获取同一场景中数百个连续且狭窄的光谱波段信息,在多个图像分析领域内展现出巨大的应用潜力[1]. 然而受成像机制限制,高光谱图像普遍存在空间分辨率不足的固有缺陷. 近年来,多源数据融合技术已成为突破该技术瓶颈的重要研究方向,即通过结合高分辨率多光谱图像(high resolution multispectral image, HR-MSI)的空间细节与低分辨率高光谱图像(low resolution hyperspectral image, LR-HSI)的光谱特征,最终融合出高分辨率的高光谱图像[2](high resolution hyperspectral image, HR-HSI). 这种方法不仅扩展了高光谱图像的应用范围,还提高了其在环境监测[3]、资源探查[4]、军事国防[5]等关键领域的实用性和准确性[6-7].

高光谱图像(hyperspectral image, HSI)和多光谱图像(multispectral image, MSI)的融合方法大致分为2类:传统方法和深度学习方法. 传统方法分为基于矩阵分解的方法[8]和基于张量分解的方法[9]. 传统方法在处理遥感图像融合时,过程解释性强且运行效率高效,但往往依赖于手工制作的先验知识,而且其有效性通常受到先验知识准确性的限制.

近年来,深度学习的方法凭借其强大的特征提取能力和自适应学习能力,为高光谱与多光谱图像融合提供了新的解决方案. 深度学习方法主要分为基于卷积神经网络(convolutional neural network,CNN)的方法和基于Transformer的方法. 对于基于CNN的方法,Palsson等[10]注意到HSI在光谱维度中的重要性,提出基于三维卷积神经网络(3d convolutional neural network,3D-CNN)的融合方法,为了降低3D-CNN的计算复杂度,在融合前使用主成分分析进行降维. Zhang等[11]设计了含跨模式消息插入、空间重构和光谱重建网络的融合框架,通过空间损失和光谱损失提升HSI和MSI融合效率. 为了充分利用多尺度空间信息,Dian等[12]通过奇异值分解提取低维光谱子空间,用CNN去噪器优化系数,实现高光谱图像的超分辨率重建. Yu等[13]提出无监督深度融合方法,设计分组卷积增强模块和三维注意力因子动态卷积核,消除辐射差异并增强特征提取能力. 为了探究空间域与光谱域的相关性,Yan等[14]将不同模态信息视为互补组件,通过半二次分裂和梯度下降算法优化模型,借助CNN探索深层特征空间,实现跨模态信息交互与融合. 此外,Li等[15]提出增强型深度图像先验网络,采用两阶段方案生成配对训练样本,使用双U形架构捕捉高光谱先验. 对于Transformer的方法,Hu等[16]首次将Transformer应用于图像融合,通过估计空间残差降低训练负担. Ma等[17]用Transformer学习HSI先验,结合近端梯度算法和展开网络求解HR-HSI模型. Jia等[18]提出多尺度空间和频谱Transformer网络,通过双分支分别提取光谱特征与空间特征,并采用自监督预训练策略提升网络性能与泛化能力. 为了克服CNN在捕捉全局信息和复杂特征方面的局限性,Sun等[19]提出多尺度深度交叉融合网络,通过注意力块交互不同尺度特征重建高分辨率图像. 此外,Wang等[20]利用非局部自相似性和光谱带相关性,通过构建空间和光谱图来重建HR-HSI. Liu等[21]设计渐近多尺度对称融合网络,通过多流特征在相同尺度层逐步进行HSI和MSI之间的信息交互,并利用多尺度双向条纹卷积进一步细化边缘特征.

尽管上述融合方法取得显著进展,但部分深度学习方法仍存在局限. 一方面,基于CNN的方法因缺乏全局建模能力,难以充分捕捉图像上下文信息;另一方面,仅依赖Transformer架构的方法在捕捉局部细节方面表现不足,其更擅长处理长距离依赖和全局特征,对局部特征感知较弱. 此外,由于高光谱图像光谱维度复杂性,部分方法在融合2种模态互补信息时难以突出优势,甚至导致光谱失真.

针对以上问题,本研究提出全局与局部相结合的主干网络,通过设计的局部瓶颈控制单元与Transformer[22]协同的并联结构,增强模型对于局部细节的表征能力,还通过自注意力机制,强化对全局结构和上下文的理解. 为了增强融合图像的信息保真度,通过提出的空间与光谱联合先验,充分捕捉图像中的空间相关性和光谱特性,确保关键的光谱特征得以保留. 再利用多路径聚合网络并行处理各级特征,通过自下而上的路径聚合,有效利用不同层次的特征信息,得到兼具丰富的光谱信息和空间信息的融合图像.

1. 本研究方法

1.1. 总体框架

本研究提出的网络架构如图1所示,由3个关键组件组成:能够同时强化局部细节和捕捉全局上下文的主干网络;结合空间与光谱信息的联合先验模块,用以深入挖掘图像的内在特性;多路聚合网络,能并行处理多路信息特征,以实现特征的深度融合. 这一架构的协同作用确保了在图像融合过程中信息的全面保留和图像质量的显著提升. 本研究中高光谱与多光谱图像的观测模型表达式如下:

图 1

图 1   融合网络总体架构

Fig.1   Overall architecture of fusion network


$ \boldsymbol{Y}=\boldsymbol{X}\boldsymbol{R}\text{,} $

$ \boldsymbol{Z}=\boldsymbol{D}\boldsymbol{X}\text{.} $

式中:$ \boldsymbol{R}\in {\bf{R}}^{S\times \text{s}} $,表示光谱响应函数;$ \boldsymbol{D}\in {\bf{R}}^{wh\times WH} $,表示退化算子;$ \boldsymbol{X}\in {\bf{R}}^{WH\times S} $,为高分辨率的高光谱图像;$ \boldsymbol{Y}\in {\bf{R}}^{WH\times s} $,为高分辨率的多光谱图像;$ \boldsymbol{Z}\in {\bf{R}}^{{wh}\times S} $,为低分辨率的高光谱图像;WH为高分辨率多光谱图像的宽度和高度,S为高光谱图像的波段数, wh为低分辨率高光谱图像的宽度和高度,s为多光谱图像的波段数.

1.2. 局部与全局主干网络

所提出的主干网络结合了局部瓶颈控制单元和Transformer,如图2所示,形成了一个并联结构,旨在同时强化模型对图像局部细节的捕捉和对全局上下文的理解. 其中,局部瓶颈控制单元在经由归一化层处理后,分为2条路径,分别使用2个1$ \times $1卷积压缩特征通道,每条路径用3$ \times $3卷积进行特征映射,其中一条路径引入ReLU激活函数,增强非线性表达能力,另一路径保留线性映射,避免信息丢失. 两者的元素乘积可视为一种动态特征选择机制,通过逐元素相乘抑制冗余特征,强化关键局部结构. 最后,再由1$ \times $1卷积扩展到输入的特征维度与原始特征进行加和. 这有助于学习局部图像结构,抑制信息量较少的特征,从而使网络在后续层次中能专注于更精细的图像属性. 上述过程表达式如下:

图 2

图 2   局部瓶颈控制单元与Transformer

Fig.2   Local bottleneck control unit and Transformer


$ \boldsymbol{F}_{Z}^{}=\text{Conv}(\text{Upsample(}\boldsymbol{Z}\text{)),} $

$ {\boldsymbol{F}}_{Y}=\text{Conv}(\boldsymbol{Y}), $

$ \boldsymbol{F}_{ZY}^{}=\text{Concat}({\boldsymbol{F}}_{Z},{\boldsymbol{F}}_{Y}), $

$ \boldsymbol{F}_{ZY}^{1},\boldsymbol{F}_{ZY}^{2}=\text{LN}({\boldsymbol{F}}_{ZY}), $

$ \begin{split} \boldsymbol{F}_{\text{local}}^{i}=&\text{Conv}(\text{Conv}(\boldsymbol{F}_{ZY}^{1})(\otimes \\& \text{ReLU}(\text{Conv}(\boldsymbol{F}_{ZY}^{2}))\oplus \boldsymbol{F}_{ZY}^{1}.\end{split} $

式中:$ \text{Upsample(}\cdot \text{)} $表示上采样函数,$ \text{Concat}(\cdot ) $表示特征拼接函数,$ \text{Conv(}\cdot \text{)} $表示相关的卷积操作,$ \boldsymbol{F}_{Z}^{} $为LR-HSI的初始特征,$ {\boldsymbol{F}}_{Y} $为HR-MSI的初始特征,$ \boldsymbol{F}_{ZY}^{} $为LR-HSI与HR-MSI的拼接特征,$ \text{LN}(\cdot ) $表示归一化函数,$ \boldsymbol{F}_{ZY}^{1} $$ \boldsymbol{F}_{ZY}^{2} $分别为2条路径的特征,$ \otimes $为矩阵乘法,$ \oplus $为加法操作,$ \text{ReLU}(\cdot ) $表示非线性激活函数,$ \boldsymbol{F}_{\text{local}}^{i}(i\in \{1,2,3\}) $为主干网络中第$ i $个局部特征.

Transformer结构负责捕捉图像的全局结构和上下文信息. 通过自注意力机制,Transformer能够处理长距离依赖关系,并提取全局特征. 为了充分融合局部与全局信息,设计了双向交互式融合机制,有效地整合了来自上分支的局部信息和下分支的全局信息. 具体而言,局部特征$ {\boldsymbol{K}}_{\text{L}} $$ {\boldsymbol{V}}_{\text{L}} $与全局查询$ {\boldsymbol{Q}}_{\text{G}} $的相关性,以及全局特征$ {\boldsymbol{K}}_{\text{G}} $$ {\boldsymbol{V}}_{\text{G}} $与局部查询$ {\boldsymbol{Q}}_{\text{L}} $的相关性,将被共同输入至最后一个多层感知机(multilayer perceptron,MLP)中进行聚合,有助于同时保留局部细节与全局结构的一致性.

$ \boldsymbol{F}_{\text{LG}}^{i}=\text{MLP}(\text{Att}({\boldsymbol{K}}_{\text{G}},{\boldsymbol{Q}}_{\text{L}},{\boldsymbol{V}}_{\text{G}}),\text{Att}({\boldsymbol{K}}_{\text{L}},{\boldsymbol{Q}}_{\text{G}},{\boldsymbol{V}}_{\text{L}})). $

式中:$ \text{Att}(\cdot ) $表示注意力机制对应的功能函数;$ \text{MLP}(\cdot ) $为多层感知机功能函数;$ \boldsymbol{F}_{\text{LG}}^{i}(i\in \{1,2,3\}) $为第$ i $个局部与全局特征;$ {\boldsymbol{K}}_{\text{L}}\in {\bf{R}}^{B\times C\times HW} $$ {\boldsymbol{Q}}_{\text{L}}\in {\bf{R}}^{B\times C\times HW} $$ {\boldsymbol{V}}_{\text{L}}\in {\bf{R}}^{B\times C\times HW} $,分别表示局部特征提供的键向量、查询向量和值向量;$ {\boldsymbol{K}}_{\text{G}}\in {\bf{R}}^{B\times C\times HW} $$ {\boldsymbol{Q}}_{\text{G}}\in {\bf{R}}^{B\times C\times HW} $$ {\boldsymbol{V}}_{\text{G}}\in {\bf{R}}^{B\times C\times HW} $,分别表示全局特征提供的键向量、查询向量和值向量;$ B $为批次大小;$ C $为特征通道数;$ H $$ W $为特征的高度和宽度.

1.3. 空间与光谱联合先验

空间与光谱联合先验(joint spatial and spectral priorities, SSJP)由设计的空间注意力和光谱注意力机制串联构成,如图3所示. 前者用于挖掘高光谱数据的空间信息,后者用于提取光谱相关性. 为了避免空间信息丢失,目前一些主流方法将多源图像特征通过跳跃连接的方式一起处理[16,23],本研究方法将HR-MSI的初始特征与多级主干特征一并输入到联合先验模块中,从而能够有效地挖掘和利用空间信息.

图 3

图 3   空间与光谱先验模块

Fig.3   Spatial and spectral prior module


在空间注意力方面,该设计采用双路径策略:一条路径通过全局平均池化捕捉特征图的全局统计信息,另一条路径通过全局最大池化提取特征图中最显著的局部特征. 为了融合不同池化策略的信息,先通过2种池化方法分别提取全局特征,再将得到的特征图进行拼接. 随后通过Sigmoid激活函数处理,生成一个特征权重图,该权重图映射了空间维度上各位置的重要性. 将这个权重图与原特征图进行逐元素相乘,以此增强或抑制特征图中的不同空间位置,从而实现空间注意力的聚焦效果. 相关过程如下:

$ {\boldsymbol{F}}_{\text{avg​}}=\text{GAP}({\text{Conv}}_{\text{3}}\text{(Concat}(\boldsymbol{F}_{\text{LG}}^{t},{\boldsymbol{F}}_{Y}))), $

$ {\boldsymbol{F}}_{\text{max}}\text{​}={\text{GMP(Conv}}_{\text{3}}\text{(Concat}(\boldsymbol{F}_{\text{LG}}^{t},{\boldsymbol{F}}_{Y}))), $

$ \boldsymbol{W}={\text{Sigmoid(Conv}}_{\text{3}}\text{(Concat}({\boldsymbol{F}}_{\text{avg}}\text{},{\boldsymbol{F}}_{\text{max}}\text{}))), $

$ {\boldsymbol{F}}_{\text{spat}}={\text{Conv}}_{\text{3}}(\text{Concat}(\boldsymbol{F}_{\text{LG}}^{t},{\boldsymbol{F}}_{Y})\otimes \boldsymbol{W}). $

式中:$ \text{GAP(}\cdot \text{)} $$ \text{GMP}(\cdot ) $分别为平均池化和最大池化操作,$ \boldsymbol{F}_{\text{LG}}^{t}(t\in \{1,2\}) $为第$ t $个局部与全局特征,$ {\boldsymbol{F}}_{Y} $为HR-MSI的初始特征,$ {\boldsymbol{F}}_{\text{avg​}} $$ {\boldsymbol{F}}_{\text{max}}\text{​} $分别为平均池化特征和最大池化特征,$ {\text{Conv}}_{\text{3}}(\cdot ) $为对应的3$ \times $3卷积操作,$ \text{Sigmoid}(\cdot ) $为激活函数,$ \mathrm{Concat}(\cdot ) $表示特征拼接函数,$ \boldsymbol{W} $为输出的权重图,$ {\boldsymbol{F}}_{\text{spat}} $为经空间注意力增强的特征,$ \otimes $为矩阵乘法.

在光谱注意力方面,由于高光谱图像的光谱之间存在着较强的相关性,而传统注意力机制在处理高光谱数据时,未能充分挖掘光谱间的独特相关性,因此本研究提出基于光谱分组的注意力机制方法,如图4所示. 具体而言,先对光谱进行预划分,再采用信息熵来衡量每个波段重要程度,每组内选出信息熵较高的若干波段,每一组波段都包含了局部光谱的相关信息. 针对每一组波段,采用3D卷积操作分别计算$ {\boldsymbol{Q}}_{j} $$ {\boldsymbol{K}}_{j} $$ {\boldsymbol{V}}_{j} $这3个关键的特征表示. 3D卷积可捕捉高光谱图像的光谱联合信息,避免2维卷积在光谱维度上的信息丢失[24-25]. 随后,计算每组波段内的相似度,以衡量不同光谱位置之间的相互关联程度. 最终,将经过注意力机制处理后的每组波段的特征进行拼接,整合成完整的特征表示,这一设计不仅能够突出重要的光谱特征,还能通过捕捉光谱间的依赖关系,增强融合图像的光谱细节表达,以上过程表达式如下.

图 4

图 4   光谱分组注意力

Fig.4   Spectral grouping attention mechanism


$ \boldsymbol{F}_{\text{spat}}^{1},\boldsymbol{F}_{\text{spat}}^{2},\boldsymbol{F}_{\text{spat}}^{3}=\mathrm{Split}({\boldsymbol{F}}_{\text{spat}}), $

$ \boldsymbol{F}_{j,k}^{}={{E}}_{\mathrm{N}}(\boldsymbol{F}_{\text{spat}}^{j}), $

$\begin{split} {\boldsymbol{Q}}_{j},{\boldsymbol{K}}_{j},{\boldsymbol{V}}_{j}=&3\mathrm{DConv}(\mathrm{LN}(\boldsymbol{F}_{j,k}^{})),\\& 3\mathrm{DConv}(\mathrm{LN}(\boldsymbol{F}_{j,k}^{})),\\& 3\mathrm{DConv}(\mathrm{LN}(\boldsymbol{F}_{j,k}^{})),\end{split} $

$ {\hat{\boldsymbol{F}}}_{j,k}^{}={\boldsymbol{V}}_{j}\otimes (({T}({\boldsymbol{Q}}_{j})\otimes \boldsymbol{K}_{j}^{}))\oplus \boldsymbol{F}_{j,k}^{}, $

$ {\boldsymbol{F}}_{\text{spat,spect}}=\mathrm{Concat}({\hat{\boldsymbol{F}}}_{1,k}^{},{\hat{\boldsymbol{F}}}_{2,k}^{},{\hat{\boldsymbol{F}}}_{3,k}^{}). $

式中:$ \mathrm{Split}(\cdot ) $为分组操作;输入特征$ {\boldsymbol{F}}_{\text{spat}} $为经空间注意力增强的特征;$ \boldsymbol{F}_{\text{spat}}^{j}(j\in \{1,2,3\}) $为预分组的图像特征;$ {{E}}_{\mathrm{N}}(\cdot ) $为信息熵功能函数;$ \boldsymbol{F}_{j,k}^{} $为第$ j $组中信息熵较高的$ k $个特征;$ \mathrm{LN}(\cdot ) $为归一化操作;$ 3\mathrm{DConv}(\cdot ) $为3D卷积操作;$ {\boldsymbol{Q}}_{j}\in {\bf{R}}^{B\times C\times DHW} $$ \boldsymbol{K}_{j}^{}\in {\bf{R}}^{B\times C\times DHW} $$ {\boldsymbol{V}}_{j}\in {\bf{R}}^{B\times C\times DHW} $,分别表示第$ j $组特征提供的查询向量、键向量和值向量;$ B $为批次大小;$ C $为特征通道数;$ D $为卷积深度;$ H $$ W $为特征的高度和宽度;$ {T}(\cdot ) $为转置操作;$ {\hat{\boldsymbol{F}}}_{j,k}^{} $$ (j\in \{1,2,3\}) $为每组经过计算相似度后的特征;$ \otimes $为矩阵乘法;$ \oplus $为加法操作;$ {\boldsymbol{F}}_{\text{spat,spect}} $为经空间和光谱注意力强化后的特征;$ \mathrm{Concat}(\cdot ) $为拼接操作.

$ \boldsymbol{F}_{\text{spat,spect}}^{n}=\mathrm{SSJP}(\boldsymbol{F}_{\text{LG}}^{i}). $

式中:$ \mathrm{SSJP}(\cdot ) $代表空间光谱联合先验的功能函数,$ \boldsymbol{F}_{\text{spat,spect}}^{n}(n\in \{1,2\}) $为第$ n $个空间光谱先验特征.

1.4. 多路聚合网络

多路聚合网络架构(multipath aggregation network, MAN)如图1所示,由多个残差块构成,每个残差块内部通过分组卷积实现特征的高效处理,同时借助1$ \times $1卷积的残差连接增强特征传递. 在此网络中,高光谱的初始特征信息与主干网络提取出的3路特征信息被一同输入到聚合网络中,这里3路主干网络的输出特征可视为不同阶段的粗融合结果,通过各个层级中的残差块,进行有效的聚合. 每一层的输出特征会以两两拼接的方式传递给下一层,通过这种逐层递进、逐步深化的特征融合,网络能够充分利用并整合各路信息,最终生成高质量的融合图像.

$ \begin{split} {\hat{\boldsymbol{X}}}=&\mathrm{MAN}({\boldsymbol{F}}_{Z},\mathrm{Conv}(\boldsymbol{F}_{\text{LG}}^{1}),\mathrm{Conv}(\boldsymbol{F}_{\text{LG}}^{2}),\\& \mathrm{Conv}(\boldsymbol{F}_{\text{LG}}^{3})).\end{split} $

式中:$ \mathrm{MAN}(\cdot ) $表示多路聚合网络的功能函数,$ {\hat{\boldsymbol{X}}} $为融合图像,$ \boldsymbol{F}_{\mathrm{LG}}^{{i}}({i}\in \{1,2,3\}) $为第$ i $个主干特征.

1.5. 损失函数

在许多高光谱与多光谱图像融合任务中,$ {{L}}_{1} $损失常被选作训练过程中的损失函数. 它对空间域的小预测误差进行像素级惩罚,有助于确保训练过程的稳定收敛. 本研究进一步引入$ {{L}}_{1} $空间像素损失,以增强图像重建过程中波段间相关性,进而提升重建图像的细节恢复能力.

$ {{L}}_{1}(\theta )=\frac{1}{N}\sum\limits_{n=1}^{N}{\left|\left|\boldsymbol{X}-{\hat{\boldsymbol{X}}}\right|\right|}_{1}. $

式中:$ \theta $为可学习的网络参数,$ N $为训练样本的数量,$ n $为训练样本的索引,$ {\left|\left|\cdot \right|\right|}_{1} $$ {l}_{1} $范数,$ \boldsymbol{X} $为参考图像.

2. 实验结果与分析

2.1. 数据集和实验设置

采用3个遥感数据集进行实验,哥伦比亚大学计算机视觉实验室(CAVE)数据集[26]、Harvard数据集[27]以及真实数据集 (Pavia University数据集[11]). 对于CAVE数据集和Harvard数据集,使用尼康D700相机的光谱响应函数R生成HR-MSI. 使用多个尺寸(3$ \times $3、5$ \times $5、7$ \times $7、9$ \times $9)的模糊核,对HR-HSI进行处理,再下采样8倍得到LR-HSI.

CAVE数据集包含32个室内HSI. 每个HSI的尺寸为512$ \times $512像素,包含31个光谱带. 图像在400~700 nm范围内以10 nm波长间隔获取. 选择18个样本用于训练,其余样本用于测试. 将训练样本随机裁剪128$ \times $128大小的patch作为参考图像,HR-HSI、HR-MSI和LR-HSI的大小分别为128$ \times $128$ \times $31、128$ \times $128$ \times $3、16$ \times $16$ \times $31,再经过水平翻转、旋转,选取1152张图像块用于训练.

Harvard数据集包括室内和室外场景的50个HSI,每个HSI有31个光谱波段,波长范围为420~720 nm. 选择32个样本用于训练,其余样本用于测试. 将训练样本随机裁剪128$ \times $128大小的patch作为参考图像,HR-HSI、HR-MSI和LR-HSI的大小分别为128$ \times $128$ \times $31、128$ \times $128$ \times $3、16$ \times $16$ \times $31,再经过水平翻转、旋转,选取2 048张图像块用于训练.

Pavia University数据集由意大利帕维亚市的传感器(ROSIS-3)收集. 该图像的空间分辨率为610×340像素,包含103个光谱波段. 实验中去除噪声干扰较大的前10个波段,使用93个波段进行试验. 将图像先裁剪成256$ \times $256像素的子图像,用于测试. 其余区域裁剪成64$ \times $64图像块,HR-HSI、HR-MSI和LR-HSI的大小分别为64$ \times $64$ \times $93、64$ \times $64$ \times $4、8$ \times $8$ \times $93,再经过水平翻转、旋转,选取760张图像块用于训练.

使用Adam优化器进行参数更新,学习率设置为1×$ {10}^{-4} $,所有实验均在NVIDIA GeForce RTX 4060ti和2.5 GHz Intel Core i5-13400 CPU上使用Pytorch框架进行.

将本研究所提方法与8种方法进行对比,如MHF-net[28]、DBIN[29]、CNN-FUS[12]、UAL[30]、Fusformer[16]、DCT[23]、SDAGE[20]以及EDIP[15],所有对比方法均在相同的参数设置和实验环境下进行测试. 本研究从定性结果和定量分析2方面衡量算法的优劣,其中定量分析采用4个评估指标,峰值信噪比(peak signal-to-noise ratio,PSNR)、光谱角映射(spectral angle mapper,SAM)、相对全局误差(error relative to the global absolute sum, ERGAS)和结构相似性(structural similarity index, SSIM). PSNR通过比较原始图像和失真图像的均方误差来衡量图像质量,PSNR越大,表示图像质量越好. SAM用来度量2个光谱向量之间的角度差异,值越小表示2个光谱向量越相似. ERGAS是测量融合结果与全分辨率高光谱图像之间的平均误差和动态范围变化的全局指标,值越小,表示结果越好. SSIM通过比较2个图像在结构、亮度和对比度方面的差异来度量图像相似度,值越接近1表示2个图像越相似.

2.2. CAVE实验结果分析

2.2.1. 定性结果

为了直观地评价融合图像的质量,如图5所示展示了CAVE数据集上的融合结果及其对应的误差图. 误差图是通过计算真实HR-HSI与估计HR-HSI之间的绝对差得到的. GT(ground truth)为参考图像. CNN-FUS在重建图像时存在明显的纹理特征丢失,且与参考图像的差异较大;DBIN和MHF-Net在边界区分上表现不佳,难以清晰地恢复细节. MHF-Net、Fusformer和DCT虽然取得了较为满意的结果,但在细节恢复上仍存在不足,图像质量不尽如人意. SDAGE和EDIP在图像的某些局部区域细节恢复上表现参差不齐,部分区域细节较为清晰,但另一些区域则存在模糊现象. 从融合结果来看,本研究方法表现出更清晰的局部细节;同时,误差图也证实了其重构误差较小.

图 5

图 5   CAVE数据集上的实验结果

Fig.5   Experimental results on CAVE dataset


2.2.2. 定量分析

表1所示展示了各个方法在CAVE数据集上实验结果的评价指标均值. 本研究方法在4种指标上均取得最优,说明本研究方法在综合考虑图像全局和局部特征、空间和光谱信息方面的先进性. PSNR和SSIM取得最优,表明本研究方法减少了图像重建过程中的失真以及保留了图像视觉感知质量,这得益于局部瓶颈控制单元能够专注于学习局部结构特征,有效抑制冗余特征,避免了不必要的信息干扰,从而提升了对图像细节的捕捉能力. SAM和ERGAS取得最优,反映了本研究方法在保持光谱一致性方面的高效能力,得益于光谱分组注意力能够更好地保留和还原真实的光谱特性,这对于高光谱图像融合至关重要.

表 1   CAVE实验结果的评价指标均值

Tab.1  Mean values of evaluation indicators for results of CAVE experiment

方法PSNRSAMERGASSSIM
MHF-Net40.087.412.720.970 9
DBIN42.125.342.880.982 8
CNN-FUS43.933.901.240.985 7
UAL44.873.281.530.984 5
Fusformer44.524.121.060.983 3
DCT44.412.660.930.987 1
SDAGE45.322.780.820.989 8
EDIP44.462.590.850.986 2
本研究算法45.632.570.760.990 3

新窗口打开| 下载CSV


2.3. Harvard实验结果分析
2.3.1. 定性结果

图6所示展示了Harvard数据集上的融合结果及其对应的误差图. MHF-Net方法在细节捕捉上稍显不足. DBIN和UAL虽然能够重建高分辨率空间结构,但在细节恢复上仍有局限,尤其是对于物体精细特征的恢复,CNN-FUS方法则出现了模糊和伪影. Fusformer和DCT对于柱子部分的细节保留尚可,但在建筑顶部的线条处理上稍有欠缺. SDAGE和EDIP在建筑主体结构的完整性上表现较好,但在柱子边缘及顶部线条的细节上不够精细,部分区域存在轻微模糊. 本研究方法在建筑物的边缘清晰度和纹理丰富度上都表现出色,有效地平衡了局部细节和全局结构,提供了更清晰的空间信息和更丰富的光谱信息. 差异图显示,本研究方法的重建误差最小,证明了其在恢复原始HSI细节和减少重建误差方面的优越性.

图 6

图 6   Harvard数据集上的实验结果

Fig.6   Experimental results on Harvard dataset


2.3.2. 定量分析

表2所示展示了各个方法在Harvard数据集上实验结果的评价指标均值. 本研究方法在4个指标评估中均取得最优,PSNR取得最高,说明本研究方法有效降低了图像重建中的失真程度. ERGAS取得最优,表明模型在融合图像的空间和光谱质量上具有极高的保真度,这得益于本研究设计的空间与光谱联合先验. SSIM取得最优,表明模型在保持图像结构和视觉感知质量方面的优势,更符合人眼对图像质量的感知,这得益于Transformer对全局上下文的深入理解. 以上优势,使得本研究方法在图像融合领域展现出卓越的性能和广泛的应用潜力.

表 2   Harvard实验结果的评价指标均值

Tab.2  Mean values of evaluation indicators for results of Harvard experiment

方法PSNRSAMERGASSSIM
MHF-Net38.256.752.800.968 8
DBIN41.413.541.930.974 2
CNN-FUS40.893.131.710.973 2
UAL42.842.931.220.980 3
Fusformer41.193.611.630.981 1
DCT42.062.971.110.982 6
SDAGE42.412.891.270.983 4
EDIP41.933.031.760.979 9
本研究方法43.572.851.020.984 0

新窗口打开| 下载CSV


2.4. 真实实验结果分析

图7所示展示了真实数据集上的融合结果和差异图. 图中,融合结果为20、30、40波段合成的RGB图像. MHF-Net、DBIN和CNN-FUS方法在差异图中暴露出纹理模糊问题,尤其在高频信息复杂的区域差异较大. Fusformer出现了块状伪影. SDAGE在平衡阴影和纹理细节上表现出色,但建筑纹理的清晰度略低. EDIP的建筑主体结构完整,但边缘细节不够锐利. 本研究方法差异图整体残差最小,尤其在光谱敏感区域几乎无颜色偏差,同时,建筑轮廓与地物边界清晰,且无伪影或模糊现象.

图 7

图 7   Pavia University数据集上的实验结果

Fig.7   Experimental results on Pavia University dataset


表3所示为各个方法在Pavia University数据集上实验结果的评价指标均值. 可以看出,UAL方法在峰值信噪比和相对全局误差上表现最优,这是因为UAL引入退化网络与自适应模块联合学习,可估计特定HSI的退化过程并据此调整恢复策略,从而更好地还原图像细节和结构信息. 然而,其光谱角映射和结构相似性略低于本研究方法的. 具体来看,在光谱角映射方面,UAL未充分挖掘相邻波段之间的关联性,而本研究方法的光谱内部分组注意力机制能更有效地量化波段间的相关程度,从而在光谱信息重建上更具优势. 在结构相似性方面,UAL的融合模块未能充分整合局部与全局特征,其先验学习在局部细节捕捉上存在局限.

表 3   Pavia University实验结果的评价指标均值

Tab.3  Mean values of evaluation indicators for results of Pavia University experiment

方法PSNRSAMERGASSSIM
MHF-Net31.636.277.810.954 6
DBIN32.203.445.670.977 1
CNN-FUS30.653.675.130.975 5
UAL35.473.863.360.980 8
Fusformer31.155.156.850.968 1
DCT30.893.584.920.973 9
SDAGE33.393.463.880.978 6
EDIP32.613.743.520.976 3
本研究方法34.423.323.430.982 1

新窗口打开| 下载CSV


本研究方法在多个核心指标上实现了最优或接近最优的均衡性能:其SAM为所有方法中最低的,表明光谱畸变最小;SSIM达到最高值,证明融合图像的结构信息保留最完整. 此外,本研究方法的ERGAS与最优值接近,且显著优于其他方法,而PSNR仅次于UAL的,综合性能优于现有方法. 这表明本研究方法在平衡空间细节增强、光谱保真与全局误差控制方面具有显著优势.

图8的(a)、(b)、(c)子图中,分别对CAVE、Harvard和Pavia University数据集各波段的PSNR进行了可视化对比. 结果显示,本研究方法的PSNR值尽管在部分波段存在波动,但整体上仍领先于大多数对比方法.

图 8

图 8   实验结果各波段PSNR可视化展示

Fig.8   PSNR visualization of experimental results by band


2.5. 消融实验

对提出的网络架构各个部分进行消融实验,结果差异图如图9所示,包括:1)仅以局部瓶颈控制单元作为主干网络;2)仅以Transformer,作为主干网络;3)去除空间与光谱联合先验进行融合实验;4)去除多路聚合网络,仅将最后一层主干网络的输出特征作为融合结果;5)本研究方法.

图 9

图 9   消融实验结果

Fig.9   Results of ablation experiments


在消融实验中,仅使用局部瓶颈控制单元导致图像在全局一致性上表现不佳,边缘和细节区域出现明显误差;仅依赖Transformer,则在局部细节和高频信息区域表现出不足;去除空间与光谱联合先验后,图像的边界出现伪影;缺少多路聚合网络时,图像在多路特征整合上不足,影响了整体视觉质量. 相比之下,本研究方法在差异图上显示出最小的误差,无论是全局结构还是局部细节都与参考图像非常接近,这验证了本研究网络架构中各个组件协同作用的优势,能够实现更准确和高质量的图像融合效果.

表4所示为消融实验定量分析结果. 可以看出,以上消融结果中,仅使用局部瓶颈控制单元或仅使用Transformer时,虽然能够取得较好的PSNR和SSIM,但在光谱信息的完整性和误差控制方面表现不如完整方法. 去除空间与光谱联合先验会导致光谱特性显著下降,而去除多路聚合网络则会降低图像整体质量. 相比之下,本研究方法在PSNR、SSIM、SAM和ERGAS指标上均表现最佳,证明了各个模块协同作用能够有效提升融合图像的质量和光谱信息的完整性.

表 4   消融实验定量分析

Tab.4  Quantitative analysis of ablation experiments

方法PSNRSSIMSAMERGAS
1)40.210.983 43.743.11
2)41.880.988 33.122.01
3)42.710.989 75.563.85
4)43.670.990 42.811.33
5)45.320.991 32.420.82

新窗口打开| 下载CSV


表5所示展示了不同模块的参数量Params和计算复杂度Flops. 模块A为仅使用局部瓶颈控制单元,参数量和计算复杂度均为最低,因其结构简单且专注于局部特征提取. 模块B为仅使用Transformer,虽能捕捉全局信息,但计算复杂度较高. 模块C为去除空谱联合先验模块,但主干网络融合模块A和B,参数量和计算复杂度均有所增加. 模块D为去除多个残差块,参数量和计算复杂度降低. 模块E为完整网络结构,随着网络结构的完善,参数量和计算复杂度均有所增加.

表 5   各模块参数量和计算复杂度分析

Tab.5  Analysis of parameter quantities and computational complexity for each module

模块Params/106Flops/109
A5.0319.95
B5.1220.67
C5.2621.47
D3.8115.57
E5.3921.63

新窗口打开| 下载CSV


3. 结 语

本研究提出新的高光谱与多光谱图像的融合方法,主干网络采用局部瓶颈控制单元与Transformer并联架构,分别强化局部特征提取和全局上下文理解. 通过空间与光谱联合先验机制,结合光谱分组注意力,精准捕捉图像的空间布局与光谱特性. 多路径聚合网络利用残差块与分组卷积,逐层整合多级特征,实现深度特征融合. 实验表明,该方法在细节保留与光谱准确性方面显著优于多数对比方法,融合效果提升明显. 未来将探索该网络架构在更多应用场景中的潜力,并持续优化算法,以提升其在复杂环境下的适应性和鲁棒性.

参考文献

WANG Z, CHEN J, HOI S C H

Deep learning for image super-resolution: a survey

[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2021, 43 (10): 3365- 3387

DOI:10.1109/TPAMI.2020.2982166      [本文引用: 1]

VIVONE G

Multispectral and hyperspectral image fusion in remote sensing: a survey

[J]. Information Fusion, 2023, 89: 405- 417

DOI:10.1016/j.inffus.2022.08.032      [本文引用: 1]

胡明志, 孙俊, 杨彪, 等

基于CNN和Transformer聚合的遥感图像超分辨率重建

[J]. 浙江大学学报: 工学版, 2025, 59 (5): 938- 946

DOI:10.3785/j.issn.1008-973X.2025.05.007      [本文引用: 1]

HU Mingzhi, SUN Jun, YANG Biao, et al

Super-resolution reconstruction of remote sensing image based on CNN and Transformer aggregation

[J]. Journal of Zhejiang University: Engineering Science, 2025, 59 (5): 938- 946

DOI:10.3785/j.issn.1008-973X.2025.05.007      [本文引用: 1]

HONG D, GAO L, YOKOYA N, et al

More diverse means better: multimodal deep learning meets remote-sensing imagery classification

[J]. IEEE Transactions on Geoscience and Remote Sensing, 2021, 59 (5): 4340- 4354

DOI:10.1109/TGRS.2020.3016820      [本文引用: 1]

ZHUANG L, NG M K, FU X, et al

Hy-demosaicing: hyperspectral blind reconstruction from spectral subsampling

[J]. IEEE Transactions on Geoscience and Remote Sensing, 2021, 60: 5515815

[本文引用: 1]

DENG S Q, DENG L J, WU X, et al

PSRT: pyramid shuffle-and-reshuffle transformer for multispectral and hyperspectral image fusion

[J]. IEEE Transactions on Geoscience and Remote Sensing, 2023, 61: 5503715

DOI:10.1109/tgrs.2023.3244750      [本文引用: 1]

吕鑫栋, 李娇, 邓真楠, 等

基于改进Transformer的结构化图像超分辨网络

[J]. 浙江大学学报: 工学版, 2023, 57 (5): 865- 874,910

DOI:10.3785/j.issn.1008-973X.2023.05.002      [本文引用: 1]

LV Xindong, LI Jiao, DENG Zhennan, et al

Structured image super-resolution network based on improved Transformer

[J]. Journal of Zhejiang University: Engineering Science, 2023, 57 (5): 865- 874,910

DOI:10.3785/j.issn.1008-973X.2023.05.002      [本文引用: 1]

LI S, DIAN R, FANG L, et al

Fusing hyperspectral and multispectral images via coupled sparse tensor factorization

[J]. IEEE Transactions on Image Processing, 2018, 27 (8): 4118- 4130

[本文引用: 1]

DIAN R, LI S, FANG L, et al

Multispectral and hyperspectral image fusion with spatial-spectral sparse representation

[J]. Information Fusion, 2019, 49: 262- 270

DOI:10.1016/j.inffus.2018.11.012      [本文引用: 1]

PALSSON F, SVEINSSON J R, ULFARSSON M O

Multispectral and hyperspectral image fusion using a 3-D-convolutional neural network

[J]. IEEE Geoscience and Remote Sensing Letters, 2017, 14 (5): 639- 643

DOI:10.1109/LGRS.2017.2668299      [本文引用: 1]

ZHANG X, HUANG W, WANG Q, et al

SSR-NET: spatial-spectral reconstruction network for hyperspectral and multispectral image fusion

[J]. IEEE Transactions on Geoscience and Remote Sensing, 2020, 59 (7): 5953- 5965

DOI:10.1109/tgrs.2020.3018732      [本文引用: 2]

DIAN R, LI S, KANG X

Regularizing hyperspectral and multispectral image fusion by CNN denoiser

[J]. IEEE Transactions on Neural Networks and Learning Systems, 2021, 32 (3): 1124- 1135

DOI:10.1109/TNNLS.2020.2980398      [本文引用: 2]

YU H, LING Z, ZHENG K, et al

Unsupervised hyperspectral and multispectral image fusion with deep spectral-spatial collaborative constraint

[J]. IEEE Transactions on Geoscience and Remote Sensing, 2024, 62: 5534114

DOI:10.1109/tgrs.2024.3472226      [本文引用: 1]

YAN J, ZHANG K, SUN Q, et al

Spatial-spectral unfolding network with mutual guidance for multispectral and hyperspectral image fusion

[J]. Pattern Recognition, 2025, 161: 111277

DOI:10.1016/j.patcog.2024.111277      [本文引用: 1]

LI J, ZHENG K, GAO L, et al

Enhanced deep image prior for unsupervised hyperspectral image super-resolution

[J]. IEEE Transactions on Geoscience and Remote Sensing, 2025, 63: 5504218

[本文引用: 2]

HU J F, HUANG T Z, DENG L J, et al

Fusformer: a transformer-based fusion network for hyperspectral image super-resolution

[J]. IEEE Geoscience and Remote Sensing Letters, 2022, 19: 6012305

[本文引用: 3]

MA Q, JIANG J, LIU X, et al

Learning a 3D-CNN and Transformer prior for hyperspectral image super-resolution

[J]. Information Fusion, 2023, 100: 101907

DOI:10.1016/j.inffus.2023.101907      [本文引用: 1]

JIA S, MIN Z, FU X

Multiscale spatial-spectral transformer network for hyperspectral and multispectral image fusion

[J]. Information Fusion, 2023, 96: 117- 129

DOI:10.1016/j.inffus.2023.03.011      [本文引用: 1]

SUN L, ZHOU J, YE Q, et al

MDC-FusFormer: multiscale deep cross-fusion transformer network for hyperspectral and multispectral image fusion

[J]. IEEE Transactions on Geoscience and Remote Sensing, 2024, 62: 5528914

DOI:10.1109/tgrs.2024.3451551      [本文引用: 1]

WANG X, ZHANG F, ZHANG K, et al

Learning spatial-spectral dual adaptive graph embedding for multispectral and hyperspectral image fusion

[J]. Pattern Recognition, 2024, 151: 110365

DOI:10.1016/j.patcog.2024.110365      [本文引用: 2]

LIU S, SHAO T, LIU S, et al

An asymptotic multiscale symmetric fusion network for hyperspectral and multispectral image fusion

[J]. IEEE Transactions on Geoscience and Remote Sensing, 2025, 63: 5503016

[本文引用: 1]

LIU Z, LIN Y, CAO Y, et al. Swin transformer: hierarchical vision transformer using shifted windows [C]// IEEE/CVF International Conference on Computer Vision. Montreal: IEEE, 2021: 9992–10002.

[本文引用: 1]

MA Q, JIANG J, LIU X, et al

Reciprocal transformer for hyperspectral and multispectral image fusion

[J]. Information Fusion, 2024, 104: 102148

DOI:10.1016/j.inffus.2023.102148      [本文引用: 2]

LIU Z, WANG W, MA Q, et al

Rethinking 3D-CNN in hyperspectral image super-resolution

[J]. Remote Sensing, 2023, 15 (10): 2574

DOI:10.3390/rs15102574      [本文引用: 1]

ANUL HAQ M, BEN HADJ HASSINE S, MALEBARY S J, et al

3D-CNNHSR: a 3-dimensional convolutional neural network for hyperspectral super-resolution

[J]. Computer Systems Science and Engineering, 2023, 47 (2): 2689- 2705

DOI:10.32604/csse.2023.039904      [本文引用: 1]

YASUMA F, MITSUNAGA T, ISO D, et al

Generalized assorted pixel camera: postcapture control of resolution, dynamic range, and spectrum

[J]. IEEE Transactions on Image Processing, 2010, 19 (9): 2241- 2253

DOI:10.1109/TIP.2010.2046811      [本文引用: 1]

CHAKRABARTI A, ZICKLER T. Statistics of real-world hyperspectral images [C]// CVPR 2011. Colorado Springs: IEEE, 2011: 193–200.

[本文引用: 1]

XIE Q, ZHOU M, ZHAO Q, et al. Multispectral and hyperspectral image fusion by MS/HS fusion net [C]// IEEE/CVF Conference on Computer Vision and Pattern Recognition. Long Beach: IEEE, 2019: 1585–1594.

[本文引用: 1]

WANG W, ZENG W, HUANG Y, et al. Deep blind hyperspectral image fusion [C]// IEEE/CVF International Conference on Computer Vision. Seoul: IEEE, 2019: 4149-4158.

[本文引用: 1]

ZHANG L, NIE J, WEI W, et al. Unsupervised adaptation learning for hyperspectral imagery super-resolution [C]// IEEE/CVF Conference on Computer Vision and Pattern Recognition. Seattle: IEEE, 2020: 3070–3079.

[本文引用: 1]

/