<img src="https://www.zjujournals.com/eng/images/1008-973X/images/logo.png" class="img-responsive">

图 1 融合网络总体架构

Fig.1 Overall architecture of fusion network

(1)$ \boldsymbol{Y}=\boldsymbol{X}\boldsymbol{R}\text{,} $

(2)$ \boldsymbol{Z}=\boldsymbol{D}\boldsymbol{X}\text{.} $

式中：$ \boldsymbol{R}\in {\bf{R}}^{S\times \text{s}} $，表示光谱响应函数；$ \boldsymbol{D}\in {\bf{R}}^{wh\times WH} $，表示退化算子；$ \boldsymbol{X}\in {\bf{R}}^{WH\times S} $，为高分辨率的高光谱图像；$ \boldsymbol{Y}\in {\bf{R}}^{WH\times s} $，为高分辨率的多光谱图像；$ \boldsymbol{Z}\in {\bf{R}}^{{wh}\times S} $，为低分辨率的高光谱图像；W、H为高分辨率多光谱图像的宽度和高度，S为高光谱图像的波段数， w、h为低分辨率高光谱图像的宽度和高度，s为多光谱图像的波段数.

1.2. 局部与全局主干网络

所提出的主干网络结合了局部瓶颈控制单元和Transformer，如图2所示，形成了一个并联结构，旨在同时强化模型对图像局部细节的捕捉和对全局上下文的理解. 其中，局部瓶颈控制单元在经由归一化层处理后，分为2条路径，分别使用2个1$ \times $1卷积压缩特征通道，每条路径用3$ \times $3卷积进行特征映射，其中一条路径引入ReLU激活函数，增强非线性表达能力，另一路径保留线性映射，避免信息丢失. 两者的元素乘积可视为一种动态特征选择机制，通过逐元素相乘抑制冗余特征，强化关键局部结构. 最后，再由1$ \times $1卷积扩展到输入的特征维度与原始特征进行加和. 这有助于学习局部图像结构，抑制信息量较少的特征，从而使网络在后续层次中能专注于更精细的图像属性. 上述过程表达式如下：

图 2

图 2 局部瓶颈控制单元与Transformer

Fig.2 Local bottleneck control unit and Transformer

(3)$ \boldsymbol{F}_{Z}^{}=\text{Conv}(\text{Upsample(}\boldsymbol{Z}\text{)),} $

(4)$ {\boldsymbol{F}}_{Y}=\text{Conv}(\boldsymbol{Y}), $

(5)$ \boldsymbol{F}_{ZY}^{}=\text{Concat}({\boldsymbol{F}}_{Z},{\boldsymbol{F}}_{Y}), $

(6)$ \boldsymbol{F}_{ZY}^{1},\boldsymbol{F}_{ZY}^{2}=\text{LN}({\boldsymbol{F}}_{ZY}), $

(7)$ \begin{split} \boldsymbol{F}_{\text{local}}^{i}=&\text{Conv}(\text{Conv}(\boldsymbol{F}_{ZY}^{1})(\otimes \\& \text{ReLU}(\text{Conv}(\boldsymbol{F}_{ZY}^{2}))\oplus \boldsymbol{F}_{ZY}^{1}.\end{split} $

式中：$ \text{Upsample(}\cdot \text{)} $表示上采样函数，$ \text{Concat}(\cdot ) $表示特征拼接函数，$ \text{Conv(}\cdot \text{)} $表示相关的卷积操作，$ \boldsymbol{F}_{Z}^{} $为LR-HSI的初始特征，$ {\boldsymbol{F}}_{Y} $为HR-MSI的初始特征，$ \boldsymbol{F}_{ZY}^{} $为LR-HSI与HR-MSI的拼接特征，$ \text{LN}(\cdot ) $表示归一化函数，$ \boldsymbol{F}_{ZY}^{1} $、$ \boldsymbol{F}_{ZY}^{2} $分别为2条路径的特征，$ \otimes $为矩阵乘法，$ \oplus $为加法操作，$ \text{ReLU}(\cdot ) $表示非线性激活函数，$ \boldsymbol{F}_{\text{local}}^{i}(i\in \{1,2,3\}) $为主干网络中第$ i $个局部特征.

Transformer结构负责捕捉图像的全局结构和上下文信息. 通过自注意力机制，Transformer能够处理长距离依赖关系，并提取全局特征. 为了充分融合局部与全局信息，设计了双向交互式融合机制，有效地整合了来自上分支的局部信息和下分支的全局信息. 具体而言，局部特征$ {\boldsymbol{K}}_{\text{L}} $、$ {\boldsymbol{V}}_{\text{L}} $与全局查询$ {\boldsymbol{Q}}_{\text{G}} $的相关性，以及全局特征$ {\boldsymbol{K}}_{\text{G}} $、$ {\boldsymbol{V}}_{\text{G}} $与局部查询$ {\boldsymbol{Q}}_{\text{L}} $的相关性，将被共同输入至最后一个多层感知机（multilayer perceptron，MLP）中进行聚合，有助于同时保留局部细节与全局结构的一致性.

(8)$ \boldsymbol{F}_{\text{LG}}^{i}=\text{MLP}(\text{Att}({\boldsymbol{K}}_{\text{G}},{\boldsymbol{Q}}_{\text{L}},{\boldsymbol{V}}_{\text{G}}),\text{Att}({\boldsymbol{K}}_{\text{L}},{\boldsymbol{Q}}_{\text{G}},{\boldsymbol{V}}_{\text{L}})). $

式中：$ \text{Att}(\cdot ) $表示注意力机制对应的功能函数；$ \text{MLP}(\cdot ) $为多层感知机功能函数；$ \boldsymbol{F}_{\text{LG}}^{i}(i\in \{1,2,3\}) $为第$ i $个局部与全局特征；$ {\boldsymbol{K}}_{\text{L}}\in {\bf{R}}^{B\times C\times HW} $、$ {\boldsymbol{Q}}_{\text{L}}\in {\bf{R}}^{B\times C\times HW} $、$ {\boldsymbol{V}}_{\text{L}}\in {\bf{R}}^{B\times C\times HW} $，分别表示局部特征提供的键向量、查询向量和值向量；$ {\boldsymbol{K}}_{\text{G}}\in {\bf{R}}^{B\times C\times HW} $、$ {\boldsymbol{Q}}_{\text{G}}\in {\bf{R}}^{B\times C\times HW} $、$ {\boldsymbol{V}}_{\text{G}}\in {\bf{R}}^{B\times C\times HW} $，分别表示全局特征提供的键向量、查询向量和值向量；$ B $为批次大小；$ C $为特征通道数；$ H $和$ W $为特征的高度和宽度.

1.3. 空间与光谱联合先验

空间与光谱联合先验(joint spatial and spectral priorities, SSJP)由设计的空间注意力和光谱注意力机制串联构成，如图3所示. 前者用于挖掘高光谱数据的空间信息，后者用于提取光谱相关性. 为了避免空间信息丢失，目前一些主流方法将多源图像特征通过跳跃连接的方式一起处理^[16,23]，本研究方法将HR-MSI的初始特征与多级主干特征一并输入到联合先验模块中，从而能够有效地挖掘和利用空间信息.

图 3

图 3 空间与光谱先验模块

Fig.3 Spatial and spectral prior module

在空间注意力方面，该设计采用双路径策略：一条路径通过全局平均池化捕捉特征图的全局统计信息，另一条路径通过全局最大池化提取特征图中最显著的局部特征. 为了融合不同池化策略的信息，先通过2种池化方法分别提取全局特征，再将得到的特征图进行拼接. 随后通过Sigmoid激活函数处理，生成一个特征权重图，该权重图映射了空间维度上各位置的重要性. 将这个权重图与原特征图进行逐元素相乘，以此增强或抑制特征图中的不同空间位置，从而实现空间注意力的聚焦效果. 相关过程如下：

(9)$ {\boldsymbol{F}}_{\text{avg}}=\text{GAP}({\text{Conv}}_{\text{3}}\text{(Concat}(\boldsymbol{F}_{\text{LG}}^{t},{\boldsymbol{F}}_{Y}))), $

(10)$ {\boldsymbol{F}}_{\text{max}}\text{}={\text{GMP(Conv}}_{\text{3}}\text{(Concat}(\boldsymbol{F}_{\text{LG}}^{t},{\boldsymbol{F}}_{Y}))), $

(11)$ \boldsymbol{W}={\text{Sigmoid(Conv}}_{\text{3}}\text{(Concat}({\boldsymbol{F}}_{\text{avg}}\text{},{\boldsymbol{F}}_{\text{max}}\text{}))), $

(12)$ {\boldsymbol{F}}_{\text{spat}}={\text{Conv}}_{\text{3}}(\text{Concat}(\boldsymbol{F}_{\text{LG}}^{t},{\boldsymbol{F}}_{Y})\otimes \boldsymbol{W}). $

式中：$ \text{GAP(}\cdot \text{)} $和$ \text{GMP}(\cdot ) $分别为平均池化和最大池化操作，$ \boldsymbol{F}_{\text{LG}}^{t}(t\in \{1,2\}) $为第$ t $个局部与全局特征，$ {\boldsymbol{F}}_{Y} $为HR-MSI的初始特征，$ {\boldsymbol{F}}_{\text{avg}} $和$ {\boldsymbol{F}}_{\text{max}}\text{} $分别为平均池化特征和最大池化特征，$ {\text{Conv}}_{\text{3}}(\cdot ) $为对应的3$ \times $3卷积操作，$ \text{Sigmoid}(\cdot ) $为激活函数，$ \mathrm{Concat}(\cdot ) $表示特征拼接函数，$ \boldsymbol{W} $为输出的权重图，$ {\boldsymbol{F}}_{\text{spat}} $为经空间注意力增强的特征，$ \otimes $为矩阵乘法.

在光谱注意力方面，由于高光谱图像的光谱之间存在着较强的相关性，而传统注意力机制在处理高光谱数据时，未能充分挖掘光谱间的独特相关性，因此本研究提出基于光谱分组的注意力机制方法，如图4所示. 具体而言，先对光谱进行预划分，再采用信息熵来衡量每个波段重要程度，每组内选出信息熵较高的若干波段，每一组波段都包含了局部光谱的相关信息. 针对每一组波段，采用3D卷积操作分别计算$ {\boldsymbol{Q}}_{j} $、$ {\boldsymbol{K}}_{j} $和$ {\boldsymbol{V}}_{j} $这3个关键的特征表示. 3D卷积可捕捉高光谱图像的光谱联合信息，避免2维卷积在光谱维度上的信息丢失^[24-25]. 随后，计算每组波段内的相似度，以衡量不同光谱位置之间的相互关联程度. 最终，将经过注意力机制处理后的每组波段的特征进行拼接，整合成完整的特征表示，这一设计不仅能够突出重要的光谱特征，还能通过捕捉光谱间的依赖关系，增强融合图像的光谱细节表达，以上过程表达式如下.

图 4

图 4 光谱分组注意力

Fig.4 Spectral grouping attention mechanism

(13)$ \boldsymbol{F}_{\text{spat}}^{1},\boldsymbol{F}_{\text{spat}}^{2},\boldsymbol{F}_{\text{spat}}^{3}=\mathrm{Split}({\boldsymbol{F}}_{\text{spat}}), $

(14)$ \boldsymbol{F}_{j,k}^{}={{E}}_{\mathrm{N}}(\boldsymbol{F}_{\text{spat}}^{j}), $

(15)$\begin{split} {\boldsymbol{Q}}_{j},{\boldsymbol{K}}_{j},{\boldsymbol{V}}_{j}=&3\mathrm{DConv}(\mathrm{LN}(\boldsymbol{F}_{j,k}^{})),\\& 3\mathrm{DConv}(\mathrm{LN}(\boldsymbol{F}_{j,k}^{})),\\& 3\mathrm{DConv}(\mathrm{LN}(\boldsymbol{F}_{j,k}^{})),\end{split} $

(16)$ {\hat{\boldsymbol{F}}}_{j,k}^{}={\boldsymbol{V}}_{j}\otimes (({T}({\boldsymbol{Q}}_{j})\otimes \boldsymbol{K}_{j}^{}))\oplus \boldsymbol{F}_{j,k}^{}, $

(17)$ {\boldsymbol{F}}_{\text{spat,spect}}=\mathrm{Concat}({\hat{\boldsymbol{F}}}_{1,k}^{},{\hat{\boldsymbol{F}}}_{2,k}^{},{\hat{\boldsymbol{F}}}_{3,k}^{}). $

式中：$ \mathrm{Split}(\cdot ) $为分组操作；输入特征$ {\boldsymbol{F}}_{\text{spat}} $为经空间注意力增强的特征；$ \boldsymbol{F}_{\text{spat}}^{j}(j\in \{1,2,3\}) $为预分组的图像特征；$ {{E}}_{\mathrm{N}}(\cdot ) $为信息熵功能函数；$ \boldsymbol{F}_{j,k}^{} $为第$ j $组中信息熵较高的$ k $个特征；$ \mathrm{LN}(\cdot ) $为归一化操作；$ 3\mathrm{DConv}(\cdot ) $为3D卷积操作；$ {\boldsymbol{Q}}_{j}\in {\bf{R}}^{B\times C\times DHW} $、$ \boldsymbol{K}_{j}^{}\in {\bf{R}}^{B\times C\times DHW} $、$ {\boldsymbol{V}}_{j}\in {\bf{R}}^{B\times C\times DHW} $，分别表示第$ j $组特征提供的查询向量、键向量和值向量；$ B $为批次大小；$ C $为特征通道数；$ D $为卷积深度；$ H $和$ W $为特征的高度和宽度；$ {T}(\cdot ) $为转置操作；$ {\hat{\boldsymbol{F}}}_{j,k}^{} $$ (j\in \{1,2,3\}) $为每组经过计算相似度后的特征；$ \otimes $为矩阵乘法；$ \oplus $为加法操作；$ {\boldsymbol{F}}_{\text{spat,spect}} $为经空间和光谱注意力强化后的特征；$ \mathrm{Concat}(\cdot ) $为拼接操作.

(18)$ \boldsymbol{F}_{\text{spat,spect}}^{n}=\mathrm{SSJP}(\boldsymbol{F}_{\text{LG}}^{i}). $

式中:$ \mathrm{SSJP}(\cdot ) $代表空间光谱联合先验的功能函数，$ \boldsymbol{F}_{\text{spat,spect}}^{n}(n\in \{1,2\}) $为第$ n $个空间光谱先验特征.

1.4. 多路聚合网络

多路聚合网络架构(multipath aggregation network, MAN)如图1所示，由多个残差块构成，每个残差块内部通过分组卷积实现特征的高效处理，同时借助1$ \times $1卷积的残差连接增强特征传递. 在此网络中，高光谱的初始特征信息与主干网络提取出的3路特征信息被一同输入到聚合网络中，这里3路主干网络的输出特征可视为不同阶段的粗融合结果，通过各个层级中的残差块，进行有效的聚合. 每一层的输出特征会以两两拼接的方式传递给下一层，通过这种逐层递进、逐步深化的特征融合，网络能够充分利用并整合各路信息，最终生成高质量的融合图像.

(19)$ \begin{split} {\hat{\boldsymbol{X}}}=&\mathrm{MAN}({\boldsymbol{F}}_{Z},\mathrm{Conv}(\boldsymbol{F}_{\text{LG}}^{1}),\mathrm{Conv}(\boldsymbol{F}_{\text{LG}}^{2}),\\& \mathrm{Conv}(\boldsymbol{F}_{\text{LG}}^{3})).\end{split} $

式中：$ \mathrm{MAN}(\cdot ) $表示多路聚合网络的功能函数，$ {\hat{\boldsymbol{X}}} $为融合图像，$ \boldsymbol{F}_{\mathrm{LG}}^{{i}}({i}\in \{1,2,3\}) $为第$ i $个主干特征.

1.5. 损失函数

在许多高光谱与多光谱图像融合任务中，$ {{L}}_{1} $损失常被选作训练过程中的损失函数. 它对空间域的小预测误差进行像素级惩罚，有助于确保训练过程的稳定收敛. 本研究进一步引入$ {{L}}_{1} $空间像素损失，以增强图像重建过程中波段间相关性，进而提升重建图像的细节恢复能力.

(20)$ {{L}}_{1}(\theta )=\frac{1}{N}\sum\limits_{n=1}^{N}{\left|\left|\boldsymbol{X}-{\hat{\boldsymbol{X}}}\right|\right|}_{1}. $

式中：$ \theta $为可学习的网络参数，$ N $为训练样本的数量，$ n $为训练样本的索引，$ {\left|\left|\cdot \right|\right|}_{1} $为$ {l}_{1} $范数，$ \boldsymbol{X} $为参考图像.

2. 实验结果与分析

2.1. 数据集和实验设置

采用3个遥感数据集进行实验，哥伦比亚大学计算机视觉实验室（CAVE）数据集^[26]、Harvard数据集^[27]以及真实数据集 (Pavia University数据集^[11]). 对于CAVE数据集和Harvard数据集，使用尼康D700相机的光谱响应函数R生成HR-MSI. 使用多个尺寸(3$ \times $3、5$ \times $5、7$ \times $7、9$ \times $9)的模糊核，对HR-HSI进行处理，再下采样8倍得到LR-HSI.

CAVE数据集包含32个室内HSI. 每个HSI的尺寸为512$ \times $512像素，包含31个光谱带. 图像在400~700 nm范围内以10 nm波长间隔获取. 选择18个样本用于训练，其余样本用于测试. 将训练样本随机裁剪128$ \times $128大小的patch作为参考图像，HR-HSI、HR-MSI和LR-HSI的大小分别为128$ \times $128$ \times $31、128$ \times $128$ \times $3、16$ \times $16$ \times $31，再经过水平翻转、旋转，选取1152张图像块用于训练.

Harvard数据集包括室内和室外场景的50个HSI，每个HSI有31个光谱波段，波长范围为420~720 nm. 选择32个样本用于训练，其余样本用于测试. 将训练样本随机裁剪128$ \times $128大小的patch作为参考图像，HR-HSI、HR-MSI和LR-HSI的大小分别为128$ \times $128$ \times $31、128$ \times $128$ \times $3、16$ \times $16$ \times $31，再经过水平翻转、旋转，选取2 048张图像块用于训练.

Pavia University数据集由意大利帕维亚市的传感器(ROSIS-3)收集. 该图像的空间分辨率为610×340像素，包含103个光谱波段. 实验中去除噪声干扰较大的前10个波段，使用93个波段进行试验. 将图像先裁剪成256$ \times $256像素的子图像，用于测试. 其余区域裁剪成64$ \times $64图像块，HR-HSI、HR-MSI和LR-HSI的大小分别为64$ \times $64$ \times $93、64$ \times $64$ \times $4、8$ \times $8$ \times $93，再经过水平翻转、旋转，选取760张图像块用于训练.

使用Adam优化器进行参数更新，学习率设置为1×$ {10}^{-4} $，所有实验均在NVIDIA GeForce RTX 4060ti和2.5 GHz Intel Core i5-13400 CPU上使用Pytorch框架进行.

将本研究所提方法与8种方法进行对比，如MHF-net^[28]、DBIN^[29]、CNN-FUS^[12]、UAL^[30]、Fusformer^[16]、DCT^[23]、SDAGE^[20]以及EDIP^[15]，所有对比方法均在相同的参数设置和实验环境下进行测试. 本研究从定性结果和定量分析2方面衡量算法的优劣，其中定量分析采用4个评估指标，峰值信噪比(peak signal-to-noise ratio,PSNR)、光谱角映射(spectral angle mapper,SAM)、相对全局误差(error relative to the global absolute sum, ERGAS)和结构相似性(structural similarity index, SSIM). PSNR通过比较原始图像和失真图像的均方误差来衡量图像质量，PSNR越大，表示图像质量越好. SAM用来度量2个光谱向量之间的角度差异，值越小表示2个光谱向量越相似. ERGAS是测量融合结果与全分辨率高光谱图像之间的平均误差和动态范围变化的全局指标，值越小，表示结果越好. SSIM通过比较2个图像在结构、亮度和对比度方面的差异来度量图像相似度，值越接近1表示2个图像越相似.

2.2. CAVE实验结果分析

2.2.1. 定性结果

为了直观地评价融合图像的质量，如图5所示展示了CAVE数据集上的融合结果及其对应的误差图. 误差图是通过计算真实HR-HSI与估计HR-HSI之间的绝对差得到的. GT(ground truth)为参考图像. CNN-FUS在重建图像时存在明显的纹理特征丢失，且与参考图像的差异较大；DBIN和MHF-Net在边界区分上表现不佳，难以清晰地恢复细节. MHF-Net、Fusformer和DCT虽然取得了较为满意的结果，但在细节恢复上仍存在不足，图像质量不尽如人意. SDAGE和EDIP在图像的某些局部区域细节恢复上表现参差不齐，部分区域细节较为清晰，但另一些区域则存在模糊现象. 从融合结果来看，本研究方法表现出更清晰的局部细节；同时，误差图也证实了其重构误差较小.

图 5

图 5 CAVE数据集上的实验结果

Fig.5 Experimental results on CAVE dataset

2.2.2. 定量分析

如表1所示展示了各个方法在CAVE数据集上实验结果的评价指标均值. 本研究方法在4种指标上均取得最优，说明本研究方法在综合考虑图像全局和局部特征、空间和光谱信息方面的先进性. PSNR和SSIM取得最优，表明本研究方法减少了图像重建过程中的失真以及保留了图像视觉感知质量，这得益于局部瓶颈控制单元能够专注于学习局部结构特征，有效抑制冗余特征，避免了不必要的信息干扰，从而提升了对图像细节的捕捉能力. SAM和ERGAS取得最优，反映了本研究方法在保持光谱一致性方面的高效能力，得益于光谱分组注意力能够更好地保留和还原真实的光谱特性，这对于高光谱图像融合至关重要.

表 1 CAVE实验结果的评价指标均值

Tab.1 Mean values of evaluation indicators for results of CAVE experiment

方法	PSNR	SAM	ERGAS	SSIM
MHF-Net	40.08	7.41	2.72	0.970 9
DBIN	42.12	5.34	2.88	0.982 8
CNN-FUS	43.93	3.90	1.24	0.985 7
UAL	44.87	3.28	1.53	0.984 5
Fusformer	44.52	4.12	1.06	0.983 3
DCT	44.41	2.66	0.93	0.987 1
SDAGE	45.32	2.78	0.82	0.989 8
EDIP	44.46	2.59	0.85	0.986 2
本研究算法	45.63	2.57	0.76	0.990 3

2.3. Harvard实验结果分析

2.3.1. 定性结果

如图6所示展示了Harvard数据集上的融合结果及其对应的误差图. MHF-Net方法在细节捕捉上稍显不足. DBIN和UAL虽然能够重建高分辨率空间结构，但在细节恢复上仍有局限，尤其是对于物体精细特征的恢复，CNN-FUS方法则出现了模糊和伪影. Fusformer和DCT对于柱子部分的细节保留尚可，但在建筑顶部的线条处理上稍有欠缺. SDAGE和EDIP在建筑主体结构的完整性上表现较好，但在柱子边缘及顶部线条的细节上不够精细，部分区域存在轻微模糊. 本研究方法在建筑物的边缘清晰度和纹理丰富度上都表现出色，有效地平衡了局部细节和全局结构，提供了更清晰的空间信息和更丰富的光谱信息. 差异图显示，本研究方法的重建误差最小，证明了其在恢复原始HSI细节和减少重建误差方面的优越性.

图 6

图 6 Harvard数据集上的实验结果

Fig.6 Experimental results on Harvard dataset

2.3.2. 定量分析

如表2所示展示了各个方法在Harvard数据集上实验结果的评价指标均值. 本研究方法在4个指标评估中均取得最优，PSNR取得最高，说明本研究方法有效降低了图像重建中的失真程度. ERGAS取得最优，表明模型在融合图像的空间和光谱质量上具有极高的保真度，这得益于本研究设计的空间与光谱联合先验. SSIM取得最优，表明模型在保持图像结构和视觉感知质量方面的优势，更符合人眼对图像质量的感知，这得益于Transformer对全局上下文的深入理解. 以上优势，使得本研究方法在图像融合领域展现出卓越的性能和广泛的应用潜力.

表 2 Harvard实验结果的评价指标均值

Tab.2 Mean values of evaluation indicators for results of Harvard experiment

方法	PSNR	SAM	ERGAS	SSIM
MHF-Net	38.25	6.75	2.80	0.968 8
DBIN	41.41	3.54	1.93	0.974 2
CNN-FUS	40.89	3.13	1.71	0.973 2
UAL	42.84	2.93	1.22	0.980 3
Fusformer	41.19	3.61	1.63	0.981 1
DCT	42.06	2.97	1.11	0.982 6
SDAGE	42.41	2.89	1.27	0.983 4
EDIP	41.93	3.03	1.76	0.979 9
本研究方法	43.57	2.85	1.02	0.984 0

2.4. 真实实验结果分析

如图7所示展示了真实数据集上的融合结果和差异图. 图中，融合结果为20、30、40波段合成的RGB图像. MHF-Net、DBIN和CNN-FUS方法在差异图中暴露出纹理模糊问题，尤其在高频信息复杂的区域差异较大. Fusformer出现了块状伪影. SDAGE在平衡阴影和纹理细节上表现出色，但建筑纹理的清晰度略低. EDIP的建筑主体结构完整，但边缘细节不够锐利. 本研究方法差异图整体残差最小，尤其在光谱敏感区域几乎无颜色偏差，同时，建筑轮廓与地物边界清晰，且无伪影或模糊现象.

图 7

图 7 Pavia University数据集上的实验结果

Fig.7 Experimental results on Pavia University dataset

如表3所示为各个方法在Pavia University数据集上实验结果的评价指标均值. 可以看出，UAL方法在峰值信噪比和相对全局误差上表现最优，这是因为UAL引入退化网络与自适应模块联合学习，可估计特定HSI的退化过程并据此调整恢复策略，从而更好地还原图像细节和结构信息. 然而，其光谱角映射和结构相似性略低于本研究方法的. 具体来看，在光谱角映射方面，UAL未充分挖掘相邻波段之间的关联性，而本研究方法的光谱内部分组注意力机制能更有效地量化波段间的相关程度，从而在光谱信息重建上更具优势. 在结构相似性方面，UAL的融合模块未能充分整合局部与全局特征，其先验学习在局部细节捕捉上存在局限.

表 3 Pavia University实验结果的评价指标均值

Tab.3 Mean values of evaluation indicators for results of Pavia University experiment

方法	PSNR	SAM	ERGAS	SSIM
MHF-Net	31.63	6.27	7.81	0.954 6
DBIN	32.20	3.44	5.67	0.977 1
CNN-FUS	30.65	3.67	5.13	0.975 5
UAL	35.47	3.86	3.36	0.980 8
Fusformer	31.15	5.15	6.85	0.968 1
DCT	30.89	3.58	4.92	0.973 9
SDAGE	33.39	3.46	3.88	0.978 6
EDIP	32.61	3.74	3.52	0.976 3
本研究方法	34.42	3.32	3.43	0.982 1

本研究方法在多个核心指标上实现了最优或接近最优的均衡性能：其SAM为所有方法中最低的，表明光谱畸变最小；SSIM达到最高值，证明融合图像的结构信息保留最完整. 此外，本研究方法的ERGAS与最优值接近，且显著优于其他方法，而PSNR仅次于UAL的，综合性能优于现有方法. 这表明本研究方法在平衡空间细节增强、光谱保真与全局误差控制方面具有显著优势.

在图8的(a)、(b)、(c)子图中，分别对CAVE、Harvard和Pavia University数据集各波段的PSNR进行了可视化对比. 结果显示，本研究方法的PSNR值尽管在部分波段存在波动，但整体上仍领先于大多数对比方法.

图 8

图 8 实验结果各波段PSNR可视化展示

Fig.8 PSNR visualization of experimental results by band

2.5. 消融实验

对提出的网络架构各个部分进行消融实验，结果差异图如图9所示，包括：1)仅以局部瓶颈控制单元作为主干网络；2)仅以Transformer，作为主干网络；3)去除空间与光谱联合先验进行融合实验；4)去除多路聚合网络，仅将最后一层主干网络的输出特征作为融合结果；5)本研究方法.

图 9

图 9 消融实验结果

Fig.9 Results of ablation experiments

在消融实验中，仅使用局部瓶颈控制单元导致图像在全局一致性上表现不佳，边缘和细节区域出现明显误差；仅依赖Transformer，则在局部细节和高频信息区域表现出不足；去除空间与光谱联合先验后，图像的边界出现伪影；缺少多路聚合网络时，图像在多路特征整合上不足，影响了整体视觉质量. 相比之下，本研究方法在差异图上显示出最小的误差，无论是全局结构还是局部细节都与参考图像非常接近，这验证了本研究网络架构中各个组件协同作用的优势，能够实现更准确和高质量的图像融合效果.

如表4所示为消融实验定量分析结果. 可以看出，以上消融结果中，仅使用局部瓶颈控制单元或仅使用Transformer时，虽然能够取得较好的PSNR和SSIM，但在光谱信息的完整性和误差控制方面表现不如完整方法. 去除空间与光谱联合先验会导致光谱特性显著下降，而去除多路聚合网络则会降低图像整体质量. 相比之下，本研究方法在PSNR、SSIM、SAM和ERGAS指标上均表现最佳，证明了各个模块协同作用能够有效提升融合图像的质量和光谱信息的完整性.

表 4 消融实验定量分析

Tab.4 Quantitative analysis of ablation experiments

方法	PSNR	SSIM	SAM	ERGAS
1)	40.21	0.983 4	3.74	3.11
2)	41.88	0.988 3	3.12	2.01
3)	42.71	0.989 7	5.56	3.85
4)	43.67	0.990 4	2.81	1.33
5)	45.32	0.991 3	2.42	0.82

如表5所示展示了不同模块的参数量Params和计算复杂度Flops. 模块A为仅使用局部瓶颈控制单元，参数量和计算复杂度均为最低，因其结构简单且专注于局部特征提取. 模块B为仅使用Transformer，虽能捕捉全局信息，但计算复杂度较高. 模块C为去除空谱联合先验模块，但主干网络融合模块A和B，参数量和计算复杂度均有所增加. 模块D为去除多个残差块，参数量和计算复杂度降低. 模块E为完整网络结构，随着网络结构的完善，参数量和计算复杂度均有所增加.

表 5 各模块参数量和计算复杂度分析

Tab.5 Analysis of parameter quantities and computational complexity for each module

模块	Params/10⁶	Flops/10⁹
A	5.03	19.95
B	5.12	20.67
C	5.26	21.47
D	3.81	15.57
E	5.39	21.63

DOI:10.1016/j.inffus.2022.08.032 [本文引用: 1]

3. 结　语

本研究提出新的高光谱与多光谱图像的融合方法，主干网络采用局部瓶颈控制单元与Transformer并联架构，分别强化局部特征提取和全局上下文理解. 通过空间与光谱联合先验机制，结合光谱分组注意力，精准捕捉图像的空间布局与光谱特性. 多路径聚合网络利用残差块与分组卷积，逐层整合多级特征，实现深度特征融合. 实验表明，该方法在细节保留与光谱准确性方面显著优于多数对比方法，融合效果提升明显. 未来将探索该网络架构在更多应用场景中的潜力，并持续优化算法，以提升其在复杂环境下的适应性和鲁棒性.

参考文献

原文顺序

文献年度倒序

文中引用次数倒序

被引期刊影响因子

[1]

WANG Z, CHEN J, HOI S C H

Deep learning for image super-resolution: a survey

[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2021, 43 (10): 3365- 3387

DOI:10.1109/TPAMI.2020.2982166 [本文引用: 1]

[2]

VIVONE G

Multispectral and hyperspectral image fusion in remote sensing: a survey

[J]. Information Fusion, 2023, 89: 405- 417

[3]

胡明志, 孙俊, 杨彪, 等

基于CNN和Transformer聚合的遥感图像超分辨率重建

[J]. 浙江大学学报: 工学版, 2025, 59 (5): 938- 946

DOI:10.3785/j.issn.1008-973X.2025.05.007 [本文引用: 1]

HU Mingzhi, SUN Jun, YANG Biao, et al

Super-resolution reconstruction of remote sensing image based on CNN and Transformer aggregation

[J]. Journal of Zhejiang University: Engineering Science, 2025, 59 (5): 938- 946

DOI:10.3785/j.issn.1008-973X.2025.05.007 [本文引用: 1]

[4]

HONG D, GAO L, YOKOYA N, et al

More diverse means better: multimodal deep learning meets remote-sensing imagery classification

[J]. IEEE Transactions on Geoscience and Remote Sensing, 2021, 59 (5): 4340- 4354

DOI:10.1109/TGRS.2020.3016820 [本文引用: 1]

[5]

ZHUANG L, NG M K, FU X, et al

Hy-demosaicing: hyperspectral blind reconstruction from spectral subsampling

[J]. IEEE Transactions on Geoscience and Remote Sensing, 2021, 60: 5515815

DOI:10.3785/j.issn.1008-973X.2023.05.002 [本文引用: 1]

[6]

DENG S Q, DENG L J, WU X, et al

PSRT: pyramid shuffle-and-reshuffle transformer for multispectral and hyperspectral image fusion

[J]. IEEE Transactions on Geoscience and Remote Sensing, 2023, 61: 5503715

DOI:10.1109/tgrs.2023.3244750 [本文引用: 1]

[7]

吕鑫栋, 李娇, 邓真楠, 等

基于改进Transformer的结构化图像超分辨网络

[J]. 浙江大学学报: 工学版, 2023, 57 (5): 865- 874,910

LV Xindong, LI Jiao, DENG Zhennan, et al

Structured image super-resolution network based on improved Transformer

[J]. Journal of Zhejiang University: Engineering Science, 2023, 57 (5): 865- 874,910

DOI:10.3785/j.issn.1008-973X.2023.05.002 [本文引用: 1]

[8]

LI S, DIAN R, FANG L, et al

Fusing hyperspectral and multispectral images via coupled sparse tensor factorization

[J]. IEEE Transactions on Image Processing, 2018, 27 (8): 4118- 4130

DOI:10.1016/j.inffus.2018.11.012 [本文引用: 1]

[9]

DIAN R, LI S, FANG L, et al

Multispectral and hyperspectral image fusion with spatial-spectral sparse representation

[J]. Information Fusion, 2019, 49: 262- 270

[10]

PALSSON F, SVEINSSON J R, ULFARSSON M O

Multispectral and hyperspectral image fusion using a 3-D-convolutional neural network

[J]. IEEE Geoscience and Remote Sensing Letters, 2017, 14 (5): 639- 643

DOI:10.1109/LGRS.2017.2668299 [本文引用: 1]

[11]

ZHANG X, HUANG W, WANG Q, et al

SSR-NET: spatial-spectral reconstruction network for hyperspectral and multispectral image fusion

[J]. IEEE Transactions on Geoscience and Remote Sensing, 2020, 59 (7): 5953- 5965

DOI:10.1109/tgrs.2020.3018732 [本文引用: 2]

[12]

DIAN R, LI S, KANG X

Regularizing hyperspectral and multispectral image fusion by CNN denoiser

[J]. IEEE Transactions on Neural Networks and Learning Systems, 2021, 32 (3): 1124- 1135

DOI:10.1109/TNNLS.2020.2980398 [本文引用: 2]

[13]

YU H, LING Z, ZHENG K, et al

Unsupervised hyperspectral and multispectral image fusion with deep spectral-spatial collaborative constraint

[J]. IEEE Transactions on Geoscience and Remote Sensing, 2024, 62: 5534114

DOI:10.1109/tgrs.2024.3472226 [本文引用: 1]

[14]

YAN J, ZHANG K, SUN Q, et al

Spatial-spectral unfolding network with mutual guidance for multispectral and hyperspectral image fusion

[J]. Pattern Recognition, 2025, 161: 111277

DOI:10.1016/j.patcog.2024.111277 [本文引用: 1]

[15]

LI J, ZHENG K, GAO L, et al

Enhanced deep image prior for unsupervised hyperspectral image super-resolution

[J]. IEEE Transactions on Geoscience and Remote Sensing, 2025, 63: 5504218

[本文引用: 2]

[16]

HU J F, HUANG T Z, DENG L J, et al

Fusformer: a transformer-based fusion network for hyperspectral image super-resolution

[J]. IEEE Geoscience and Remote Sensing Letters, 2022, 19: 6012305

[本文引用: 3]

[17]

MA Q, JIANG J, LIU X, et al

Learning a 3D-CNN and Transformer prior for hyperspectral image super-resolution

[J]. Information Fusion, 2023, 100: 101907

DOI:10.1016/j.inffus.2023.101907 [本文引用: 1]

[18]

JIA S, MIN Z, FU X

Multiscale spatial-spectral transformer network for hyperspectral and multispectral image fusion

[J]. Information Fusion, 2023, 96: 117- 129

DOI:10.1016/j.inffus.2023.03.011 [本文引用: 1]

[19]

SUN L, ZHOU J, YE Q, et al

MDC-FusFormer: multiscale deep cross-fusion transformer network for hyperspectral and multispectral image fusion

[J]. IEEE Transactions on Geoscience and Remote Sensing, 2024, 62: 5528914

DOI:10.1109/tgrs.2024.3451551 [本文引用: 1]

[20]

WANG X, ZHANG F, ZHANG K, et al

Learning spatial-spectral dual adaptive graph embedding for multispectral and hyperspectral image fusion

[J]. Pattern Recognition, 2024, 151: 110365

DOI:10.1016/j.patcog.2024.110365 [本文引用: 2]

[21]

LIU S, SHAO T, LIU S, et al

An asymptotic multiscale symmetric fusion network for hyperspectral and multispectral image fusion

[J]. IEEE Transactions on Geoscience and Remote Sensing, 2025, 63: 5503016

[22]

LIU Z, LIN Y, CAO Y, et al. Swin transformer: hierarchical vision transformer using shifted windows [C]// IEEE/CVF International Conference on Computer Vision. Montreal: IEEE, 2021: 9992–10002.

DOI:10.1016/j.inffus.2023.102148 [本文引用: 2]

[23]

MA Q, JIANG J, LIU X, et al

Reciprocal transformer for hyperspectral and multispectral image fusion

[J]. Information Fusion, 2024, 104: 102148

[24]

LIU Z, WANG W, MA Q, et al

Rethinking 3D-CNN in hyperspectral image super-resolution

[J]. Remote Sensing, 2023, 15 (10): 2574

DOI:10.3390/rs15102574 [本文引用: 1]

[25]

ANUL HAQ M, BEN HADJ HASSINE S, MALEBARY S J, et al

3D-CNNHSR: a 3-dimensional convolutional neural network for hyperspectral super-resolution

[J]. Computer Systems Science and Engineering, 2023, 47 (2): 2689- 2705

DOI:10.32604/csse.2023.039904 [本文引用: 1]

[26]

YASUMA F, MITSUNAGA T, ISO D, et al

Generalized assorted pixel camera: postcapture control of resolution, dynamic range, and spectrum

[J]. IEEE Transactions on Image Processing, 2010, 19 (9): 2241- 2253

DOI:10.1109/TIP.2010.2046811 [本文引用: 1]

[27]

CHAKRABARTI A, ZICKLER T. Statistics of real-world hyperspectral images [C]// CVPR 2011. Colorado Springs: IEEE, 2011: 193–200.

[28]

XIE Q, ZHOU M, ZHAO Q, et al. Multispectral and hyperspectral image fusion by MS/HS fusion net [C]// IEEE/CVF Conference on Computer Vision and Pattern Recognition. Long Beach: IEEE, 2019: 1585–1594.

[29]

WANG W, ZENG W, HUANG Y, et al. Deep blind hyperspectral image fusion [C]// IEEE/CVF International Conference on Computer Vision. Seoul: IEEE, 2019: 4149-4158.

[30]

ZHANG L, NIE J, WEI W, et al. Unsupervised adaptation learning for hyperspectral imagery super-resolution [C]// IEEE/CVF Conference on Computer Vision and Pattern Recognition. Seattle: IEEE, 2020: 3070–3079.