浙江大学学报(工学版), 2025, 59(12): 2539-2544 doi: 10.3785/j.issn.1008-973X.2025.12.008

计算机技术

非对称结构的高光谱与激光雷达图像分类模型

李明婉,, 房胜,, 李哲

山东科技大学 计算机科学与工程学院,山东 青岛 266590

Asymmetric structure based hyperspectral and LiDAR image classification model

LI Mingwan,, FANG Sheng,, LI Zhe

College of Computer Science and Engineering, Shandong University of Science and Technology, Qingdao 266590, China

通讯作者: 房胜,男,教授. orcid.org/0009-0002-1078-2184. E-mail:fangsheng@tsinghua.org.cn

收稿日期: 2025-07-15  

基金资助: 山东省自然科学基金资助项目(ZR2024MF113,ZR2022MF325).

Received: 2025-07-15  

Fund supported: 山东省自然科学基金资助项目(ZR2024MF113,ZR2022MF325).

作者简介 About authors

李明婉(2001—),女,硕士生,从事遥感识别与处理研究.orcid.org/0009-0008-7984-8763.E-mail:limingwanwan@163.com , E-mail:limingwanwan@163.com

摘要

针对高光谱图像与激光雷达图像联合分类任务中模态差异显著、信息结构异质的问题,提出非对称双分支建模方法,分别适配主导模态与辅助模态的特征提取需求. 在高光谱分支中,构建融合视觉transformer与卷积神经网络的串联结构,引入中心聚焦的Mamba模块,通过螺旋路径建模上下文增强对中心区域的感知能力,同时结合空间-光谱维度的细粒度优化模块提升特征表达质量. 在激光雷达分支中,采用轻量卷积结构提取结构与高程信息,减少冗余建模并保持尺度对齐. 实验在3个典型遥感数据集上进行,所提方法在整体精度、平均精度与一致性系数等评价指标上均优于现有方法,表现出较强的鲁棒性与泛化能力. 结果表明,差异化建模与区域感知增强机制的协同设计,可显著提升多模态遥感图像分类性能.

关键词: 多模态遥感图像分类 ; 非对称策略 ; 高光谱图像 ; 激光雷达图像 ; Mamba ; ViT-CNN 框架

Abstract

An asymmetric dual-branch modeling method was proposed to address the modality discrepancy and heterogeneous information structures in the joint classification of hyperspectral and LiDAR images. Separate feature extractors were designed for the dominant and auxiliary modalities. In the hyperspectral branch, a serial structure combining a vision transformer and a convolutional neural network was constructed. A central-focus Mamba module was introduced to enhance perception of central regions through modeling context via spiral paths. A spatial-spectral refinement module was applied to improve feature expression quality via fine-grained optimization. In the LiDAR branch, a lightweight convolutional structure was used to extract structural and elevation information, reducing redundant modeling while maintaining scale alignment. Experiments were conducted on three benchmark remote sensing datasets. Superior performance was achieved in terms of overall accuracy, average accuracy, and Kappa coefficient, demonstrating strong robustness and generalization ability. Results show that classification performance is significantly improved by the coordinated design of modality-specific modeling and region-aware enhancement mechanisms.

Keywords: multimodal remote sensing image classification ; asymmetric strategy ; hyperspectral image ; LiDAR image ; Mamba ; ViT-CNN framework

PDF (2853KB) 元数据 多维度评价 相关文章 导出 EndNote| Ris| Bibtex  收藏本文

本文引用格式

李明婉, 房胜, 李哲. 非对称结构的高光谱与激光雷达图像分类模型. 浙江大学学报(工学版)[J], 2025, 59(12): 2539-2544 doi:10.3785/j.issn.1008-973X.2025.12.008

LI Mingwan, FANG Sheng, LI Zhe. Asymmetric structure based hyperspectral and LiDAR image classification model. Journal of Zhejiang University(Engineering Science)[J], 2025, 59(12): 2539-2544 doi:10.3785/j.issn.1008-973X.2025.12.008

在遥感图像分类任务中,联合利用高光谱图像(hyperspectral image, HSI)和激光雷达(LiDAR)数据已成为提升地物识别精度的重要手段. HSI具备丰富的光谱信息,能有效区分光谱差异明显的地物;LiDAR数据则提供关键的高程和结构信息,适用于复杂地表的形状补充. 然而,2类数据在信息维度与表达能力上存在差异,使得有效建模差异特征成为研究重点[1-3].

现有的高光谱与激光雷达(HSI-LiDAR)分类方法在特征建模策略上主要可分为2类. 一类采用对称建模策略,即为不同模态构建结构对称或相似的深度网络,用以提取各自特征,典型方法包括ENDNet[4]和S2ENet[5]. 此类策略有助于在后续阶段实现模态间特征的自然协同与融合,然而由于未充分考虑模态之间的特性差异,容易导致冗余建模及信息特性与结构设计之间的不匹配,从而限制了模型性能的进一步提升. 另一类则采用非对称建模策略,针对信息主导模态(HSI)引入更复杂的结构设计,而对辅助模态(LiDAR)则采用轻量建模方法,如MFT[6]和HCTNet[7]. HSI具有丰富的光谱与空间信息,具备更强的特征表达能力;相比之下,LiDAR数据相对简单,主要提供高程与结构信息,对建模结构的需求较低. 非对称建模策略正是基于这类信息差异,通过为不同模态设计差异化的建模结构,有效缓解冗余建模问题,并缓和信息特性与结构设计间的冲突. 基于上述分析,本研究采用以HSI为主导的非对称建模策略,对高光谱与激光雷达数据进行联合建模与分类,以充分发挥各模态在信息表达上的优势互补.

在以HSI为主导的非对称建模方法中,融合卷积神经网络(convolutional neural network, CNN)与视觉transformer(vision transformer, ViT)的结构受到了广泛关注,并在多模态遥感分类任务中表现出良好的性能[8-9]. 这种结构融合得益于CNN在局部空间特征提取方面的优势,以及ViT在全局上下文建模方面的能力. 当前主流方法普遍采用CNN-ViT串联结构[10-11],先由CNN提取局部特征,再由ViT建模全局关系,使得全局建模能够在局部特征空间中展开. 然而,该结构在感知特定区域方面存在不足,缺乏对关键区域的关注能力. 因此,在以中心像素分类为目标的HSI-LiDAR联合分类任务中,CNN-ViT结构在实现中心区域的有效建模与感知上有所不足[12].

针对上述问题,本研究提出强调中心感知的非对称建模策略. 在HSI分支中,构建了ViT-CNN结构:在特征建模初期引入ViT,以融合全局上下文信息,不仅通过差异化的上下文编码增强了对中心区域的感知能力,也为后续CNN的特征学习提供了全局先验,丰富了特征表达空间. 在LiDAR分支中,采用轻量级卷积模块(simple convolution, SimpleConv),专注于高程与结构信息的提取. 该策略通过为2个模态设计差异化的特征提取结构,不仅提升了对各自建模需求的适配性,从而缓解了建模冗余与冲突问题;同时强化了高光谱分支的特征表达能力,增强了对中心区域的感知能力,从而有效提升了分类性能.

为了实现差异化上下文编码,在ViT的设计中引入中心聚焦Mamba模块(central-focus Mamba, CFMamba),其核心机制为中心聚焦选择性扫描机制(central-focus selective scan, CFSS),由全向扫描(omnidirectional selective scan, OSS)[13]与螺旋扫描(spiral selective scan, SSS)组成,兼顾全局感知能力与对中心区域的重点关注. 在此基础上,进一步提出基于CNN的空间-光谱细化模块(spatial-spectral refinement module, SSRM),通过多维度的细粒度优化,提升特征表达的质量与最终分类性能.

1. 方法论

1.1. 整体架构与分支模块

本研究构建了非对称双分支架构(见图1),分别对HSI与LiDAR图像进行建模,突出对不同模态的差异化特征提取策略. HSI作为语义主导模态,包含高维光谱信息与细粒度空间结构,是实现精确分类的核心依据;LiDAR主要提供结构与高程信息,作为辅助模态,用于补充场景特征. 因此,本研究针对2类模态设计了表达能力各异的特征提取模块.

图 1

图 1   基于非对称结构的整体框架(高光谱模态采用ViT-CNN结构建模)

Fig.1   Overall framework based on asymmetric structure with hyperspectral modality modeled by ViT-CNN structure


考虑到CNN-ViT结构(见图2(a))在辨别性特征方面提取能力的不足,在HSI分支中,提出ViT-CNN结构(见图2(b)),首先由ViT建模全局语义,再由CNN细化局部细节. 该结构有助于在建模初期引入全局上下文信息,为后续的局部特征学习提供丰富的信息支撑,从而实现更具判别性的特征表达. 其中,ViT部分引入CFMamba模块,结合中心像素分类任务的特点,通过差异化的上下文建模增强对中心区域的表征能力,同时捕捉像素间的全局依赖关系,提升对复杂空间结构的感知能力;CNN部分则引入SSRM,从空间与光谱2个维度细化特征,增强对边缘与细节信息的感知能力. LiDAR分支采用SimpleConv结构,使用$ 3 \times 3 $卷积块提取特征. 考虑到LiDAR数据通常为单波段高程图,信息维度有限,采用简单的$ 3 \times 3 $卷积块不仅能避免建模冗余,还有助于保持与HSI特征在空间尺度上的对齐,从而提升后续特征融合的有效性[6].

图 2

图 2   CNN-ViT结构与ViT-CNN结构对比

Fig.2   Comparison between CNN-ViT and ViT-CNN architectures


在多模态融合方面,采用多层通道拼接的方式对2类模态的特征进行对齐与融合[14],以充分整合来自HSI与LiDAR的数据信息,为最终分类提供更具判别性的联合特征表示.

1.2. CFMamba及其核心模块CFSS

为了应对HSI在建模过程中对全局感知和中心区域建模的双重需求,在Mamba架构[15]基础上设计了CFMamba模块(见图3),其核心为CFSS子模块(见图4). CFSS子模块由2部分构成:OSS模块在8个典型方向(包括水平、垂直、主/副对角线及其反向)上实现像素间长距离交互,建模丰富的空间上下文信息;SSS模块以图像中心为参考,依据像素与中心像素的距离进行差异化建模,突出中心区域判别特征. 两者协同作用,全面提升了模型对全局结构与中心区域的感知与表达能力,有效适配HSI-LiDAR分类中以中心像素为分类目标的任务需求.

图 3

图 3   HSI分支(第i层)中ViT-CNN结构的具体实现

Fig.3   Detailed implementation of ViT-CNN in HSI branch of layer i


图 4

图 4   CFSS结构和SSS具体过程示意图

Fig.4   Illustration of CFSS structure and SSS process


具体而言,对于第i层(i=1, 2)的输入图像块$ {\boldsymbol{I}}_{i}\in {\mathbf{R}}^{{P}_{i-1}\times {P}_{i-1}\times {C}_{i-1}} $,CFSS 模块的处理流程如下:

$ \left.\begin{split} &\boldsymbol{S}_i^{\mathrm{cw}}, \boldsymbol{S}_i^{\mathrm{acw}}=\phi_i^{\mathrm{SS}}\left(\boldsymbol{I}_i\right), \\&\boldsymbol{S}_i^1, \boldsymbol{S}_i^2, \cdots, \boldsymbol{S}_i^8=\phi_i^{\mathrm{OS}}\left(\boldsymbol{I}_i\right), \\&\boldsymbol{O}_i = g_i^{\mathrm{cw}} \phi_i^{\mathrm{S} 6} \left(\boldsymbol{S}_i^{\mathrm{cw}}\right) + g_i^{\mathrm{acw}} \phi_i^{\mathrm{S} 6}\left(\boldsymbol{S}_i^{\mathrm{acw}}\right) + \sum_{k=1}^8 g_i^k \phi_i^{\mathrm{S} 6} \left(\boldsymbol{S}_i^k\right). \end{split} \right\}$

式中:$ {\phi }_{i}^{\text{SS}} $为螺旋扫描;$ {\phi }_{i}^{\text{OS}} $为全向扫描;$ {\boldsymbol{S}}_{i}^{*}\in {\bf{R}}^{{N}_{i-1}\times {C}_{i-1}} $为扫描后得到的序列,其中$ \boldsymbol{*} $=cw,acw和1, 2,···, 8,分别表示螺旋扫描的顺时针方向、逆时针方向和全向扫描的8个典型方向;$ {N}_{i-1}={P}_{i-1}\times {P}_{i-1} $$ {\phi }_{i}^{\text{S6}} $代表送入共享参数的S6模块进行依赖关系建模;$ {g}_{i}^{*} $为可学习权重以融合多路径输出;$ {\boldsymbol{O}}_{i}\in {\bf{R}}^{{N}_{i-1}\times {C}_{i-1}} $为CFSS的输出. 该输出序列具有对全局上下文信息、中心区域的感知能力,增强了对复杂数据的建模能力.

1.3. SSRM

在HSI分支中,CFMamba模块显著增强了空间上下文建模能力. 本研究提出SSRM(见图3(b)),以细化CFMamba提取的特征. SSRM采用双分支结构,分别从空间和光谱角度提取互补特征,增强特征的多样性和完整性[16].

在空间分支中,采用$ 3\times 3 $卷积块($ \text{Con}{\text{v}}_{3\times 3} $)提取空间信息;在光谱分支中,采用$ 1\times 1 $卷积($ \text{Con}{\text{v}}_{1\times 1} $)建模通道间的依赖关系,以突出关键光谱特征并抑制冗余信息. 设第i层CFMamba输出特征为$ {\boldsymbol{F}}_{i} $,2分支的处理过程可以表述为

$ \left.\begin{split} {\boldsymbol{F}}_{i}^{\text{Spa}}=&\text{Con}{\text{v}}_{3\times 3}\left({\boldsymbol{F}}_{i}\right), \\{\boldsymbol{F}}_{i}^{\text{Spe}}=& {\phi }_{\text{ds}}\left(\text{Con}{\text{v}}_{1\times 1}\right({\boldsymbol{F}}_{i}\left)\right).\end{split}\right\} $

式中:$ {\boldsymbol{F}}_{i}^{\text{Spa}} $$ {\boldsymbol{F}}_{i}^{\text{Spe}} $分别表示空间与光谱分支的输出,$ {\boldsymbol{F}}_{i}^{\text{Spa}}\in {\bf{R}}^{{P}_{i}\times {P}_{i}\times {C}_{i}},{\boldsymbol{F}}_{i}^{\text{Spe}}\in {\bf{R}}^{{P}_{i}\times {P}_{i}\times {C}_{i}} $$ {\phi }_{\text{ds}} $为下采样操作.

由于2分支在语义信息上的互补性,SSRM引入相互增强的融合策略融合空间与光谱特征. 为2分支引入不同的相互增强方式,具体增强融合过程可以表示为

$ \left.\begin{split} &\widehat{\boldsymbol{F}}_i^{\mathrm{Spa}}=\phi_{\mathrm{CA}}\left(\boldsymbol{F}_i^{\mathrm{Spa}}, \boldsymbol{F}_i^{\mathrm{Spe}}, \boldsymbol{F}_i^{\mathrm{Spe}}\right)+\boldsymbol{F}_i^{\mathrm{Spa}}, \\&\widehat{\boldsymbol{F}}_i^{\mathrm{Spe}}=\boldsymbol{F}_i^{\mathrm{Spa}}+\boldsymbol{F}_i^{\mathrm{Spe}}, \\&\boldsymbol{H}_i=\phi_{\text {fusion }}\left(\widehat{\boldsymbol{F}}_i^{\mathrm{Spa}}, \widehat{\boldsymbol{F}}_i^{\mathrm{Spe}}\right) .\end{split}\right\}$

式中:$ {\phi }_{\text{CA}} $表示交叉注意力模块;$ {\phi }_{\text{fusion}} $表示通道拼接融合操作;$ {\widehat{\boldsymbol{F}}}_{i}^{\text{Spa}}、{\widehat{\boldsymbol{F}}}_{i}^{\text{Spe}} $分别为增强后的空间与光谱特征,$ {\widehat{\boldsymbol{F}}}_{i}^{\text{Spa}},{\widehat{\boldsymbol{F}}}_{i}^{\text{Spe}}\in {\bf{R}}^{{P}_{i}\times {P}_{i}\times {C}_{i}} $. 增强融合方法有效整合空间与光谱信息,进一步提升了模型对复杂HSI的建模能力.

2. 实验与分析

2.1. 数据集与实验设置介绍

选用3个广泛用于HSI-LiDAR联合分类任务的典型数据集:Houston2013、Augsburg 和MUUFL[17-18]数据集,数据集详情如表1所示.

表 1   实验数据集概览

Tab.1  Overview of experimental datasets

数据集图像尺寸HSI波段数空间分辨率
Houston2013$ 349\times 1\;905 $1442.5 m
Augsburg$ 332\times 485 $18030 m
MUUFL$ 325\times 220 $640.54 m$\times $1.0 m

新窗口打开| 下载CSV


实验在基于PyTorch的平台上进行,硬件为配备NVIDIA RTX A6 000 GPU的服务器. 训练使用AdamW优化器,初始学习率为$ 8\times 1{0}^{-4} $,权重衰减系数为0.9,损失函数为交叉熵损失函数. 训练轮数为200轮,批量大小为64,输入图像的尺寸为$ 9\times 9 $像素.

为了全面评估模型性能,分别从定量与定性2个层面与多种先进方法进行对比分析. 定量分析部分采用4种常用指标:每类精度、整体精度(OA)、平均精度(AA)以及Kappa 系数;定性分析部分则通过可视化全图预测结果,直观展示所提方法的分类表现. 为了节省篇幅并突出本研究方法的有效性,仅呈现3个数据集在OA、AA、Kappa指标上的定量实验结果,以及在Houston2013数据集上的定性可视化结果.

2.2. 实验结果分析

2.2.1. 对比方法介绍

为了全面验证所提方法的有效性,选取多种具有代表性的先进方法进行对比,涵盖对称与非对称结构,以及CNN、ViT和CNN-ViT这3类架构. 基于CNN的方法如下:1)ENDNet[4],采用编码器-解码器结构并引入重构损失以增强特征表达能力;2)S2ENet[14],在融合前分别强化HSI的空间特征与LiDAR的光谱信息;3)HybridSN[19],先通过三维卷积提取局部光谱-空间特征,再使用二维卷积以降低计算复杂度. 基于ViT的方法如下:1)SpectralFormer[20]通过通道嵌入构建ViT tokens,以建模光谱维度的全局依赖关系;2)MFT[6]将HSI映射为一系列tokens,将LiDAR作为class token引入非对称建模机制. 基于CNN-ViT的方法如下:1)S2EFT[5]在SpectralFormer的基础上引入空间注意力模块以提升空间建模能力;2)HCTNet[7]对HSI与LiDAR分别采用三维和二维卷积提取特征,随后通过ViT进一步建模;MHST[9]并行设置CNN与ViT分支,以融合多尺度的局部与全局特征. 其中,MFT、S2EFT和HCTNet采用非对称结构,其余方法均为对称建模策略.

2.2.2. 对比实验结果的定量与定性分析

在3个数据集上的定量实验结果(见表2)表明,本研究提出的方法对分类性能具有显著提升作用. 现有对比方法在不同空间分辨率与地物复杂度条件下表现差异较大,而本方法通过为HSI分支引入ViT模块增强语义建模、为LiDAR分支保留轻量CNN提取结构特征,既提升了主模态特征的判别能力,又充分利用了辅助模态的信息补充,从而在各数据集上均取得最优且稳定的结果. 另一方面,本研究提出的ViT-CNN方法显著优于对比方法. ViT在特征提取初期引入全局上下文,为后续CNN提供丰富的建模空间;SSRM模块进一步从空间与光谱维度细化特征,构建更全面、更鲁棒的多维表示. 在定性分析方面,如图5所示,本研究在空间连续性和边界刻画方面同样展示出明显的优势:不仅有效抑制了“椒盐”噪声,还能更准确地描绘地物边界,实现对复杂区域的精准感知.

表 2   3个数据集上不同方法的定量对比分析

Tab.2  Quantitative comparison of different methods on three datasets

模型结构模型名称Houston2013MUUFLAugsburg
OA/%AA/%Kappa/%OA/%AA/%Kappa/%OA/%AA/%Kappa/%
CNNENDNet88.0587.8687.0780.7580.3375.2465.8354.1455.14
HybridSN86.2287.4085.1762.4658.3654.2558.7353.8546.63
S2ENet94.5995.4094.1679.2379.7273.5774.7566.2066.14
ViTSpectralFormer69.3370.6666.8976.3476.1269.9439.7653.0928.94
MFT92.3193.4291.7073.0473.4666.5371.5465.8162.61
CNN-ViTS2EFT86.9486.3085.8279.1975.1373.0762.5757.1949.63
HCTNet94.7295.6894.3074.5273.4267.9373.9466.6465.29
MHST94.2295.1893.7576.8577.2570.7166.5466.5556.95
ViT-CNN本研究方法97.6097.9797.4183.9584.8379.4775.4767.9767.18

新窗口打开| 下载CSV


图 5

图 5   Houston2013数据集上不同方法生成的分类图

Fig.5   Classification maps generated by different methods on Houston2013 dataset


2.3. 消融实验

在Houston2013数据集上开展消融实验,以验证所提出模块与方法的有效性.

2.3.1. 非对称策略和ViT-CNN结构

表3所示,所提出的非对称结构在OA、AA 和Kappa系数这3项指标上均取得最优结果,表明针对主导模态与辅助模态分别设计特征提取器,能够显著提升分类性能. 如表4所示,在对HSI分支架构的消融实验中,ViT-CNN在所有配置下也均取得最优性能. 其关键优势在于:ViT模块在特征建模初期引入全局上下文,有助于构建具有较强判别性的特征空间,有利于后续SSRM模块对特征进一步细化. 全局建模与局部细化的有机结合,有效增强了整体分类能力.

表 3   非对称策略消融实验

Tab.3  Ablation study of asymmetric strategy

HSI分支LiDAR分支OA/%AA/%Kappa/%
ViT-CNNViT-CNN96.5697.1996.29
CNNViT-CNN95.8596.6495.51
ViT-CNNCNN97.6097.9797.41

新窗口打开| 下载CSV


表 4   HSI分支架构(ViT-CNN架构)消融实验

Tab.4  Ablation study of HSI branch architecture (ViT-CNN architecture)

HSI分支架构OA/%AA/%Kappa/%
先CNN后ViT93.3694.4392.82
CNN与ViT并行95.7596.4495.41
先ViT后CNN97.6097.9797.41

新窗口打开| 下载CSV


2.3.2. CFMamba模块与SSRM

表5所示为 CFMamba与SSRM模块消融实验. 第1行显式了将CFMamba替换为标准ViT编码器后的性能变化. 可以看出,引入CFMamba后,所有综合指标均有所提升,其多路径扫描策略不仅能够建模像素间的长程依赖关系,还能强化对中心区域的感知能力,从而有效增强特征表达能力. 随后,针对SSRM的空间–光谱细化机制设计了3组对比实验,分别将SSRM替换为ResNet18、仅保留空间分支以及仅保留光谱分支(见表5第2~4行). 结果显示,采用双分支结构的SSRM表现最优,验证了从空间与光谱2个维度提取互补特征能够构建更具鲁棒性与判别力的特征表示,从而显著提升分类效果.

表 5   CFMamba与SSRM模块消融实验

Tab.5  Ablation study of CFMamba and SSRM

CFMambaSSRMOA/%AA /%Kappa /%
空间分支光谱分支
×95.3596.1794.98
××94.5195.4194.08
×97.0297.5696.78
×96.0996.7895.78
97.6097.9797.41

新窗口打开| 下载CSV


3. 结 语

针对HSI-LiDAR融合分类中模态差异显著的问题,提出基于非对称双分支结构的特征建模方法. HSI分支采用ViT-CNN结构,引入CFMamba模块实现全局建模与中心感知,结合SSRM模块进行空间-光谱细化;LiDAR分支采用轻量卷积结构SimpleConv,提取结构特征并保持尺度一致性. 实验证明,该方法在多个数据集上均取得优异且稳定的分类性能,消融实验进一步验证了各模块的有效性. 总体而言,本方法实现对多模态差异特征的精准建模与中心区域感知,能有效提升遥感图像分类性能,为解决HSI-LiDAR联合分类难题提供了一种有效的新思路. 不过,模型当前的复杂度仍有进一步优化的空间,后续将重点研究如何平衡性能与效率.

参考文献

SONG R, FENG Y, CHENG W, et al

BS2T: bottleneck spatial–spectral transformer for hyperspectral image classification

[J]. IEEE Transactions on Geoscience and Remote Sensing, 2022, 60: 5532117

[本文引用: 1]

JIA S, WANG Y, JIANG S, et al

A center-masked transformer for hyperspectral image classification

[J]. IEEE Transactions on Geoscience and Remote Sensing, 2024, 62: 5510416

[本文引用: 1]

ZHAO S, CHEN H, ZHANG X, et al

RS-mamba for large remote sensing image dense prediction

[J]. IEEE Transactions on Geoscience and Remote Sensing, 2024, 62: 5633314

[本文引用: 1]

FANG S, LI K, LI Z

S2ENet: spatial–spectral cross-modal enhancement network for classification of hyperspectral and LiDAR data

[J]. IEEE Geoscience and Remote Sensing Letters, 2021, 19: 6504205

[本文引用: 2]

GU A, DAO T. Mamba: Linear-time sequence modeling with selective state spaces [EB/OL]. (2024-05-31)[2025-7-11]. https://arxiv.org/abs/2312.00752.

[本文引用: 1]

WANG X, ZHU J, FENG Y, et al

MS2CANet: multiscale spatial–spectral cross-modal attention network for hyperspectral image and LiDAR classification

[J]. IEEE Geoscience and Remote Sensing Letters, 2024, 21: 5501505

[本文引用: 1]

GADER P, ZARE A, CLOSE R, et al. MUUFL Gulfport hyperspectral and LiDAR airborne data set: REP-2013-570 [R]. Gainesville, FL: University of Florida, 2013.

[本文引用: 1]

DU X, ZARE A. Technical report: scene label ground truth map for MUUFL gulfport data set [EB/OL]. (2017-04-17)[2025-07-15]. http://ufdc.ufl.edu/IR00009711/00001.

[本文引用: 1]

ROY S K, KRISHNA G, DUBEY S R, et al

HybridSN: exploring 3-D–2-D CNN feature hierarchy for hyperspectral image classification

[J]. IEEE Geoscience and Remote Sensing Letters, 2020, 17 (2): 277- 281

DOI:10.1109/LGRS.2019.2918719      [本文引用: 1]

HONG D, HAN Z, YAO J, et al

SpectralFormer: rethinking hyperspectral image classification with transformers

[J]. IEEE Transactions on Geoscience and Remote Sensing, 2021, 60: 5518615

[本文引用: 1]

HONG D, GAO L, YOKOYA N, et al

More diverse means better: multimodal deep learning meets remote-sensing imagery classification

[J]. IEEE Transactions on Geoscience and Remote Sensing, 2021, 59 (5): 4340- 4354

DOI:10.1109/TGRS.2020.3016820      [本文引用: 1]

HUANG J, ZHANG Y, YANG F, et al

Attention-guided fusion and classification for hyperspectral and LiDAR data

[J]. Remote Sensing, 2024, 16 (1): 94

LI H, GHAMISI P, SOERGEL U, et al

Hyperspectral and LiDAR fusion using deep three-stream convolutional neural networks

[J]. Remote Sensing, 2018, 10 (10): 1649

DOI:10.3390/rs10101649      [本文引用: 1]

HONG D, GAO L, HANG R, et al

Deep encoder-decoder networks for classification of hyperspectral and LiDAR data

[J]. IEEE Geoscience and Remote Sensing Letters, 2020, 19: 5500205

[本文引用: 2]

FENG Y, ZHU J, SONG R, et al

S2EFT: spectral-spatial-elevation fusion transformer for hyperspectral image and LiDAR classification

[J]. Knowledge-Based Systems, 2024, 283: 111190

DOI:10.1016/j.knosys.2023.111190      [本文引用: 2]

ZHANG Y, XU S, HONG D, et al

Multimodal transformer network for hyperspectral and LiDAR classification

[J]. IEEE Transactions on Geoscience and Remote Sensing, 2023, 61: 5514317

[本文引用: 3]

ZHAO G, YE Q, SUN L, et al

Joint classification of hyperspectral and LiDAR data using a hierarchical CNN and transformer

[J]. IEEE Transactions on Geoscience and Remote Sensing, 2022, 61: 5500716

[本文引用: 2]

XUE Z, TAN X, YU X, et al

Deep hierarchical vision transformer for hyperspectral and LiDAR data classification

[J]. IEEE Transactions on Image Processing, 2022, 31: 3095- 3110

DOI:10.1109/TIP.2022.3162964      [本文引用: 1]

NI K, WANG D, ZHENG Z, et al

MHST: multiscale head selection transformer for hyperspectral and LiDAR classification

[J]. IEEE Journal of Selected Topics in Applied Earth Observations and Remote Sensing, 2024, 17: 5470- 5483

DOI:10.1109/JSTARS.2024.3366614      [本文引用: 2]

ZHANG J, MENG Z, ZHAO F, et al

Convolution transformer mixer for hyperspectral image classification

[J]. IEEE Geoscience and Remote Sensing Letters, 2022, 19: 6014205

[本文引用: 1]

/