层次型非线性子空间字典学习

doi:10.3785/j.issn.1008-973X.2022.06.013

层次型非线性子空间字典学习

周国华^,, 卢剑伟, 倪彤光, 胡学龙

1. 常州工业职业技术学院信息工程学院，江苏常州 213164

2. 常州大学计算机与人工智能学院，江苏常州 213164

3. 扬州大学信息工程学院，江苏扬州 225127

Hierarchical nonlinear subspace dictionary learning

ZHOU Guo-hua^,, LU Jian-wei, NI Tong-guang, HU Xue-long

1. Department of Information Engineering, Changzhou Vocational Institute of Industry Technology, Changzhou 213164, China

2. School of Computer Science and Artifical Intelligence, Changzhou University, Changzhou 213164, China

3. College of Information Engineering, Yangzhou University, Yangzhou 225127, China

收稿日期: 2021-07-27

基金资助:

国家自然科学基金资助项目（61806026）; 江苏省教育厅未来网络科研基金资助项目（FNSRFP-2021-YB-36）; 常州市科技支撑社会发展资助项目（CE20215032）; 江苏省高职院校教师专业带头人高端研修资助项目（2020GRGDYX059）

Received: 2021-07-27

Fund supported:

国家自然科学基金资助项目（61806026）;江苏省教育厅未来网络科研基金资助项目（FNSRFP-2021-YB-36）;常州市科技支撑社会发展资助项目（CE20215032）;江苏省高职院校教师专业带头人高端研修资助项目（2020GRGDYX059）

作者简介 About authors

周国华（1977—），男，副教授，从事智能学习、模式识别研究.orcid.org/0000-0001-8512-4499.E-mail：tiddyddd@sina.com.cn , E-mail：tiddyddd@sina.com.cn

摘要

为了提高遥感图像场景分类的准确率，提出层次型非线性子空间字典学习(HNSDL)方法. 用所提方法训练多层网络模型学习多层非线性变换. 将遥感图像投影到子空间中，构建稀疏编码和投影编码的局部信息保持项，在保持局部结构信息的同时最小化样本的类内差异，增强模型的分类识别能力. 在模型目标式求解中，使用交替学习算法求解子空间和字典的联合学习任务，使所有参数同时达到最优解. 在Ucmerced、Google和WHU-RS数据集上进行实验设计和测试，结果表明所提方法在遥感图像的多种场景分类上均表现出较高的分类准确率.

关键词： 遥感图像分类 ; 稀疏表示 ; 子空间学习 ; 字典学习

Abstract

A hierarchical nonlinear subspace dictionary learning (HNSDL) method was proposed to improve the accuracy of remote sensing image scene classification. HNSDL trained a multi-layer network model to learn a series of hierarchical nonlinear transformations. The remote sensing images were projected into a series of subspaces, and the local information preserved terms of sparse coding and projection coding were constructed in the subspaces. By preserving the local structure information, the intra-class difference of samples was minimized, and the classification and recognition ability was enhanced. To solve the joint learning task of subspace and dictionary, the alternating optimization algorithm was adopted the objective solution of HNSDL, so that the optimal solution of all parameters were obtained at the same time. Extensive experiments results which were designed and tested on the Ucmerced, Google and WHU-RS data sets showed that the proposed method had high classification accuracy in a variety of scene classifications of remote sensing images.

Keywords： remote sensing image classification ; sparse representation ; subspace learning ; dictionary learning

PDF (1163KB) 元数据多维度评价相关文章导出 EndNote| Ris| Bibtex 收藏本文

本文引用格式

周国华, 卢剑伟, 倪彤光, 胡学龙. 层次型非线性子空间字典学习. 浙江大学学报(工学版)[J], 2022, 56(6): 1159-1167 doi:10.3785/j.issn.1008-973X.2022.06.013

ZHOU Guo-hua, LU Jian-wei, NI Tong-guang, HU Xue-long. Hierarchical nonlinear subspace dictionary learning. Journal of Zhejiang University(Engineering Science)[J], 2022, 56(6): 1159-1167 doi:10.3785/j.issn.1008-973X.2022.06.013

基于遥感图像的自动场景分类有重要的应用价值^[1-4]. 遥感图像的场景分类通常基于机器学习的监督学习方法，如支持向量机、马尔可夫随机场、随机森林等^[5-7]. 这些方法常忽略图像中隐藏的稀疏信息和空间信息，因此分类结果往往不令人满意^[8]. 遥感图像还有类内差异大的特点. 在不同的图像采集条件下，由于植被组成、土壤湿度和地形等不同，同类别的遥感图像差异可能很大；由于季节性、照明条件和太阳角度的变化，同一片土地覆盖类型的遥感图像也会呈现明显的差异. 随着深度学习的深入研究，基于深度模型的遥感图像场景分类研究日益兴起. Yu等^[9]提出双线性卷积神经网络模型，使用轻量级卷积神经网络来提取深度和抽象的图像特征. Yang等^[10]提出基于深度学习的分类框架，该框架采用深度学习分类器为图像创建场景类别的初始判断，根据从图像中检测到的特定于类别的特征对象确定场景类别. 王协等^[11] 提出基于多尺度学习与深度卷积神经网络，基于残差网络构建100层编码网络，并利用膨胀卷积实现特征图像的多尺度学习.

深度学习在遥感图像分类中虽应用潜力巨大，但也面临新的挑战：1）遥感图像包含大量信息，会消耗深度学习模型中数百个频带的神经元；2）训练动态学习模型常需要大量标注样本，在新场景中，这样的操作不仅困难而且耗时. 字典学习成为解决这类问题的有效方法^[12-13]. Xu等^[14] 使用字典学习去除遥感图像中的云区，能够恢复被薄云、厚云或云影污染的图像. Fwrraris等^[15]提出基于耦合字典学习的多模态遥感图像间无监督变化检测方法. Wang等^[16]提出改进的基于粒子群优化的在线词典学习方法，该方法在噪声抑制方面有较好的效果. Wang等^[17]提出基于多维协同相关的稀疏重建模型和协同稀疏模型，用于遥感图像的稀疏重建. 这些方法在样本的原始空间进行字典学习，实际的应用场景均有局限，原因如下. 1）遥感图像的高维特性使得算法复杂性随着维数的增加而增加^[18]；2）遥感图像的高维特征存在冗余特征信息，常规的降维方法和字典学习作为独立阶段执行，无法保留数据的最佳分类信息^[19-20].

本研究提出层次型非线性子空间字典学习(hierarchical nonlinear subspace dictionary learning, HNSDL)方法. 受多层字典学习的启发，HNSDL使用层次型非线性方法将数据样本投影到子空间，实现数据降维. 为了提高模型的辨识能力，在学习过程中引入稀疏编码的局部结构约束项. 在多个真实遥感图像数据集上进行实验设计和测试.

1. 相关知识

给定数据集 ${\boldsymbol{X}} = [{{\boldsymbol{x}}_1}, \cdots,{{\boldsymbol{x}}_N}]$包含N个训练样本，设字典矩阵 ${\boldsymbol{D}} = [{{\boldsymbol{d}}_1}, \cdots,{{\boldsymbol{d}}_K}]$包含K个原子， ${\boldsymbol{A}} =$ $ [{{\boldsymbol{a}}_1}, \cdots,{{\boldsymbol{a}}_N}]$为字典D上的稀疏编码矩阵. 数据集X的字典学习问题可以转化为矩阵D中原子的线性表示，样本x上的稀疏编码a的求解式为

(1) $ \left. \begin{aligned} &\mathop {\min }\limits_{} \,\left\| {\boldsymbol{a}} \right\|_0^{},\\ & {\text{s}}{\text{.t}}{\text{.}}\,\,{\boldsymbol{x}} = {\boldsymbol{Da}}. \end{aligned}\right\} $

式(1)的求解涉及NP-hard问题，很难获得稀疏编码a对应的解，为此引入一阶范数，将式(1)替换为

(2) $ \left.\begin{aligned} &\mathop {\min }\limits_{}\, \left\| {\boldsymbol{a}} \right\|_1^{}, \\ & {\text{s}}{\text{.t}}{\text{.}}\,\,{\boldsymbol{x}} = {\boldsymbol{Da}}. \end{aligned}\right\} $

Liu等^[21]证明，在解足够稀疏的情况下，式(2)的解等同于式(1)的解. 使用最小化经验损失函数，字典学习和稀疏表示进一步表示为

(3) $ \mathop {\min }\limits_{{\boldsymbol{D}},{\boldsymbol{A}}} \,\left\| {{{X}} - {\boldsymbol{DA}}} \right\|_2^2 + \lambda {\left\| {\boldsymbol{A}} \right\|_1} . $

式中： $ \lambda $为大于0的实数. 式(3)第1项为重构项，样本矩阵可以通过稀疏矩阵A和字典D重构；第2项为稀疏项，功能是保证A的稀疏性. 得到A、D的最优解后，对于测试样本y，求其稀疏表示 $ {\boldsymbol{a}}_i^{} $. 分类判别式表示为

(4) $ \mathop {r = \arg {\min \limits_{i}}}\, \left\| {{\boldsymbol{y}} - {{\boldsymbol{X}}_i}{\boldsymbol{a}}_i^{}} \right\|_2^2 . $

式中： $ {{\boldsymbol{X}}_i} $为第i类的训练数据.

2. 层次型非线性子空间字典学习方法

2.1. 重构误差项

传统的单层字典学习方法求解获得的字典和稀疏表示是浅层的，对于数据维度过高或样本数量过多的情况，这样的稀疏表示不利于识别和分类任务. 本研究结合分层字典学习^[22]和非线性投影技术提出的HNSDL方法，考虑M层字典学习，将每层视为单层的字典学习模型. 原始样本X输入模型第1层，使用非线性函数 $f( \cdot )$将原始样本X投影至子空间，子空间特征表示为

(5) $ {{\boldsymbol{H}}^{(1)}} = f({{\boldsymbol{W}}^{(1)}}{\boldsymbol{X}} + {{\boldsymbol{b}}^{(1)}}). $

式中： ${{\boldsymbol{W}}^{(1)}}$、 ${{\boldsymbol{b}}^{(1)}}$分别为权重矩阵和偏移向量； $f( \cdot )$采用logistic sigmoid函数， $f(t) = 1/(1 + \exp\; ( - t))$.

在第1层模型上，求解字典矩阵 ${{\boldsymbol{D}}^{(1)}}$和稀疏编码矩阵 ${{\boldsymbol{A}}^{(1)}}$；将 ${{\boldsymbol{H}}^{(1)}}$作为第2层的输入，经非线性函数投影变换为 ${{\boldsymbol{H}}^{(2)}} = f({{\boldsymbol{W}}^{(2)}}{{\boldsymbol{H}}^{(1)}} + {{\boldsymbol{b}}^{(2)}})$，第2层的求解过程与第1层类似，亦视为单层的字典学习模型，求解字典矩阵 ${{\boldsymbol{D}}^{(2)}}$和稀疏编码矩阵 ${{\boldsymbol{A}}^{(2)}}$. 经过M−1层投影后，子空间特征表示为 ${{\boldsymbol{H}}^{(M)}} = f({{\boldsymbol{W}}^{(M)}} {{\boldsymbol{H}}^{(M - 1)}} + {{\boldsymbol{b}}^{(M)}})$，求解得到末层的字典矩阵 ${{\boldsymbol{D}}^{(M)}}$和稀疏编码矩阵 ${{\boldsymbol{A}}^{(M)}}$. 第m层字典学习的重构误差项表示为

(6) $ \begin{array}{l} \left\| {{{\boldsymbol{H}}^{(m)}} - {{\boldsymbol{D}}^{(m)}}{{\boldsymbol{A}}^{(m)}}} \right\|_F^2,\; {{\boldsymbol{H}}^{(m)}} = f\left( {{{\boldsymbol{W}}^{(m)}}{{\boldsymbol{H}}^{(m - 1)}} + {{\boldsymbol{b}}^{(m)}}} \right). \end{array} $

2.2. 局部信息保持项

样本局部信息在机器学习算法中起着重要的作用^[23-24]. 从分类的角度来看，同类别样本的稀疏编码应该具有相似的结构. 为了保持投影空间的流形结构，引入字典向量的最近邻图G，构建稀疏编码的局部信息保持项，最近邻图G的元素 ${g_{i,j}}$ 定义为

(7) $ g_{i, j}= \begin{cases}\exp\; \left(-\dfrac{\left\|\boldsymbol{d}_{i}-\boldsymbol{d}_{j}\right\|^{2}}{\sigma}\right), & \boldsymbol{d}_{j} \in \operatorname{KNN}\left(\boldsymbol{d}_{i}\right) ; \\ 0, & \text { 其他. }\end{cases} $

式中：函数 ${\text{KNN}}({{\boldsymbol{d}}_i})$返回字典原子 ${{\boldsymbol{d}}_i}$的k₁个近邻， $\sigma $为调节参数，设置 $\sigma $=1、k₁=5. 最近邻图G的拉普拉斯矩阵 ${{\boldsymbol{L}}_{\rm{G}}}$可以表示为

(8) $ \left. \begin{array}{l} {{\boldsymbol{L}}_{\rm{G}}} = {\boldsymbol{P}} - {\boldsymbol{G}},\\ {\boldsymbol{P}} = {\mathop{\rm diag}\nolimits} \left[ {{p_1},{p_2}, \cdots ,{p_K}} \right],{p_i} = \displaystyle\sum\nolimits_{i = 1}^K {{g_{i,j}}} . \end{array} \right\} $

第m层字典学习的稀疏编码的局部信息保持项表示为

(9) $ \mathop {\min }\limits_{\boldsymbol{A}} \sum\limits_{i,j} {{{\left\| {{\boldsymbol{a}}_i^{(m)} - {\boldsymbol{a}}_j^{(m)}} \right\|}^2}} g_{i,j}^{(m)} = \mathop {\min }\limits_{\boldsymbol{A}} \;{\text{tr}}({{\boldsymbol{A}}^{(m)}}{\boldsymbol{L}}_{\rm{G}}^{(m)}{({{\boldsymbol{A}}^{(m)}})^{\text{T}}}). $

式中： $g_{i,j}^{(m)}$为第m层最近邻图 ${{\boldsymbol{G}}^{(m)}}$的元素， ${\boldsymbol{L}}_{\rm{G}}^{(m)}$为 ${{\boldsymbol{G}}^{(m)}}$的拉普拉斯矩阵.

类内紧致性也是分类问题中须考虑的重要因素，来自同一类别的同类样本的投影编码应该具有相似的结构. 本研究构造类内紧致图V作为投影编码的约束，以帮助投影空间提高其类内相似性. 类内紧致图V的元素 ${v_{i,j}}$定义为

(10) $ v_{i, j}= \begin{cases}\exp\; \left(-\dfrac{\left\|\boldsymbol{d}_{i}-\boldsymbol{d}_{j}\right\|^{2}}{\eta}\right), & \boldsymbol{d}_{i}、 \boldsymbol{d}_{j} \text { 同类别 }; \\ 0, & \text { 其他. }\end{cases} $

式中： $\eta $为正常数. 类内紧致图V的拉普拉斯矩阵 ${{\boldsymbol{L}}_{\rm{V}}}$可以表示为

$ {{\boldsymbol{L}}_{\rm{V}}} = {\boldsymbol{Q}} - {\boldsymbol{V}} , $

(11) $ {\boldsymbol{Q}} = {\text{diag}}\left[{q_1},{q_2}, \cdots,{q_K}\right],{q_i} = \displaystyle\sum\nolimits_{i = 1}^K {{v_{i,j}}} . $

第m层字典学习的投影编码的局部信息保持项表示为

(12) $ \begin{split} \mathop {\min }\limits_{{\boldsymbol{W}},{\boldsymbol{b}}} \sum\limits_{i,j}& {{{\left\| {f_{}^{(m)}({{\boldsymbol{x}}_i}) - f_{}^{(m)}({{\boldsymbol{x}}_j})} \right\|}^2}} v_{i,j}^{(m)} =\\ &\mathop {\min }\limits_{{\boldsymbol{W}},{\boldsymbol{b}}} \;{\rm{tr}}({{\boldsymbol{H}}^{(m)}}{\boldsymbol{L}}_{\rm{V}}^{(m)}{({{\boldsymbol{H}}^{(m)}})^{\rm{T}}}). \end{split} $

式中： $v_{i,j}^{(m)}$为第m层类内紧致图 ${{\boldsymbol{V}}^{(m)}}$的元素， ${\boldsymbol{L}}_{\rm{V}}^{(m)}$为 ${{\boldsymbol{V}}^{(m)}}$的拉普拉斯矩阵.

2.3. HNSDL目标式和求解

根据以上分析，基于分层字典模型，将重构误差项、稀疏编码的局部信息保持项和投影编码的局部信息保持项结合在目标式中，得到HNSDL模型的第m层上的目标函数：

(13) $ \begin{split} &\mathop {\min }\limits_{{{\boldsymbol{W}}^{{\text{(}}m{\text{)}}}},{{\boldsymbol{b}}^{{\text{(}}m{\text{)}}}},{{\boldsymbol{D}}^{{\text{(}}m{\text{)}}}},{\boldsymbol{A}}_{}^{{\text{(}}m{\text{)}}}} \;\;\frac{1}{{2N}}\left\| {{{\boldsymbol{H}}^{{\text{(}}m{\text{)}}}} - {{\boldsymbol{D}}^{{\text{(}}m{\text{)}}}}{\boldsymbol{A}}_{}^{{\text{(}}m{\text{)}}}} \right\|_F^2 + \\ &\qquad{\lambda _1}{\rm{tr}}\left( {{{\boldsymbol{H}}^{{\text{(}}m{\text{)}}}}{\boldsymbol{L}}_{\rm{V}}^{(m)}{{\boldsymbol{H}}^{{\text{(}}m{\text{)}}}}^{\rm{T}}} \right) + {\lambda _2}{\rm{tr}}\left( {{{\boldsymbol{A}}^{{\text{(}}m{\text{)}}}}{\boldsymbol{L}}_{\rm{G}}^{(m)}{{({{\boldsymbol{A}}^{{\text{(}}m{\text{)}}}})}^{\rm{T}}}} \right) +\\ &\qquad{\lambda _3}\left( {\left\| {{\boldsymbol{W}}_{}^{{\text{(}}m{\text{)}}}} \right\|_F^2 + \left\| {{\boldsymbol{A}}_{}^{{\text{(}}m{\text{)}}}} \right\|_F^2} \right), \end{split} $

式中： $ {\lambda _1} $、 $ {\lambda _2} $、 $ {\lambda _3} $均为正则化参数. $ \left\| {{\boldsymbol{W}}_{}^{{\text{(}}m{\text{)}}}} \right\|_F^2 $+ $ \left\| {{\boldsymbol{A}}_{}^{{\text{(}}m{\text{)}}}} \right\|_F^2 $的功能是提高泛化能力.

HNSDL目标式联合子空间学习和字典学习功能. 稀疏编码、投影编码的局部信息保持项不仅继承了样本的结构信息，还强调了模型的鲁棒性. 为了求解HNSDL目标式的参数 $\{ {{\boldsymbol{D}}^{{\text{(}}m{\text{)}}}},{\boldsymbol{A}}_{}^{{\text{(}}m{\text{)}}}, {\boldsymbol{W}}_{}^{{\text{(}}m{\text{)}}}, {\boldsymbol{b}}_{}^{{\text{(}}m{\text{)}}}\} (m =$ $1,2, \cdots ,M)$，本研究采用交替迭代的方式，通过逐层、逐个更新变量的方法求解参数的最优解. HNSDL的求解过程如图1所示.

图 1

新窗口打开| 下载原图ZIP| 生成PPT

图 1 HNSDL求解过程示意图

Fig.1 Schematic diagram of HNSDL solution process

固定 ${{\boldsymbol{D}}^{{\text{(}}m{\text{)}}}}$、 ${\boldsymbol{A}}_{}^{{\text{(}}m{\text{)}}}$，更新 ${\boldsymbol{W}}_{}^{{\text{(}}m{\text{)}}}$、 ${\boldsymbol{b}}_{}^{{\text{(}}m{\text{)}}}$. 式(13)可以写为

(14) $ \begin{split} J({\boldsymbol{W}}^{(m)},{\boldsymbol{b}}^{(m)})=&\mathop {\min }\limits_{{\boldsymbol{W}}_{}^{{\text{(}}m{\text{)}}},{\boldsymbol{b}}_{}^{{\text{(}}m{\text{)}}}} \;\;\frac{1}{{2N}}\left\| {{{\boldsymbol{H}}^{{\text{(}}m{\text{)}}}} - {{\boldsymbol{D}}^{{\text{(}}m{\text{)}}}}{\boldsymbol{A}}_{}^{{\text{(}}m{\text{)}}}} \right\|_F^2 +\\ &{\lambda _1}{\rm{tr}}\left( {{{\boldsymbol{H}}^{{\text{(}}m{\text{)}}}}{\boldsymbol{L}}_{\rm{V}}^{(m)}{{\boldsymbol{H}}^{{\text{(}}m{\text{)}}}}^{\rm{T}}} \right) + {\lambda _3}\left\| {{\boldsymbol{W}}_{}^{{\text{(}}m{\text{)}}}} \right\|_F^2. \end{split} $

对 ${\boldsymbol{W}}_{}^{{\text{(}}m{\text{)}}}$、 ${\boldsymbol{b}}_{}^{{\text{(}}m{\text{)}}}$分别进行一阶求导，得到

(15) $ \begin{split} \frac{{\partial J({\boldsymbol{W}}^{(m)},{\boldsymbol{b}}^{(m)})}}{{\partial {\boldsymbol{W}}_{}^{{\text{(}}m{\text{)}}}}} = & \;\frac{1}{N}\left( ({\boldsymbol{H}}_{}^{{\text{(}}m{\text{)}}} - {\boldsymbol{D}}_{}^{{\text{(}}m{\text{)}}}{\boldsymbol{A}}_{}^{{\text{(}}m{\text{)}}}){\boldsymbol{H}}_{}^{{\text{(}}m{\text{)}}}{\text{(}}{\boldsymbol{1}} - {\boldsymbol{H}}_{}^{{\text{(}}m{\text{)}}}{\text{)}}\right. \times\\ &\left.{(}{\boldsymbol{H}}_{}^{{\text{(}}m - 1{\text{)}}}{)^{\rm{T}}} + {{\boldsymbol{H}}^{{\text{(}}m{\text{)}}}}{\text{(}}{\boldsymbol{1}} - {{\boldsymbol{H}}^{{\text{(}}m{\text{)}}}}{\text{)(}}{\boldsymbol{H}}_{}^{{\text{(}}m - 1{\text{)}}}{)^{\rm{T}}} \right) + \\&2{\lambda _1}\left( {{\boldsymbol{H}}_{}^{{\text{(}}m{\text{)}}}{\boldsymbol{L}}_{\rm{V}}^{{\text{(}}m{\text{)}}}{\boldsymbol{H}}_{}^{{\text{(}}m{\text{)}}}{\text{(}}{\boldsymbol{1}} - {\boldsymbol{H}}_{}^{{\text{(}}m{\text{)}}}{\text{)}}} \right){{\text{(}}{\boldsymbol{H}}_{}^{{\text{(}}m - 1{\text{)}}})^{\rm{T}}} +\\ &2{\lambda _3}{\boldsymbol{W}}_{}^{{\text{(}}m{\text{)}}}, \end{split} $

(16) $ \begin{split} \frac{\partial J\left(\boldsymbol{W}^{(m)}, \boldsymbol{b}^{(m)}\right)}{\partial {\boldsymbol{b}}^{(m)}}=& \frac{1}{N}\left(\left(\boldsymbol{H}^{(m)}-\boldsymbol{D}^{(m)} \boldsymbol{A}^{(m)}\right) \boldsymbol{H}^{(m)}\left({1}-{{\boldsymbol{H}}}^{(m)}\right) \bf{1}+\right.\\ &\left.\boldsymbol{H}^{(m)}\left({{\bf{1}}}-{{\boldsymbol{H}}}^{(m)}\right) \bf{1}\right)+2 \lambda_{1}\left(\boldsymbol{H}^{(m)} \boldsymbol{L}_{\mathrm{V}}^{(m)} \boldsymbol{H}^{(m)}\right. \times\\ &\left. \left({{\bf{1}}}-{{\boldsymbol{H}}}^{(m )}\right)\right) \bf{1}. \end{split} $

${\boldsymbol{W}}_{}^{{\text{(}}m{\text{)}}}$采用梯度下降法更新

(17) $ {\boldsymbol{W}}_{}^{{\text{(}}m{\text{)}}} = {\boldsymbol{W}}_{}^{{\text{(}}m{\text{)}}} - \alpha \frac{{\partial J({\boldsymbol{W}}^{(m)},{\boldsymbol{b}}^{(m)})}}{{\partial {\boldsymbol{W}}_{}^{{\text{(}}m{\text{)}}}}} . $

式中： $ \alpha $为步长.

固定 $ {\boldsymbol{D}}_{}^{{\text{(}}m{\text{)}}} $、 ${\boldsymbol{W}}_{}^{{\text{(}}m{\text{)}}}$、 ${\boldsymbol{b}}_{}^{{\text{(}}m{\text{)}}}$，更新 $ {\boldsymbol{A}}_{}^{{\text{(}}m{\text{)}}} $. 式(13)可以写为

(18) $ \begin{split} \mathop {\min }\limits_{{\boldsymbol{A}}_{}^{{\text{(}}m{\text{)}}}} \;\;&\frac{1}{{2N}}\left\| {{\boldsymbol{H}}_{}^{{\text{(}}m{\text{)}}} - {\boldsymbol{D}}_{}^{{\text{(}}m{\text{)}}}{\boldsymbol{A}}_{}^{{\text{(}}m{\text{)}}}} \right\|_F^2 +\\ &{\lambda _2}{\rm{tr}}\left( {{\boldsymbol{A}}_{}^{{\text{(}}m{\text{)}}}{\boldsymbol{L}}_{\rm{G}}^{{\text{(}}m{\text{)}}}{{({\boldsymbol{A}}_{}^{{\text{(}}m{\text{)}}})}^{\rm{T}}}} \right)\; + {\lambda _3}\left\| {{\boldsymbol{A}}_{}^{{\text{(}}m{\text{)}}}} \right\|_F^2, \end{split} $

式(18)按列向量求解，得到

(19) $ \begin{split} J({\boldsymbol{a}}_i^{(m)})=&\mathop {\min}\limits_{{\boldsymbol{a}}_i^{{\text{(}}m{\text{)}}}} \frac{1}{{2N}} \left\| {{\boldsymbol{h}}_i^{{\text{(}}m{\text{)}}} - {\boldsymbol{D}}_{}^{{\text{(}}m{\text{)}}}{\boldsymbol{a}}_i^{{\text{(}}m{\text{)}}}} \right\|_F^2 +2{\lambda _2}\left( {{{({\boldsymbol{a}}_i^{{\text{(}}m{\text{)}}})}^{\rm{T}}}}\right. \times \\ &\left.{({{\boldsymbol{A}}^{{\text{(}}m{\text{)}}}}{\boldsymbol{L}}_{{\rm{G}},i}^{{\text{(}}m{\text{)}}}) - {{({\boldsymbol{a}}_i^{{\text{(}}m{\text{)}}})}^{\rm{T}}}{\boldsymbol{a}}_i^{{\text{(}}m{\text{)}}}{\boldsymbol{L}}_{{\rm{G}},ii}^{{\text{(}}m{\text{)}}}} \right) + {\lambda _3} \left\| {{\boldsymbol{a}}_i^{{\text{(}}m{\text{)}}}} \right\|_F^2. \end{split} $

式中： $ {\boldsymbol{L}}_{{\rm{G}},i}^{{\text{(}}m{\text{)}}} $为矩阵 $ {\boldsymbol{L}}_{\rm{G}}^{{\text{(}}m{\text{)}}} $的第i个列向量； $ {\boldsymbol{L}}_{{\rm{G}},ii}^{{\text{(}}m{\text{)}}} $为矩阵 $ {\boldsymbol{L}}_{\rm{G}}^{{\text{(}}m{\text{)}}} $对角线上的第i个元素，其一阶导数和Hessian矩阵表示为

(20) $ \begin{split} \frac{{\partial J({\boldsymbol{a}}_i^{(m)})}}{{\partial{\boldsymbol{a}}_i^{{\text{(}}m{\text{)}}}}} = &\frac{1}{N}{({\boldsymbol{D}}_{}^{{\text{(}}m{\text{)}}})^{\rm{T}}}({\boldsymbol{D}}_{}^{{\text{(}}m{\text{)}}}{\boldsymbol{a}}_i^{{\text{(}}m{\text{)}}} - {\boldsymbol{h}}_i^{(m)}) + \\ &2{\lambda _2}({\boldsymbol{A}}_{}^{{\text{(}}m{\text{)}}}{\boldsymbol{L}}_{{\rm{G}},i}^{(m)} + \sum\limits_{j \ne i} {{\boldsymbol{a}}_j^{{\text{(}}m{\text{)}}}} {\boldsymbol{L}}_{{\rm{G}},ji}^{(m)}) + 2{\lambda _3}{\boldsymbol{a}}_i^{{\text{(}}m{\text{)}}}, \end{split} $

(21) $ \frac{{{\partial ^2}J({\boldsymbol{a}}_i^{(m)})}}{{\partial {\boldsymbol{a}}_i^{{\text{(}}m{\text{)}}}\partial {{({\boldsymbol{a}}_i^{{\text{(}}m{\text{)}}})}^{\rm{T}}}}} = \frac{1}{N}{({{\boldsymbol{D}}^{{\text{(}}m{\text{)}}}})^{\rm{T}}}{{\boldsymbol{D}}^{{\text{(}}m{\text{)}}}} + 2({\lambda _2}{\boldsymbol{L}}_{{\rm{G}},ii}^{(m)} + {\lambda _3}){\boldsymbol{I}}. $

式中： $ {\boldsymbol{I}} $为单位矩阵. 式(21)是半正定矩阵，联合式(20)、(21)可以得到 $ {\boldsymbol{a}}_i^{{\text{(}}m{\text{)}}} $最优解：

(22) $ \begin{split} {\boldsymbol{a}}_i^{{\text{(}}m{\text{)}}} = &{\left( {\frac{1}{N}{{({{\boldsymbol{D}}^{{\text{(}}m{\text{)}}}})}^{\rm{T}}}{{\boldsymbol{D}}^{{\text{(}}m{\text{)}}}} + 2({\lambda _2}{\boldsymbol{L}}_{{\rm{G}},ii}^{(m)} + {\lambda _3}){\boldsymbol{I}}} \right)^{ - 1}}\times \hfill \\ & \left( {\frac{1}{N}{{({{\boldsymbol{D}}^{{\text{(}}m{\text{)}}}})}^{\rm{T}}}{\boldsymbol{h}}_i^{(m)} - 2{\lambda _2}\sum\limits_{j \ne i} {{\boldsymbol{a}}_j^{(m)}{\boldsymbol{L}}_{{\rm{G}},ji}^{(m)}} } \right). \hfill \\ \end{split} $

固定 ${\boldsymbol{W}}_{}^{{\text{(}}m{\text{)}}}$、 ${\boldsymbol{b}}_{}^{{\text{(}}m{\text{)}}}$、 ${\boldsymbol{A}}_{}^{{\text{(}}m{\text{)}}}$，更新 ${{\boldsymbol{D}}^{{\text{(}}m{\text{)}}}}$. 式(13)可以写为

(23) $ \left.\begin{split} &\underset{{{\boldsymbol{D}}}_{}^{\text{(}m\text{)}}}{\mathrm{min}}\text{}\;{\Vert {{\boldsymbol{H}}}_{}^{\text{(}m\text{)}}-{{\boldsymbol{D}}}_{}^{\text{(}m\text{)}}{{\boldsymbol{A}}}_{}^{\text{(}m\text{)}}\Vert }_{F}^{2}\text{,}\\& \text{s}\text{.t}\text{.}\;{\Vert {{\boldsymbol{D}}}_{i}^{\text{(}m\text{)}}\Vert }_{2}^{2}=1. \end{split}\right\}$

式(23)采用二次规划方法求解：

(24) $ L({\boldsymbol{D}}_{}^{{\text{(}}m{\text{)}}},\gamma ) = \left\| {{\boldsymbol{H}}_{}^{{\text{(}}m{\text{)}}} - {\boldsymbol{D}}_{}^{{\text{(}}m{\text{)}}}{\boldsymbol{A}}_{}^{{\text{(}}m{\text{)}}}} \right\|_F^2 +\\ \sum\limits_{i = 1}^{{K_m}} {{\gamma _i}\left({\left\| {{\boldsymbol{D}}_i^{{\text{(}}m{\text{)}}}} \right\|_2^2} - 1\right)}. $

式中： ${K_m}$为字典 $ {\boldsymbol{D}}_i^{{\text{(}}m{\text{)}}} $中原子的个数. 对式(24)的 ${{\boldsymbol{D}}^{{\text{(}}m{\text{)}}}}$求一阶导， ${{\boldsymbol{D}}^{{\text{(}}m{\text{)}}}}$的解为

(25) $ \left.\begin{split} &{\boldsymbol{D}}_{}^{{\text{(}}m{\text{)}}} = {\boldsymbol{H}}_{}^{{\text{(}}m{\text{)}}}{({\boldsymbol{A}}_{}^{{\text{(}}m{\text{)}}})^{\rm{T}}}{\left( {{\boldsymbol{A}}_{}^{{\text{(}}m{\text{)}}}{{({\boldsymbol{A}}_{}^{{\text{(}}m{\text{)}}})}^{\rm{T}}} + {\boldsymbol{\varGamma }}} \right)^{{ - }1}} ,\\ &{\boldsymbol{\varGamma }}={\rm{diag}}[{\gamma _1},{\gamma _2}, \cdots,{\gamma _K}] \end{split}\right\} $

2.4. 测试

对于给定的测试样本 ${{\boldsymbol{x}}_{{\text{test}}}}$，使用训练阶段得到最优参数 $\{ {{\boldsymbol{W}}^{(m)}},{{\boldsymbol{b}}^{(m)}},{{\boldsymbol{D}}^{(m)}}\} (1 \leqslant m \leqslant M)$计算它在各层上的稀疏编码向量 $ {\boldsymbol{a}}_{{\text{test}}}^{(m)} $，

(26) $ \mathop {\min }\limits_{{\boldsymbol{a}}_{{\text{test}}}^{(m)}} \;\left\| {f({{\boldsymbol{W}}^{(m)}}f({{\boldsymbol{W}}^{(m - 1)}}) + {{\boldsymbol{b}}^{(m)}}) - {{\boldsymbol{D}}^{(m)}}{\boldsymbol{a}}_{{\text{test}}}^{(m)}} \right\|_2^2 + \left\| {{\boldsymbol{a}}_{{\text{test}}}^{(m)}} \right\|_2^2 . $

$ {\boldsymbol{a}}_{{\text{test}}}^{(m)} $最优解的表达式为

(27) $ {\boldsymbol{a}}_{{\text{test}}}^{(m)} = ({({{\boldsymbol{D}}^{(m)}}{({{\boldsymbol{D}}^{(m)}})^{\rm{T}}} + \varepsilon {\boldsymbol{I}})^{ - 1}}{({{\boldsymbol{D}}^{(m)}})^{\rm{T}}} f({{\boldsymbol{W}}^{(m)}}f({{\boldsymbol{W}}^{(m - 1)}}) + {{\boldsymbol{b}}^{(m)}}). $

式中： $ \varepsilon $为非常小的正数，设置目的是保证矩阵求逆的安全性.

令稀疏编码向量 $ {\boldsymbol{a}}_{{\text{test}}}^{(M)} $为 ${{\boldsymbol{x}}_{{\text{test}}}}$在第M层上的特征向量. 常用的分类器模型，如支持向量机和KNN分类器均可用作分类器，本研究使用KNN分类器对 $ {\boldsymbol{a}}_{{\text{test}}}^{(M)} $进行分类.

算法：HNSDL算法
输入：带类别标签的图像集X；
输出：字典矩阵 ${{\boldsymbol{D}}^{(m)}}$、权重矩阵 ${{\boldsymbol{W}}^{(m)}}$、偏移向量 ${{\boldsymbol{b}}^{(m)}}$， $1 \leqslant m \leqslant M$;
//训练阶段
1. 使用KSVD^[25]算法初始化 $ {{\boldsymbol{D}}^{(m)}} $、 ${{\boldsymbol{W}}^{(m)}}$、 ${{\boldsymbol{b}}^{(m)}}$为单位矩阵;
开始循环
for m = 1 to M do
2. 分别使用式(7)、(10)构建最近邻图 $ {{\boldsymbol{G}}^{(m)}} $、类内紧致图 $ {{\boldsymbol{V}}^{(m)}} $;
3. 固定 $ {{\boldsymbol{D}}^{(m)}} $、 ${{\boldsymbol{b}}^{(m)}}$、 ${\boldsymbol{A}}_{}^{{\text{(}}m{\text{)}}}$，使用式(15)、 (17)更新 ${{\boldsymbol{W}}^{(m)}}$；
4. 固定 $ {{\boldsymbol{D}}^{(m)}} $、 ${{\boldsymbol{W}}^{(m)}}$、 ${\boldsymbol{A}}_{}^{{\text{(}}m{\text{)}}}$，使用式(16)更新 ${{\boldsymbol{b}}^{(m)}}$;
5. 固定 $ {{\boldsymbol{D}}^{(m)}} $、 ${{\boldsymbol{W}}^{(m)}}$、 ${{\boldsymbol{b}}^{(m)}}$，使用式(22)更新 ${\boldsymbol{A}}_{}^{{\text{(}}m{\text{)}}}$;
6. 固定 ${\boldsymbol{A}}_{}^{{\text{(}}m{\text{)}}}$、 ${{\boldsymbol{W}}^{(m)}}$、 ${{\boldsymbol{b}}^{(m)}}$，使用式(25)更新 $ {{\boldsymbol{D}}^{(m)}} $;
循环结束直到目标式(13)收敛或者达到最大迭代次数;
7. 返回 ${{\boldsymbol{D}}^{(m)}}$、 ${{\boldsymbol{W}}^{(m)}}$、 ${{\boldsymbol{b}}^{(m)}}$的最优解， $1 \leqslant m \leqslant M$；
//测试阶段
for m = 1 to M do
8. 使用式(26)计算测试样本的稀疏编码向量 $ {\boldsymbol{a}}_{{\text{test}}}^{(m)} $；
9. 使用KNN分类器对 $ {\boldsymbol{a}}_{{\text{test}}}^{(M)} $进行分类.

3. 实　验

3.1. 数据集和实验设置

实验在3个公开的真实遥感图像数据集上进行验证. 1）Ucmerced^[26]数据集由21个类的航空场景图像组成，每个类包含100幅RGB颜色的图像，每个图像的大小是256×256像素. 2）Google^[27]数据集是空中场景数据集，包含12个航空场景类：农业、商业、港口、闲置土地、工业、草地、天桥、公园、池塘、住宅、河流和水，每类都包含200幅200×200像素的图像. 3）WHU-RS^[28]数据集包含19类场景图像，每类包含50幅600×600像素的场景图像. 3个数据集的示例图像如图2所示. 实验使用CaffeNet^[29]获得高维的遥感图像特征. CaffeNet使用5个卷积层提取场景的局部特征，3个完全连接的层作为网络的末层提取全局特征，得到2048维的图像特征.

图 2

新窗口打开| 下载原图ZIP| 生成PPT

图 2 3个遥感图像数据集的图像示例

Fig.2 Sample images in three remote sensing image datasets

实验对比算法包括2类. 1）传统的机器学习方法：NPE^[30]、K-SVD^[25]、DTT-HD^[31]算法；2）深度学习方法：AlexNet^[32]、TSDFF^[33]、UDFF^[34]和VGG-VD-16^[35]. 为了体现分层非线性投影对遥感场景图像分类的影响，实验将HNSDL中的层次设为1，并使用PCA算法将图像的维数降至300，命名这种方法为单层HNSDL(HNSDL-1L). 各算法的参数设置遵循相应文献的设置. K-SVD算法使用KNN分类器，字典的大小与训练集图像的数量相同. DTT-HD算法使用离散Tchebichef变换和离散Ridgelet变换训练得到混合字典，分类器使用线性支持向量机，字典矩阵中每个字典子类的大小为10. AlexNet网络由5个卷积层和3个完全连接层组成. TSDFF算法使用多种方法提取并融合特征，分类器使用极限学习机. UDFE算法使用贪婪的分层无监督预训练结合高效的稀疏特征无监督学习算法，分类器使用线性支持向量机，惩罚因子的搜索范围为 $\{10^{-3}, 10^{-2}, \cdots, 10^{3}\}$. VGG16网络共有16层，其中卷积层为13层、池化层和全连接为3层. 式(7)的最近邻参数设置为7，正则化参数 ${\lambda _1}、{\lambda _2}$、 ${\lambda _3}$的搜索范围为 $\{10^{-4}，10^{-3},\cdots , 1\}.$HNSDL中网络层数设为3，投影空间的维数依次为800、480和300，字典矩阵中每个字典子类的大小依次为30、20和10，KNN分类器中近邻参数k的搜索范围为{1, 3, 5, 7, 9, 11, 13}. 随机选取80%的图像样本作为训练集，剩余20%的图像样本作为测试集. 实验重复8次. 实验平台是Titan XP GPU的Linux机器平台的Pythorch软件.

3.2. 性能比较

比较HNSDL方法与对比算法在3个数据集上的场景分类，平均分类准确率Acc如表1所示，粗体表示分类效果最佳. 可以看出，1）深度模型的准确率高于传统的机器学习算法. 这说明深层结构的模型能够更多地挖掘数据样本的内在结构信息，也说明深度模型较传统的机器学习算法更适用于遥感图像场景分类问题. 2）HNSDL方法的准确率优于其他遥感场景分类方法，与次佳模型相比，3个数据集上的平均准确率分别提高1.65%、1.33%和0.23%. 与HNSDL-1L相比，HNSDL方法在3个数据集上的准确率都有明显提高，总体准确率分别提高5.92%、4.47%和3.80%. HNSDL方法的良好性能主要得益于分层模型和字典学习的融合，非线性投影将高维原始数据降到合适的分类维度，HNSDL方法能很好地获取遥感图像的可辨别结构信息. 使用带标签信息的局部结构约束项也可以有效提高模型的分类能力. 投影空间和字典学习的迭代更新机制保证了模型的所有参数同时达到最优. 3）HNSDL方法使用的遥感图像特征通过CaffeNet模型获取，对比拥有16层结构的VGG-Net-16算法，只有8层的CaffeNet模型结构更简单. 由此可以得出：深度模型的网络层次虽然有助于提升模型性能，但不是层次越多越好，遥感图像使用8层的网络模型就可以取得较好的分类效果.

表 1 3个数据集上平均分类准确率比较

Tab.1 Comparison of average classification accuracy on three datasets %

数据集	Acc
数据集	NPE	K-SVD	DTT-HD	HNSDL-1L	AlexNet	UDFF	TSDFF	VGG-VD-16	HNSDL
Ucmerced	87.83	89.02	90.55	90.04	92.38	91.93	93.00	94.31	95.96
Google	86.30	87.46	88.04	87.87	89.53	89.12	90.73	91.01	92.34
WHU-RS	88.71	90.03	92.22	92.43	94.40	93.87	95.02	96.00	96.23

新窗口打开| 下载CSV

3个公开数据集上的遥感场景分类的混淆矩阵如图3~5所示. 图中，数值表示分类结果中子类的图像数量在训练集上的百分比. 可以看出，1）HNSDL方法在3个数据集的部分子类的分类准确率达到100%. HNSDL方法不但能够充分利用分层模型和非线性投影函数的优点，而且能够在低维空间内充分利用样本的结构化信息，说明HNSDL方法适用于遥感图像场景分类. 2）HNSDL方法在相似场景分类上的应用效果较好. 如Ucmerced数据集的住宅类和商业类、工业类和住宅类等；Google数据集的天桥类和闲置土地类、池塘类和河流类、农业类和牧场类等；WHU-RS数据集的密集住宅区类和中等密集住宅区类、稀疏住宅区类和储油罐类等. 结果表明，HNSDL方法使用的稀疏编码和投影编码的局部信息保持项来提高分类性能.

图 3

新窗口打开| 下载原图ZIP| 生成PPT

图 3 HNSDL方法在Ucmerced数据集上的混淆矩阵

Fig.3 Confusion matrix of HNSDL on Ucmerced dataset

图 4

新窗口打开| 下载原图ZIP| 生成PPT

图 4 HNSDL方法在Google数据集上的混淆矩阵

Fig.4 Confusion matrix of HNSDL on Google dataset

图 5

新窗口打开| 下载原图ZIP| 生成PPT

图 5 HNSDL方法在WHU-RS数据集上的混淆矩阵

Fig.5 Confusion matrix of HNSDL on WHU-RS dataset

3.3. 参数分析

HNSDL方法涉及的主要参数有模型层数M，投影空间维数d，子类字典的原子数K_c，正则化参数 ${\lambda _1}$、 ${\lambda _2} $、 ${\lambda _3}$，分类器KNN的近邻参数k. 以Ucmerced数据集为例，分别讨论这些参数对模型性能的影响. 实验中固定其他参数，仅对讨论的参数进行寻优. 1）考察模型的网络层数M对模型性能的影响，M的搜索范围设置为{2, 3, 4, 5, 6}. M决定HNSDL运行的非线性投影空间. 实验发现，当M=2时，模型的分类准确率较低；当M≥3时，模型的分类准确率达到稳定. 因此，实验中取M=3. 2）考察参数{d,K_c}对模型性能的影响，d的搜索范围设置为{300, 480, 660, 800, 900}, K_c的搜索范围设置为{10, 20, 30, 50}，实验结果如图6所示. 可以看出，第1、2层网络上的d、K_c对分类准确率起决定性作用，不同参数对{d,K_c}对应的分类准确率差异较大；第3层网络上d、K_c变化对分类准确率影响不大. 因此，在实验中有必要通过网络搜索法寻找参数{d,K_c}的最优值. 3）考察正则化参数对模型性能的影响， ${\lambda _1}、{\lambda _2}$、 ${\lambda _3}$的搜索范围设置为{10⁻⁴, 10⁻³, $\cdots , 1\} $，实验结果如表2所示. 表中，Acc₁为 ${\lambda _1} $在 ${\lambda _2} =1、{\lambda _3} =10^{-2}$时的分类准确率，Acc₂为 ${\lambda _2} $在 ${\lambda _1} =10^{-1}、{\lambda _3} =10^{-2}$时的分类准确率，Acc₃为 ${\lambda _3} $在 ${\lambda _1} =10^{-1} 、{\lambda _2} =1$时的分类准确率. 可以看出，正则化参数与模型的分类准确率没有规律可循，不同的正则化参数对于不同的分类准确率变化较大. 因此，在实验中对 ${\lambda _1}$、 ${\lambda _2} $、 ${\lambda _3}$采取网络搜索法寻优是合适的. 4）考察分类器KNN的近邻参数k对最终分类结果的影响，k的搜索范围设置为{1, 3, 5, 7, 9, 11, 13}. 当k=1时，分类准确率最低，为95.43%；随着k值的增加，分类准确率略有增加，当k=5时，达到最高，为95.96%；之后，分类准确率保持平稳，当k=11时，为95.94%. 因此，当k的变化对最终分类结果的影响温和，不同k对应的分类准确率稳定. 为了减少模型的训练时间，实验中k可以取固定值，如k=5.

表 2 不同正则化参数在Ucmerced数据集上的准确率

Tab.2 Accuracy performance of different regularization parameters on Ucmerced dataset

取值范围	Acc₁	Acc₂	Acc₃
%
10⁻⁴	92.32	93.22	94.72
10⁻³	94.96	93.66	95.06
10⁻²	95.63	95.06	95.96
10⁻¹	95.96	95.80	95.56
1	95.85	95.96	95.26

新窗口打开| 下载CSV

图 6

新窗口打开| 下载原图ZIP| 生成PPT

图 6 不同投影空间维数和子类字典原子数在Ucmerced数据集上的准确率

Fig.6 Accuracy performance of projection space dimension and sub-dictionary atoms on Ucmerced dataset

4. 结　语

本研究在字典学习的理论框架下，根据遥感场景图像的稀疏特性，提出用于遥感图像场景分类的分层非线性迁移子空间字典学习方法. 该方法通过学习非线性函数，将样本的结构信息和识别信息映射到投影空间，充分利用稀疏、投影编码的局部信息保持，获得类内紧致的遥感图像场景稀疏表示，得到更具分辨能力的字典模型. 通过在Ucmerced、Google和WHU-RS数据集上的实验，探讨在网络层数、投影空间、字典规模等参数设置下该方法的性能. 得到在较小网络规模和较少训练字典原子数时，所提方法能够取得分辨力强的分类器的结论. 所提方法适用于清晰无遮挡的遥感图像场景分类. 如何利用字典学习的噪声不敏感性处理带噪声环境下的遥感图像场景分类，设计更加健壮的分类器是下一步的工作计划. 此外，如何将所提方法与卷积神经网络相结合，设计集特征提取和分类识别于一体的字典学习模型将是下一阶段的研究方向.

参考文献

原文顺序

文献年度倒序

文中引用次数倒序

被引期刊影响因子

[1]

CHENG G, XIE X, HAN J, et al

Remote sensing image scene classification meets deep learning: challenges, methods, benchmarks, and opportunities

[J]. IEEE Journal of Selected Topics in Applied Earth Observations and Remote Sensing, 2020, 13: 3735- 3756

DOI:10.1109/JSTARS.2020.3005403 [本文引用: 1]

[2]

XU K, HUANG H, DENG P, et al

Two-stream feature aggregation deep neural network for scene classification of remote sensing images

[J]. Information Sciences, 2020, 539: 250- 268

DOI:10.1016/j.ins.2020.06.011

[3]

SHAWKY O A, HAGAG A, EL-DAHSHAN E, et al

Remote sensing image scene classification using CNN-MLP with data augmentation

[J]. Optik, 2020, 221: 165356

DOI:10.1016/j.ijleo.2020.165356

[4]

高雪艳, 潘安宁, 杨扬

基于图像混合特征的城市绿地遥感图像配准

[J]. 浙江大学学报: 工学版, 2019, 53 (6): 1205- 1217

[本文引用: 1]

GAO Xue-yan, PAN An-ning, YANG Yang

Urban green space remote sensing image registration using image mixed features

[J]. Journal of Zhejiang University: Engineering Science, 2019, 53 (6): 1205- 1217

[本文引用: 1]

[5]

王昶, 张永生, 王旭, 等

基于深度学习的遥感影像变化检测方法

[J]. 浙江大学学报: 工学版, 2020, 54 (11): 2138- 2148

[本文引用: 1]

WANG Xu, ZHANG Yong-sheng, WANG Xu, et al

Remote sensing image change detection method based on deep neural networks

[J]. Journal of Zhejiang University: Engineering Science, 2020, 54 (11): 2138- 2148

[本文引用: 1]

[6]

RAZAQUE A, BEN HAJ FREJ M, ALMI'ANI M, et al

Improved support vector machine enabled radial basis function and linear variants for remote sensing image classification

[J]. Sensors, 2021, 21 (13): 4431

DOI:10.3390/s21134431

[7]

PASTORINO M, MONTALDO A, FRONDA L, et al

Multisensor and multiresolution remote sensing image classification through a causal hierarchical Markov framework and decision tree ensembles

[J]. Remote Sensing, 2021, 13 (5): 849

DOI:10.3390/rs13050849 [本文引用: 1]

[8]

PAN H, JIA Y, ZHAO D, et al

A tidal flat wetlands delineation and classification method for high-resolution imagery

[J]. International Journal of Geo-Information, 2021, 10 (7): 451

DOI:10.3390/ijgi10070451 [本文引用: 1]

[9]

YU D, XU Q, GUO H, et al

An efficient and lightweight convolutional neural network for remote sensing image scene classification

[J]. Sensors, 2020, 20 (7): 1999

DOI:10.3390/s20071999 [本文引用: 1]

[10]

YANG X, YAN W, NI W, et al

Object-guided remote sensing image scene classification based on joint use of deep-learning classifier and detector

[J]. IEEE Journal of Selected Topics in Applied Earth Observations and Remote Sensing, 2020, 13: 2673- 2684

DOI:10.1109/JSTARS.2020.2996760 [本文引用: 1]

[11]

王协, 章孝灿, 苏程

基于多尺度学习与深度卷积神经网络的遥感图像土地利用分类

[J]. 浙江大学学报: 理学版, 2020, 47 (6): 715- 723

[本文引用: 1]

WANG Xie, ZHANG Xiao-can, SU Cheng

Land use classification of remote sensing images based on multi-scale learning and deep convolution neural network

[J]. Journal of Zhejiang University: Science Edition, 2020, 47 (6): 715- 723

[本文引用: 1]

[12]

CHENG G, ZHOU P, HAN J, et al

Auto-encoder-based shared mid-level visual dictionary learning for scene classification using very high resolution remote sensing images

[J]. IET Computer Vision, 2015, 9 (5): 639- 647

DOI:10.1049/iet-cvi.2014.0270 [本文引用: 1]

[13]

HUANG Z, CHEN H X, ZHOU T, et al

Contrast-weighted dictionary learning based saliency detection for remote sensing images

[J]. Pattern Recognition, 2021, 113: 107757

DOI:10.1016/j.patcog.2020.107757 [本文引用: 1]

[14]

XU M, JIA X, PICKERING M, et al

Cloud removal based on sparse representation via multitemporal dictionary learning

[J]. IEEE Transactions on Geoscience and Remote Sensing, 2016, 54 (5): 2998- 3006

DOI:10.1109/TGRS.2015.2509860 [本文引用: 1]

[15]

FERRARIS V, DOBIGEON N, CAVALCANTI Y, et al

Coupled dictionary learning for unsupervised change detection between multimodal remote sensing images

[J]. Computer Vision and Image Understanding, 2019, 189: 102817

DOI:10.1016/j.cviu.2019.102817 [本文引用: 1]

[16]

WANG L, GENG H, LIU P, et al

Particle swarm optimization based dictionary learning for remote sensing big data

[J]. Knowledge-Based Systems, 2015, 79: 43- 50

DOI:10.1016/j.knosys.2014.10.004 [本文引用: 1]

[17]

WANG X, WANG S, LI Y, et al

Hyperspectral image sparse reconstruction model based on collaborative multidimensional correlation

[J]. Applied Soft Computing, 2021, 105: 107250

DOI:10.1016/j.asoc.2021.107250 [本文引用: 1]

[18]

YANKELEVSKY Y, ELAD M

Finding GEMS: multi-scale dictionaries for high-dimensional graph signals

[J]. IEEE Transactions on Signal Processing, 2019, 67 (7): 1889- 1901

DOI:10.1109/TSP.2019.2899822 [本文引用: 1]

[19]

WANG A, LU J, CAI J, et al

Unsupervised joint feature learning and encoding for RGB-D scene labeling

[J]. IEEE Transactions on Image Processing, 2015, 24 (11): 4459- 4473

DOI:10.1109/TIP.2015.2465133 [本文引用: 1]

[20]

LIU F, MA J, WANG Q

Atom-substituted tensor dictionary learning enhanced convolutional neural network for hyperspectral image classification

[J]. Neurocomputing, 2021, 455: 215- 228

DOI:10.1016/j.neucom.2021.05.051 [本文引用: 1]

[21]

DONOHO D L, HUO X

Uncertainty principles and ideal atomic decomposition

[J]. IEEE Transactions on Information Theory, 2001, 47 (7): 2845- 2862

DOI:10.1109/18.959265 [本文引用: 1]

[22]

SINGHALV, AGGARWAL H K, TARIYAL S, et al

Discriminative robust deep dictionary learning for hyperspectral image classification

[J]. IEEE Transactions on Geoscience and Remote Sensing, 2017, 55 (9): 5274- 5283

DOI:10.1109/TGRS.2017.2704590 [本文引用: 1]

[23]

LI Z, LAI Z, YONG X, et al

A locality-constrained and label embedding dictionary learning algorithm for image classification

[J]. IEEE Transactions on Neural Networks and Learning Systems, 2017, 28 (2): 278- 293

DOI:10.1109/TNNLS.2015.2508025 [本文引用: 1]

[24]

PENG Y, LIU S, WANG X, et al

Joint local constraint and fisher discrimination based dictionary learning for image classification

[J]. Neurocomputing, 2020, 398: 505- 519

DOI:10.1016/j.neucom.2019.05.103 [本文引用: 1]

[25]

AHARON M, ELAD M, BRUCKSTERIN A

K-SVD: an algorithm for designing overcomplete dictionaries for sparse representation

[J]. IEEE Transactions on Signal Processing, 2006, 54 (11): 4311- 4322

DOI:10.1109/TSP.2006.881199 [本文引用: 2]

[26]

YANG Y, NEWSAM S. Bag-of-visual-words and spatial extensions for land-use classification [C]// Proceedings of 18th SIGSPATIAL International Conference on Advances in Geographic Information Systems. San Jose: ACM, 2010: 270-279.

[本文引用: 1]

[27]

ZHU Q, ZHONG Y, ZHAO B, et al

Bag-of-visual-words scene classifier with local and global features for high spatial resolution remote sensing imagery

[J]. IEEE Geoscience and Remote Sensing Letters, 2016, 13 (6): 747- 751

DOI:10.1109/LGRS.2015.2513443 [本文引用: 1]

[28]

XIA G S, YANG W, DELON J, et al. Structrual high-resolution satellite image indexing [C]// Proceeding of the ISPRS, TC VII Symposium: 100 Years ISPRS. Vienna: ISPRS, 2010: 298–303.

[本文引用: 1]

[29]

JIA Y, SHELHAMER E, DONAHUE J, et al. Caffe: convolutional architecture for fast feature embedding [C]// Proceedings of the 22nd ACM International Conference on Multimedia. Utrecht: ACM, 2014: 675-678.

[本文引用: 1]

[30]

WEN J, TIAN Z, SHE H. Feature extraction of hyperspectral images based on preserving neighborhood discriminant embedding [C]// 2010 International Conference on Image Analysis and Signal Processing. Yantai: IEEE, 2010: 257-262.

[本文引用: 1]

[31]

QAYYUM A, SAEED MALIK A, SAAD N M. et al. Image classification based on sparse-coded features using sparse coding technique for aerial imagery: a hybrid dictionary approach [J]. Neural Computation and Application. 2019, 31: 3587-3607.

[本文引用: 1]

[32]

KRIZHEVSKY A, SUTSKEVER I, HINTON G E. ImageNet classification with deep convolutional neural networks [C]// Proceedings of 26th Annual Conference on Neural Information Processing Systems. Lake Tahoe: MIT Press, 2012: 1097-1105.

[本文引用: 1]

[33]

YU Y, LIU F

A two-stream deep fusion framework for high-resolution aerial scene classification

[J]. Computational Intelligence and Neuroscience, 2018, 2018: 8639367

[本文引用: 1]

[34]

ROMERO A, GATTA C, CAMPS-VALLS G

Unsupervised deep feature extraction for remote sensing image classification

[J]. IEEE Transactions on Geoscience and Remote Sensing, 2016, 54 (3): 1349- 1362

DOI:10.1109/TGRS.2015.2478379 [本文引用: 1]

[35]

CHENG G, HAN J, LU X

Remote sensing image scene classification: benchmark and state of the art

[J]. Proceedings of the IEEE, 2017, 105 (10): 1865- 1883

DOI:10.1109/JPROC.2017.2675998 [本文引用: 1]

Remote sensing image scene classification meets deep learning: challenges, methods, benchmarks, and opportunities

2020

... 基于遥感图像的自动场景分类有重要的应用价值^[1-4]. 遥感图像的场景分类通常基于机器学习的监督学习方法，如支持向量机、马尔可夫随机场、随机森林等^[5-7]. 这些方法常忽略图像中隐藏的稀疏信息和空间信息，因此分类结果往往不令人满意^[8]. 遥感图像还有类内差异大的特点. 在不同的图像采集条件下，由于植被组成、土壤湿度和地形等不同，同类别的遥感图像差异可能很大；由于季节性、照明条件和太阳角度的变化，同一片土地覆盖类型的遥感图像也会呈现明显的差异. 随着深度学习的深入研究，基于深度模型的遥感图像场景分类研究日益兴起. Yu等^[9]提出双线性卷积神经网络模型，使用轻量级卷积神经网络来提取深度和抽象的图像特征. Yang等^[10]提出基于深度学习的分类框架，该框架采用深度学习分类器为图像创建场景类别的初始判断，根据从图像中检测到的特定于类别的特征对象确定场景类别. 王协等^[11] 提出基于多尺度学习与深度卷积神经网络，基于残差网络构建100层编码网络，并利用膨胀卷积实现特征图像的多尺度学习. ...

Two-stream feature aggregation deep neural network for scene classification of remote sensing images

2020

Remote sensing image scene classification using CNN-MLP with data augmentation

2020

基于图像混合特征的城市绿地遥感图像配准

2019

基于图像混合特征的城市绿地遥感图像配准

2019

基于深度学习的遥感影像变化检测方法

2020

基于深度学习的遥感影像变化检测方法

2020

Improved support vector machine enabled radial basis function and linear variants for remote sensing image classification

2021

Multisensor and multiresolution remote sensing image classification through a causal hierarchical Markov framework and decision tree ensembles

2021

A tidal flat wetlands delineation and classification method for high-resolution imagery

2021

An efficient and lightweight convolutional neural network for remote sensing image scene classification

2020

Object-guided remote sensing image scene classification based on joint use of deep-learning classifier and detector

2020

基于多尺度学习与深度卷积神经网络的遥感图像土地利用分类

2020

基于多尺度学习与深度卷积神经网络的遥感图像土地利用分类

2020

Auto-encoder-based shared mid-level visual dictionary learning for scene classification using very high resolution remote sensing images

2015

... 深度学习在遥感图像分类中虽应用潜力巨大，但也面临新的挑战：1）遥感图像包含大量信息，会消耗深度学习模型中数百个频带的神经元；2）训练动态学习模型常需要大量标注样本，在新场景中，这样的操作不仅困难而且耗时. 字典学习成为解决这类问题的有效方法^[12-13]. Xu等^[14] 使用字典学习去除遥感图像中的云区，能够恢复被薄云、厚云或云影污染的图像. Fwrraris等^[15]提出基于耦合字典学习的多模态遥感图像间无监督变化检测方法. Wang等^[16]提出改进的基于粒子群优化的在线词典学习方法，该方法在噪声抑制方面有较好的效果. Wang等^[17]提出基于多维协同相关的稀疏重建模型和协同稀疏模型，用于遥感图像的稀疏重建. 这些方法在样本的原始空间进行字典学习，实际的应用场景均有局限，原因如下. 1）遥感图像的高维特性使得算法复杂性随着维数的增加而增加^[18]；2）遥感图像的高维特征存在冗余特征信息，常规的降维方法和字典学习作为独立阶段执行，无法保留数据的最佳分类信息^[19-20]. ...

Contrast-weighted dictionary learning based saliency detection for remote sensing images

2021

Cloud removal based on sparse representation via multitemporal dictionary learning

2016

Coupled dictionary learning for unsupervised change detection between multimodal remote sensing images

2019

Particle swarm optimization based dictionary learning for remote sensing big data

2015

Hyperspectral image sparse reconstruction model based on collaborative multidimensional correlation

2021

Finding GEMS: multi-scale dictionaries for high-dimensional graph signals

2019

Unsupervised joint feature learning and encoding for RGB-D scene labeling

2015

Atom-substituted tensor dictionary learning enhanced convolutional neural network for hyperspectral image classification

2021

Uncertainty principles and ideal atomic decomposition

2001

... Liu等^[21]证明，在解足够稀疏的情况下，式(2)的解等同于式(1)的解. 使用最小化经验损失函数，字典学习和稀疏表示进一步表示为 ...

Discriminative robust deep dictionary learning for hyperspectral image classification

2017

... 传统的单层字典学习方法求解获得的字典和稀疏表示是浅层的，对于数据维度过高或样本数量过多的情况，这样的稀疏表示不利于识别和分类任务. 本研究结合分层字典学习^[22]和非线性投影技术提出的HNSDL方法，考虑M层字典学习，将每层视为单层的字典学习模型. 原始样本X输入模型第1层，使用非线性函数

$f( \cdot )$

将原始样本X投影至子空间，子空间特征表示为 ...

A locality-constrained and label embedding dictionary learning algorithm for image classification

2017

... 样本局部信息在机器学习算法中起着重要的作用^[23-24]. 从分类的角度来看，同类别样本的稀疏编码应该具有相似的结构. 为了保持投影空间的流形结构，引入字典向量的最近邻图G，构建稀疏编码的局部信息保持项，最近邻图G的元素

${g_{i,j}}$

定义为 ...

Joint local constraint and fisher discrimination based dictionary learning for image classification

2020

${g_{i,j}}$

定义为 ...

K-SVD: an algorithm for designing overcomplete dictionaries for sparse representation

2006

...

算法：HNSDL算法
输入：带类别标签的图像集X；
输出：字典矩阵 ${{\boldsymbol{D}}^{(m)}}$、权重矩阵 ${{\boldsymbol{W}}^{(m)}}$、偏移向量 ${{\boldsymbol{b}}^{(m)}}$， $1 \leqslant m \leqslant M$;
//训练阶段
1. 使用KSVD^[25]算法初始化 $ {{\boldsymbol{D}}^{(m)}} $、 ${{\boldsymbol{W}}^{(m)}}$、 ${{\boldsymbol{b}}^{(m)}}$为单位矩阵;
开始循环
for m = 1 to M do
2. 分别使用式(7)、(10)构建最近邻图 $ {{\boldsymbol{G}}^{(m)}} $、类内紧致图 $ {{\boldsymbol{V}}^{(m)}} $;
3. 固定 $ {{\boldsymbol{D}}^{(m)}} $、 ${{\boldsymbol{b}}^{(m)}}$、 ${\boldsymbol{A}}_{}^{{\text{(}}m{\text{)}}}$，使用式(15)、 (17)更新 ${{\boldsymbol{W}}^{(m)}}$；
4. 固定 $ {{\boldsymbol{D}}^{(m)}} $、 ${{\boldsymbol{W}}^{(m)}}$、 ${\boldsymbol{A}}_{}^{{\text{(}}m{\text{)}}}$，使用式(16)更新 ${{\boldsymbol{b}}^{(m)}}$;
5. 固定 $ {{\boldsymbol{D}}^{(m)}} $、 ${{\boldsymbol{W}}^{(m)}}$、 ${{\boldsymbol{b}}^{(m)}}$，使用式(22)更新 ${\boldsymbol{A}}_{}^{{\text{(}}m{\text{)}}}$;
6. 固定 ${\boldsymbol{A}}_{}^{{\text{(}}m{\text{)}}}$、 ${{\boldsymbol{W}}^{(m)}}$、 ${{\boldsymbol{b}}^{(m)}}$，使用式(25)更新 $ {{\boldsymbol{D}}^{(m)}} $;
循环结束直到目标式(13)收敛或者达到最大迭代次数;
7. 返回 ${{\boldsymbol{D}}^{(m)}}$、 ${{\boldsymbol{W}}^{(m)}}$、 ${{\boldsymbol{b}}^{(m)}}$的最优解， $1 \leqslant m \leqslant M$；
//测试阶段
for m = 1 to M do
8. 使用式(26)计算测试样本的稀疏编码向量 $ {\boldsymbol{a}}_{{\text{test}}}^{(m)} $；
9. 使用KNN分类器对 $ {\boldsymbol{a}}_{{\text{test}}}^{(M)} $进行分类.

...

... 实验对比算法包括2类. 1）传统的机器学习方法：NPE^[30]、K-SVD^[25]、DTT-HD^[31]算法；2）深度学习方法：AlexNet^[32]、TSDFF^[33]、UDFF^[34]和VGG-VD-16^[35]. 为了体现分层非线性投影对遥感场景图像分类的影响，实验将HNSDL中的层次设为1，并使用PCA算法将图像的维数降至300，命名这种方法为单层HNSDL(HNSDL-1L). 各算法的参数设置遵循相应文献的设置. K-SVD算法使用KNN分类器，字典的大小与训练集图像的数量相同. DTT-HD算法使用离散Tchebichef变换和离散Ridgelet变换训练得到混合字典，分类器使用线性支持向量机，字典矩阵中每个字典子类的大小为10. AlexNet网络由5个卷积层和3个完全连接层组成. TSDFF算法使用多种方法提取并融合特征，分类器使用极限学习机. UDFE算法使用贪婪的分层无监督预训练结合高效的稀疏特征无监督学习算法，分类器使用线性支持向量机，惩罚因子的搜索范围为

$\{10^{-3}, 10^{-2}, \cdots, 10^{3}\}$

. VGG16网络共有16层，其中卷积层为13层、池化层和全连接为3层. 式(7)的最近邻参数设置为7，正则化参数

${\lambda _1}、{\lambda _2}$

、

${\lambda _3}$

的搜索范围为

$\{10^{-4}，10^{-3},\cdots , 1\}.$

HNSDL中网络层数设为3，投影空间的维数依次为800、480和300，字典矩阵中每个字典子类的大小依次为30、20和10，KNN分类器中近邻参数k的搜索范围为{1, 3, 5, 7, 9, 11, 13}. 随机选取80%的图像样本作为训练集，剩余20%的图像样本作为测试集. 实验重复8次. 实验平台是Titan XP GPU的Linux机器平台的Pythorch软件. ...

... 实验在3个公开的真实遥感图像数据集上进行验证. 1）Ucmerced^[26]数据集由21个类的航空场景图像组成，每个类包含100幅RGB颜色的图像，每个图像的大小是256×256像素. 2）Google^[27]数据集是空中场景数据集，包含12个航空场景类：农业、商业、港口、闲置土地、工业、草地、天桥、公园、池塘、住宅、河流和水，每类都包含200幅200×200像素的图像. 3）WHU-RS^[28]数据集包含19类场景图像，每类包含50幅600×600像素的场景图像. 3个数据集的示例图像如图2所示. 实验使用CaffeNet^[29]获得高维的遥感图像特征. CaffeNet使用5个卷积层提取场景的局部特征，3个完全连接的层作为网络的末层提取全局特征，得到2048维的图像特征. ...

Bag-of-visual-words scene classifier with local and global features for high spatial resolution remote sensing imagery

2016

$\{10^{-3}, 10^{-2}, \cdots, 10^{3}\}$

. VGG16网络共有16层，其中卷积层为13层、池化层和全连接为3层. 式(7)的最近邻参数设置为7，正则化参数

${\lambda _1}、{\lambda _2}$

、

${\lambda _3}$

的搜索范围为

$\{10^{-4}，10^{-3},\cdots , 1\}.$

$\{10^{-3}, 10^{-2}, \cdots, 10^{3}\}$

. VGG16网络共有16层，其中卷积层为13层、池化层和全连接为3层. 式(7)的最近邻参数设置为7，正则化参数

${\lambda _1}、{\lambda _2}$

、

${\lambda _3}$

的搜索范围为

$\{10^{-4}，10^{-3},\cdots , 1\}.$

$\{10^{-3}, 10^{-2}, \cdots, 10^{3}\}$

. VGG16网络共有16层，其中卷积层为13层、池化层和全连接为3层. 式(7)的最近邻参数设置为7，正则化参数

${\lambda _1}、{\lambda _2}$

、

${\lambda _3}$

的搜索范围为

$\{10^{-4}，10^{-3},\cdots , 1\}.$

A two-stream deep fusion framework for high-resolution aerial scene classification

2018

$\{10^{-3}, 10^{-2}, \cdots, 10^{3}\}$

. VGG16网络共有16层，其中卷积层为13层、池化层和全连接为3层. 式(7)的最近邻参数设置为7，正则化参数

${\lambda _1}、{\lambda _2}$

、

${\lambda _3}$

的搜索范围为

$\{10^{-4}，10^{-3},\cdots , 1\}.$

Unsupervised deep feature extraction for remote sensing image classification

2016

$\{10^{-3}, 10^{-2}, \cdots, 10^{3}\}$

. VGG16网络共有16层，其中卷积层为13层、池化层和全连接为3层. 式(7)的最近邻参数设置为7，正则化参数

${\lambda _1}、{\lambda _2}$

、

${\lambda _3}$

的搜索范围为

$\{10^{-4}，10^{-3},\cdots , 1\}.$

Remote sensing image scene classification: benchmark and state of the art

2017

$\{10^{-3}, 10^{-2}, \cdots, 10^{3}\}$

. VGG16网络共有16层，其中卷积层为13层、池化层和全连接为3层. 式(7)的最近邻参数设置为7，正则化参数

${\lambda _1}、{\lambda _2}$

、

${\lambda _3}$

的搜索范围为

$\{10^{-4}，10^{-3},\cdots , 1\}.$

〈

〉