<img src="https://www.zjujournals.com/eng/images/1008-973X/images/logo.png" class="img-responsive">

图 1 多尺度互注意力与指导上采样网络结构

Fig.1 Multi-scale mutual attention and guided upsampling network structure

1.2. 多尺度互注意力模块

遥感图像在语义分割任务中存在大尺度目标物体与小尺度目标物体无法兼顾的问题，导致不同尺度目标物体的分割精确度差异较大. 提出多尺度互注意力模块（multi-scale mutual attention module，MMA）. 该模块通过输入不同尺度图像的特征图，计算不同特征图之间像素的全局关系，在像素级的层面上平衡不同尺度目标物体所占的权重，解决目标物体间的类别不平衡问题.

如图2所示，多尺度互注意力模块需要2个输入特征图：一个是分辨率为512像素×512像素的图像经过骨干网络（VGG16）得到的特征图 ${\boldsymbol{X}} \in {{\bf{R}}^{C \times H \times W}}$，另一个是将图像尺寸放大为1024像素×1024像素后经过骨干网络（VGG16）得到的特征图 ${\boldsymbol{Y}} \in {{\bf{R}}^{C \times H \times W}}$. 特征图 ${\boldsymbol{X}}$的分辨率为16像素×16像素，特征图 ${\boldsymbol{Y}}$的分辨率为32像素×32像素. 将特征图 ${\boldsymbol{X}}$输入到1×1的卷积中进行通道压缩，分别生成2个新的特征图 ${\boldsymbol{K}}$、 ${\boldsymbol{V}}$，其中 $\left\{ {{\boldsymbol{K}},{\boldsymbol{V}}} \right\} \in {{\bf{R}}^{C \times H \times W}}$. 对特征图 ${\boldsymbol{K}}$进行变形和转置得到矩阵 ${\boldsymbol{K}}' \in {{\bf{R}}^{N \times C}}$，对特征图 ${\boldsymbol{V}}$变形得到矩阵 ${\boldsymbol{V}}' \in {{\bf{R}}^{C \times N}}$，其中 $ N = H \times W $. 将特征图 ${\boldsymbol{Y}}$经过2倍下采样后输入到1×1的卷积中，生成新的特征图 ${\boldsymbol{Q}} \in {{\bf{R}}^{C \times H \times W}}$，对特征图 ${\boldsymbol{Q}}$变形得到矩阵 ${\boldsymbol{Q}}' \in {{\bf{R}}^{C \times N}}$. 将矩阵 ${\boldsymbol{K}}'$和 ${\boldsymbol{Q}}'$进行矩阵相乘，经过softmax激活函数得到权重图 ${\boldsymbol{A}} \in {{\bf{R}}^{N \times N}}$，如下所示：

图 2

图 2 多尺度互注意力模块的结构

Fig.2 Structure of multi-scale mutual attention module

(1) $ {A}_{ij}=\frac{\mathrm{exp}\left({K}_{ij}^{{'}}\cdot{Q}_{ij}^{{'}}\right)}{{\displaystyle {\sum }_{i,j=1}^{N}\mathrm{exp}\left({K}_{ij}^{{'}}\cdot{Q}_{ij}^{{'}}\right)}} . $

将矩阵 ${\boldsymbol{V}}'$和权重图 ${\boldsymbol{A}}$进行矩阵相乘得到矩阵 ${\boldsymbol{B}}' \in {{\bf{R}}^{C \times N}}$，对矩阵 ${\boldsymbol{B}'}$变形得到特征图 ${\boldsymbol{B}} \in {{\bf{R}}^{C \times H \times W}}$. 将特征图 ${\boldsymbol{B}}$和特征图 ${\boldsymbol{X}}$进行逐像素相加，得到特征图 ${\boldsymbol{Z}} \in {{\bf{R}}^{C \times H \times W}}$，如下所示：

(2) $ {Z}_{ij}={\rm{reshape}}\left({A}_{ij}^{{'}}\cdot{V}_{ij}^{{'}}\right)+{X}_{ij} . $

从式（2）可以看出，特征图 ${\boldsymbol{Z}}$中不仅包含了特征图 ${\boldsymbol{X}}$中的所有信息，还包含了不同尺度特征图之间各个像素的全局关系. 在遥感图像中，大尺度的目标物体的分割精度高于小尺度目标物体的分割精度. 通过将输入遥感图像放大1倍来放大小尺度目标物体的尺寸，经过注意力机制得到不同尺度目标物体的权重图. 该权重图平衡了大尺度目标物体与小尺度目标物体之间的权重，在不影响对大尺度目标物体分割精度的前提下，提高了小尺度目标物体的分割精度.

1.3. 编码指导上采样模块

在卷积神经网络中，浅层的空间细节信息是必不可少的. 直接利用通道拼接引入浅层空间信息的方法不仅融合了很多冗余信息，而且增大了网络的参数量和计算量.

在卷积神经网络的解码部分，大多数网络都是通过临近插值法或双线性插值法对特征图进行上采样操作. 利用这种无参数、不可学习的上采样方法，会导致靠近边界的像素被分配为错误类别.

为了在增大上采样可学习性的同时引入网络中的空间细节信息，提出编码指导上采样模块（code-guided upsampling module，CGU），如图3所示. 该编码指导上采样模块需要2个输入特征图：一个是编码结构中每个stage输出的包含空间细节信息的特征图 ${\boldsymbol{X}}$，另一个是待上采样的网络深层特征图 ${\boldsymbol{H}}$. 将特征图 ${\boldsymbol{X}}$输入到细节块中，提取特征图 ${\boldsymbol{X}}$中包含的空间细节信息，对提取出的空间细节信息经过softmax函数得到空间细节信息的权重图 ${\boldsymbol{G}}$. 其中，细节块主要由2个block块和1个1×1卷积组成，每个block块由1个3×3卷积层、1个BN层和1个ReLU层组成. 对特征图 ${\boldsymbol{H}}$利用双线性插值方法进行2倍的上采样，得到与权重图 ${\boldsymbol{G}}$尺寸一样的特征图 $\overline {\boldsymbol{H}}$. 将权重图 ${\boldsymbol{G}}$和特征图 $\overline {\boldsymbol{H}}$进行逐像素相乘，得到包含空间细节信息的特征图 ${\boldsymbol{U}}$，如下所示：

图 3

图 3 编码指导上采样模块的结构

Fig.3 Structure of code-guided upsampling module

(3) $ {\boldsymbol{U}} = {\rm{Softmax}}\left( {{\rm{Detail}}\left( {\boldsymbol{X}} \right)} \right) * {\rm{UP}}\left( {\boldsymbol{H}} \right) . $

编码结构输出的特征图在对上采样进行指导前引入细节块，不仅提取出了特征图中的空间细节信息，还增加了权重图的可学习性，弥补了上采样不可学习的缺点.

2. 数据集及评估指标

2.1. 数据集

Potsdam数据集：Potsdam数据集是在德国勃兰登堡首都上空拍摄的数字正射影像图. 在实验中，将数据集中的遥感图像裁剪成2 304张分辨率为512像素×512像素的图像. 其中的1 612张图像作为训练集，346张图像作为验证集，346张图像作为测试集.

Jiage数据集：Jiage数据集包括4个中等分辨率的遥感影像及相应的真实标签. 将数据集中的图像裁剪成分辨率为512像素×512像素的图像. 由于数据集较小，使用常用的数据增强方法，共得到3 173张分辨率为512像素×512像素的图像，将其中的2 390张图像作为训练集，400张图像作为验证集，383张图像作为测试集.

2.2. 评估指标

在实验中，使用平均交并比（mIoU）、F₁得分和像素精度（PA）作为指标，评估多尺度互注意力与指导上采样网络的优越性.

像素精度、F₁得分、平均交并比的定义分别如下所示：

(4) $ {\rm{PA}} = \frac{{\displaystyle\sum\nolimits_i^n {{{\rm{T}}{{\rm{P}}}}_i} }}{{\displaystyle\sum\nolimits_i^n {\left( {{\rm{T}}{{\rm{P}}_i}+{\rm{F}}{{\rm{P}}_i}} \right)} }} , $

(5) $ {F_1} = 2 \times {{P {R} }}/({{P+{R}}}) , $

(6) $ {\rm{m{IoU}}} = {{\rm{TP}}}/({{{\rm{TP+FP+FN}}}}) . $

式中：TP、TN、FP和FN分别为真阳性、真阴性、假阳性和假阴性的数量；R为召回率，P为精确度，

(7) $ {R} = {{\rm{TP}}}/({{{\rm{TP+FN}}}}) , $

(8) $ {{P}} = {{{\rm{TP}}}}/({{{\rm{TP+FP}}}}) . $

3. 实验设计及结果

提出的多尺度互注意力与指导上采样网络在Pytorch深度学习框架下实现，在64位windows10系统的服务器上开展实验. 该服务器的CPU为英特尔至强R处理器E5-2650 v4（2.20 GHz），配备80 GB的内存（RAM）. 显卡为Nvidia GeForce GTX 1080 Ti，显存为11 GB.

在训练过程中，使用小批次的随机梯度下降法（SGD），批次大小为4，动量为0.9，权重衰减为0.000 1，设置初始学习率为0.001 8. 采用“poly”的学习率衰减策略来动态调整学习率，表达式为

(9) $ l = {l_{{\rm{ini}}}} {\left( {1 - {e}/{{{e_{\max }}}}} \right)^{0.9}} . $

式中： $ l $为当前学习率， ${l_{{\rm{ini}}}}$为初始学习率， $ e $为当前的训练轮数， $ {e_{\max }} $为最大的训练轮数.

整个实验过程包括消融实验和对比实验. 如表1所示为提出实验策略的4种缩写. 其中DCED表示单尺度输入且骨干网络为VGG16的深度卷积编码-解码网络，该网络的输入为单一尺度的图像，输入图像分辨率为512像素×512像素.

表 1 所有实验策略的缩写

Tab.1 Abbreviation for all experimental strategies

名称缩写	描述
DCED	单尺度输入且骨干网络为VGG16的深度卷积编码-解码网络
DCED-MMA	在DCED基础上添加了MMA的网络
DCED-CGU	在DCED基础上添加了CGU的网络
DCED-MMA-CGU	在DCED基础上添加了MMA和CGU的网络

3.1. Potsdam数据集上的消融实验结果展示与分析

在Potsdam数据集上通过实验验证了网络中各个模块的有效性. 如表2、3所示为在Potsdam数据集上开展的消融实验结果. 表中，IoU为交并比.

表 2 Potsdam数据集上的消融实验结果

Tab.2 Results of ablation experiments on Potsdam dataset

网络模型	F₁/%	mIoU/%	PA/%
DCED	84.85	74.33	86.29
DCED-MMA	91.36	84.21	91.39
DCED-CGU	90.56	82.87	90.92
DCED-MMA-CGU	92.15	85.52	92.33

3.1.1. 增加多尺度互注意力模块（MMA）的消融实验结果

如表2、3所示，在DCED的基础上加入MMA后，较DCED在mIoU、PA、F₁上分别增加了9.88%、5.1%、6.51%，特别是背景、不透水表面和树的mIoU提升尤为明显，分别提升了27.39%、8.50%、7.35%. 从图4的第4列可以看出，相比于DCED，DCED-MMA对小尺度物体的分割精度有很大提升，特别是对于在图像中占比较少的背景物体. 通过多尺度输入策略和互注意力机制，能够更好地平衡不同尺度目标物体，解决物体类间不平衡的问题，提高小尺度物体的分割精确度.

图 4

图 4 Potsdam数据集上消融实验的局部视觉对比结果

Fig.4 Local visual comparison results of ablation experiments on Potsdam dataset

3.1.2. 增加编码指导上采样模块（CGU）的消融实验结果

如表2所示，在DCED的基础上加入CGU后，较DCED在mIoU、PA、F₁上分别增加了8.54%、4.63%、5.71%，较DCED-MMA在mIoU、PA、F₁上分别减少了1.34%、0.47%、0.80%，这说明DCED-CGU的整体性能不如DCED-MMA. 从表3可以看出，DCED-CGU对小尺度物体的分割效果不如DCED-MMA，如汽车类别，DCED-MMA的mIoU比DCED-CGU高3.83%. 从图4可以看出，与DCED相比，DCED-CGU能够更好地展现物体的细节信息，使得对物体边缘分割更精确. 通过编码特征图来指导上采样的策略，可以巧妙地融合空间细节信息，使得上采样具有可学习性，提高物体的分割精度.

表 3 Potsdam数据集上各类别的消融实验结果

Tab.3 Results of ablation experiments of various categories on Potsdam dataset

模型	IoU/%
模型	背景	汽车	不透水表面	树	低植被	建筑物
DCED	54.57	76.05	79.37	72.02	74.97	89.02
DCED-MMA	81.96	81.22	87.87	79.37	81.92	92.91
DCED-CGU	81.26	77.39	86.04	79.19	81.64	91.71
DCED-MMA-CGU	83.21	82.42	87.89	83.09	83.79	92.71

3.1.3. 增加多尺度互注意力模块（MMA）和编码指导上采样模块（CGU）的消融实验结果

如表2、3所示，在DCED的基础上加入MMA和CGU后，较DCED-MMA在mIoU、PA、F₁上分别增加了1.31%、0.94%、0.79%，较DCED-CGU在mIoU、PA、F₁上分别增加了2.65%、1.41%、1.59%. 从图4可以看出，DCED-MMA-CGU集合了MMA和CGU两者的优点，在保证对小尺度物体分割精度的情况下，增加了空间细节信息，细化了物体的边界信息，提高了各类目标物体的分割精度. DCED-MMA-CGU可以更好地处理遥感图像语义分割任务.

3.2. Jiage数据集上的消融实验结果展示与分析

在Jiage数据集上，通过实验逐步验证了网络中各个模块的有效性. 如表4、5所示为在Jiage数据集上开展消融实验的结果.

表 4 Jiage数据集上的消融实验结果

Tab.4 Results of ablation experiments on Jiage dataset

网络模型	F₁/%	mIoU/%	PA/%
DCED	84.71	75.25	91.89
DCED-MMA	91.34	84.50	94.73
DCED-CGU	90.93	83.86	94.44
DCED-MMA-CGU	92.66	86.59	95.13

表 5 Jiage数据集上各类别的消融实验结果

Tab.5 Results of ablation experiments of various categories on Jiage dataset

模型	IoU/%
模型	背景	植被	道路	水	建筑物
DCED	77.04	92.84	43.91	83.91	78.56
DCED-MMA	83.11	95.84	69.38	90.34	83.82
DCED-CGU	82.57	95.41	67.68	90.64	82.99
DCED-MMA-CGU	84.15	95.51	75.31	91.53	86.44

3.2.1. 增加多尺度互注意力模块（MMA）的消融实验结果

如表4、5所示，在DCED的基础上加入MMA后，在mIoU、PA、F₁上分别增加了9.25%、2.84%、6.63%，特别是道路、水和背景的mIoU提升尤为明显，分别提升了25.47%、6.43%、6.07%. 从图5的第4列可以看出，与DCED相比，DCED-MMA能够更好地平衡大尺度物体与小尺度物体所占的权重，提高小尺度物体的分割精确度.

图 5

图 5 Jiage数据集上消融实验的局部视觉对比结果

Fig.5 Local visual comparison results of ablation experiments on Jiage dataset

3.2.2. 增加编码指导上采样模块（CGU）的消融实验结果

如表4、5所示，在DCED的基础上加入CGU后，较DCED在mIoU、PA、F₁上分别增加了8.61%、2.55%、6.22%，较DCED-MMA在mIoU、PA、F₁上分别减少了0.64%、0.29%、0.41%. 这说明DCED-CGU的整体性能不如DCED-MMA，特别是对小尺度物体的分割效果更差，如道路类别，DCED-MMA的mIoU比DCED-CGU高1.7%. 对比图5中的第4、5列可以看出，DCED-CGU能够更好地区分目标物体边界，DCED-MMA对小尺度物体的分割更有优势.

3.2.3. 增加多尺度互注意力模块（MMA）和编码指导上采样模块（CGU）的消融实验结果

如表4、5所示，在DCED的基础上加入MMA和CGU后，较DCED-MMA在mIoU、PA、F₁上分别增加了2.09%、0.40%、1.32%，较DCED-CGU在mIoU、PA、F₁上分别增加了2.73%、0.69%、1.73%. 从图5可以看出，与DCED-MMA和DCED-CGU相比，DCED-MMA-CGU的语义分割性能有所上升，特别是对于小尺度物体的分割精度提升尤为明显. DCED-MMA-CGU可以更好地处理遥感图像语义分割任务.

3.3. Potsdam数据集上的对比实验结果展示与分析

在Potsdam数据集上，将DCED-MMA-CGU与最新的网络进行对比. 如表6所示为DCED-MMA-CGU和8个最新的分割网络模型在Potsdam数据集上各个类别的IoU和mIoU的结果. 与SegNet^[21]、PSPNet、DeeplabV3、MSRF^[22]、EMANet^[23]、CCNet、DANNet^[24]和MagNet^[25]获得的mIoU相比，DCED-MMA-CGU的mIoU分别增加了14.62%、9.35%、8.77%、5.47%、3.72%、3.13%、1.43%和1.32%，总体上表现均优于其他模型，得到了最好的效果.

表 6 在Potsdam数据集上与8种最先进的方法进行定量比较

Tab.6 Quantitative comparison with 8 state-of-the-art methods on Potsdam dataset

模型	IoU/%						mIoU/%
模型	背景	汽车	不透水表面	树	低植被	建筑物	mIoU/%
SegNet	69.49	59.85	83.44	52.97	79.26	80.36	70.90
PSPNet	78.33	65.84	86.78	56.21	81.55	88.32	76.17
DeeplabV3	78.86	67.57	85.63	60.38	80.57	87.51	76.75
MSRF	77.22	73.86	85.56	73.40	79.60	90.66	80.05
EMANet	77.40	75.60	85.60	80.70	82.10	89.30	81.80
CCNet	76.39	78.79	87.60	79.62	82.24	89.71	82.39
DANNet	82.19	77.35	87.28	82.57	82.62	92.51	84.09
MagNet	79.54	82.09	88.67	79.85	83.00	92.07	84.20
DCED-MMA-CGU	83.21	82.42	87.89	83.09	83.79	92.71	85.52

从表6可以看出，所有网络对遥感图像中大尺度的建筑物类别和不透水表面类别的分割效果较好，对小尺度的汽车类别和边界复杂的树和背景类别的分割效果较差. 传统的语义分割网络如SegNet、PSPNet、DeeplabV3在遥感图像语义分割任务中效果相对较差，近年来提出的网络如DANNet和MagNet在遥感图像语义分割领域中具有一定的优势. 与DANNet相比，DCED-MMA-CGU在汽车类别的IoU上提升了5.07%，提升效果明显；在背景和低植被类别的IoU上分别提升了1.02%和1.17%. 由此可见，DCED-MMA-CGU对小尺度物体的分割效果有较大提升. 与MagNet相比，DCED-MMA-CGU在背景和树类别的IoU上分别提升了3.67%和3.24%. DCED-MMA-CGU不仅提升了小尺度物体的分割精度，而且提升了对边界轮廓复杂物体的分割效果，适合处理遥感图像的语义分割任务.

如图6所示为3个经典的网络（PSPNet、CCNet、MagNet）和DCED-MMA-CGU在Potsdam数据集上语义分割的结果. 可以看出，PSPNet的分割效果较差，出现较多分类错误的现象，如第3行将背景错误分类为不透水表面. CCNet的总体分割效果较好，但是一些小尺度物体的分割效果不太理想，如第6行将部分汽车错误分类为背景. MagNet对小尺度物体的分割效果有所提升，如第6行的汽车类别和第1、2、5行中的背景类别，但是对一些类别的边界轮廓出现分类错误的现象，如第4行中对低植被和建筑物的边界分类错误. DCED- MMA-CGU对小尺度的汽车类别和复杂边界的背景类别分类都较准确. 虽然MagNet和DCED-MMA-CGU对遥感图像中小尺度物体的分割精确度都有所提升，但是DCED-MMA-CGU能够对目标物体的边缘进行分割，提高了语义分割的整体性能.

图 6

图 6 Potsdam数据集上PSPNet、CCNet、MagNet和DCED-MMA-CGU的局部视觉对比结果

Fig.6 Local visual comparison results of PSPNet, CCNet, MagNet and DCED-MMA-CGU on Potsdam dataset

3.4. Jiage数据集上的对比实验结果展示与分析

在Jiage数据集上，将DCED-MMA-CGU与最新的网络进行对比. 如表7所示为DCED-MMA-CGU和8个最新的分割网络模型在Jiage数据集上各个类别的IoU和mIoU. 与SegNet、PSPNet、DeeplabV3、EMANet、MSRF、CCNet、MagNet和DANNet获得的mIoU相比，DCED-MMA-CGU的mIoU分别增加了16.17%、7.53%、6.60%、4.22%、3.95%、3.36%、2.07%和1.46%，得到了最好的效果.

表 7 在Jiage数据集上与 8 种最先进的方法进行定量比较

Tab.7 Quantitative comparison with 8 state-of-the-art methods on Jiage dataset

模型	IoU/%					mIoU/%
模型	背景	植被	道路	水	建筑物	mIoU/%
SegNet	61.42	87.27	91.44	45.42	66.58	70.42
PSPNet	79.08	89.91	96.25	48.81	81.27	79.06
DeeplabV3	80.83	88.67	95.27	56.51	78.66	79.99
EMANet	81.93	88.37	95.13	63.88	82.52	82.37
MSRF	80.62	87.49	94.19	69.51	81.37	82.64
CCNet	81.29	90.86	95.30	67.06	81.64	83.23
MagNet	82.37	91.31	95.70	70.47	82.78	84.52
DANNet	81.33	90.51	94.58	75.28	83.96	85.13
DCED-MMA-CGU	84.15	91.53	95.51	75.31	86.44	86.59

从表7可以看出，所有网络对遥感图像中大尺度的植被类别和水类别的分割效果较好，对小尺度的路类别和边界复杂的背景和建筑物类别的分割效果较差. 与MagNet相比，DCED-MMA-CGU在路类别和建筑物类别的IoU上分别提升了4.84%和3.66%. 由此可见，DCED- MMA-CGU对小尺度物体的分割效果有很大提升. 与DANNet相比，DCED-MMA-CGU在背景和建筑物类别的IoU上分别提升了2.82%和2.48%. DCED-MMA-CGU在提升小尺度物体的分割精度的同时引入了空间细节信息，使得对物体边界的分类更加准确.

如图7所示为3个经典的网络（PSPNet、CCNet、MagNet）和DCED-MMA-CGU在Jiage数据集上语义分割的结果. 可以看出，PSPNet对图像中占比较小物体的分割效果较差，如第2、3行中无法正确区分背景类别. CCNet和MagNet的分割效果相差不大，但均出现了错误分类现象，如第4行中2个网络将背景错误分类为建筑物，第6行中2个网络将背景错误分类为植被. DCED-MMA-CGU相较于其他3个经典网络取得了最好的分割效果，特别是在背景类别和建筑物类别上具有明显的优势. DCED-MMA-CGU包含遥感图像中的细节信息，可以更好地描绘目标物体的轮廓.

图 7

图 7 Jiage数据集上PSPNet、CCNet、MagNet和DCED-MMA-CGU的局部视觉对比结果

Fig.7 Local visual comparison results of PSPNet, CCNet, MagNet and DCED-MMA-CGU on Jiage dataset

4. 结　语

针对遥感图像语义分割任务中目标物体之间的巨大尺度差异导致小尺度物体分割精度低的问题，提出多尺度互注意力与指导上采样网络. 该网络包括1个多尺度互注意力模块和1个编码指导上采样模块. MMA通过不同尺度的图像输入和互注意力机制，在像素级层面上捕获大尺度物体与小尺度物体之间的全局关系，提升对小尺度物体的关注度. CGU在上采样过程中引入细节信息，使得上采样的过程具有可学习性. 在2个数据集（Potsdam和Jiage）上，开展消融实验和对比实验. 实验结果表明，在相同的实验条件下，利用提出的方法提高了对小尺度大物体的分割精度，整体效果优于8种最新的网络. 随着具体应用越来越依赖于遥感图像处理的实时性，未来可以在不影响分割精度的同时，减少网络的参数量，构建轻量级网络，提高遥感图像的处理速度.

参考文献

原文顺序

文献年度倒序

文中引用次数倒序

被引期刊影响因子

[1]

ZHANG X, XIAO Z, LI D, et al

Semantic segmentation of remote sensing images using multiscale decoding network

[J]. IEEE Geoscience and Remote Sensing Letters, 2019, 16 (9): 1492- 1496

DOI:10.1109/LGRS.2019.2901592 [本文引用: 1]

[2]

LONG J, SHELHAMER E, DARRELL T. Fully convolutional networks for semantic segmentation [C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Boston: IEEE, 2015: 3431-3440.

[3]

RONNEBERGER O, FISCHER P, BROX T. U-net: convolutional networks for biomedical image segmentation [C]// International Conference on Medical Image Computing and Computer-Assisted Intervention. Cham: Springer, 2015: 234-241.

[4]

CHEN L C, PAPANDREOU G, SCHROFF F, et al. Rethinking atrous convolution for semantic image segmentation [EB/OL]. [2017-06-17]. https://arxiv.org/ abs/1706.05587.

[本文引用: 2]

[5]

ZHAO H, SHI J, QI X, et al. Pyramid scene parsing network [C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Honolulu: IEEE, 2017: 2881-2890.

[6]

WANG X, LI Z, HUANG Y, et al

Multimodal medical image segmentation using multi-scale context-aware network

[J]. Neurocomputing, 2022, 486: 135- 146

DOI:10.1016/j.neucom.2021.11.017

[7]

DOU F, ZHANG C, HU D, et al

EASNet: a multiscale attention semantic segmentation network combined with asymmetric convolution

[J]. Journal of Electronic Imaging, 2022, 31 (4): 043034

[8]

LUO J, ZHAO L, ZHU L, et al

Multi-scale receptive field fusion network for lightweight image super-resolution

[J]. Neurocomputing, 2022, 493: 314- 326

DOI:10.1016/j.neucom.2022.04.038

[9]

LIN D, SHEN D, SHEN S, et al. Zigzagnet: fusing top-down and bottom-up context for object segmentation [C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Long Beach: IEEE, 2019: 7490-7499.

[10]

吴泽康, 赵姗, 李宏伟, 等

遥感图像语义分割空间全局上下文信息网络

[J]. 浙江大学学报: 工学版, 2022, 56 (4): 795- 802

WU Ze-kang, ZHAO Shan, LI Hong-wei, et al

Spatial global context information network for semantic segmentation of remote sensing image

[J]. Journal of Zhejiang University: Engineering Science, 2022, 56 (4): 795- 802

[11]

FU J, LIU J, TIAN H, et al. Dual attention network for scene segmentation [C]// Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. Long Beach: IEEE, 2019: 3146-3154.

[本文引用: 2]

[12]

HUANG Z, WANG X, HUANG L, et al. CCNet: criss-cross attention for semantic segmentation [C]// Proceedings of the IEEE/CVF International Conference on Computer Vision. Seoul: IEEE, 2019: 603-612.

[13]

HU J, SHEN L, SUN G. Squeeze-and-excitation networks [C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Salt Lake City: IEEE, 2018: 7132–7141.

[14]

WOO S, PARK J, LEE J Y, et al. CBAM: convolutional block attention module [C]// Proceedings of the European Conference on Computer Vision. Munich: [s. n. ], 2018: 3–19.

[15]

ZHOU Z, ZHOU Y, WANG D, et al

Self-attention feature fusion network for semantic segmentation

[J]. Neurocomputing, 2021, 453: 50- 59

DOI:10.1016/j.neucom.2021.04.106

[16]

谭大宁, 刘瑜, 姚力波, 等

基于视觉注意力机制的多源遥感图像语义分割

[J]. 信号处理, 2022, 38 (6): 1180- 1191

TAN Da-ning, LIU Yu, YAO Li-bo, et al

Semantic segmentation of multi-source remote sensing images based on visual attention mechanism

[J]. Journal of Signal Processing, 2022, 38 (6): 1180- 1191

[17]

ZOU L, ZHANG Z, DU H, et al

DA-IMRN: dual-attention-guided interactive multi-scale residual network for hyperspectral image classification

[J]. Remote Sensing, 2022, 14 (3): 530

DOI:10.3390/rs14030530 [本文引用: 2]

[18]

CUI W, WANG F, HE X, et al

Multi-scale semantic segmentation and spatial relationship recognition of remote sensing images based on an attention model

[J]. Remote Sensing, 2019, 11 (9): 1044

DOI:10.3390/rs11091044

[19]

QI X, LI K, LIU P, et al

Deep attention and multi-scale networks for accurate remote sensing image segmentation

[J]. IEEE Access, 2020, 8: 146627- 146639

DOI:10.1109/ACCESS.2020.3015587 [本文引用: 1]

[20]

SIMONYAN K, ZISSERMAN A. Very deep convolutional networks for large-scale image recognition [EB/OL]. [2014-09-04]. https://arxiv.org/abs/1409.1556.

[21]

BADRINARAYANAN V, KENDALL A, CIPOLLA R

Segnet: a deep convolutional encoder-decoder architecture for image segmentation

[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2017, 39 (12): 2481- 2495

DOI:10.1109/TPAMI.2016.2644615 [本文引用: 1]

[22]

SRIVASTAVA A, JHA D, CHANDA S, et al

Msrf-net: a multi-scale residual fusion network for biomedical image segmentation

[J]. IEEE Journal of Biomedical and Health Informatics, 2021, 26 (5): 2252- 2263

[23]

LI X, ZHONG Z, WU J, et al. Expectation-maximization attention networks for semantic segmentation [C]// Proceedings of the IEEE/CVF International Conference on Computer Vision. Seoul: IEEE, 2019: 9167-9176.

[24]

WU X, WU Z, GUO H, et al. DANNet: a one-stage domain adaptation network for unsupervised nighttime semantic segmentation [C]// Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. [S. l. ]: IEEE, 2021: 15769-15778.

[25]

HUYNH C, TRAN A T, LUU K, et al. Progressive semantic segmentation [C]// Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. [S. l. ]: IEEE, 2021: 16755-16764.