<img src="https://www.zjujournals.com/eng/images/1008-973X/images/logo.png" class="img-responsive">

图 1 EA-Former网络结构

Fig.1 EA-Former network structure

1.2. 自适应卷积位置编码模块(ACPE)

精准的位置信息对于语义分割任务是至关重要的. 在标准的Transformer结构中通常采用可学习的显式位置编码方法，该方法通过模型训练学习到长度相对固定的位置向量，再与嵌入向量相加，从而为嵌入向量引入空间位置信息. 本研究将Transformer中的位置编码过程近似地抽象为输入的每个位置获得由位置编码方法产生的位置权重，表达式为

(1) $ {{\boldsymbol{X}}_{{\text{pos}}}}{\text{ = }}{\boldsymbol{X}}+{\boldsymbol{\eta }} ， $

(2) $ {\boldsymbol{\eta }} ={\rm{ PE}}\left( {\boldsymbol{X}} \right). $

式中： ${\boldsymbol{X}} \in {{\bf{R}}^{ {H \times W} \times C}}$为重叠切片嵌入后的二维向量， $H \times W$代表嵌入向量的序列长度， $ C $为嵌入向量的通道维度， ${\boldsymbol{\eta }} \in {{\bf{R}}^{ {H \times W} \times C}}$为学习的位置参数， $ {\rm{PE}}\left( \cdot \right) $为Transformer中的位置编码方法， $ {{\boldsymbol{X}}_{{\text{pos}}}} $为含位置信息的嵌入向量. 结合式（1）、（2）可以得到，当网络训练完成后，位置参数的长度固定，即为显式位置编码，所得位置编码向量的维度与模型训练图片的分辨率匹配. 当测试图片分辨率与训练图片不同时，采用显式位置编码方式的Transformer分割模型只能对训练所得的位置编码进行插值处理，虽然模型也能成功地推理出对应的分割结果，但使用插值后的位置编码向量通常会造成明显的性能损失，使Transformer视觉网络的灵活性降低. 为了解决显式位置编码长度固定，难以适配任意长度输入的问题，Chu等^[15]提出位置编码生成器，利用单层深度可分离卷积提取对应的空间信息，生成位置编码与特征向量相加，为网络提供自适应位置信息；Yuan等^[16]修改标准Transformer结构，移除单独的位置编码模块，利用CNN可保留空间信息的特性, 将CNN融入Transformer的特征映射与特征提取，为Transformer视觉网络提供动态位置信息.

在上述工作的基础上，本研究不仅将CNN融入Transformer结构，而且为了给网络提供足够细粒度的空间信息，依然保留单独的位置编码模块，提出更加灵活的位置权重产生方式. 具体来说，本研究将标准Transformer结构中的向量嵌入模块、注意力映射模块均改为卷积实现. 原因是相较于全连接操作，卷积不仅运算速度更快、参数量更少，而且能够保留一部分局部空间信息，有助于提升网络最终的分割精度和效率. ACPE通过充分结合嵌入向量周围的上下文信息，以逐像素空间注意力的方式为Transformer结构提供随输入图片分辨率自适应变化的动态位置权重，仅当特征图分辨率发生变化时，才需要重新导入新的位置信息。为此将ACPE放置于各阶段的重叠切片嵌入之后，为分辨率变化后的特征向量提供自适应的动态位置信息.

如图2所示,ACPE采用反瓶颈结构，为了减少位置编码部分的参数量，高效地得到自适应位置信息，使用深度可分离卷积代替普通卷积. 具体来说，1）使用卷积核大小为 $ 7 \times 7 $，填充范围为 $ 3 $的逐通道卷积D_Conv对嵌入后的向量进行卷积. 2）通过层归一化操作，将归一化后的结果进行2次 $ 1 \times 1 $逐点卷积，第1次逐点卷积P_Conv_1将通道数拓展为原来的2倍，第2次逐点卷积P_Conv_2又将通道数还原回输入的通道数. 这样的反瓶颈结构可以有效避免信息流失. 3）将卷积后的结果送入Sigmoid激活函数，用于取得对应的位置权重与嵌入后的特征相乘，得到含位置信息的嵌入向量. 上述过程的表达式为

图 2

图 2 自适应卷积位置编码结构

Fig.2 Adaptive convolutional positional encoding structure

(3) $ \boldsymbol{X}_{\mathrm{e}}^{\prime}=\mathrm{LN}\left(\mathrm{D}_{-} \operatorname{Conv}\left(\boldsymbol{X}_{\mathrm{e}}\right)\right),$

(4) $ {{\boldsymbol{X}}_{\text{e}}}^{\prime \prime } ={\text{ P}}\_{\text{Conv}}\_1\left( {{{\boldsymbol{X}}_{\text{e}}}^\prime } \right), $

(5) $ {{\boldsymbol{X}}_{\text{e}}}^{\prime \prime \prime } ={\text{ P}}\_{\text{Conv}}\_2\left( {{\text{GELU}}\left( {{{\boldsymbol{X}}_{\text{e}}}^{\prime \prime }} \right)} \right), $

(6) $ {\boldsymbol{\sigma}} = {\text{Sigmoid}} \left( {{{\boldsymbol{X}}_{\text{e}}}^{\prime \prime \prime }} \right),$

(7) $ {{\boldsymbol{X}}_{{\text{pos}}}} = {\boldsymbol{\sigma}} {{\boldsymbol{X}}_{\text{e}}}. $

式中： $ {\text{LN}} $为层归一化操作， $ {\text{GELU}}\left( \cdot \right) $为GELU激活操作， $ {\text{Sigmoid}}\left( \cdot \right) $为Sigmoid激活操作， ${\boldsymbol{\sigma}}$为自适应卷积位置编码得到的位置权重， $ {{\boldsymbol{X}}_{\text{e}}} $为嵌入后的向量. 自适应卷积位置编码模块通过卷积实现位置编码，无需指定位置编码的大小. 原因是卷积操作会自适应地根据输入大小的变化得到不同大小的输出，缓解当测试图片与输入图片分辨率不同时引起的性能下降问题.

1.3. 联合重采样自注意力模块(JRSA)

在标准Transformer模块的多头自注意力计算中，第 $ i $个头的自注意力的计算式为

(8) $ {\text{SA}}\left( { {\text{head}}{_i}} \right) = {\text{Softmax}}\left( {\frac{{{{\boldsymbol{Q}}_i}{\boldsymbol{K}}_i^{{\rm{T}}}}}{{\sqrt {{d_{{\text{head}}}}} }}} \right){{\boldsymbol{V}}_i}. $

式中： $ {\boldsymbol{Q}} $、 $ {\boldsymbol{K}} $和 $ {\boldsymbol{V}} $均为输入图片经切片嵌入后所得向量拼接而来的矩阵，用于模型中自注意力的计算； $ {d_{\text{head}}} $为常数，用于避免梯度消失问题，稳定训练过程. 当输入特征图的空间维度分别为 $ H $、 $ W $时，由式（8）可以得到自注意力的计算复杂度为

(9) $ {\textit{Ω}} \left( {{\text{SA}}} \right) = 2 {{{\left( {H \times W} \right)}^2}} C. $

由式（9）可知，标准自注意力的计算复杂度与输入图片所得的序列长度成平方倍关系. 联合重采样自注意力模块在保证输入输出维度不变和相关性计算方法统一的前提下，通过降低 $ {\boldsymbol{K}} $、 $ {\boldsymbol{V}} $的特定维度来减少计算量，从而降低Transformer语义分割网络中标准自注意力机制的计算复杂度.

在JRSA中， $ {\boldsymbol{Q}} $的维度大小保持不变， $ {\boldsymbol{K}} $、 $ {\boldsymbol{V}} $都要先送入重采样模块进行降维，降维后的 $ {\boldsymbol{K'}} $、 $ {\boldsymbol{V'}} $与 $ {\boldsymbol{Q}} $进行自注意力计算. 具体来说，与标准的自注意力计算方式相同，每个输入向量都会生成对应的 $ {\boldsymbol{Q}} $、 $ {\boldsymbol{K}} $和 $ {\boldsymbol{V}} $，但经过重采样降维后， $ {\boldsymbol{Q}} $的个数不变， $ {\boldsymbol{K}} $、 $ {\boldsymbol{V}} $的数量会大大减少，相同的 $ {\boldsymbol{K}} $、 $ {\boldsymbol{V}} $将对应多个不同的 $ {\boldsymbol{Q}} $，以达到高效自注意力计算的目的. 如图3所示的JRSA操作原理描述如下. 1)将嵌入后的 ${\boldsymbol{K}} \in {{\bf{R}}^{ {H \times W} \times C}}$、 ${\boldsymbol{V}} \in {{\bf{R}}^{ {H \times W} \times C}}$ 重构为 ${{\boldsymbol{K}}}_{{\rm{r}}} \in {\bf{{R}}}^{C \times H \times W}$、 ${{\boldsymbol{V}}}_{{\rm{r}}} \in {{\bf{R}}^{C \times H \times W}}$. 2)利用卷积和池化分别对 ${{\boldsymbol{K}}_{{\rm{r}}}}$、 ${{\boldsymbol{V}}_{{\rm{r}}}}$进行重采样，经过卷积重采样后的输出为 ${{\boldsymbol{X'}}}_{{{{\rm{KC}}}}}$、 ${{\boldsymbol{X'}}}_{{{{\rm{VC}}}}}$，经过最大值池化重采样后的输出为 ${{\boldsymbol{X'}}}_{{{{\rm{KP}}}}}$、 ${{\boldsymbol{X'}}}_{{{{\rm{VP}}}}}$. $ {B_l} $代表第 $ l $个阶段的重采样比例，在EA-Former的网络设定中， $ {B_l} $随 $ l $的增大而减小. 3)将 ${{\boldsymbol{K}}}_{{\rm{r}}}$的所有输出 ${{\boldsymbol{X'}}}_{{{{\rm{KC}}}}}$、 ${{\boldsymbol{X'}}}_{{{{\rm{KP}}}}}$相加，得到 ${{\boldsymbol{X''}}}_{{\rm{K}}}$；将 ${{\boldsymbol{V}}}_{{\rm{r}}}$的所有输出 ${{\boldsymbol{X'}}}_{{{{\rm{VC}}}}}$、 ${{\boldsymbol{X'}}}_{{{{\rm{VP}}}}}$相加，得到 ${{\boldsymbol{X''}}}_{{\rm{V}}}$；把 ${{\boldsymbol{X''}}}_{{\rm{K}}}$、 ${{\boldsymbol{X''}}}_{{\rm{V}}}$送入1个卷积层和归一化层以整合有效特征信息，得到 ${{\boldsymbol{X'''}}}_{{\rm{K}}}$、 ${{\boldsymbol{X'''}}}_{{\rm{V}}}$. 4)将 ${{\boldsymbol{X'''}}}_{{\rm{K}}}$、 ${{\boldsymbol{X'''}}}_{{\rm{V}}}$的维度大小重构为联合重采样自注意力模块中输入向量的维度形式，得到 $ {\boldsymbol{K'}} $、 $ {\boldsymbol{V'}} $，分别代替之前的 $ {\boldsymbol{K}} $、 $ {\boldsymbol{V}} $，与保留的 $ {\boldsymbol{Q}} $进行自注意力计算. 经过上述联合重采样，将自注意力计算复杂度下降为

图 3

图 3 联合重采样自注意力结构

Fig.3 Joint resampling self-attention structure

(10) $ {\textit{Ω}} \left( {{\text{JRSA}}} \right) = 2{\left( {\frac{{H \times W}}{{{B_l}}}} \right)^2}C. $

由式（10）可知，本研究提出的高效自注意力计算可以在保证计算方法和输出维度不变的情况下，替代标准的自注意力计算，将自注意力计算的复杂度降低 $ {B_l} $倍，计算量显著减少.

1.4. 特征融合解码器

EA-Former具有良好的特征提取能力以及强大的特征表达能力，无需使用复杂的解码器. 为此基于基础的小尺度卷积和双线性插值，设计如图4所示的解码器，用于高效融合特征，得到最终的分割结果. 将特征提取网络中的不同尺度特征图送入分割头，有效融合低层的空间细节特征和高层的语义信息特征. 具体来说，1）先对不同分辨率的特征图 $ {M_i} $进行卷积Conv，将输入特征图的通道数全部转换为 ${C_{\rm{O}}}$，之后进行双线性插值上采样Up，得到上采样后的特征图 $ M_i^{{\text{F}}} $. 2）将不同的 $ M_i^{{\text{F}}} $在通道维度进行拼接，得到维度大小为H×W×4C_O的拼接特征图，利用卷积对拼接特征图进行特征融合，将输出特征通道维度下降至 ${C_{\rm{O}}}$. 3）利用预测模块，将通道维度转换为对应数据集中的类别数，上色输出最终的预测结果.

图 4

图 4 特征融合解码器结构

Fig.4 Feature fusion decoder structure

2. 实验设置与结果评估

2.1. 实验数据集

实验采用2个广泛使用的权威语义分割数据集：ADE20K和Cityscapes. ADE20K为含150类语义标签的场景解析数据集，数据集的场景包含室内、室外、自然场景等. 该数据集划分的训练集、验证集和测试集的图片数量分别为20 210、2 000、3 352. Cityscapes为含19类语义类别的城市场景数据集. 该数据集共有5 000张高分辨率的图像，对应的训练集、验证集和测试集的图片数量分别为2 975、500、1 525.

2.2. 实验环境及相关设置

本研究基于语义分割框架mmsegmentation实现Transformer语义分割网络，并完成对应实验. 在数据增强方面，ADE20K、Cityscapes均采用随机尺度调整、随机水平翻转以及将图像与标签随机裁剪等数据增强方式. 在模型训练方面，设置ADE20K的每批次大小为16张图片，由于Cityscapes数据集裁剪后的图片分辨率较高，在训练Cityscapes数据集时将每批次大小设定为8张图片. 实验硬件使用2个NVIDIA RTX A5000显卡训练模型，2个数据集都采用AdamW优化器，初始学习率设置为 $6.0 \times {10^{ - 5}}$，使用power = 1的多项式学习率动态迭代策略更新学习率. 采用在ImageNet-1K分类数据集上预训练的MiT^[20]来初始化编码器参数，对于MiT中不包含的层，采用均值为0、方差为0.02的正态分布进行权重初始化，解码器内的网络参数则直接采用随机初始化.

2.3. 实验评估指标

使用语义分割中常用的平均交并比mIoU来评估模型的分割性能，表达式为

(11) $ {\text{mIoU}} = \frac{1}{{n+1}}\sum\limits_{i = 0}^n {\frac{{{t_{ii}}}}{{\sum\limits_{j = 0}^n {{t_{i j}}+\sum\limits_{j = 0}^n {\left( {{t_{ji}} - {t_{ii}}} \right)} } }}} . $

式中： $ n+1 $为数据集类别数加上背景类， ${t_{i j}}$为第 $ i $类真实类别、第 $ j $类预测类的像素数量. 为了验证所提出联合重采样自注意力模块的有效性，对相关模型的参数量、计算复杂度和推理速度进行评估和比较.

2.4. 实验结果对比分析

2.4.1. 分割模型在ADE20K数据集上的性能对比

在ADE20K数据集上进行EA-Former与主流算法的性能对比. 训练图片分辨率大小为 $ 512 \times 512 $，在训练完成后采用单一尺度评估模型的相关性能，结果如表1所示. 表中，N为模型参数量；GFLOPs可以衡量计算复杂度，表示每秒 $1.0\times10^{9}$ 次的浮点运算. 为了与ADE20K数据集上的最优模型进行公平对比，修改EA-Former模型的训练设定与ADE20K数据集上最优网络保持一致，表中带星号的算法使用以 $ 640 \times 640 $的图片分辨率训练模型，同时采用多尺度评估. 由表可知，EA-Former不仅降低了计算复杂度，还维持了较高的分割精度. 具体来说，EA-Former的计算复杂度为61.3 GFLOPs，在所对比模型中最低，平均交并比为49.3%，与将Transformer结构引入语义分割领域的SETR相比，EA-Former的参数量和计算复杂度分别为SETR的42.8%和28.7%，mIoU却有提升. 与其他取得最优分割效果的语义分割模型相比，EA-Former同样以更低的计算量取得了具有竞争力的分割性能. 如SeMask、VAN、PVTv2等，虽然EA-Former*取得的mIoU相较于最优的Segformer*的mIoU低，但EA-Former*的计算复杂度仅为Segformer*的55.4%，符合通过JRSA在降低自注意力计算复杂度的同时，依然保持较优的平均交并比的预期目标.

表 1 不同分割模型在ADE20K数据集上的模型评估结果

Tab.1 Model evaluation results of different segmentation models on ADE20K dataset

算法	基础网络结构	N/10⁶	GFLOPs	mIoU/ %
FCN^[1]	ResNet-101^[19]	68.6	275.7	39.9
PSPNet^[3]	ResNet-101	68.1	256.4	44.3
DeepLab-V3+^[7]	ResNet-101	62.7	255.1	45.4
DeepLab-V3+	ResNeSt-101^[21]	66.3	262.9	46.9
UperNet^[22]	DeiT^[23]	120.5	90.1	45.3
UperNet	Swin-S^[24]	81.0	259.3	49.3
UperNet	Convnext^[25]	60.2	234.6	46.1
UperNet	Focal-B^[26]	126.0	—	49.0
SETR^[11]	ViT^[12]	318.5	213.6	47.3
DPT^[27]	ViT	109.7	171.0	46.9
Segmenter Mask^[28]	ViT	102.5	71.1	49.6
Semantic FPN^[29]	PVTv2-B3^[30]	49.0	62.0	47.3
Semantic FPN	VAN-B3^[31]	49.0	68.0	48.1
SeMask-B FPN^[32]	SeMask Swin	96.0	107.0	49.4
Segformer^[20]	MiT^[20]	83.9	110.5	50.1
EA-Former	MiT	136.4	61.3	49.3
Segformer*	MiT	83.9	172.7	52.1
EA-Former*	MiT	136.4	95.8	51.0

如表2所示，以轻量级的MiT-B0为基础网络结构，利用ADE20K数据集训练多种实时语义分割模型，公平地比较模型之间的各项指标，进一步证明EA-Former的高效性. 表中，FPS为模型推理速度. 即使采用相同的基础网络结构MiT-B0，与之前取得最优分割精度的SETR、Segformer、Segmenter等Transformer语义分割模型相比，本研究提出的轻量级EA-Former-T在保持更低的计算量和更高推理速度的同时，mIoU更优. 虽然UperNet分割算法得到的mIoU比EA-Former-T的mIoU更优，但其计算量是EA-Former-T的4倍，且推理速度仅为EA-Former-T的57.9%. 模型对比研究结果表明，EA-Former中JRSA能够有效地降低自注意力机制的计算复杂度、维持分割精度.

表 2 轻量级分割模型在ADE20K数据集上的模型评估结果

Tab.2 Model evaluation results of lightweight segmentation models on ADE20K dataset

算法	基础网络结构	GFLOPs	FPS/ （帧 $ \cdot {{\rm{s}}^{ - 1}} $）	mIoU/ %
SETR^[11]	MiT-B0^[20]	25.3	28.7	34.8
Segformer^[20]	MiT-B0	8.6	50.5	37.5
UperNet^[22]	MiT-B0	28.5	29.6	39.3
Segmenter^[28]	MiT-B0	7.9	49.2	35.9
Semantic FPN^[29]	MiT-B0	23.0	46.4	37.1
EA-Former-T	MiT-B0	7.1	51.1	38.1

如图5所示，为了更直观地对比不同算法的分割精度在训练过程中的变化，将典型算法在训练ADE20K数据集时的平均交并比变化可视化，其中Epoch为训练迭代轮数. 相较于如FCN、DeeplabV3+、PSPnet和Convnext等基于CNN的语义分割网络， EA-Former的语义分割精度有显著提升. 得益于单层Transformer结构拥有全局感受野的优势，在迭代轮数较小时，EA-Former能够利用所获取的丰富上下文信息迅速取得较高的mIoU，相比之下，基于CNN的语义分割网络则需要漫长的训练来逐步提高分割精度.

图 5

图 5 不同分割模型在ADE20K数据集上训练的平均交并比变化

Fig.5 Changes in mean intersection over union trained on ADE20K dataset for different segmentation model

2.4.2. 分割模型在Cityscapes数据集上的性能对比

在Cityscapes数据集上进行EA-Former与主流算法的性能对比. 将数据集内的图片裁剪为 $ 768 \times 768 $大小来训练EA-Former，采用单尺度进行评估. 为了公平对比，修改EA-Former的训练设定与Cityscapes数据集上的最优网络保持一致，结果如表3所示. 表中，带井号的算法使用 $ 1\;024 \times 1\;024 $的图片分辨率训练对应模型，同时采用多尺度评估. 由表可知，在Cityscapes数据集上，EA-Former、EA-Former^#不仅取得了较高的分割精度，而且计算复杂度均低于主流分割算法.

表 3 不同分割模型在Cityscapes数据集上的模型评估结果

Tab.3 Model evaluation results of different segmentation models on Cityscapes dataset

算法	基础网络结构	N/10⁶	GFLOPs	mIoU/%
FCN^[1]	ResNet-101^[19]	68.4	619.6	75.5
PSPNet^[3]	ResNet-101	67.9	576.3	79.7
DeepLabV3+^[7]	ResNet-101	62.5	571.6	80.6
CCnet^[9]	ResNet-101	68.8	625.7	79.4
UperNet^[22]	ResNet-101	85.4	576.5	80.1
DeepLabV3^[6]	ResNeSt-101^[21]	90.8	798.9	80.4
OCRNet^[33]	HRNet^[34]	70.3	364.7	80.7
SETR^[11]	ViT^[12]	318.3	818.2	79.3
Segformer^[20]	MiT^[20]	83.9	597.6	81.8
EA-Former	MiT	136.4	137.7	82.1
Segformer^#	MiT	83.9	735.2	84.1
EA-Former^#	MiT	136.4	191.8	83.9

为了直观地比较不同算法在Cityscapes数据集上的分割效果，可视化不同算法的分割结果如图6所示. 可以看出，在方框标注的区域，其他网络的分割效果不理想，除EA-Former外，其他均存在明显的识别错误. 在左侧的分割对比中，DeepLabV3+、SETR和Upernet将公交车的部分错判为火车类，FCN则将公交车的顶部识别为建筑类；在右侧的分割对比中，SETR、UperNet均将汽车的前轮部分判断为卡车类，DeepLabV3+、FCN均将汽车的车门部分误判为墙类. 在方框标出的易错区域，EA-Former成功地分割出正确的语义类别，主要原因是Transformer结构拥有全局感受野和灵活的位置编码方式，使得EA-Former拥有更充分的全局上下文信息和更充沛的空间信息，在处理单个大尺度物体或是物体相互遮挡时，能够结合周围的语义信息做出正确的判断. 虽然SETR中也有Transformer结构，但SETR采用的是相对固定的显式位置编码，且编码器部分使用类ViT的直筒型结构，难以生成不同尺度的特征图，仅将编码器最后一层输出的特征图送入解码器进行分割，导致分割效果不佳. EA-Former使用更加灵活的自适应卷积位置编码和可生成多尺度特征图的金字塔型编码网络，因此EA-Former可以结合低层的空间特征图和高层的语义特征图输出更精准的分割结果.

图 6

图 6 不同模型在Cityscapes数据集上的图形分割效果对比

Fig.6 Comparison of image segmentation effects of different models on Cityscapes dataset

2.4.3. 模型推理速度对比

为了证明EA-Former在模型推理方面的高效性，在ADE20K、Cityscapes上评估不同模型的推理速度. 推理速度是指模型每秒推理图片的数量. 推理速度受实验硬件和深度学习框架的影响较大，并且单次实验结果具有一定的波动范围，因此实验所得推理速度是在mmsegmentation框架下，使用NVIDIA RTX A5000显卡，单次实验推理图片200张，重复50次得到的平均推理时间，相关实验结果如表4所示. 与表中基于CNN的语义分割模型或是与基于Transformer的语义分割模型相比，EA-Former在2个数据集上都取得了最高的模型推理速度，表明本研究提出的高效语义分割网络不仅计算复杂度更低，而且拥有更快的模型推理速度.

表 4 不同分割模型在ADE20K数据集、Cityscapes数据集上推理速度的评估结果

Tab.4 Evaluation results of inference speed for different segmentation models on ADE20K dataset and Cityscapes dataset

算法	基础网络结构	FPS/（帧 $\cdot {{\rm{s}}^{ - 1} }$）
算法	基础网络结构	ADE20K	Citysapes
FCN^[1]	ResNet-101^[19]	20.7	1.7
PSPNet^[3]	ResNet-101	20.3	1.8
DeepLabV3+^[7]	ResNet-101	18.7	1.6
DeepLabV3+	ResNeSt-101^[21]	16.1	2.5
UperNet^[22]	Swin-S^[24]	20.1	—
UperNet	Convnext^[25]	17.1	—
SETR^[11]	ViT^[12]	8.3	—
DPT^[27]	ViT	20.5	—
Segmenter Mask^[28]	ViT	21.3	—
Segformer^[20]	MiT^[20]	18.6	2.5
EA-Former	MiT	21.9	2.8
Segformer*	MiT	15.7	—
EA-Former*	MiT	18.1	—
UperNet	ResNet-101	—	2.3
CCnet^[9]	ResNet-101	—	1.7
DeepLabV3^[6]	ResNeSt-101	—	2.4
SETR	ViT	—	0.4
Segformer^#	MiT	—	2.3
EA-Former^#	MiT	—	2.5

2.5. 消融实验

2.5.1. 自适应卷积位置编码模块(ACPE)消融实验

为了证明ACPE能灵活处理不同分辨率的图片且不会造成显著性能下降，将Cityscapes数据集中的原始图片裁剪为 $ 768 \times 768 $的训练图片，以该分辨率分别训练SETR和EA-Former，模型均采用相同的数据增强方式和模型训练方法. 为了进一步验证ACPE的作用，训练采用显式位置编码的EA-Former，对比不同模型在输入分辨率改变时的平均交并比变化，通过将验证集图片大小裁剪为 $ 768 \times 768 $、 $ 832 \times 832 $、 $ 1\;024 \times 1\;024 $和 $ 1\;024 \times 2\;048 $，得到对应的分割指标，结果如表5所示. 均不含ACPE的SETR和EA-Former在处理不同分辨率的输入图片时，只能对之前所训练的位置编码进行插值处理，导致模型的分割性能显著下降；含ACPE的EA-Former在处理不同于训练图片分辨率的验证图片时，可以通过零值填充卷积灵活地编码位置信息，使得网络可以维持较高的分割精度，不会造成过高的性能损失. 可以看到，与不含ACPE的算法相比，在处理分辨率为 $ 1\;024 \times 2\;048 $的输入图片时，含ACPE的EA-Former的mIoU下降量更少，表明ACPE可以缓解Transformer分割网络中位置编码不灵活造成的性能下降问题. 当输入图片分辨率为 $ 768 \times 768 $时，对比无ACPE的EA-Former，可以发现ACPE为网络提供了0.2%的性能增益.

表 5 自适应卷积位置编码模块对模型分割精度的影响

Tab.5 Influence of adaptive convolutional position encoding module on model segmentation accuracy

分辨率	mIoU/%
分辨率	SETR^[11] （ViT^[12]）	EA-Former （不含ACPE）	EA-Former （含ACPE）
$ 768 \times 768 $	79.3	81.9	82.1
$ 832 \times 832 $	79.0	81.7	82.0
$1\;024 \times 1\;024$	78.4	81.2	81.8
$1\;024 \times 2\;048$	75.4	78.6	81.2

2.5.2. 联合重采样自注意力模块(JRSA)消融实验

为了证明JRSA能够高效地进行自注意力计算且不会带来更多的计算量，在ADE20K数据集上对轻量级的EA-Former-T进行JRSA的消融实验. 为了证明JRSA中降维操作带来的效率和性能优势，训练不含降维操作的EA-Former-T，即将JRSA中第一个用于降维的深度可分离卷积修改为卷积核大小为 $ 3 \times 3 $、填充范围为 $ 1 $的普通卷积，并且取消最大值池化支路. 实验结果如表6所示. 当EA-Former-T不包含JRSA时，其计算复杂度高且推理速度慢，在加入了含降维操作的JRSA后，不仅平均交并比更优，计算复杂度降低，而且推理速度极大提升. 当JRSA不包含降维操作时，其相对于标准的自注意力计算过程，更多的计算量被额外引入，与降低自注意力机制的计算复杂度的预期目标相悖. 实验结果表明，与降维后的模型效果相比，不降维模型的mIoU更低、计算复杂度更高，推理速度远低于降维模型.

表 6 联合重采样自注意力模块对EA-Former-T算法性能的影响

Tab.6 Influence of joint resampling self-attention module on algorithm performance of EA-Former-T

联合重采样自注意力	降维	FPS/ （帧 $ \cdot {{\rm{s}}^{ - 1}} $）	GFLOPs	mIoU/ %
×	×	32.4	8.4	37.5
√	×	11.5	9.0	37.6
√	√	51.1	7.1	38.1

3. 结　语

不够灵活的位置编码和过高的计算量一直是制约Transformer结构在语义分割领域大范围使用的重要原因. 本研究针对以上2个问题，提出基于Transformer结构的高效自适应语义分割网络EA-Former. 该网络以更灵活的位置编码方式为Transformer网络提供充沛的空间信息，在保证网络拥有较高分割性能的同时，能够自适应地处理不同分辨率的输入图片；以更高效的自注意力计算方式有效地减少网络的计算复杂度. 本研究结合所提出的简单高效的解码器，在公开权威语义分割数据集ADE20K和Cityscapes上进行模型参数量、计算复杂度、推理速度和分割精度的评估，与现有主流算法相比，EA-Former显著地缓解了由图片分辨率变化造成的性能下降，并且以最低的计算复杂度取得了具有竞争力的分割精度. 随着Transformer结构及相关变体的不断发展，未来可以继续对EA-Former的网络结构进行优化，在保持低计算量同时，减少网络的参数量，提高网络对图像的分割准确率.

参考文献

原文顺序

文献年度倒序

文中引用次数倒序

被引期刊影响因子

[1]

LONG J, SHELHAMER E, DARRELL T. Fully convolutional networks for semantic segmentation [C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Boston: IEEE, 2015: 3431-3440.

[2]

EVERINGHAM M, ESLAMI S M, VAN G L, et al

The Pascal visual object classes challenge: a retrospective

[J]. International Journal of Computer Vision, 2015, 111: 98- 136

DOI:10.1007/s11263-014-0733-5 [本文引用: 1]

[3]

ZHAO H, SHI J, QI X, et al. Pyramid scene parsing network [C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Honolulu: IEEE, 2017: 2881-2890.

[4]

CHEN L C, PAPANDREOU G, KOKKINOS I, et al. Semantic image segmentation with deep convolutional nets and fully connected CRFs [EB/OL]. (2016-06-07)[2022-04-25]. https://arxiv.org/pdf/1412.7062.pdf.

[5]

CHEN L C, PAPANDREOU G, KOKKINOS I, et al

Deeplab: semantic image segmentation with deep convolutional nets, atrous convolution, and fully connected CRFs

[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2017, 40 (4): 834- 848

[6]

CHEN L C, PAPANDREOU G, SCHROFF F, et al. Rethinking atrous convolution for semantic image seg-mentation [EB/OL]. (2017-06-17)[2022-04-26]. https://arxiv.org/abs/1706.05587.

[7]

CHEN L C, ZHU Y, PAPANDREOU G, et al. Encoder-decoder with atrous separable convolution for semantic image segmentation [C]// Proceedings of the European Conference on Computer Vision. Munich: Springer, 2018: 801-818.

[8]

ZHAO H, ZHANG Y, LIU S, et al. PSANet: point-wise spatial attention network for scene parsing [C]// Proceedings of the European Conference on Computer Vision. Munich: Springer, 2018: 267-283.

[9]

HUANG Z, WANG X, HUANG L, et al. CCNet: criss-cross attention for semantic segmentation [C]// Proceedings of the IEEE/CVF International Conference on Computer Vision. Seoul: IEEE, 2019: 603-612.

[本文引用: 3]

[10]

VASWANI A, SHAZEER N, PARMAR N, et al. Attention is all you need [C]// Advances in Neural Information Processing Systems. Long Beach: MIT Press, 2017: 5998-6008.

[11]

ZHENG S, LU J, ZHAO H, et al. Rethinking semantic segmentation from a sequence-to-sequence perspective with transformers [C]// Proceedings of the IEEE/CVF conference on computer vision and pattern recognition. Nashville: IEEE, 2021: 6881-6890.

[本文引用: 6]

[12]

DOSOVITSKIY A, BEYER L, KOLESNIKOV A, et al. An image is worth 16×16 words: transformers for image recognition at scale [EB/OL]. (2020-10-22)[2022-04-27]. https://arxiv.org/pdf/2010.11929.pdf.

[本文引用: 5]

[13]

ZHOU B, ZHAO H, PUIG X, et al. Scene parsing through ADE20K dataset [C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Honolulu: IEEE, 2017: 633-641.

[14]

ISLAM M A, JIA S, BRUCE N D B. How much p-osition information do convolutional neural networks encode? [EB/OL]. (2020-01-22)[2022-04-28]. https://ar-xiv.org/pdf/2001.08248.pdf.

[15]

CHU X, TIAN Z, ZHANG B, et al. Conditional posi-tional encodings for vision transformers [EB/OL]. (2021-02-22)[2022-04-29]. https://arxiv.org/pdf/2102.10882.pdf.

[16]

YUAN K, GUO S, LIU Z, et al. Incorporating conv-olution designs into visual transformers [C]// Proceed-ings of the IEEE/CVF International Conference on Computer Vision. Montreal: IEEE, 2021: 579-588.

[17]

WU H, XIAO B, CODELLA N, et al. CvT: introducing convolutions to vision transformers [C]// Proceedings of the IEEE/CVF International Conference on Computer Vision. Montreal: IEEE, 2021: 22-31.

[18]

CORDTS M, OMRAN M, RAMOS S, et al. The Cityscapes dataset for semantic urban scene understanding [C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas: IEEE, 2016: 3213-3223.

[19]

HE K, ZHANG X, REN S, et al. Deep residual learning for image recognition [C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas: IEEE, 2016: 770-778.

[20]

XIE E, WANG W, YU Z, et al. SegFormer: simple and efficient design for semantic segmentation with transformers [C]// Advances in Neural Information Processing Systems. [S.l.]: MIT Press, 2021: 12077-12090.

[本文引用: 9]

[21]

ZHANG H, WU C, ZHANG Z, et al. ResNeSt: split-attention networks [C]// Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition Workshops. New Orleans: IEEE, 2022: 2736-2746.

[本文引用: 3]

[22]

XIAO T, LIU Y, ZHOU B, et al. Unified perceptual parsing for scene understanding [C]// Proceedings of the European Conference on Computer Vision. Munich: Springer, 2018: 418-434.

[23]

TOUVRON H, CORD M, DOUZE M, et al. Training data-efficient image transformers & distillation through attention [C]// Proceedings of the 38^th International Conference on Machine Learning. [S.l.]: PMLR, 2021: 10347-10357.

[24]

LIU Z, LIN Y, CAO Y, et al. Swin transformer: hierarchical vision transformer using shifted windows [C]// Proceedings of the IEEE/CVF International Conference on Computer Vision. Montreal: IEEE, 2021: 10012-10022.

[25]

LIU Z, MAO H, WU C Y, et al. A convnet for the 2020s [C]// Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. New Orleans: IEEE, 2022: 11976-11986.

[26]

YANG J, LI C, ZHANG P, et al. Focal self-attention for local-global interactions in vision transformers [EB/OL]. (2021-07-01)[2022-05-06]. https://arxiv.org/pdf/21-07.00641.pdf.

[27]

CHEN Z, ZHU Y, ZHAO C, et al. DPT: deformable patch-based transformer for visual recognition [C]// Proceedings of the 29^th ACM International Conference on Multimedia. [S.l.]: ACM, 2021: 2899-2907.

[28]

STRUDEL R, GARCIA R, LAPTEV I, et al. Segmenter: transformer for semantic segmentation [C]// Proceedings of the IEEE/CVF International Conference on Computer Vision. Montreal: IEEE, 2021: 7262-7272.

[本文引用: 3]

[29]

KIRILLOV A, GIRSHICK R, HE K, et al. Panoptic feature pyramid networks [C]// Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. Long Beach: IEEE, 2019: 6399-6408.

[30]

WANG W, XIE E, LI X, et al

PVT v2: Improved baselines with pyramid vision transformer

[J]. Computational Visual Media, 2022, 8: 415- 424

DOI:10.1007/s41095-022-0274-8 [本文引用: 1]

[31]

GUO M H, LU C Z, LIU Z N, et al. Visual attenti-on network [EB/OL]. (2022-02-20)[2022-05-16]. https://arxiv.org/pdf/2202.09741.pdf.

[32]

JAIN J, SINGH A, ORLOV N, et al. Semask: seman-tically masked transformers for semantic segmentation[EB/OL]. (2021-12-23)[2022-05-23]. https://arxiv.org/pdf/2112.12782.pdf.

[33]

YUAN Y, CHEN X, WANG J. Object-contextual representations for semantic segmentation [C]// European Conference on Computer Vision. [S.l.]: Springer, 2020: 173-190.

[34]

SUN K, XIAO B, LIU D, et al. Deep high-resolution representation learning for human pose estimation [C]// Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. Long Beach: IEEE, 2019: 5686−5696.