浙江大学学报(工学版), 2023, 57(6): 1205-1214 doi: 10.3785/j.issn.1008-973X.2023.06.016

计算机与控制工程

基于Transformer的高效自适应语义分割网络

张海波,, 蔡磊, 任俊平, 王汝言, 刘富

1. 重庆邮电大学 通信与信息工程学院,重庆 400065

2. 泛在感知与互联重庆市重点实验室,重庆 400065

3. 重庆市城市照明中心,重庆 400023

Efficient and adaptive semantic segmentation network based on Transformer

ZHANG Hai-bo,, CAI Lei, REN Jun-ping, WANG Ru-yan, LIU Fu

1. School of Communications and Information Engineering, Chongqing University of Posts and Telecommunications, Chongqing 400065, China

2. Chongqing Key Laboratory of Ubiquitous Sensing and Networking, Chongqing 400065, China

3. Chongqing Urban Lighting Center, Chongqing 400023, China

收稿日期: 2022-06-24  

基金资助: 国家自然科学基金资助项目(62271094);长江学者和创新团队发展计划基金资助项目(IRT16R72);重庆市留创计划创新类资助项目(cx2020059)

Received: 2022-06-24  

Fund supported: 国家自然科学基金资助项目(62271094);长江学者和创新团队发展计划基金资助项目(IRT16R72);重庆市留创计划创新类资助项目(cx2020059)

作者简介 About authors

张海波(1979—),男,副教授,博士,从事车联网和计算机视觉研究.orcid.org/0000-0003-2719-9956.E-mail:zhanghb@cqupt.edu.cn , E-mail:zhanghb@cqupt.edu.cn

摘要

基于Transformer的语义分割网络存在2个问题:分辨率变化引起的分割精度显著下降,自注意力机制计算复杂度过高。为此,利用零值填充的卷积可保留位置信息的特性,提出自适应卷积位置编码模块;利用自注意力计算中特定矩阵的维度可相互抵消的特性,提出降低自注意力计算量的联合重采样自注意力模块;设计用于融合不同阶段特征图的解码器,构造能够自适应不同分辨率输入的高效分割网络EA-Former. EA-Former在数据集ADE20K、Cityscapes上的最优平均交并比分别为51.0%、83.9%. 与主流分割算法相比,EA-Former能够以更低的计算复杂度得到具有竞争力的分割精度,由输入分辨率变化引起的分割性能下降问题得以缓解.

关键词: 语义分割 ; Transformer ; 自注意力 ; 位置编码 ; 神经网络

Abstract

There are two problems at semantic segmentation network based on Transformer: significant drop of the segmentation accuracy due to the resolution variation and high computational complexity of self-attention. An adaptive convolutional positional encoding module was proposed, using a property of zero-padding convolution to retain positional information. Using the property that the dimensions of specific matrices can cancel each other in the self-attention computation. A joint resampling self-attention module to reduce the computational burden was proposed. A decoder was designed to fuse feature maps from different stages, resulting in the construction of an efficient segmentation network EA-Former which was capable of adapting to different resolution inputs. The mean intersection over union of EA-Former on the ADE20K was 51.0% and on the Cityscapes was 83.9%. Compared with the mainstream segmentation methods, the proposed network could achieve competitive accuracy with lower computational complexity, and the degradation of the segmentation performance caused by the variation of the input resolution was alleviated.

Keywords: semantic segmentation ; Transformer ; self-attention ; position encoding ; neural network

PDF (1465KB) 元数据 多维度评价 相关文章 导出 EndNote| Ris| Bibtex  收藏本文

本文引用格式

张海波, 蔡磊, 任俊平, 王汝言, 刘富. 基于Transformer的高效自适应语义分割网络. 浙江大学学报(工学版)[J], 2023, 57(6): 1205-1214 doi:10.3785/j.issn.1008-973X.2023.06.016

ZHANG Hai-bo, CAI Lei, REN Jun-ping, WANG Ru-yan, LIU Fu. Efficient and adaptive semantic segmentation network based on Transformer. Journal of Zhejiang University(Engineering Science)[J], 2023, 57(6): 1205-1214 doi:10.3785/j.issn.1008-973X.2023.06.016

随着人工智能技术的快速发展和应用,语义分割作为场景理解的基础技术成为视觉领域的研究热点. 作为计算机视觉中的主流任务之一,语义分割被广泛用于如医疗影像分割、视频背景替换和无人驾驶等智能任务. 自Long等[1]提出全卷积神经网络,卷积神经网络(convolutional neural network,CNN)在PASCAL VOC[2]数据集上取得突破性进展,CNN逐渐成为语义分割领域中的主流模型. 随着对CNN研究的深入,学者发现CNN的感受域因其局部性而受限. 网络的感受域对语义分割至关重要,更大的网络感受域能够为网络提供更全面的上下文信息,帮助网络做出正确的判断,改善模型的分割性能. 为了克服CNN的固有缺陷,为网络引入更多空间上下文和多尺度信息,Zhao等[3]提出空间金字塔池化;为了在不显著增加计算量的同时扩大网络感受野,Chen等[4-7]将标准卷积改为空洞卷积;为了让模型更好地捕获长距离依赖关系,Zhao等[8-9]引入注意力机制. 这些改进均未彻底解决CNN难以建模长距离依赖关系的问题.

Vaswani等[10]提出单层即拥有全局感受野的Transformer结构. 之后,Transformer结构被引入计算机视觉领域,在大型图像数据集上,Transformer网络得到超越CNN最优模型的效果,如Zheng等[11]提出的Transformer语义分割模型SETR,是将Transformer结构用于语义分割任务并取得显著提升的模型,SETR模型中的特征提取网络由Dosovitskiy等[12]提出的Transformer编码器构成,结合所设计的分割头,在ADE20K[13]数据集上超过了当时的最优水平. 将标准的Transformer结构直接用于语义分割任务存在以下不足:1)大部分Transformer视觉网络采用相对固定的位置编码方式为嵌入向量提供位置信息,当测试图片与训练图片分辨率不同时,采用该方式的模型难以自适应地生成合适的位置编码,只能对之前的位置编码向量进行插值处理,这通常会造成模型的性能显著下降. 2)在标准Transformer结构中,自注意力计算会产生与输入图像分辨率成平方倍的计算复杂度,而语义分割通常处理的都是高分辨率输入图片,因此计算复杂度过高、参数量过大的问题在语义分割任务中尤为突出.

本研究针对上述不足,结合语义分割任务的相关特性,提出基于Transformer的高效自适应语义分割网络(efficient and adaptive for semantic segmentation based on Transformers, EA-Former). 卷积操作可以隐性编码位置信息[14],Chu等[15-17]已经证明利用卷积为Transformer网络提供位置编码的可行性,本研究利用零值填充卷积设计自适应卷积位置编码模块(adaptive convolutional positional encoding,ACPE),通过充分结合嵌入向量周围的上下文信息为网络提供准确的动态位置编码. 为了在尽量维持性能的同时,降低自注意力计算过高的计算复杂度,设计联合重采样自注意力模块(joint resampling self-attention,JRSA),通过对自注意力计算的相关矩阵进行降维,实现高效地相关性计算. 提出用于融合不同阶段特征的解码器,该解码器主要基于简单的小尺度卷积和双线性插值来融合不同分辨率的特征图,从而得到准确的分割结果. 在公开语义分割数据集ADE20K和Cityscapes[18]上,本研究将进行EA-Former与主流语义分割算法的性能对比.

1. 网络模型与相关创新

1.1. EA-Former原理及网络结构

图1所示,EA-Former宏观上基于编码器-解码器结构,主要由以下2个部分组成:1)可以生成多尺度特征的金字塔型高效Transformer编码器. 该编码器能够根据不同的输入图像大小进行自适应卷积位置编码,输出不同阶段的特征图用于特征融合,还能够以较低的计算量得到良好的特征提取与表达能力. 2)可以有效融合不同分辨率特征图的解码器. 该解码器通过简单的卷积和上采样操作,有效融合语义信息充沛的低分辨率特征图和空间信息丰富的高分辨率特征图,得到准确的分割结果. 当分辨率为 $ H \times W \times 3 $ 的RGB图片被输入EA-Former时(HW分别为输入图片的高和宽),模型先将输入图像进行 $ 4 \times 4 $的重叠切片嵌入,这样小尺度重叠切片嵌入可以保留更多的空间细节信息和局部空间连续性,有利于网络准确地分割. 嵌入后的向量会被送入ACPE,由ACPE为嵌入向量提供动态的位置信息. 完成切片嵌入之后,将包含自适应位置信息的嵌入向量送入多阶段的Transformer编码器中进行特征提取与特征变换. 与标准的Transformer结构不同,JRSA减少了Transformer中标准自注意力机制的计算复杂度. 为了得到低层高分辨率的空间特征图和高层低分辨率的语义特征图以提升网络分割性能,本研究保留各阶段的输出特征图,不同阶段的下采样倍数主要参考ResNet[19];在特征提取完成后,将不同分辨率的特征图送入特征融合解码器,通过简单的小尺度卷积和双线性插值上采样得到4张原图大小的特征图,再将4张特征图在通道维度上进行拼接. 将拼接后的特征图送入之后的特征融合及像素分类模块进行高效的特征融合,输出按语义类别分类的逐像素分割图.

图 1

图 1   EA-Former网络结构

Fig.1   EA-Former network structure


1.2. 自适应卷积位置编码模块(ACPE)

精准的位置信息对于语义分割任务是至关重要的. 在标准的Transformer结构中通常采用可学习的显式位置编码方法,该方法通过模型训练学习到长度相对固定的位置向量,再与嵌入向量相加,从而为嵌入向量引入空间位置信息. 本研究将Transformer中的位置编码过程近似地抽象为输入的每个位置获得由位置编码方法产生的位置权重,表达式为

$ {{\boldsymbol{X}}_{{\text{pos}}}}{\text{ = }}{\boldsymbol{X}}+{\boldsymbol{\eta }} , $

$ {\boldsymbol{\eta }} ={\rm{ PE}}\left( {\boldsymbol{X}} \right). $

式中: ${\boldsymbol{X}} \in {{\bf{R}}^{ {H \times W} \times C}}$为重叠切片嵌入后的二维向量, $H \times W$代表嵌入向量的序列长度, $ C $为嵌入向量的通道维度, ${\boldsymbol{\eta }} \in {{\bf{R}}^{ {H \times W} \times C}}$为学习的位置参数, $ {\rm{PE}}\left( \cdot \right) $为Transformer中的位置编码方法, $ {{\boldsymbol{X}}_{{\text{pos}}}} $为含位置信息的嵌入向量. 结合式(1)、(2)可以得到,当网络训练完成后,位置参数的长度固定,即为显式位置编码,所得位置编码向量的维度与模型训练图片的分辨率匹配. 当测试图片分辨率与训练图片不同时,采用显式位置编码方式的Transformer分割模型只能对训练所得的位置编码进行插值处理,虽然模型也能成功地推理出对应的分割结果,但使用插值后的位置编码向量通常会造成明显的性能损失,使Transformer视觉网络的灵活性降低. 为了解决显式位置编码长度固定,难以适配任意长度输入的问题,Chu等[15]提出位置编码生成器,利用单层深度可分离卷积提取对应的空间信息,生成位置编码与特征向量相加,为网络提供自适应位置信息;Yuan等[16]修改标准Transformer结构,移除单独的位置编码模块,利用CNN可保留空间信息的特性, 将CNN融入Transformer的特征映射与特征提取,为Transformer视觉网络提供动态位置信息.

在上述工作的基础上,本研究不仅将CNN融入Transformer结构,而且为了给网络提供足够细粒度的空间信息,依然保留单独的位置编码模块,提出更加灵活的位置权重产生方式. 具体来说,本研究将标准Transformer结构中的向量嵌入模块、注意力映射模块均改为卷积实现. 原因是相较于全连接操作,卷积不仅运算速度更快、参数量更少,而且能够保留一部分局部空间信息,有助于提升网络最终的分割精度和效率. ACPE通过充分结合嵌入向量周围的上下文信息,以逐像素空间注意力的方式为Transformer结构提供随输入图片分辨率自适应变化的动态位置权重,仅当特征图分辨率发生变化时,才需要重新导入新的位置信息。为此将ACPE放置于各阶段的重叠切片嵌入之后,为分辨率变化后的特征向量提供自适应的动态位置信息.

图2所示,ACPE采用反瓶颈结构,为了减少位置编码部分的参数量,高效地得到自适应位置信息,使用深度可分离卷积代替普通卷积. 具体来说,1)使用卷积核大小为 $ 7 \times 7 $,填充范围为 $ 3 $的逐通道卷积D_Conv对嵌入后的向量进行卷积. 2)通过层归一化操作,将归一化后的结果进行2次 $ 1 \times 1 $逐点卷积,第1次逐点卷积P_Conv_1将通道数拓展为原来的2倍,第2次逐点卷积P_Conv_2又将通道数还原回输入的通道数. 这样的反瓶颈结构可以有效避免信息流失. 3)将卷积后的结果送入Sigmoid激活函数,用于取得对应的位置权重与嵌入后的特征相乘,得到含位置信息的嵌入向量. 上述过程的表达式为

图 2

图 2   自适应卷积位置编码结构

Fig.2   Adaptive convolutional positional encoding structure


$ \boldsymbol{X}_{\mathrm{e}}^{\prime}=\mathrm{LN}\left(\mathrm{D}_{-} \operatorname{Conv}\left(\boldsymbol{X}_{\mathrm{e}}\right)\right),$

$ {{\boldsymbol{X}}_{\text{e}}}^{\prime \prime } ={\text{ P}}\_{\text{Conv}}\_1\left( {{{\boldsymbol{X}}_{\text{e}}}^\prime } \right), $

$ {{\boldsymbol{X}}_{\text{e}}}^{\prime \prime \prime } ={\text{ P}}\_{\text{Conv}}\_2\left( {{\text{GELU}}\left( {{{\boldsymbol{X}}_{\text{e}}}^{\prime \prime }} \right)} \right), $

$ {\boldsymbol{\sigma}} = {\text{Sigmoid}} \left( {{{\boldsymbol{X}}_{\text{e}}}^{\prime \prime \prime }} \right),$

$ {{\boldsymbol{X}}_{{\text{pos}}}} = {\boldsymbol{\sigma}} {{\boldsymbol{X}}_{\text{e}}}. $

式中: $ {\text{LN}} $为层归一化操作, $ {\text{GELU}}\left( \cdot \right) $为GELU激活操作, $ {\text{Sigmoid}}\left( \cdot \right) $为Sigmoid激活操作, ${\boldsymbol{\sigma}}$为自适应卷积位置编码得到的位置权重, $ {{\boldsymbol{X}}_{\text{e}}} $为嵌入后的向量. 自适应卷积位置编码模块通过卷积实现位置编码,无需指定位置编码的大小. 原因是卷积操作会自适应地根据输入大小的变化得到不同大小的输出,缓解当测试图片与输入图片分辨率不同时引起的性能下降问题.

1.3. 联合重采样自注意力模块(JRSA)

在标准Transformer模块的多头自注意力计算中,第 $ i $个头的自注意力的计算式为

$ {\text{SA}}\left( { {\text{head}}{_i}} \right) = {\text{Softmax}}\left( {\frac{{{{\boldsymbol{Q}}_i}{\boldsymbol{K}}_i^{{\rm{T}}}}}{{\sqrt {{d_{{\text{head}}}}} }}} \right){{\boldsymbol{V}}_i}. $

式中: $ {\boldsymbol{Q}} $$ {\boldsymbol{K}} $$ {\boldsymbol{V}} $均为输入图片经切片嵌入后所得向量拼接而来的矩阵,用于模型中自注意力的计算; $ {d_{\text{head}}} $为常数,用于避免梯度消失问题,稳定训练过程. 当输入特征图的空间维度分别为 $ H $$ W $时,由式(8)可以得到自注意力的计算复杂度为

$ {\textit{Ω}} \left( {{\text{SA}}} \right) = 2 {{{\left( {H \times W} \right)}^2}} C. $

由式(9)可知,标准自注意力的计算复杂度与输入图片所得的序列长度成平方倍关系. 联合重采样自注意力模块在保证输入输出维度不变和相关性计算方法统一的前提下,通过降低 $ {\boldsymbol{K}} $$ {\boldsymbol{V}} $的特定维度来减少计算量,从而降低Transformer语义分割网络中标准自注意力机制的计算复杂度.

在JRSA中, $ {\boldsymbol{Q}} $的维度大小保持不变, $ {\boldsymbol{K}} $$ {\boldsymbol{V}} $都要先送入重采样模块进行降维,降维后的 $ {\boldsymbol{K'}} $$ {\boldsymbol{V'}} $$ {\boldsymbol{Q}} $进行自注意力计算. 具体来说,与标准的自注意力计算方式相同,每个输入向量都会生成对应的 $ {\boldsymbol{Q}} $$ {\boldsymbol{K}} $$ {\boldsymbol{V}} $,但经过重采样降维后, $ {\boldsymbol{Q}} $的个数不变, $ {\boldsymbol{K}} $$ {\boldsymbol{V}} $的数量会大大减少,相同的 $ {\boldsymbol{K}} $$ {\boldsymbol{V}} $将对应多个不同的 $ {\boldsymbol{Q}} $,以达到高效自注意力计算的目的. 如图3所示的JRSA操作原理描述如下. 1)将嵌入后的 ${\boldsymbol{K}} \in {{\bf{R}}^{ {H \times W} \times C}}$${\boldsymbol{V}} \in {{\bf{R}}^{ {H \times W} \times C}}$ 重构为 ${{\boldsymbol{K}}}_{{\rm{r}}} \in {\bf{{R}}}^{C \times H \times W}$${{\boldsymbol{V}}}_{{\rm{r}}} \in {{\bf{R}}^{C \times H \times W}}$. 2)利用卷积和池化分别对 ${{\boldsymbol{K}}_{{\rm{r}}}}$${{\boldsymbol{V}}_{{\rm{r}}}}$进行重采样,经过卷积重采样后的输出为 ${{\boldsymbol{X'}}}_{{{{\rm{KC}}}}}$${{\boldsymbol{X'}}}_{{{{\rm{VC}}}}}$,经过最大值池化重采样后的输出为 ${{\boldsymbol{X'}}}_{{{{\rm{KP}}}}}$${{\boldsymbol{X'}}}_{{{{\rm{VP}}}}}$. $ {B_l} $代表第 $ l $个阶段的重采样比例,在EA-Former的网络设定中, $ {B_l} $$ l $的增大而减小. 3)将 ${{\boldsymbol{K}}}_{{\rm{r}}}$的所有输出 ${{\boldsymbol{X'}}}_{{{{\rm{KC}}}}}$${{\boldsymbol{X'}}}_{{{{\rm{KP}}}}}$相加,得到 ${{\boldsymbol{X''}}}_{{\rm{K}}}$;将 ${{\boldsymbol{V}}}_{{\rm{r}}}$的所有输出 ${{\boldsymbol{X'}}}_{{{{\rm{VC}}}}}$${{\boldsymbol{X'}}}_{{{{\rm{VP}}}}}$相加,得到 ${{\boldsymbol{X''}}}_{{\rm{V}}}$;把 ${{\boldsymbol{X''}}}_{{\rm{K}}}$${{\boldsymbol{X''}}}_{{\rm{V}}}$送入1个卷积层和归一化层以整合有效特征信息,得到 ${{\boldsymbol{X'''}}}_{{\rm{K}}}$${{\boldsymbol{X'''}}}_{{\rm{V}}}$. 4)将 ${{\boldsymbol{X'''}}}_{{\rm{K}}}$${{\boldsymbol{X'''}}}_{{\rm{V}}}$的维度大小重构为联合重采样自注意力模块中输入向量的维度形式,得到 $ {\boldsymbol{K'}} $$ {\boldsymbol{V'}} $,分别代替之前的 $ {\boldsymbol{K}} $$ {\boldsymbol{V}} $,与保留的 $ {\boldsymbol{Q}} $进行自注意力计算. 经过上述联合重采样,将自注意力计算复杂度下降为

图 3

图 3   联合重采样自注意力结构

Fig.3   Joint resampling self-attention structure


$ {\textit{Ω}} \left( {{\text{JRSA}}} \right) = 2{\left( {\frac{{H \times W}}{{{B_l}}}} \right)^2}C. $

由式(10)可知,本研究提出的高效自注意力计算可以在保证计算方法和输出维度不变的情况下,替代标准的自注意力计算,将自注意力计算的复杂度降低 $ {B_l} $倍,计算量显著减少.

1.4. 特征融合解码器

EA-Former具有良好的特征提取能力以及强大的特征表达能力,无需使用复杂的解码器. 为此基于基础的小尺度卷积和双线性插值,设计如图4所示的解码器,用于高效融合特征,得到最终的分割结果. 将特征提取网络中的不同尺度特征图送入分割头,有效融合低层的空间细节特征和高层的语义信息特征. 具体来说,1)先对不同分辨率的特征图 $ {M_i} $进行卷积Conv,将输入特征图的通道数全部转换为 ${C_{\rm{O}}}$,之后进行双线性插值上采样Up,得到上采样后的特征图 $ M_i^{{\text{F}}} $. 2)将不同的 $ M_i^{{\text{F}}} $在通道维度进行拼接,得到维度大小为H×W×4CO的拼接特征图,利用卷积对拼接特征图进行特征融合,将输出特征通道维度下降至 ${C_{\rm{O}}}$. 3)利用预测模块,将通道维度转换为对应数据集中的类别数,上色输出最终的预测结果.

图 4

图 4   特征融合解码器结构

Fig.4   Feature fusion decoder structure


2. 实验设置与结果评估

2.1. 实验数据集

实验采用2个广泛使用的权威语义分割数据集:ADE20K和Cityscapes. ADE20K为含150类语义标签的场景解析数据集,数据集的场景包含室内、室外、自然场景等. 该数据集划分的训练集、验证集和测试集的图片数量分别为20 210、2 000、3 352. Cityscapes为含19类语义类别的城市场景数据集. 该数据集共有5 000张高分辨率的图像,对应的训练集、验证集和测试集的图片数量分别为2 975、500、1 525.

2.2. 实验环境及相关设置

本研究基于语义分割框架mmsegmentation实现Transformer语义分割网络,并完成对应实验. 在数据增强方面,ADE20K、Cityscapes均采用随机尺度调整、随机水平翻转以及将图像与标签随机裁剪等数据增强方式. 在模型训练方面,设置ADE20K的每批次大小为16张图片,由于Cityscapes数据集裁剪后的图片分辨率较高,在训练Cityscapes数据集时将每批次大小设定为8张图片. 实验硬件使用2个NVIDIA RTX A5000显卡训练模型,2个数据集都采用AdamW优化器,初始学习率设置为 $6.0 \times {10^{ - 5}}$,使用power = 1的多项式学习率动态迭代策略更新学习率. 采用在ImageNet-1K分类数据集上预训练的MiT[20]来初始化编码器参数,对于MiT中不包含的层,采用均值为0、方差为0.02的正态分布进行权重初始化,解码器内的网络参数则直接采用随机初始化.

2.3. 实验评估指标

使用语义分割中常用的平均交并比mIoU来评估模型的分割性能,表达式为

$ {\text{mIoU}} = \frac{1}{{n+1}}\sum\limits_{i = 0}^n {\frac{{{t_{ii}}}}{{\sum\limits_{j = 0}^n {{t_{i j}}+\sum\limits_{j = 0}^n {\left( {{t_{ji}} - {t_{ii}}} \right)} } }}} . $

式中: $ n+1 $为数据集类别数加上背景类, ${t_{i j}}$为第 $ i $类真实类别、第 $ j $类预测类的像素数量. 为了验证所提出联合重采样自注意力模块的有效性,对相关模型的参数量、计算复杂度和推理速度进行评估和比较.

2.4. 实验结果对比分析

2.4.1. 分割模型在ADE20K数据集上的性能对比

在ADE20K数据集上进行EA-Former与主流算法的性能对比. 训练图片分辨率大小为 $ 512 \times 512 $,在训练完成后采用单一尺度评估模型的相关性能,结果如表1所示. 表中,N为模型参数量;GFLOPs可以衡量计算复杂度,表示每秒 $1.0\times10^{9}$ 次的浮点运算. 为了与ADE20K数据集上的最优模型进行公平对比,修改EA-Former模型的训练设定与ADE20K数据集上最优网络保持一致,表中带星号的算法使用以 $ 640 \times 640 $的图片分辨率训练模型,同时采用多尺度评估. 由表可知,EA-Former不仅降低了计算复杂度,还维持了较高的分割精度. 具体来说,EA-Former的计算复杂度为61.3 GFLOPs,在所对比模型中最低,平均交并比为49.3%,与将Transformer结构引入语义分割领域的SETR相比,EA-Former的参数量和计算复杂度分别为SETR的42.8%和28.7%,mIoU却有提升. 与其他取得最优分割效果的语义分割模型相比,EA-Former同样以更低的计算量取得了具有竞争力的分割性能. 如SeMask、VAN、PVTv2等,虽然EA-Former*取得的mIoU相较于最优的Segformer*的mIoU低,但EA-Former*的计算复杂度仅为Segformer*的55.4%,符合通过JRSA在降低自注意力计算复杂度的同时,依然保持较优的平均交并比的预期目标.

表 1   不同分割模型在ADE20K数据集上的模型评估结果

Tab.1  Model evaluation results of different segmentation models on ADE20K dataset

算法 基础网络结构 N/106 GFLOPs mIoU/
%
FCN[1] ResNet-101[19] 68.6 275.7 39.9
PSPNet[3] ResNet-101 68.1 256.4 44.3
DeepLab-V3+[7] ResNet-101 62.7 255.1 45.4
DeepLab-V3+ ResNeSt-101[21] 66.3 262.9 46.9
UperNet[22] DeiT[23] 120.5 90.1 45.3
UperNet Swin-S[24] 81.0 259.3 49.3
UperNet Convnext[25] 60.2 234.6 46.1
UperNet Focal-B[26] 126.0 49.0
SETR[11] ViT[12] 318.5 213.6 47.3
DPT[27] ViT 109.7 171.0 46.9
Segmenter Mask[28] ViT 102.5 71.1 49.6
Semantic FPN[29] PVTv2-B3[30] 49.0 62.0 47.3
Semantic FPN VAN-B3[31] 49.0 68.0 48.1
SeMask-B FPN[32] SeMask Swin 96.0 107.0 49.4
Segformer[20] MiT[20] 83.9 110.5 50.1
EA-Former MiT 136.4 61.3 49.3
Segformer* MiT 83.9 172.7 52.1
EA-Former* MiT 136.4 95.8 51.0

新窗口打开| 下载CSV


表2所示,以轻量级的MiT-B0为基础网络结构,利用ADE20K数据集训练多种实时语义分割模型,公平地比较模型之间的各项指标,进一步证明EA-Former的高效性. 表中,FPS为模型推理速度. 即使采用相同的基础网络结构MiT-B0,与之前取得最优分割精度的SETR、Segformer、Segmenter等Transformer语义分割模型相比,本研究提出的轻量级EA-Former-T在保持更低的计算量和更高推理速度的同时,mIoU更优. 虽然UperNet分割算法得到的mIoU比EA-Former-T的mIoU更优,但其计算量是EA-Former-T的4倍,且推理速度仅为EA-Former-T的57.9%. 模型对比研究结果表明,EA-Former中JRSA能够有效地降低自注意力机制的计算复杂度、维持分割精度.

表 2   轻量级分割模型在ADE20K数据集上的模型评估结果

Tab.2  Model evaluation results of lightweight segmentation models on ADE20K dataset

算法 基础网络结构 GFLOPs FPS/
(帧 $ \cdot {{\rm{s}}^{ - 1}} $
mIoU/
%
SETR[11] MiT-B0[20] 25.3 28.7 34.8
Segformer[20] MiT-B0 8.6 50.5 37.5
UperNet[22] MiT-B0 28.5 29.6 39.3
Segmenter[28] MiT-B0 7.9 49.2 35.9
Semantic FPN[29] MiT-B0 23.0 46.4 37.1
EA-Former-T MiT-B0 7.1 51.1 38.1

新窗口打开| 下载CSV


图5所示,为了更直观地对比不同算法的分割精度在训练过程中的变化,将典型算法在训练ADE20K数据集时的平均交并比变化可视化,其中Epoch为训练迭代轮数. 相较于如FCN、DeeplabV3+、PSPnet和Convnext等基于CNN的语义分割网络, EA-Former的语义分割精度有显著提升. 得益于单层Transformer结构拥有全局感受野的优势,在迭代轮数较小时,EA-Former能够利用所获取的丰富上下文信息迅速取得较高的mIoU,相比之下,基于CNN的语义分割网络则需要漫长的训练来逐步提高分割精度.

图 5

图 5   不同分割模型在ADE20K数据集上训练的平均交并比变化

Fig.5   Changes in mean intersection over union trained on ADE20K dataset for different segmentation model


2.4.2. 分割模型在Cityscapes数据集上的性能对比

在Cityscapes数据集上进行EA-Former与主流算法的性能对比. 将数据集内的图片裁剪为 $ 768 \times 768 $大小来训练EA-Former,采用单尺度进行评估. 为了公平对比,修改EA-Former的训练设定与Cityscapes数据集上的最优网络保持一致,结果如表3所示. 表中,带井号的算法使用 $ 1\;024 \times 1\;024 $的图片分辨率训练对应模型,同时采用多尺度评估. 由表可知,在Cityscapes数据集上,EA-Former、EA-Former#不仅取得了较高的分割精度,而且计算复杂度均低于主流分割算法.

表 3   不同分割模型在Cityscapes数据集上的模型评估结果

Tab.3  Model evaluation results of different segmentation models on Cityscapes dataset

算法 基础网络结构 N/106 GFLOPs mIoU/%
FCN[1] ResNet-101[19] 68.4 619.6 75.5
PSPNet[3] ResNet-101 67.9 576.3 79.7
DeepLabV3+[7] ResNet-101 62.5 571.6 80.6
CCnet[9] ResNet-101 68.8 625.7 79.4
UperNet[22] ResNet-101 85.4 576.5 80.1
DeepLabV3[6] ResNeSt-101[21] 90.8 798.9 80.4
OCRNet[33] HRNet[34] 70.3 364.7 80.7
SETR[11] ViT[12] 318.3 818.2 79.3
Segformer[20] MiT[20] 83.9 597.6 81.8
EA-Former MiT 136.4 137.7 82.1
Segformer# MiT 83.9 735.2 84.1
EA-Former# MiT 136.4 191.8 83.9

新窗口打开| 下载CSV


为了直观地比较不同算法在Cityscapes数据集上的分割效果,可视化不同算法的分割结果如图6所示. 可以看出,在方框标注的区域,其他网络的分割效果不理想,除EA-Former外,其他均存在明显的识别错误. 在左侧的分割对比中,DeepLabV3+、SETR和Upernet将公交车的部分错判为火车类,FCN则将公交车的顶部识别为建筑类;在右侧的分割对比中,SETR、UperNet均将汽车的前轮部分判断为卡车类,DeepLabV3+、FCN均将汽车的车门部分误判为墙类. 在方框标出的易错区域,EA-Former成功地分割出正确的语义类别,主要原因是Transformer结构拥有全局感受野和灵活的位置编码方式,使得EA-Former拥有更充分的全局上下文信息和更充沛的空间信息,在处理单个大尺度物体或是物体相互遮挡时,能够结合周围的语义信息做出正确的判断. 虽然SETR中也有Transformer结构,但SETR采用的是相对固定的显式位置编码,且编码器部分使用类ViT的直筒型结构,难以生成不同尺度的特征图,仅将编码器最后一层输出的特征图送入解码器进行分割,导致分割效果不佳. EA-Former使用更加灵活的自适应卷积位置编码和可生成多尺度特征图的金字塔型编码网络,因此EA-Former可以结合低层的空间特征图和高层的语义特征图输出更精准的分割结果.

图 6

图 6   不同模型在Cityscapes数据集上的图形分割效果对比

Fig.6   Comparison of image segmentation effects of different models on Cityscapes dataset


2.4.3. 模型推理速度对比

为了证明EA-Former在模型推理方面的高效性,在ADE20K、Cityscapes上评估不同模型的推理速度. 推理速度是指模型每秒推理图片的数量. 推理速度受实验硬件和深度学习框架的影响较大,并且单次实验结果具有一定的波动范围,因此实验所得推理速度是在mmsegmentation框架下,使用NVIDIA RTX A5000显卡,单次实验推理图片200张,重复50次得到的平均推理时间,相关实验结果如表4所示. 与表中基于CNN的语义分割模型或是与基于Transformer的语义分割模型相比,EA-Former在2个数据集上都取得了最高的模型推理速度,表明本研究提出的高效语义分割网络不仅计算复杂度更低,而且拥有更快的模型推理速度.

表 4   不同分割模型在ADE20K数据集、Cityscapes数据集上推理速度的评估结果

Tab.4  Evaluation results of inference speed for different segmentation models on ADE20K dataset and Cityscapes dataset

算法 基础网络结构 FPS/(帧 $\cdot {{\rm{s}}^{ - 1} }$
ADE20K Citysapes
FCN[1] ResNet-101[19] 20.7 1.7
PSPNet[3] ResNet-101 20.3 1.8
DeepLabV3+[7] ResNet-101 18.7 1.6
DeepLabV3+ ResNeSt-101[21] 16.1 2.5
UperNet[22] Swin-S[24] 20.1
UperNet Convnext[25] 17.1
SETR[11] ViT[12] 8.3
DPT[27] ViT 20.5
Segmenter Mask[28] ViT 21.3
Segformer[20] MiT[20] 18.6 2.5
EA-Former MiT 21.9 2.8
Segformer* MiT 15.7
EA-Former* MiT 18.1
UperNet ResNet-101 2.3
CCnet[9] ResNet-101 1.7
DeepLabV3[6] ResNeSt-101 2.4
SETR ViT 0.4
Segformer# MiT 2.3
EA-Former# MiT 2.5

新窗口打开| 下载CSV


2.5. 消融实验
2.5.1. 自适应卷积位置编码模块(ACPE)消融实验

为了证明ACPE能灵活处理不同分辨率的图片且不会造成显著性能下降,将Cityscapes数据集中的原始图片裁剪为 $ 768 \times 768 $的训练图片,以该分辨率分别训练SETR和EA-Former,模型均采用相同的数据增强方式和模型训练方法. 为了进一步验证ACPE的作用,训练采用显式位置编码的EA-Former,对比不同模型在输入分辨率改变时的平均交并比变化,通过将验证集图片大小裁剪为 $ 768 \times 768 $$ 832 \times 832 $$ 1\;024 \times 1\;024 $$ 1\;024 \times 2\;048 $,得到对应的分割指标,结果如表5所示. 均不含ACPE的SETR和EA-Former在处理不同分辨率的输入图片时,只能对之前所训练的位置编码进行插值处理,导致模型的分割性能显著下降;含ACPE的EA-Former在处理不同于训练图片分辨率的验证图片时,可以通过零值填充卷积灵活地编码位置信息,使得网络可以维持较高的分割精度,不会造成过高的性能损失. 可以看到,与不含ACPE的算法相比,在处理分辨率为 $ 1\;024 \times 2\;048 $的输入图片时,含ACPE的EA-Former的mIoU下降量更少,表明ACPE可以缓解Transformer分割网络中位置编码不灵活造成的性能下降问题. 当输入图片分辨率为 $ 768 \times 768 $时,对比无ACPE的EA-Former,可以发现ACPE为网络提供了0.2%的性能增益.

表 5   自适应卷积位置编码模块对模型分割精度的影响

Tab.5  Influence of adaptive convolutional position encoding module on model segmentation accuracy

分辨率 mIoU/%
SETR[11]
(ViT[12]
EA-Former
(不含ACPE)
EA-Former
(含ACPE)
$ 768 \times 768 $ 79.3 81.9 82.1
$ 832 \times 832 $ 79.0 81.7 82.0
$1\;024 \times 1\;024$ 78.4 81.2 81.8
$1\;024 \times 2\;048$ 75.4 78.6 81.2

新窗口打开| 下载CSV


2.5.2. 联合重采样自注意力模块(JRSA)消融实验

为了证明JRSA能够高效地进行自注意力计算且不会带来更多的计算量,在ADE20K数据集上对轻量级的EA-Former-T进行JRSA的消融实验. 为了证明JRSA中降维操作带来的效率和性能优势,训练不含降维操作的EA-Former-T,即将JRSA中第一个用于降维的深度可分离卷积修改为卷积核大小为 $ 3 \times 3 $、填充范围为 $ 1 $的普通卷积,并且取消最大值池化支路. 实验结果如表6所示. 当EA-Former-T不包含JRSA时,其计算复杂度高且推理速度慢,在加入了含降维操作的JRSA后,不仅平均交并比更优,计算复杂度降低,而且推理速度极大提升. 当JRSA不包含降维操作时,其相对于标准的自注意力计算过程,更多的计算量被额外引入,与降低自注意力机制的计算复杂度的预期目标相悖. 实验结果表明,与降维后的模型效果相比,不降维模型的mIoU更低、计算复杂度更高,推理速度远低于降维模型.

表 6   联合重采样自注意力模块对EA-Former-T算法性能的影响

Tab.6  Influence of joint resampling self-attention module on algorithm performance of EA-Former-T

联合重采样
自注意力
降维 FPS/
(帧 $ \cdot {{\rm{s}}^{ - 1}} $
GFLOPs mIoU/
%
× × 32.4 8.4 37.5
× 11.5 9.0 37.6
51.1 7.1 38.1

新窗口打开| 下载CSV


3. 结 语

不够灵活的位置编码和过高的计算量一直是制约Transformer结构在语义分割领域大范围使用的重要原因. 本研究针对以上2个问题,提出基于Transformer结构的高效自适应语义分割网络EA-Former. 该网络以更灵活的位置编码方式为Transformer网络提供充沛的空间信息,在保证网络拥有较高分割性能的同时,能够自适应地处理不同分辨率的输入图片;以更高效的自注意力计算方式有效地减少网络的计算复杂度. 本研究结合所提出的简单高效的解码器,在公开权威语义分割数据集ADE20K和Cityscapes上进行模型参数量、计算复杂度、推理速度和分割精度的评估,与现有主流算法相比,EA-Former显著地缓解了由图片分辨率变化造成的性能下降,并且以最低的计算复杂度取得了具有竞争力的分割精度. 随着Transformer结构及相关变体的不断发展,未来可以继续对EA-Former的网络结构进行优化,在保持低计算量同时,减少网络的参数量,提高网络对图像的分割准确率.

参考文献

LONG J, SHELHAMER E, DARRELL T. Fully convolutional networks for semantic segmentation [C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Boston: IEEE, 2015: 3431-3440.

[本文引用: 4]

EVERINGHAM M, ESLAMI S M, VAN G L, et al

The Pascal visual object classes challenge: a retrospective

[J]. International Journal of Computer Vision, 2015, 111: 98- 136

DOI:10.1007/s11263-014-0733-5      [本文引用: 1]

ZHAO H, SHI J, QI X, et al. Pyramid scene parsing network [C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Honolulu: IEEE, 2017: 2881-2890.

[本文引用: 4]

CHEN L C, PAPANDREOU G, KOKKINOS I, et al. Semantic image segmentation with deep convolutional nets and fully connected CRFs [EB/OL]. (2016-06-07)[2022-04-25]. https://arxiv.org/pdf/1412.7062.pdf.

[本文引用: 1]

CHEN L C, PAPANDREOU G, KOKKINOS I, et al

Deeplab: semantic image segmentation with deep convolutional nets, atrous convolution, and fully connected CRFs

[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2017, 40 (4): 834- 848

CHEN L C, PAPANDREOU G, SCHROFF F, et al. Rethinking atrous convolution for semantic image seg-mentation [EB/OL]. (2017-06-17)[2022-04-26]. https://arxiv.org/abs/1706.05587.

[本文引用: 2]

CHEN L C, ZHU Y, PAPANDREOU G, et al. Encoder-decoder with atrous separable convolution for semantic image segmentation [C]// Proceedings of the European Conference on Computer Vision. Munich: Springer, 2018: 801-818.

[本文引用: 4]

ZHAO H, ZHANG Y, LIU S, et al. PSANet: point-wise spatial attention network for scene parsing [C]// Proceedings of the European Conference on Computer Vision. Munich: Springer, 2018: 267-283.

[本文引用: 1]

HUANG Z, WANG X, HUANG L, et al. CCNet: criss-cross attention for semantic segmentation [C]// Proceedings of the IEEE/CVF International Conference on Computer Vision. Seoul: IEEE, 2019: 603-612.

[本文引用: 3]

VASWANI A, SHAZEER N, PARMAR N, et al. Attention is all you need [C]// Advances in Neural Information Processing Systems. Long Beach: MIT Press, 2017: 5998-6008.

[本文引用: 1]

ZHENG S, LU J, ZHAO H, et al. Rethinking semantic segmentation from a sequence-to-sequence perspective with transformers [C]// Proceedings of the IEEE/CVF conference on computer vision and pattern recognition. Nashville: IEEE, 2021: 6881-6890.

[本文引用: 6]

DOSOVITSKIY A, BEYER L, KOLESNIKOV A, et al. An image is worth 16×16 words: transformers for image recognition at scale [EB/OL]. (2020-10-22)[2022-04-27]. https://arxiv.org/pdf/2010.11929.pdf.

[本文引用: 5]

ZHOU B, ZHAO H, PUIG X, et al. Scene parsing through ADE20K dataset [C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Honolulu: IEEE, 2017: 633-641.

[本文引用: 1]

ISLAM M A, JIA S, BRUCE N D B. How much p-osition information do convolutional neural networks encode? [EB/OL]. (2020-01-22)[2022-04-28]. https://ar-xiv.org/pdf/2001.08248.pdf.

[本文引用: 1]

CHU X, TIAN Z, ZHANG B, et al. Conditional posi-tional encodings for vision transformers [EB/OL]. (2021-02-22)[2022-04-29]. https://arxiv.org/pdf/2102.10882.pdf.

[本文引用: 2]

YUAN K, GUO S, LIU Z, et al. Incorporating conv-olution designs into visual transformers [C]// Proceed-ings of the IEEE/CVF International Conference on Computer Vision. Montreal: IEEE, 2021: 579-588.

[本文引用: 1]

WU H, XIAO B, CODELLA N, et al. CvT: introducing convolutions to vision transformers [C]// Proceedings of the IEEE/CVF International Conference on Computer Vision. Montreal: IEEE, 2021: 22-31.

[本文引用: 1]

CORDTS M, OMRAN M, RAMOS S, et al. The Cityscapes dataset for semantic urban scene understanding [C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas: IEEE, 2016: 3213-3223.

[本文引用: 1]

HE K, ZHANG X, REN S, et al. Deep residual learning for image recognition [C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas: IEEE, 2016: 770-778.

[本文引用: 4]

XIE E, WANG W, YU Z, et al. SegFormer: simple and efficient design for semantic segmentation with transformers [C]// Advances in Neural Information Processing Systems. [S.l.]: MIT Press, 2021: 12077-12090.

[本文引用: 9]

ZHANG H, WU C, ZHANG Z, et al. ResNeSt: split-attention networks [C]// Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition Workshops. New Orleans: IEEE, 2022: 2736-2746.

[本文引用: 3]

XIAO T, LIU Y, ZHOU B, et al. Unified perceptual parsing for scene understanding [C]// Proceedings of the European Conference on Computer Vision. Munich: Springer, 2018: 418-434.

[本文引用: 4]

TOUVRON H, CORD M, DOUZE M, et al. Training data-efficient image transformers & distillation through attention [C]// Proceedings of the 38th International Conference on Machine Learning. [S.l.]: PMLR, 2021: 10347-10357.

[本文引用: 1]

LIU Z, LIN Y, CAO Y, et al. Swin transformer: hierarchical vision transformer using shifted windows [C]// Proceedings of the IEEE/CVF International Conference on Computer Vision. Montreal: IEEE, 2021: 10012-10022.

[本文引用: 2]

LIU Z, MAO H, WU C Y, et al. A convnet for the 2020s [C]// Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. New Orleans: IEEE, 2022: 11976-11986.

[本文引用: 2]

YANG J, LI C, ZHANG P, et al. Focal self-attention for local-global interactions in vision transformers [EB/OL]. (2021-07-01)[2022-05-06]. https://arxiv.org/pdf/21-07.00641.pdf.

[本文引用: 1]

CHEN Z, ZHU Y, ZHAO C, et al. DPT: deformable patch-based transformer for visual recognition [C]// Proceedings of the 29th ACM International Conference on Multimedia. [S.l.]: ACM, 2021: 2899-2907.

[本文引用: 2]

STRUDEL R, GARCIA R, LAPTEV I, et al. Segmenter: transformer for semantic segmentation [C]// Proceedings of the IEEE/CVF International Conference on Computer Vision. Montreal: IEEE, 2021: 7262-7272.

[本文引用: 3]

KIRILLOV A, GIRSHICK R, HE K, et al. Panoptic feature pyramid networks [C]// Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. Long Beach: IEEE, 2019: 6399-6408.

[本文引用: 2]

WANG W, XIE E, LI X, et al

PVT v2: Improved baselines with pyramid vision transformer

[J]. Computational Visual Media, 2022, 8: 415- 424

DOI:10.1007/s41095-022-0274-8      [本文引用: 1]

GUO M H, LU C Z, LIU Z N, et al. Visual attenti-on network [EB/OL]. (2022-02-20)[2022-05-16]. https://arxiv.org/pdf/2202.09741.pdf.

[本文引用: 1]

JAIN J, SINGH A, ORLOV N, et al. Semask: seman-tically masked transformers for semantic segmentation[EB/OL]. (2021-12-23)[2022-05-23]. https://arxiv.org/pdf/2112.12782.pdf.

[本文引用: 1]

YUAN Y, CHEN X, WANG J. Object-contextual representations for semantic segmentation [C]// European Conference on Computer Vision. [S.l.]: Springer, 2020: 173-190.

[本文引用: 1]

SUN K, XIAO B, LIU D, et al. Deep high-resolution representation learning for human pose estimation [C]// Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. Long Beach: IEEE, 2019: 5686−5696.

[本文引用: 1]

/