(4) $ {\boldsymbol{x}_{\mathrm{out}}=\operatorname{Concat}\left(\boldsymbol{x}_{\mathrm{in}, 1}^{(K, P, S)}, \boldsymbol{x}_{\mathrm{in}, 2}^{(K, P, S)}, \cdots, \boldsymbol{x}_{\mathrm{in}, i}^{(K, P, S)} \cdots, \boldsymbol{x}_{\mathrm{in}, n}^{(K, P, S)}\right).}$
[1]
吕玉荣 太阳能电池的发展背景及应用
[J]. 化工时刊 , 2021 , 35 (2 ): 26 - 29
[本文引用: 1]
LV Yurong The development background and applications of solar cells
[J]. Chemical Industry Times , 2021 , 35 (2 ): 26 - 29
[本文引用: 1]
[2]
BREITENSTEIN O, BAUER J, ALTERMATT P P, et al Influence of defects on solar cell characteristics
[J]. Solid State Phenomena , 2010 , 156 : 1 - 10
[本文引用: 1]
[3]
施光辉, 崔亚楠, 刘小娇, 等 电致发光 (EL) 在光伏电池组件缺陷检测中的应用
[J]. 云南师范大学学报: 自然科学版 , 2016 , 36 (2 ): 17 - 21
[本文引用: 1]
SHI Guanghui, CUI Yanan, LIU Xiaojiao, et al Electroluminescent application in defects detection of photovoltaic-module
[J]. Journal of Yunnan Normal University: Natural Sciences Edition , 2016 , 36 (2 ): 17 - 21
[本文引用: 1]
[4]
MANSOURI A, ZETTL M, MAYER O, et al. Defect detection in photovoltaic modules using electroluminescence imaging [C]// 27th European Photovoltaic Solar Energy Conference and Exhibition . Frankfurt: PVTECH, 2012, 64617926: 3374-3378.
[本文引用: 1]
[5]
KANAI A, SUGIYAMA M Emission properties of intrinsic and extrinsic defects in Cu2SnS3 thin films and solar cells
[J]. Japanese Journal of Applied Physics , 2020 , 60 (1 ): 015504
[本文引用: 1]
[6]
徐辉, 祝玉华, 甄彤, 等 深度神经网络图像语义分割方法综述
[J]. 计算机科学与探索 , 2021 , 15 (1 ): 47 - 59
[本文引用: 1]
XU Hui, ZHU Yuhua, ZHEN Tong, et al Survey of image semantic segmentation methods based on deep neural network
[J]. Journal of Frontiers of Computer Science and Technology , 2021 , 15 (1 ): 47 - 59
[本文引用: 1]
[7]
陈海永, 刘新如 交叉门控融合的改进语义分割网络及应用
[J]. 重庆理工大学学报 : 自然科学 , 2023 , 37 (6 ): 187 - 195
[本文引用: 1]
CHEN Haiyong, LIU Xinru An improved semantic segmentation network and its application by using cross-gated fusion
[J]. Journal of Chongqing University of Technology: Natural Science , 2023 , 37 (6 ): 187 - 195
[本文引用: 1]
[8]
RAHMAN M R U, CHEN H, XI W. U-Net based defects inspection in photovoltaic electroluminecscence images [C]// 2019 IEEE International Conference on Big Knowledge . Changsha: IEEE, 2019: 215–220.
[本文引用: 1]
[9]
王盛, 吴浩, 彭宁, 等 改进U2 -Net的太阳能电池片缺陷分割方法
[J]. 国外电子测量技术 , 2023 , 42 (2 ): 177 - 184
[本文引用: 1]
WANG Sheng, WU Hao, PENG Ning, et al Improved U2 -Net defect segmentation method for solar cells
[J]. Foreign Electronic Measurement Technology , 2023 , 42 (2 ): 177 - 184
[本文引用: 1]
[10]
BALZATEGUI J, ECIOLAZA L, ARANA-AREXOLALEIBA N. Defect detection on polycrystalline solar cells using electroluminescence and fully convolutional neural networks [C]// IEEE/SICE International Symposium on System Integration . Kunming: IEEE, 2020: 949–953.
[本文引用: 1]
[11]
张海波, 蔡磊, 任俊平, 等 基于Transformer的高效自适应语义分割网络
[J]. 浙江大学学报: 工学版 , 2023 , 57 (6 ): 1205 - 1214
[本文引用: 1]
ZHANG Haibo, CAI Lei, REN Junping, et al Efficient and adaptive semantic segmentation network based on Transformer
[J]. Journal of Zhejiang University: Engineering Science , 2023 , 57 (6 ): 1205 - 1214
[本文引用: 1]
[12]
DOSOVITSKIY A, BEYER L, KOLESNIKOV A, et al. An image is worth 16x16 words: Transformers for image recognition at scale [EB/OL]. (2020-10-22)[2023-11-07]. https://arxiv.org/search/?query=An+image+is+worth+16x16+words%3A+Transformers+for+image+recognition+at+scale&searchtype=all&source=header.
[本文引用: 1]
[13]
YAMADA M, D'AMARIO V, TAKEMOTO K, et al. Transformer module networks for systematic generalization in visual question answering [EB/OL]. (2022-01-27)[2023-11-07]. https://arxiv.org/abs/2201.11316.
[本文引用: 1]
[14]
ZHOU B, ZHAO H, PUIG X, et al. Scene parsing through ade20k dataset [C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition . Hawaii: IEEE, 2017: 633–641.
[本文引用: 1]
[15]
DENG J, DONG W, SOCHER R, et al. Imagenet: a large-scale hierarchical image database [C]// 2009 IEEE Conference on Computer Vision and Pattern Recognition . Tokyo: IEEE, 2009: 248–255.
[本文引用: 1]
[16]
LIU Z, LIN Y, CAO Y, et al. Swin transformer: hierarchical vision transformer using shifted windows [C]// Proceedings of the IEEE/CVF International Conference on Computer Vision . Sanya: IEEE, 2021: 10012–10022.
[本文引用: 1]
[17]
LIU J, WANG C, ZHA L A middle-level learning feature interaction method with deep learning for multi-feature music genre classification
[J]. Electronics , 2021 , 10 (18 ): 2206
DOI:10.3390/electronics10182206
[本文引用: 2]
[18]
XIE E, WANG W, YU Z, et al SegFormer: simple and efficient design for semantic segmentation with transformers
[J]. Advances in Neural Information Processing Systems , 2021 , 34 : 12077 - 12090
[本文引用: 1]
[19]
LIU X, YU H F, DHILLON I, et al. Learning to encode position for transformer with continuous dynamical model [C]// International Conference on Machine Learning . PMLR: [s.n.], 2020: 6327–6335.
[本文引用: 1]
[20]
BRAUWERS G, FRASINCAR F A general survey on attention mechanisms in deep learning
[J]. IEEE Transactions on Knowledge and Data Engineering , 2021 , 35 (4 ): 3279 - 3298
[本文引用: 1]
[21]
LIN W, WU Z, CHEN J, et al. Scale-aware modulation meet transformer [C]// Proceedings of the IEEE/CVF International Conference on Computer Vision . Vancouver: IEEE, 2023: 6015–6026.
[本文引用: 1]
[22]
STRUDEL R, GARCIA R, LAPTEV I, et al. Segmenter: Transformer for semantic segmentation [C]// Proceedings of the IEEE/CVF International Conference on Computer Vision . Kuala Lumpur: IEEE, 2021: 7262–7272.
[本文引用: 1]
[23]
DEITSCH S, CHRISLTEIN V, BERGER S, at el Automatic classification of defective photovoltaic module cells in electroluminescence images
[J]. Solar Energy , 2019 , 185 : 455 - 468
DOI:10.1016/j.solener.2019.02.067
[本文引用: 1]
[24]
CHU X, TIAN Z, WANG Y, et al Twins: revisiting the design of spatial attention in vision transformers
[J]. Advances in Neural Information Processing Systems , 2021 , 34 : 9355 - 9366
[本文引用: 1]
[25]
STRUDEL R, GARCIA R, LAPTEV I, et al. Segmenter: Transformer for semantic segmentation [C]// Proceedings of the IEEE/CVF International Conference on Computer Vision . Venice: IEEE, 2021: 7262–7272.
[26]
LIU Z, MAO H, WU C Y, et al. A convnet for the 2020s [C]// Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition . Paris: IEEE, 2022: 11976–11986.
[27]
CHENG B, MISRA I, SCHWING A G, et al. Masked-attention mask transformer for universal image segmentation [C]// Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition . Paris: IEEE, 2022: 1290–1299.
[本文引用: 1]
[28]
LONG J, SHELHAMER E, DARRELL T. Fully convolutional networks for semantic segmentation [C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition . Boston: IEEE, 2015: 3431–3440.
[本文引用: 1]
[29]
RONNEBERGER O, FISCHER P, BROX T. U-net: convolutional networks for biomedical image segmentation [C]// Medical Image Computing and Computer-Assisted Intervention–MICCAI 2015: 18th International Conference . Munich: Springer International Publishing, 2015: 234–241.
[本文引用: 1]
[30]
CHEN L C, PAPANDREOU G, SCHROFF F, et al. Rethinking atrous convolution for semantic image segmentation [EB/OL]. (2017-06-17)[2023-11-07]. https://arxiv.org/abs/1706.05587.
[本文引用: 1]
[31]
ZHAO H, SHI J, QI X, et al. Pyramid scene parsing network [C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition . Hawaii: IEEE, 2017: 2881–2890.
[本文引用: 1]
太阳能电池的发展背景及应用
1
2021
... 太阳能作为唯一能够达到TW级的可再生能源[1 ] ,是目前新能源领域重要的研究内容之一. 如今市场上主流的晶体硅太阳能电池在生产过程中常常会由于表面缺陷问题而导致性能和效率降低. 因此,对太阳能电池片进行出厂前缺陷检测是保证产品质量的一个重要步骤. 当前,主要的检测技术以缺陷识别为主,而缺乏通过分割对缺陷特征[2 ] ,如面积、裂缝方向和长度等进行详尽分析. 这种分析对于理解不同缺陷背后的成因或相同缺陷的差异表现至关重要,它能够为工艺优化和技术升级提供有力的数据支持. 因此,研发高效且精确的缺陷语义分割技术,对于晶体硅太阳能电池制造业来说尤为重要. ...
太阳能电池的发展背景及应用
1
2021
... 太阳能作为唯一能够达到TW级的可再生能源[1 ] ,是目前新能源领域重要的研究内容之一. 如今市场上主流的晶体硅太阳能电池在生产过程中常常会由于表面缺陷问题而导致性能和效率降低. 因此,对太阳能电池片进行出厂前缺陷检测是保证产品质量的一个重要步骤. 当前,主要的检测技术以缺陷识别为主,而缺乏通过分割对缺陷特征[2 ] ,如面积、裂缝方向和长度等进行详尽分析. 这种分析对于理解不同缺陷背后的成因或相同缺陷的差异表现至关重要,它能够为工艺优化和技术升级提供有力的数据支持. 因此,研发高效且精确的缺陷语义分割技术,对于晶体硅太阳能电池制造业来说尤为重要. ...
Influence of defects on solar cell characteristics
1
2010
... 太阳能作为唯一能够达到TW级的可再生能源[1 ] ,是目前新能源领域重要的研究内容之一. 如今市场上主流的晶体硅太阳能电池在生产过程中常常会由于表面缺陷问题而导致性能和效率降低. 因此,对太阳能电池片进行出厂前缺陷检测是保证产品质量的一个重要步骤. 当前,主要的检测技术以缺陷识别为主,而缺乏通过分割对缺陷特征[2 ] ,如面积、裂缝方向和长度等进行详尽分析. 这种分析对于理解不同缺陷背后的成因或相同缺陷的差异表现至关重要,它能够为工艺优化和技术升级提供有力的数据支持. 因此,研发高效且精确的缺陷语义分割技术,对于晶体硅太阳能电池制造业来说尤为重要. ...
电致发光 (EL) 在光伏电池组件缺陷检测中的应用
1
2016
... 近年来,图像处理算法在光伏电致发光(electroluminescent,EL)[3 ] 图像领域取得了显著进展,能够用于缺陷检测[4 ] ,并成功地在高分辨率EL图像中检测出了本征缺陷(如晶体错配位错和分流)以及非本征缺陷[5 ] . 随后,深度学习[6 ] 网络的兴起极大地提升了缺陷分割的准确性和效率. 陈海永等[7 ] 提出了交叉门控融合模块,通过对有效信息的多重融合增强微小缺陷的特征表示. Rahman等[8 ] 提出基于U-Net的新型深度学习缺陷分割架构,引入全局注意力机制来获取更多的上下文信息,使平均交并比 (mean intersection over union, MIoU) 指标提升了2.0个百分点. 王盛等[9 ] 在U2 -NET外层编解码跳跃连接中添加语义嵌入分支结构,相较于U2 -NET在MIoU上提升了2.43个百分点. Balzategui等[10 ] 将用于分割任务的卷积神经网络(convolutional neural networks,CNN)架构替换为基于全卷积网络(fully convolutional networks,FCN)的U-Net网络,这一改进使检测精度提高了超过20.0个百分点. 张海波等[11 ] 在编码器中引入零填充卷积和联合重采样自注意力模块,并通过解码器融合不通过阶段特征,与传统的SETR相比在MIoU上提升了4.0个百分点. ...
电致发光 (EL) 在光伏电池组件缺陷检测中的应用
1
2016
... 近年来,图像处理算法在光伏电致发光(electroluminescent,EL)[3 ] 图像领域取得了显著进展,能够用于缺陷检测[4 ] ,并成功地在高分辨率EL图像中检测出了本征缺陷(如晶体错配位错和分流)以及非本征缺陷[5 ] . 随后,深度学习[6 ] 网络的兴起极大地提升了缺陷分割的准确性和效率. 陈海永等[7 ] 提出了交叉门控融合模块,通过对有效信息的多重融合增强微小缺陷的特征表示. Rahman等[8 ] 提出基于U-Net的新型深度学习缺陷分割架构,引入全局注意力机制来获取更多的上下文信息,使平均交并比 (mean intersection over union, MIoU) 指标提升了2.0个百分点. 王盛等[9 ] 在U2 -NET外层编解码跳跃连接中添加语义嵌入分支结构,相较于U2 -NET在MIoU上提升了2.43个百分点. Balzategui等[10 ] 将用于分割任务的卷积神经网络(convolutional neural networks,CNN)架构替换为基于全卷积网络(fully convolutional networks,FCN)的U-Net网络,这一改进使检测精度提高了超过20.0个百分点. 张海波等[11 ] 在编码器中引入零填充卷积和联合重采样自注意力模块,并通过解码器融合不通过阶段特征,与传统的SETR相比在MIoU上提升了4.0个百分点. ...
1
... 近年来,图像处理算法在光伏电致发光(electroluminescent,EL)[3 ] 图像领域取得了显著进展,能够用于缺陷检测[4 ] ,并成功地在高分辨率EL图像中检测出了本征缺陷(如晶体错配位错和分流)以及非本征缺陷[5 ] . 随后,深度学习[6 ] 网络的兴起极大地提升了缺陷分割的准确性和效率. 陈海永等[7 ] 提出了交叉门控融合模块,通过对有效信息的多重融合增强微小缺陷的特征表示. Rahman等[8 ] 提出基于U-Net的新型深度学习缺陷分割架构,引入全局注意力机制来获取更多的上下文信息,使平均交并比 (mean intersection over union, MIoU) 指标提升了2.0个百分点. 王盛等[9 ] 在U2 -NET外层编解码跳跃连接中添加语义嵌入分支结构,相较于U2 -NET在MIoU上提升了2.43个百分点. Balzategui等[10 ] 将用于分割任务的卷积神经网络(convolutional neural networks,CNN)架构替换为基于全卷积网络(fully convolutional networks,FCN)的U-Net网络,这一改进使检测精度提高了超过20.0个百分点. 张海波等[11 ] 在编码器中引入零填充卷积和联合重采样自注意力模块,并通过解码器融合不通过阶段特征,与传统的SETR相比在MIoU上提升了4.0个百分点. ...
Emission properties of intrinsic and extrinsic defects in Cu2SnS3 thin films and solar cells
1
2020
... 近年来,图像处理算法在光伏电致发光(electroluminescent,EL)[3 ] 图像领域取得了显著进展,能够用于缺陷检测[4 ] ,并成功地在高分辨率EL图像中检测出了本征缺陷(如晶体错配位错和分流)以及非本征缺陷[5 ] . 随后,深度学习[6 ] 网络的兴起极大地提升了缺陷分割的准确性和效率. 陈海永等[7 ] 提出了交叉门控融合模块,通过对有效信息的多重融合增强微小缺陷的特征表示. Rahman等[8 ] 提出基于U-Net的新型深度学习缺陷分割架构,引入全局注意力机制来获取更多的上下文信息,使平均交并比 (mean intersection over union, MIoU) 指标提升了2.0个百分点. 王盛等[9 ] 在U2 -NET外层编解码跳跃连接中添加语义嵌入分支结构,相较于U2 -NET在MIoU上提升了2.43个百分点. Balzategui等[10 ] 将用于分割任务的卷积神经网络(convolutional neural networks,CNN)架构替换为基于全卷积网络(fully convolutional networks,FCN)的U-Net网络,这一改进使检测精度提高了超过20.0个百分点. 张海波等[11 ] 在编码器中引入零填充卷积和联合重采样自注意力模块,并通过解码器融合不通过阶段特征,与传统的SETR相比在MIoU上提升了4.0个百分点. ...
深度神经网络图像语义分割方法综述
1
2021
... 近年来,图像处理算法在光伏电致发光(electroluminescent,EL)[3 ] 图像领域取得了显著进展,能够用于缺陷检测[4 ] ,并成功地在高分辨率EL图像中检测出了本征缺陷(如晶体错配位错和分流)以及非本征缺陷[5 ] . 随后,深度学习[6 ] 网络的兴起极大地提升了缺陷分割的准确性和效率. 陈海永等[7 ] 提出了交叉门控融合模块,通过对有效信息的多重融合增强微小缺陷的特征表示. Rahman等[8 ] 提出基于U-Net的新型深度学习缺陷分割架构,引入全局注意力机制来获取更多的上下文信息,使平均交并比 (mean intersection over union, MIoU) 指标提升了2.0个百分点. 王盛等[9 ] 在U2 -NET外层编解码跳跃连接中添加语义嵌入分支结构,相较于U2 -NET在MIoU上提升了2.43个百分点. Balzategui等[10 ] 将用于分割任务的卷积神经网络(convolutional neural networks,CNN)架构替换为基于全卷积网络(fully convolutional networks,FCN)的U-Net网络,这一改进使检测精度提高了超过20.0个百分点. 张海波等[11 ] 在编码器中引入零填充卷积和联合重采样自注意力模块,并通过解码器融合不通过阶段特征,与传统的SETR相比在MIoU上提升了4.0个百分点. ...
深度神经网络图像语义分割方法综述
1
2021
... 近年来,图像处理算法在光伏电致发光(electroluminescent,EL)[3 ] 图像领域取得了显著进展,能够用于缺陷检测[4 ] ,并成功地在高分辨率EL图像中检测出了本征缺陷(如晶体错配位错和分流)以及非本征缺陷[5 ] . 随后,深度学习[6 ] 网络的兴起极大地提升了缺陷分割的准确性和效率. 陈海永等[7 ] 提出了交叉门控融合模块,通过对有效信息的多重融合增强微小缺陷的特征表示. Rahman等[8 ] 提出基于U-Net的新型深度学习缺陷分割架构,引入全局注意力机制来获取更多的上下文信息,使平均交并比 (mean intersection over union, MIoU) 指标提升了2.0个百分点. 王盛等[9 ] 在U2 -NET外层编解码跳跃连接中添加语义嵌入分支结构,相较于U2 -NET在MIoU上提升了2.43个百分点. Balzategui等[10 ] 将用于分割任务的卷积神经网络(convolutional neural networks,CNN)架构替换为基于全卷积网络(fully convolutional networks,FCN)的U-Net网络,这一改进使检测精度提高了超过20.0个百分点. 张海波等[11 ] 在编码器中引入零填充卷积和联合重采样自注意力模块,并通过解码器融合不通过阶段特征,与传统的SETR相比在MIoU上提升了4.0个百分点. ...
交叉门控融合的改进语义分割网络及应用
1
2023
... 近年来,图像处理算法在光伏电致发光(electroluminescent,EL)[3 ] 图像领域取得了显著进展,能够用于缺陷检测[4 ] ,并成功地在高分辨率EL图像中检测出了本征缺陷(如晶体错配位错和分流)以及非本征缺陷[5 ] . 随后,深度学习[6 ] 网络的兴起极大地提升了缺陷分割的准确性和效率. 陈海永等[7 ] 提出了交叉门控融合模块,通过对有效信息的多重融合增强微小缺陷的特征表示. Rahman等[8 ] 提出基于U-Net的新型深度学习缺陷分割架构,引入全局注意力机制来获取更多的上下文信息,使平均交并比 (mean intersection over union, MIoU) 指标提升了2.0个百分点. 王盛等[9 ] 在U2 -NET外层编解码跳跃连接中添加语义嵌入分支结构,相较于U2 -NET在MIoU上提升了2.43个百分点. Balzategui等[10 ] 将用于分割任务的卷积神经网络(convolutional neural networks,CNN)架构替换为基于全卷积网络(fully convolutional networks,FCN)的U-Net网络,这一改进使检测精度提高了超过20.0个百分点. 张海波等[11 ] 在编码器中引入零填充卷积和联合重采样自注意力模块,并通过解码器融合不通过阶段特征,与传统的SETR相比在MIoU上提升了4.0个百分点. ...
交叉门控融合的改进语义分割网络及应用
1
2023
... 近年来,图像处理算法在光伏电致发光(electroluminescent,EL)[3 ] 图像领域取得了显著进展,能够用于缺陷检测[4 ] ,并成功地在高分辨率EL图像中检测出了本征缺陷(如晶体错配位错和分流)以及非本征缺陷[5 ] . 随后,深度学习[6 ] 网络的兴起极大地提升了缺陷分割的准确性和效率. 陈海永等[7 ] 提出了交叉门控融合模块,通过对有效信息的多重融合增强微小缺陷的特征表示. Rahman等[8 ] 提出基于U-Net的新型深度学习缺陷分割架构,引入全局注意力机制来获取更多的上下文信息,使平均交并比 (mean intersection over union, MIoU) 指标提升了2.0个百分点. 王盛等[9 ] 在U2 -NET外层编解码跳跃连接中添加语义嵌入分支结构,相较于U2 -NET在MIoU上提升了2.43个百分点. Balzategui等[10 ] 将用于分割任务的卷积神经网络(convolutional neural networks,CNN)架构替换为基于全卷积网络(fully convolutional networks,FCN)的U-Net网络,这一改进使检测精度提高了超过20.0个百分点. 张海波等[11 ] 在编码器中引入零填充卷积和联合重采样自注意力模块,并通过解码器融合不通过阶段特征,与传统的SETR相比在MIoU上提升了4.0个百分点. ...
1
... 近年来,图像处理算法在光伏电致发光(electroluminescent,EL)[3 ] 图像领域取得了显著进展,能够用于缺陷检测[4 ] ,并成功地在高分辨率EL图像中检测出了本征缺陷(如晶体错配位错和分流)以及非本征缺陷[5 ] . 随后,深度学习[6 ] 网络的兴起极大地提升了缺陷分割的准确性和效率. 陈海永等[7 ] 提出了交叉门控融合模块,通过对有效信息的多重融合增强微小缺陷的特征表示. Rahman等[8 ] 提出基于U-Net的新型深度学习缺陷分割架构,引入全局注意力机制来获取更多的上下文信息,使平均交并比 (mean intersection over union, MIoU) 指标提升了2.0个百分点. 王盛等[9 ] 在U2 -NET外层编解码跳跃连接中添加语义嵌入分支结构,相较于U2 -NET在MIoU上提升了2.43个百分点. Balzategui等[10 ] 将用于分割任务的卷积神经网络(convolutional neural networks,CNN)架构替换为基于全卷积网络(fully convolutional networks,FCN)的U-Net网络,这一改进使检测精度提高了超过20.0个百分点. 张海波等[11 ] 在编码器中引入零填充卷积和联合重采样自注意力模块,并通过解码器融合不通过阶段特征,与传统的SETR相比在MIoU上提升了4.0个百分点. ...
改进U2 -Net的太阳能电池片缺陷分割方法
1
2023
... 近年来,图像处理算法在光伏电致发光(electroluminescent,EL)[3 ] 图像领域取得了显著进展,能够用于缺陷检测[4 ] ,并成功地在高分辨率EL图像中检测出了本征缺陷(如晶体错配位错和分流)以及非本征缺陷[5 ] . 随后,深度学习[6 ] 网络的兴起极大地提升了缺陷分割的准确性和效率. 陈海永等[7 ] 提出了交叉门控融合模块,通过对有效信息的多重融合增强微小缺陷的特征表示. Rahman等[8 ] 提出基于U-Net的新型深度学习缺陷分割架构,引入全局注意力机制来获取更多的上下文信息,使平均交并比 (mean intersection over union, MIoU) 指标提升了2.0个百分点. 王盛等[9 ] 在U2 -NET外层编解码跳跃连接中添加语义嵌入分支结构,相较于U2 -NET在MIoU上提升了2.43个百分点. Balzategui等[10 ] 将用于分割任务的卷积神经网络(convolutional neural networks,CNN)架构替换为基于全卷积网络(fully convolutional networks,FCN)的U-Net网络,这一改进使检测精度提高了超过20.0个百分点. 张海波等[11 ] 在编码器中引入零填充卷积和联合重采样自注意力模块,并通过解码器融合不通过阶段特征,与传统的SETR相比在MIoU上提升了4.0个百分点. ...
改进U2 -Net的太阳能电池片缺陷分割方法
1
2023
... 近年来,图像处理算法在光伏电致发光(electroluminescent,EL)[3 ] 图像领域取得了显著进展,能够用于缺陷检测[4 ] ,并成功地在高分辨率EL图像中检测出了本征缺陷(如晶体错配位错和分流)以及非本征缺陷[5 ] . 随后,深度学习[6 ] 网络的兴起极大地提升了缺陷分割的准确性和效率. 陈海永等[7 ] 提出了交叉门控融合模块,通过对有效信息的多重融合增强微小缺陷的特征表示. Rahman等[8 ] 提出基于U-Net的新型深度学习缺陷分割架构,引入全局注意力机制来获取更多的上下文信息,使平均交并比 (mean intersection over union, MIoU) 指标提升了2.0个百分点. 王盛等[9 ] 在U2 -NET外层编解码跳跃连接中添加语义嵌入分支结构,相较于U2 -NET在MIoU上提升了2.43个百分点. Balzategui等[10 ] 将用于分割任务的卷积神经网络(convolutional neural networks,CNN)架构替换为基于全卷积网络(fully convolutional networks,FCN)的U-Net网络,这一改进使检测精度提高了超过20.0个百分点. 张海波等[11 ] 在编码器中引入零填充卷积和联合重采样自注意力模块,并通过解码器融合不通过阶段特征,与传统的SETR相比在MIoU上提升了4.0个百分点. ...
1
... 近年来,图像处理算法在光伏电致发光(electroluminescent,EL)[3 ] 图像领域取得了显著进展,能够用于缺陷检测[4 ] ,并成功地在高分辨率EL图像中检测出了本征缺陷(如晶体错配位错和分流)以及非本征缺陷[5 ] . 随后,深度学习[6 ] 网络的兴起极大地提升了缺陷分割的准确性和效率. 陈海永等[7 ] 提出了交叉门控融合模块,通过对有效信息的多重融合增强微小缺陷的特征表示. Rahman等[8 ] 提出基于U-Net的新型深度学习缺陷分割架构,引入全局注意力机制来获取更多的上下文信息,使平均交并比 (mean intersection over union, MIoU) 指标提升了2.0个百分点. 王盛等[9 ] 在U2 -NET外层编解码跳跃连接中添加语义嵌入分支结构,相较于U2 -NET在MIoU上提升了2.43个百分点. Balzategui等[10 ] 将用于分割任务的卷积神经网络(convolutional neural networks,CNN)架构替换为基于全卷积网络(fully convolutional networks,FCN)的U-Net网络,这一改进使检测精度提高了超过20.0个百分点. 张海波等[11 ] 在编码器中引入零填充卷积和联合重采样自注意力模块,并通过解码器融合不通过阶段特征,与传统的SETR相比在MIoU上提升了4.0个百分点. ...
基于Transformer的高效自适应语义分割网络
1
2023
... 近年来,图像处理算法在光伏电致发光(electroluminescent,EL)[3 ] 图像领域取得了显著进展,能够用于缺陷检测[4 ] ,并成功地在高分辨率EL图像中检测出了本征缺陷(如晶体错配位错和分流)以及非本征缺陷[5 ] . 随后,深度学习[6 ] 网络的兴起极大地提升了缺陷分割的准确性和效率. 陈海永等[7 ] 提出了交叉门控融合模块,通过对有效信息的多重融合增强微小缺陷的特征表示. Rahman等[8 ] 提出基于U-Net的新型深度学习缺陷分割架构,引入全局注意力机制来获取更多的上下文信息,使平均交并比 (mean intersection over union, MIoU) 指标提升了2.0个百分点. 王盛等[9 ] 在U2 -NET外层编解码跳跃连接中添加语义嵌入分支结构,相较于U2 -NET在MIoU上提升了2.43个百分点. Balzategui等[10 ] 将用于分割任务的卷积神经网络(convolutional neural networks,CNN)架构替换为基于全卷积网络(fully convolutional networks,FCN)的U-Net网络,这一改进使检测精度提高了超过20.0个百分点. 张海波等[11 ] 在编码器中引入零填充卷积和联合重采样自注意力模块,并通过解码器融合不通过阶段特征,与传统的SETR相比在MIoU上提升了4.0个百分点. ...
基于Transformer的高效自适应语义分割网络
1
2023
... 近年来,图像处理算法在光伏电致发光(electroluminescent,EL)[3 ] 图像领域取得了显著进展,能够用于缺陷检测[4 ] ,并成功地在高分辨率EL图像中检测出了本征缺陷(如晶体错配位错和分流)以及非本征缺陷[5 ] . 随后,深度学习[6 ] 网络的兴起极大地提升了缺陷分割的准确性和效率. 陈海永等[7 ] 提出了交叉门控融合模块,通过对有效信息的多重融合增强微小缺陷的特征表示. Rahman等[8 ] 提出基于U-Net的新型深度学习缺陷分割架构,引入全局注意力机制来获取更多的上下文信息,使平均交并比 (mean intersection over union, MIoU) 指标提升了2.0个百分点. 王盛等[9 ] 在U2 -NET外层编解码跳跃连接中添加语义嵌入分支结构,相较于U2 -NET在MIoU上提升了2.43个百分点. Balzategui等[10 ] 将用于分割任务的卷积神经网络(convolutional neural networks,CNN)架构替换为基于全卷积网络(fully convolutional networks,FCN)的U-Net网络,这一改进使检测精度提高了超过20.0个百分点. 张海波等[11 ] 在编码器中引入零填充卷积和联合重采样自注意力模块,并通过解码器融合不通过阶段特征,与传统的SETR相比在MIoU上提升了4.0个百分点. ...
1
... 自从Vision Transformer(ViT)[12 ] 问世以来,Transformer模型[13 ] 在学术界引起了极大的关注,并在语义分割[14 ] 、图像分类[15 ] 、图像检测等计算机视觉任务中取得了显著成就. 在此基础上Swin Transformer[16 ] 引入了窗口化注意力(window-based attention)机制,使得每个Transformer块只关注局部窗口内的特征,从而能在保持紧凑的特征交互[17 ] 的同时,降低计算复杂度. SegFormer[18 ] 则通过引入特定的位置编码[19 ] 机制,将像素的位置信息融合到特征表示中. 然而,在Vision Transformer框架中,经典的Self-Attention[20 ] 允许模型在全局范围内捕获输入图像的上下文信息,这也导致在浅层处理分辨率较大的特征图时,会产生较大的计算复杂度,消耗大量计算资源. 尽管SegFormer使用缩减比例R 来重塑并缩减输入序列,但在处理较长序列时仍然面临计算复杂度的挑战,并且在网络初期的自注意力操作会导致对全局信息的过度关注,容易忽略局部信息. ...
1
... 自从Vision Transformer(ViT)[12 ] 问世以来,Transformer模型[13 ] 在学术界引起了极大的关注,并在语义分割[14 ] 、图像分类[15 ] 、图像检测等计算机视觉任务中取得了显著成就. 在此基础上Swin Transformer[16 ] 引入了窗口化注意力(window-based attention)机制,使得每个Transformer块只关注局部窗口内的特征,从而能在保持紧凑的特征交互[17 ] 的同时,降低计算复杂度. SegFormer[18 ] 则通过引入特定的位置编码[19 ] 机制,将像素的位置信息融合到特征表示中. 然而,在Vision Transformer框架中,经典的Self-Attention[20 ] 允许模型在全局范围内捕获输入图像的上下文信息,这也导致在浅层处理分辨率较大的特征图时,会产生较大的计算复杂度,消耗大量计算资源. 尽管SegFormer使用缩减比例R 来重塑并缩减输入序列,但在处理较长序列时仍然面临计算复杂度的挑战,并且在网络初期的自注意力操作会导致对全局信息的过度关注,容易忽略局部信息. ...
1
... 自从Vision Transformer(ViT)[12 ] 问世以来,Transformer模型[13 ] 在学术界引起了极大的关注,并在语义分割[14 ] 、图像分类[15 ] 、图像检测等计算机视觉任务中取得了显著成就. 在此基础上Swin Transformer[16 ] 引入了窗口化注意力(window-based attention)机制,使得每个Transformer块只关注局部窗口内的特征,从而能在保持紧凑的特征交互[17 ] 的同时,降低计算复杂度. SegFormer[18 ] 则通过引入特定的位置编码[19 ] 机制,将像素的位置信息融合到特征表示中. 然而,在Vision Transformer框架中,经典的Self-Attention[20 ] 允许模型在全局范围内捕获输入图像的上下文信息,这也导致在浅层处理分辨率较大的特征图时,会产生较大的计算复杂度,消耗大量计算资源. 尽管SegFormer使用缩减比例R 来重塑并缩减输入序列,但在处理较长序列时仍然面临计算复杂度的挑战,并且在网络初期的自注意力操作会导致对全局信息的过度关注,容易忽略局部信息. ...
1
... 自从Vision Transformer(ViT)[12 ] 问世以来,Transformer模型[13 ] 在学术界引起了极大的关注,并在语义分割[14 ] 、图像分类[15 ] 、图像检测等计算机视觉任务中取得了显著成就. 在此基础上Swin Transformer[16 ] 引入了窗口化注意力(window-based attention)机制,使得每个Transformer块只关注局部窗口内的特征,从而能在保持紧凑的特征交互[17 ] 的同时,降低计算复杂度. SegFormer[18 ] 则通过引入特定的位置编码[19 ] 机制,将像素的位置信息融合到特征表示中. 然而,在Vision Transformer框架中,经典的Self-Attention[20 ] 允许模型在全局范围内捕获输入图像的上下文信息,这也导致在浅层处理分辨率较大的特征图时,会产生较大的计算复杂度,消耗大量计算资源. 尽管SegFormer使用缩减比例R 来重塑并缩减输入序列,但在处理较长序列时仍然面临计算复杂度的挑战,并且在网络初期的自注意力操作会导致对全局信息的过度关注,容易忽略局部信息. ...
1
... 自从Vision Transformer(ViT)[12 ] 问世以来,Transformer模型[13 ] 在学术界引起了极大的关注,并在语义分割[14 ] 、图像分类[15 ] 、图像检测等计算机视觉任务中取得了显著成就. 在此基础上Swin Transformer[16 ] 引入了窗口化注意力(window-based attention)机制,使得每个Transformer块只关注局部窗口内的特征,从而能在保持紧凑的特征交互[17 ] 的同时,降低计算复杂度. SegFormer[18 ] 则通过引入特定的位置编码[19 ] 机制,将像素的位置信息融合到特征表示中. 然而,在Vision Transformer框架中,经典的Self-Attention[20 ] 允许模型在全局范围内捕获输入图像的上下文信息,这也导致在浅层处理分辨率较大的特征图时,会产生较大的计算复杂度,消耗大量计算资源. 尽管SegFormer使用缩减比例R 来重塑并缩减输入序列,但在处理较长序列时仍然面临计算复杂度的挑战,并且在网络初期的自注意力操作会导致对全局信息的过度关注,容易忽略局部信息. ...
A middle-level learning feature interaction method with deep learning for multi-feature music genre classification
2
2021
... 自从Vision Transformer(ViT)[12 ] 问世以来,Transformer模型[13 ] 在学术界引起了极大的关注,并在语义分割[14 ] 、图像分类[15 ] 、图像检测等计算机视觉任务中取得了显著成就. 在此基础上Swin Transformer[16 ] 引入了窗口化注意力(window-based attention)机制,使得每个Transformer块只关注局部窗口内的特征,从而能在保持紧凑的特征交互[17 ] 的同时,降低计算复杂度. SegFormer[18 ] 则通过引入特定的位置编码[19 ] 机制,将像素的位置信息融合到特征表示中. 然而,在Vision Transformer框架中,经典的Self-Attention[20 ] 允许模型在全局范围内捕获输入图像的上下文信息,这也导致在浅层处理分辨率较大的特征图时,会产生较大的计算复杂度,消耗大量计算资源. 尽管SegFormer使用缩减比例R 来重塑并缩减输入序列,但在处理较长序列时仍然面临计算复杂度的挑战,并且在网络初期的自注意力操作会导致对全局信息的过度关注,容易忽略局部信息. ...
... 编码器包含4个阶段,每个阶段的下采样率依次为4、8、16、32. 考虑网络浅层输入分辨率大、感受野小、注重局部特征和短距离依赖性的特点,使用MSM模块取代网络早期的Self-Attention,在减少参数量的同时用卷积固定的感受野和权重共享的方式有效捕捉局部特征、保留空间结构. 同时,网络深层的大感受野和长距离依赖性则使用经典的多头自注意力(multi-head self attention,MSA)进行缺陷特征提取. 值得注意的是,根据SMT[17 ] 中提出的方法,在浅层到深层转换的过程中使用MSM与MSA混合模块作为中间过渡层,实现从浅层短距离依赖性到深层长距离依赖性的转变. 具体过程如图2 所示. ...
SegFormer: simple and efficient design for semantic segmentation with transformers
1
2021
... 自从Vision Transformer(ViT)[12 ] 问世以来,Transformer模型[13 ] 在学术界引起了极大的关注,并在语义分割[14 ] 、图像分类[15 ] 、图像检测等计算机视觉任务中取得了显著成就. 在此基础上Swin Transformer[16 ] 引入了窗口化注意力(window-based attention)机制,使得每个Transformer块只关注局部窗口内的特征,从而能在保持紧凑的特征交互[17 ] 的同时,降低计算复杂度. SegFormer[18 ] 则通过引入特定的位置编码[19 ] 机制,将像素的位置信息融合到特征表示中. 然而,在Vision Transformer框架中,经典的Self-Attention[20 ] 允许模型在全局范围内捕获输入图像的上下文信息,这也导致在浅层处理分辨率较大的特征图时,会产生较大的计算复杂度,消耗大量计算资源. 尽管SegFormer使用缩减比例R 来重塑并缩减输入序列,但在处理较长序列时仍然面临计算复杂度的挑战,并且在网络初期的自注意力操作会导致对全局信息的过度关注,容易忽略局部信息. ...
1
... 自从Vision Transformer(ViT)[12 ] 问世以来,Transformer模型[13 ] 在学术界引起了极大的关注,并在语义分割[14 ] 、图像分类[15 ] 、图像检测等计算机视觉任务中取得了显著成就. 在此基础上Swin Transformer[16 ] 引入了窗口化注意力(window-based attention)机制,使得每个Transformer块只关注局部窗口内的特征,从而能在保持紧凑的特征交互[17 ] 的同时,降低计算复杂度. SegFormer[18 ] 则通过引入特定的位置编码[19 ] 机制,将像素的位置信息融合到特征表示中. 然而,在Vision Transformer框架中,经典的Self-Attention[20 ] 允许模型在全局范围内捕获输入图像的上下文信息,这也导致在浅层处理分辨率较大的特征图时,会产生较大的计算复杂度,消耗大量计算资源. 尽管SegFormer使用缩减比例R 来重塑并缩减输入序列,但在处理较长序列时仍然面临计算复杂度的挑战,并且在网络初期的自注意力操作会导致对全局信息的过度关注,容易忽略局部信息. ...
A general survey on attention mechanisms in deep learning
1
2021
... 自从Vision Transformer(ViT)[12 ] 问世以来,Transformer模型[13 ] 在学术界引起了极大的关注,并在语义分割[14 ] 、图像分类[15 ] 、图像检测等计算机视觉任务中取得了显著成就. 在此基础上Swin Transformer[16 ] 引入了窗口化注意力(window-based attention)机制,使得每个Transformer块只关注局部窗口内的特征,从而能在保持紧凑的特征交互[17 ] 的同时,降低计算复杂度. SegFormer[18 ] 则通过引入特定的位置编码[19 ] 机制,将像素的位置信息融合到特征表示中. 然而,在Vision Transformer框架中,经典的Self-Attention[20 ] 允许模型在全局范围内捕获输入图像的上下文信息,这也导致在浅层处理分辨率较大的特征图时,会产生较大的计算复杂度,消耗大量计算资源. 尽管SegFormer使用缩减比例R 来重塑并缩减输入序列,但在处理较长序列时仍然面临计算复杂度的挑战,并且在网络初期的自注意力操作会导致对全局信息的过度关注,容易忽略局部信息. ...
1
... 针对以上问题,本研究提出EL-SegFormer模型. 以SegFormer为基础在编码器中引入新的调制方法[21 ] ,用卷积替代网络初期的Transformer块. 该方法由2个步骤组成:卷积和聚合. 采用多头混合卷积(multi-head mixed convolution,MHMC)使网络在早期更关注局部特征以捕捉缺陷细节,并减少计算量;采用轻量级的尺度感知聚合(scale-aware aggregation,SAA),增强MHMC不同头部信息交互. 以轻量级的多层感知机(multilayer perceptron,MLP)作为解码器,融合网络中偏向于保持局部信息的浅层特征,以及更加全局的深层特征,从而获得更加准确的缺陷分割结果. ...
1
... 所提出的EL-SegFormer总体框架及中间层如图1 所示,其结构主要由2个关键部分组成:1)分级Transformer编码器,该编码器在网络浅层改进了一种新的多尺度调制模块(multiscale modulation,MSM),包括多头混合卷积MHMC和尺度感知聚合SAA这2个主要部分,用于增强卷积神经网络的特征提取能力以及聚合卷积特征;2)轻量级的MLP解码器,用于整合这些多级特征,从而产生最终的语义分割掩码[22 ] . ...
Automatic classification of defective photovoltaic module cells in electroluminescence images
1
2019
... 采用由Buerhop-Lutz团队公开提供的数据集[23 ] ,该数据集包含了共1511 张8位灰度图像样本,每张图像的分辨率为300$ \times $ 300 像素,这些图像涵盖了单晶硅和多晶硅太阳能电池,且均包含不同类型的缺陷. 实验选择了所有包含缺陷的图像样本作为研究的对象. 为了进行训练和测试,将这些缺陷图像按照8∶2的比例分为训练集和测试集,并将数据集中的缺陷分为4个种类,分别为硅缺失、裂缝、角缺失和断栅,并以标签“Fragment”“Crack”“Corner"和“Finger”来表示这些不同的缺陷类型,如图7 所示. ...
Twins: revisiting the design of spatial attention in vision transformers
1
2021
... 为了对EL-SegFormer的性能进行评估,将其分割性能指标与其他主流SOTA vision Transformer(如Swin、Twins)[24 -27 ] 的分割结果进行对比. 如图8 所示,改进后的EL-SegFormer在结果指标、计算量方面有大幅度提升,并且明显优于其他SOTA vision Transformer. ...
1
... 为了对EL-SegFormer的性能进行评估,将其分割性能指标与其他主流SOTA vision Transformer(如Swin、Twins)[24 -27 ] 的分割结果进行对比. 如图8 所示,改进后的EL-SegFormer在结果指标、计算量方面有大幅度提升,并且明显优于其他SOTA vision Transformer. ...
1
... Comparison of segmentation MIoU under different models and defects
Tab.5 模型 MIoU/% Fragment Crack Corner Finger FCN[28 ] 53.10 51.30 49.50 12.30 U-Net[29 ] 60.20 55.30 33.06 46.10 DeepLabv3[30 ] 62.10 62.00 42.34 52.17 PSPNet[31 ] 61.40 49.13 62.00 39.00 Convnext 63.75 62.31 50.40 55.26 Mask2former 62.33 62.97 31.90 54.08 Swin 61.13 62.66 43.03 54.32 Twins 59.30 61.02 44.27 51.79 Segmenter 69.16 56.25 44.64 37.58 SegFormer 68.42 58.27 45.06 51.00 EL-SegFormer(本研究) 69.00 61.26 56.19 54.38
如表6 所示展示了EL-SegFormer在不同模型大小的情况下与其他模型的对比结果. 相对于改进前,EL-SegFormer在小尺寸情况下不仅拥有近似的参数量和计算量,而且MIoU提升了3.49个百分点. 在基本模型方面,EL-SegFormer优化了8 M的参数量和1.9 G的计算量,且MIoU提升了3.30个百分点. 在大模型方面,EL-SegFormer-L仅以68.2 M参数量和102.6 M计算量就达到了67.60%的MIoU,相较于改进前降低了19.80%的参数量和8.0%的计算量,并提高了4.20个百分点的MIoU. 与大模型Mask2former-L和Convnext-B相比,EL-SegFormer-L分别以参数量降低55.4%和44.9%,以及计算量降低81%和65.7%的成果,取得了更好的分割MIoU. ...
1
... Comparison of segmentation MIoU under different models and defects
Tab.5 模型 MIoU/% Fragment Crack Corner Finger FCN[28 ] 53.10 51.30 49.50 12.30 U-Net[29 ] 60.20 55.30 33.06 46.10 DeepLabv3[30 ] 62.10 62.00 42.34 52.17 PSPNet[31 ] 61.40 49.13 62.00 39.00 Convnext 63.75 62.31 50.40 55.26 Mask2former 62.33 62.97 31.90 54.08 Swin 61.13 62.66 43.03 54.32 Twins 59.30 61.02 44.27 51.79 Segmenter 69.16 56.25 44.64 37.58 SegFormer 68.42 58.27 45.06 51.00 EL-SegFormer(本研究) 69.00 61.26 56.19 54.38
如表6 所示展示了EL-SegFormer在不同模型大小的情况下与其他模型的对比结果. 相对于改进前,EL-SegFormer在小尺寸情况下不仅拥有近似的参数量和计算量,而且MIoU提升了3.49个百分点. 在基本模型方面,EL-SegFormer优化了8 M的参数量和1.9 G的计算量,且MIoU提升了3.30个百分点. 在大模型方面,EL-SegFormer-L仅以68.2 M参数量和102.6 M计算量就达到了67.60%的MIoU,相较于改进前降低了19.80%的参数量和8.0%的计算量,并提高了4.20个百分点的MIoU. 与大模型Mask2former-L和Convnext-B相比,EL-SegFormer-L分别以参数量降低55.4%和44.9%,以及计算量降低81%和65.7%的成果,取得了更好的分割MIoU. ...
1
... Comparison of segmentation MIoU under different models and defects
Tab.5 模型 MIoU/% Fragment Crack Corner Finger FCN[28 ] 53.10 51.30 49.50 12.30 U-Net[29 ] 60.20 55.30 33.06 46.10 DeepLabv3[30 ] 62.10 62.00 42.34 52.17 PSPNet[31 ] 61.40 49.13 62.00 39.00 Convnext 63.75 62.31 50.40 55.26 Mask2former 62.33 62.97 31.90 54.08 Swin 61.13 62.66 43.03 54.32 Twins 59.30 61.02 44.27 51.79 Segmenter 69.16 56.25 44.64 37.58 SegFormer 68.42 58.27 45.06 51.00 EL-SegFormer(本研究) 69.00 61.26 56.19 54.38
如表6 所示展示了EL-SegFormer在不同模型大小的情况下与其他模型的对比结果. 相对于改进前,EL-SegFormer在小尺寸情况下不仅拥有近似的参数量和计算量,而且MIoU提升了3.49个百分点. 在基本模型方面,EL-SegFormer优化了8 M的参数量和1.9 G的计算量,且MIoU提升了3.30个百分点. 在大模型方面,EL-SegFormer-L仅以68.2 M参数量和102.6 M计算量就达到了67.60%的MIoU,相较于改进前降低了19.80%的参数量和8.0%的计算量,并提高了4.20个百分点的MIoU. 与大模型Mask2former-L和Convnext-B相比,EL-SegFormer-L分别以参数量降低55.4%和44.9%,以及计算量降低81%和65.7%的成果,取得了更好的分割MIoU. ...
1
... Comparison of segmentation MIoU under different models and defects
Tab.5 模型 MIoU/% Fragment Crack Corner Finger FCN[28 ] 53.10 51.30 49.50 12.30 U-Net[29 ] 60.20 55.30 33.06 46.10 DeepLabv3[30 ] 62.10 62.00 42.34 52.17 PSPNet[31 ] 61.40 49.13 62.00 39.00 Convnext 63.75 62.31 50.40 55.26 Mask2former 62.33 62.97 31.90 54.08 Swin 61.13 62.66 43.03 54.32 Twins 59.30 61.02 44.27 51.79 Segmenter 69.16 56.25 44.64 37.58 SegFormer 68.42 58.27 45.06 51.00 EL-SegFormer(本研究) 69.00 61.26 56.19 54.38
如表6 所示展示了EL-SegFormer在不同模型大小的情况下与其他模型的对比结果. 相对于改进前,EL-SegFormer在小尺寸情况下不仅拥有近似的参数量和计算量,而且MIoU提升了3.49个百分点. 在基本模型方面,EL-SegFormer优化了8 M的参数量和1.9 G的计算量,且MIoU提升了3.30个百分点. 在大模型方面,EL-SegFormer-L仅以68.2 M参数量和102.6 M计算量就达到了67.60%的MIoU,相较于改进前降低了19.80%的参数量和8.0%的计算量,并提高了4.20个百分点的MIoU. 与大模型Mask2former-L和Convnext-B相比,EL-SegFormer-L分别以参数量降低55.4%和44.9%,以及计算量降低81%和65.7%的成果,取得了更好的分割MIoU. ...