浙江大学学报(工学版), 2024, 58(12): 2459-2468 doi: 10.3785/j.issn.1008-973X.2024.12.005

计算机技术

基于改进SegFormer的太阳能电池缺陷分割模型

罗伟,, 颜作涛, 关佳浩, 韩建

1. 东北石油大学 物理与电子工程学院,黑龙江 大庆 163318

2. 黑龙江省高校校企共建测试计量技术及仪器仪表工程研发中心,黑龙江 大庆 163318

3. 东北石油大学三亚海洋油气研究院,海南 三亚 572024

Solar cell defect segmentation model based on improved SegFormer

LUO Wei,, YAN Zuotao, GUAN Jiahao, HAN Jian

1. School of Physics and Electronic Engineering, Northeast Petroleum University, Daqing 163318, China

2. Heilongjiang Province University and Enterprise Joint Construction of Testing and Measurement Technology and Instrument Engineering R&D Center, Daqing 163318, China

3. Sanya Marine Oil and Gas Research Institute of Northeast Petroleum University, Sanya 572024, China

收稿日期: 2023-11-7  

基金资助: 海南省重点研发计划资助项目(ZDYF2022GXJS220).

Received: 2023-11-7  

Fund supported: 海南省重点研发计划资助项目(ZDYF2022GXJS220).

作者简介 About authors

罗伟(1977—),男,副教授,从事太阳能电池及人工智能神经网络研究.orcid.org/0000-0001-7713-3408.E-mail:lwsy711@163.com , E-mail:lwsy711@163.com

摘要

针对太阳能电池制造过程中影响寿命和效率的缺陷问题,提出基于改进SegFormer的多尺度缺陷分割模型EL-SegFormer. 该模型专注于太阳能电池缺陷分割任务,为生产提供可靠的检测手段. 在网络浅层引入轻量级调制模块,利用多头混合卷积提取不同尺度缺陷的特征信息,以固定尺度卷积和感受野,有效捕获网络早期局部信息. 通过聚合方式融合头部提取的特征信息,以更准确地定位太阳能电池的各种缺陷. 以分级编码器形式融合浅层到深层的多尺度上下文信息输入解码器. 解码器采用轻量级多层感知机,整合不同层级的特征信息生成分割掩码. 加载遍历模型,利用缺陷图像分割掩码和标签掩码计算平均交并比 (MIoU). 实验结果表明,EL-SegFormer模型参数仅为68.2 M,在Buerhop2018数据集上的MIoU达到67.60%,高于近年最先进模型的MIoU. 所提出的模型在复杂太阳能电池缺陷分割任务上表现较好,展现出强大的应用前景.

关键词: 太阳能电池 ; 缺陷分割 ; Transformer ; 多头混合卷积 ; 聚合 ; 轻量级多层感知机

Abstract

A multi-scale defect segmentation model, EL-SegFormer, was proposed based on an improved SegFormer architecture, aiming at the defects affecting the lifetime and efficiency in solar cell manufacturing. The model was specifically designed to segment defects in solar cells, providing a reliable detection tool for manufacturers. A lightweight modulation module was incorporated in the shallow layers of the network, and multi-head hybrid convolutions were used to capture defect features across various scales. Fixed-scale convolutions and receptive fields were employed to effectively capture early local information in the network. Diverse defects in solar cells can be accurately located by aggregating the extracted features. A hierarchical encoder structure was employed to integrate multi-scale contextual information from shallow to deep layers into the decoder. The decoder utilized a lightweight multi-layer perceptron to consolidate feature information from different levels and generate segmentation masks. The model was loaded and traversed to compute the mean intersection over union (MIoU) using the defect image segmentation masks and label masks. Experimental results indicated that EL-SegFormer, with only 68.2 M parameters, achieved the MIoU of 67.60% on the Buerhop2018 dataset, surpassing recent state-of-the-art models. This outstanding performance indicates the model’s strong potential for addressing complex solar cell defect segmentation tasks, opening up promising avenues for its application in the solar cell manufacturing industry.

Keywords: solar cell ; defect segmentation ; Transformer ; multi-head mixed convolution ; aggregation ; lightweight multilayer perceptron

PDF (7096KB) 元数据 多维度评价 相关文章 导出 EndNote| Ris| Bibtex  收藏本文

本文引用格式

罗伟, 颜作涛, 关佳浩, 韩建. 基于改进SegFormer的太阳能电池缺陷分割模型. 浙江大学学报(工学版)[J], 2024, 58(12): 2459-2468 doi:10.3785/j.issn.1008-973X.2024.12.005

LUO Wei, YAN Zuotao, GUAN Jiahao, HAN Jian. Solar cell defect segmentation model based on improved SegFormer. Journal of Zhejiang University(Engineering Science)[J], 2024, 58(12): 2459-2468 doi:10.3785/j.issn.1008-973X.2024.12.005

太阳能作为唯一能够达到TW级的可再生能源[1],是目前新能源领域重要的研究内容之一. 如今市场上主流的晶体硅太阳能电池在生产过程中常常会由于表面缺陷问题而导致性能和效率降低. 因此,对太阳能电池片进行出厂前缺陷检测是保证产品质量的一个重要步骤. 当前,主要的检测技术以缺陷识别为主,而缺乏通过分割对缺陷特征[2],如面积、裂缝方向和长度等进行详尽分析. 这种分析对于理解不同缺陷背后的成因或相同缺陷的差异表现至关重要,它能够为工艺优化和技术升级提供有力的数据支持. 因此,研发高效且精确的缺陷语义分割技术,对于晶体硅太阳能电池制造业来说尤为重要.

近年来,图像处理算法在光伏电致发光(electroluminescent,EL)[3]图像领域取得了显著进展,能够用于缺陷检测[4],并成功地在高分辨率EL图像中检测出了本征缺陷(如晶体错配位错和分流)以及非本征缺陷[5]. 随后,深度学习[6]网络的兴起极大地提升了缺陷分割的准确性和效率. 陈海永等[7]提出了交叉门控融合模块,通过对有效信息的多重融合增强微小缺陷的特征表示. Rahman等[8]提出基于U-Net的新型深度学习缺陷分割架构,引入全局注意力机制来获取更多的上下文信息,使平均交并比 (mean intersection over union, MIoU) 指标提升了2.0个百分点. 王盛等[9]在U2-NET外层编解码跳跃连接中添加语义嵌入分支结构,相较于U2-NET在MIoU上提升了2.43个百分点. Balzategui等[10]将用于分割任务的卷积神经网络(convolutional neural networks,CNN)架构替换为基于全卷积网络(fully convolutional networks,FCN)的U-Net网络,这一改进使检测精度提高了超过20.0个百分点. 张海波等[11]在编码器中引入零填充卷积和联合重采样自注意力模块,并通过解码器融合不通过阶段特征,与传统的SETR相比在MIoU上提升了4.0个百分点.

自从Vision Transformer(ViT)[12]问世以来,Transformer模型[13]在学术界引起了极大的关注,并在语义分割[14]、图像分类[15]、图像检测等计算机视觉任务中取得了显著成就. 在此基础上Swin Transformer[16]引入了窗口化注意力(window-based attention)机制,使得每个Transformer块只关注局部窗口内的特征,从而能在保持紧凑的特征交互[17]的同时,降低计算复杂度. SegFormer[18]则通过引入特定的位置编码[19]机制,将像素的位置信息融合到特征表示中. 然而,在Vision Transformer框架中,经典的Self-Attention[20]允许模型在全局范围内捕获输入图像的上下文信息,这也导致在浅层处理分辨率较大的特征图时,会产生较大的计算复杂度,消耗大量计算资源. 尽管SegFormer使用缩减比例R来重塑并缩减输入序列,但在处理较长序列时仍然面临计算复杂度的挑战,并且在网络初期的自注意力操作会导致对全局信息的过度关注,容易忽略局部信息.

针对以上问题,本研究提出EL-SegFormer模型. 以SegFormer为基础在编码器中引入新的调制方法[21],用卷积替代网络初期的Transformer块. 该方法由2个步骤组成:卷积和聚合. 采用多头混合卷积(multi-head mixed convolution,MHMC)使网络在早期更关注局部特征以捕捉缺陷细节,并减少计算量;采用轻量级的尺度感知聚合(scale-aware aggregation,SAA),增强MHMC不同头部信息交互. 以轻量级的多层感知机(multilayer perceptron,MLP)作为解码器,融合网络中偏向于保持局部信息的浅层特征,以及更加全局的深层特征,从而获得更加准确的缺陷分割结果.

1. EL-SegFormer模型

1.1. 总体框架

所提出的EL-SegFormer总体框架及中间层如图1所示,其结构主要由2个关键部分组成:1)分级Transformer编码器,该编码器在网络浅层改进了一种新的多尺度调制模块(multiscale modulation,MSM),包括多头混合卷积MHMC和尺度感知聚合SAA这2个主要部分,用于增强卷积神经网络的特征提取能力以及聚合卷积特征;2)轻量级的MLP解码器,用于整合这些多级特征,从而产生最终的语义分割掩码[22].

图 1

图 1   EL-SegFormer总体框架及中间层

Fig.1   Overall framework and intermediate layers of EL-SegFormer


1.2. 分级 Transformer 编码器

编码器须从输入的太阳能电池图像中提取缺陷特征. 为了使网络输出有更丰富的上下文信息和更大的感受野,选择SegFormer编码器分级的方式,将每个层级捕获的不同尺度的缺陷特征进行多尺度融合,并作为输出为解码器提供更有意义的特征表示.

编码器包含4个阶段,每个阶段的下采样率依次为4、8、16、32. 考虑网络浅层输入分辨率大、感受野小、注重局部特征和短距离依赖性的特点,使用MSM模块取代网络早期的Self-Attention,在减少参数量的同时用卷积固定的感受野和权重共享的方式有效捕捉局部特征、保留空间结构. 同时,网络深层的大感受野和长距离依赖性则使用经典的多头自注意力(multi-head self attention,MSA)进行缺陷特征提取. 值得注意的是,根据SMT[17]中提出的方法,在浅层到深层转换的过程中使用MSM与MSA混合模块作为中间过渡层,实现从浅层短距离依赖性到深层长距离依赖性的转变. 具体过程如图2所示.

图 2

图 2   EL-SegFormer编码器

Fig.2   EL-SegFormer encoder


1.2.1. MSM模块

使用Overlap Patch Embedding将输入的H$ \times $W$ \times $C太阳能电池图像分割成相邻存在重叠的4$ \times $4补丁嵌入,从而捕捉更丰富的上下文信息. 随后这些补丁被输入网络中进行调整和特征提取.

1)多头混合卷积MHMC.

首先,MHMC对不同头部的输入进行深度可分离卷积实现多尺度特征的提取,以捕获不同范围的上下文信息与多个尺度上的各种空间特征. 随后MHMC将不同头部输出的张量在相同维度上进行拼接作为下一阶段的输入,如图3所示. 在实际运用的过程中,先将首个头部初始化为3$ \times $3的卷积核,得到该尺度的特征图后,再将卷积核大小增加2,以此类推. 这样的设计有助于简化调试过程,每次调试时只须调整卷积头的数量,而无须对每个尺度的卷积核进行逐一调整. MHMC表述如下:

图 3

图 3   MHMC模块

Fig.3   MHMC module


$ {{\mathrm{MHMC}}\left(\boldsymbol{X}\right)={\mathrm{Concat}}\left({\mathrm{DW}}_{{n}_{1}\times {n}_{1}}\left({x}_{1}\right), \cdots ,{\mathrm{DW}}_{{n}_{k}\times {n}_{k}}\left({x}_{k}\right)\right).} $

式中:X为输入到MHMC层的向量;Concat为网络张量的连接操作;DW为对输入进行深度可分离卷积;$ {\boldsymbol{x}} $为输入卷积层的特征,$ {\boldsymbol{x}} = [{x_1},{x_2}, \cdots ,{x_k}] $ni表示每个卷积核的大小,$ {n_i} \in \{ 3,5, \cdots ,N\} $.

经过这一步,每个不同的卷积特征图都以自适应的方式关注不同粒度的特征. 而随着网络的逐层深入,多头混合卷积仍能保持呈现缺陷的整体形状与细节相关的信息.

2)尺度感知聚合SAA.

MHMC将不同头部的特征进行融合,为了加强多头之间的信息交流,在特征提取之后引入一种新的轻量级聚合方法,即SAA,其结构如图4所示.

图 4

图 4   SAA模块

Fig.4   SAA module


在MHMC完成特征提取后,SAA对不同头提取的特征进行混合和分组,从每个头部中选择一个通道来构建一个组,并利用反向瓶颈结构在每个头部中执行上下特征融合操作,以增强多尺度特征的多样性. 鉴于多个卷积核和注意力机制可能增加计算复杂性,为了获得理想的聚合效果,须合理选择头数以设置相应的分组策略. 在聚合过程中,将输入设置为$ \boldsymbol{X}\in {\mathbf{R}}^{H\times W\times C} $,然后设置分组数为通道数和头数量之比,这样分组的数量与MHMC的头数成反比. 接着,使用逐点卷积对所有特征进行跨组信息聚合,从而实现全局信息的交叉融合. SAA过程表述如下:

$ \left.\begin{split} \boldsymbol{M} & =W_{\text {inter}}\left(\left[\boldsymbol{G}_1, \boldsymbol{G}_2, \cdots, \boldsymbol{G}_M\right]\right), \\\boldsymbol{G}_i & =W_{\text {intra}}\left(\left[\boldsymbol{H}_1^i, \boldsymbol{H}_2^i, \cdots, \boldsymbol{H}_N^i\right]\right), \\\boldsymbol{H}_j^i & =\operatorname{DWConv}_{k_j \times k_j}\left(\boldsymbol{x}_j^i\right) \in \mathbf{R}^{H \times W \times 1} .\end{split}\right\} $

式中:WinterWintra为逐点卷积函数或者聚合函数,实现特征的跨组和组内聚合的过程;$ j \in {\text{\{ 1,2,}} \cdots {\text{,}}N{\text{\} }} $,$ i \in \{ 1,2, \cdots ,M\} $NM分别表示头和群的数量,M=C/NGi表示第i组输入特征;Hj表示深度卷积的第j个头,$ {\boldsymbol{H}}_{j}\in {\mathbf{R}}^{H\times W\times M} $kj表示第 j头中使用的深度可分离卷积核的大小;${\boldsymbol{x}}_j^i $表示输入特征图x中的第 i个通道的第 j个头,${\boldsymbol{H}}_j^i $为通过在${\boldsymbol{x}}_j^i $上应用kj×kj大小的深度可分离卷积核得到的特征;DWConv为网络中的深度可分离卷积操作.

在这一步中SAA明确地增强了与语义相关的低频信号,并专注于目标对象的最关键部分. 如图5所示,在太阳能电池缺陷图像中,诸如断栅、硅缺失和裂缝等缺陷被清晰地突出显示为目标对象的主要特征,从而显著提高了分割性能.

图 5

图 5   使用SAA前后的特征图

Fig.5   Feature maps before and after using SAA


1.2.2. Mix-FFN

在网络训练完成后,每个位置对应的位置编码(position encoding,PE)都已固定. 为了避免使用插值方法来匹配训练和测试中的位置编码,采用无位置编码的Mix-FFN,并使用深度卷积来减少参数数量. 其表达式如下:

$ \boldsymbol{x}_{\rm{o u t}}= \operatorname{MLP}\;\left(\operatorname{GELU}\;\left(\operatorname{Conv}_{3 \times 3}\;\left({\mathrm{M L P}}\;\left(\boldsymbol{x}_{\rm{i n}}\right)\right)\right)\right)+\boldsymbol{x}_{\rm{i n}}. $

式中:$ {\boldsymbol{x}}_{\rm{in}} $为输入的特征,$ {\boldsymbol{x}}_{\rm{out}} $为输出的特征,MLP为网络解码器,GELU为网络的激活函数,Conv3×3为对特征进行卷积操作. 经过线性变换MLP进行线性组合后,由于Mix-FFN将3$ \times $3卷积和MLP结合到每个FFN中,输入特征通过卷积操作引入局部感知域内的非线性特征映射学习不同位置的局部信息,并且这种方式足以为浅层的MSM及深层的Transformer提供位置信息.

1.2.3. Overlapped Patch Merging

该部分目的是在不同分辨率的特征图之间建立联系,从而保持这些补丁周围的局部连续性,防止分辨率较低的特征图丢失细节和局部信息.

具体而言,通过控制Kernel_size、Padding和Stride等参数进行改进,其表达式如下:

$ {\boldsymbol{x}_{\mathrm{out}}=\operatorname{Concat}\left(\boldsymbol{x}_{\mathrm{in}, 1}^{(K, P, S)}, \boldsymbol{x}_{\mathrm{in}, 2}^{(K, P, S)}, \cdots, \boldsymbol{x}_{\mathrm{in}, i}^{(K, P, S)} \cdots, \boldsymbol{x}_{\mathrm{in}, n}^{(K, P, S)}\right).}$

式中:${\boldsymbol{x}}_{{\mathrm{out}}} $为输出特征,${\boldsymbol{x}}_{{\mathrm{in}},i}^{(K,P,S)} $表示从输入特征${\boldsymbol{x}}_{\mathrm{in}} $中提取的第i个重叠补丁,该补丁的大小为K,填充大小为P,且相邻补丁之间的步长为S. 在实验中,为了兼顾感受野和计算量平衡且执行重叠补丁合并,设置K=7,S=4,P=3以及K=3,S=2,P=1,产生与非重叠过程相同大小的特征. 在这一过程中,首先缩小特征图为$ \dfrac{H}{4} \times \dfrac{W}{4} \times {C_1} $$ \dfrac{H}{{\text{2}}} \times \dfrac{W}{{\text{2}}} \times {C_{\text{2}}} $,然后进行后续的融合操作.

1.3. 轻量级MLP解码器

编码器从输入图像中提取包括不同尺度和语义层次信息的多级特征表示后,需要解码器将这些多级特征图整合和处理,最终生成语义分割掩码. EL-SegFormer解码器仅由MLP层组成,避免了其他方法中常见的手工制作和高计算要求的组件. 实现这种简单解码器的关键在于多级Transformer编码器相较于经典CNN编码器拥有更大的有效感受野(effective reception field,ERF). 具体来说,从编码器中获取了4个不同分辨率的特征图,然后通过线性变换和上采样将它们融合在一起,最后在通道维度上进行线性变换和Softmax操作,如图6所示. 其表达式如下:

图 6

图 6   EL-SegFormer解码器

Fig.6   EL-SegFormer decoder


$ \begin{split} & \hat{\boldsymbol{F}}_i=\operatorname{Linear}\left(\boldsymbol{x}_n, \boldsymbol{x}_c\right)\left(\boldsymbol{F}_i\right), \\& \hat{\boldsymbol{F}}_i=\operatorname{Upsample}\left(\frac{W}{4} \times \frac{W}{4}\right)\left(\hat{\boldsymbol{F}}_i\right), \\& \boldsymbol{F}=\operatorname{Linear}\left(\boldsymbol{x}_{4 c}, \boldsymbol{x}_c\right)\left(\operatorname{Concat}\left(\hat{\boldsymbol{F}}_i\right)\right), \\& \boldsymbol{M}=\operatorname{Linear}\left(\boldsymbol{x}_c, \boldsymbol{x}_{{\mathrm{c l s}}}\right)(\boldsymbol{F}) .\end{split} $

式中:M表示预测掩码;${{\mathrm{Linear}}}\left(\boldsymbol{x}_{\text {in }}, \boldsymbol{x}_{\text {out }}\right) $表示分别以xinxout作为输入和输出向量维度的线性变换;n为来自不同编码器层的输入特征通道数,c为统一后的通道数,cls为背景和缺陷的总数量;Fi为来自多级编码器的特征.首先, $ {\boldsymbol{F}}_{i} $通过MLP层统一维度. 然后,把特征上采样到1/4并连接在一起,再采用MLP层来融合级联为特征F. 最后,另一个MLP层采用融合的特征来预测具有$ \dfrac{W}{{\text{4}}} \times \dfrac{W}{{\text{4}}} \times {N_{{\text{cls}}}} $分辨率的分割掩模M.

2. 实验与结果

2.1. 数据集

采用由Buerhop-Lutz团队公开提供的数据集[23],该数据集包含了共1511张8位灰度图像样本,每张图像的分辨率为300$ \times $300像素,这些图像涵盖了单晶硅和多晶硅太阳能电池,且均包含不同类型的缺陷. 实验选择了所有包含缺陷的图像样本作为研究的对象. 为了进行训练和测试,将这些缺陷图像按照8∶2的比例分为训练集和测试集,并将数据集中的缺陷分为4个种类,分别为硅缺失、裂缝、角缺失和断栅,并以标签“Fragment”“Crack”“Corner"和“Finger”来表示这些不同的缺陷类型,如图7所示.

图 7

图 7   太阳能电池电致发光图像缺陷

Fig.7   Electroluminescence image defects of solar cells


2.2. 实验环境及相关参数设置

在Linux操作系统下,使用Python 3.8和PyTorch 1.10框架进行训练. 训练的硬件条件包括14个虚拟核心的Intel(R) Xeon(R) Gold 6330 CPU @ 2.00 GHz,以及一块RTX 3090显卡(24 GB显存). 在训练过程中,使用letterbox_image方法将输入图片预处理为512$ \times $512分辨率,采用混合精度训练,学习率衰减方式为cos衰减,初始学习率为1$ \times $10−4,应用Adam优化器来对模型进行训练,训练的最大迭代次数设置为500,每个批次的大小为16.

2.3. 消融实验

2.3.1. MHMC头数量的影响

为了验证MHMC模块中不同数量的头对模型性能的影响并且选择最佳的数量,对不同情况进行测试,结果如表1所示. 表中,FLOPs为浮点运算次数,用来估算模型的计算复杂度和资源消耗,FLOPs越高,说明它需要更多的计算资源(如CPU或GPU周期)来执行前向传播;Params为模型中的参数总数;T为吞吐量,表示模型每秒处理的图像张数. 可以看出,在头数为4时MIoU达到峰值67.60%. 由此可见,尽管增加头的数量能够使模块获得更大的感受野和更丰富的上下文信息,但是这也意味着需要更多的卷积操作从而增加模型的参数量和复杂度;过少的头数尽管有更大的吞吐量和更低的复杂度,但感受野的不足会导致网络的性能降低.

表 1   MHMC中不同头数量对网络的影响

Tab.1  Effect of different number of heads in MHMC on network

nMIoU/%FLOPs/GParams/MT/(张·s−1)
166.50102.368.2621.0
267.00102.568.3547.4
467.60102.6068.2519.2
867.20102.669.1413.5

新窗口打开| 下载CSV


2.3.2. 位置编码与Mix-FFN

为了验证无位置编码Mix-FFN的3$ \times $3卷积能够提供足够的位置信息取代经典的位置编码(PE),使用含有相同缺陷但分辨率不同的图像,模拟上下文信息和感受野大小不一致进行测试,如表2所示. 可以看出,在不同分辨率的情况下,使用了Mix-FFN模块后的FLOPs、Params和T参数相比于使用PE的情况均有提升. 因此,使用Mix-FFN引入3$ \times $3卷积绕过位置编码匹配的问题,能在减少计算量的同时依然能够提供足够的位置信息保证网络的性能.

表 2   Mix-FFN与PE性能对比

Tab.2  Performance comparison between Mix-FFN and PE

编码方式尺寸FLOPs/GParams/MMIoU/%
Mix-FFN300$ \times $30036.067.967.90
512$ \times $512102.667.967.60
PE300$ \times $30040.5668.566.70
512$ \times $512106.268.563.20

新窗口打开| 下载CSV


2.3.3. MHMC与SAA

为了验证特征提取MHMC方法和SA聚合方式对网络的影响,对每个模块进行逐一改进,观察计算量、参数量及指标的变化. 先以经典的Self-Attention方式进行网络特征提取,随后分别加入聚合方式和MHMC进行测试,如表3所示.可以看出,网络加入MHMC及SAA后能够形成更加轻量级的结构,在大幅度降低参数量的同时保持计算量基本不变且在MIoU指标上有较大提升.

表 3   MHMC与SAA对模型性能的影响

Tab.3  Effect of MHMC and SAA on model performance

添加策略FLOPs/GParams/MMIoU/%
S96.485.063.40
S+A96.484.662.00
S+M99.876.665.80
S+A+M102.668.267.60

新窗口打开| 下载CSV


2.3.4. 堆叠策略

为了验证堆叠策略对网络性能指标的影响,在确保第1阶段网络使用MSM,而最后一阶段网络使用MSA的情况下,进行对不同堆叠策略的测试并比较各项指标,结果如表4所示. 可以看出,在没有使用混合模块的情况下,网络前半部分采用 MSM 而后半部分采用 MSA 时效果最佳,达到了 67.00% 的 MIoU. 在倒数第二阶段引入混合模块后,尽管吞吐量降低了1.1%,但MIoU 提升了 0.60个百分点. 因此,与简单堆叠相比,引入混合模块能够使网络在实现更高准确性的同时更好地保持延迟平衡.

表 4   堆叠策略对性能和延迟的影响

Tab.4  Impact of stacking strategies on performance and latency

堆叠策略FLOPs/GParams/MMIoU/%T/(张·s−1)
MSM+MSM+ MSM+MSA103.269.866.90503.6
MSM+MSM+ MSA+MSA102.066.567.00525.0
MSM+MSA+ MSA+MSA100.765.966.30539.0
MSM+MIX+MSA+ MSA102.668.166.80518.9
MSM+MSM+ MIX+MSA102.668.267.60519.2

新窗口打开| 下载CSV


2.4. 实验结果分析

为了对EL-SegFormer的性能进行评估,将其分割性能指标与其他主流SOTA vision Transformer(如Swin、Twins)[24-27]的分割结果进行对比. 如图8所示,改进后的EL-SegFormer在结果指标、计算量方面有大幅度提升,并且明显优于其他SOTA vision Transformer.

图 8

图 8   近年SOTA模型在缺陷数据集的MIoU及性能对比

Fig.8   Comparison of MIoU and performance of SOTA model in data set of defection in recent years


模型在相同的环境和超参数设置下,使用相同的数据集进行相同批次的训练,并根据交叉熵损失判断模型训练是否收敛. 其MIoU指标的趋势如图9所示.在经过500次迭代后,各个模型的MIoU逐渐趋于稳定且损失函值波动小于0.02. 值得注意的是,EL-SegFormer的MIoU在收敛后达到了67.60%,这个数值相较于其他模型有较大的提升. 结果表明,EL-SegFormer在太阳能电池电致发光图像的缺陷分割任务中表现出了明显的优势.

图 9

图 9   不同模型MIoU与Epoch的关系

Fig.9   Relationship between MIoU and Epoch for different models


在实际应用中,不同类型的太阳能电池缺陷常常会同时存在于同一张面板图像中. 因此,对于单个图像,模型须进行多个缺陷的分类和分割,并确保准确性和处理速度.

为了验证提出模型的有效性,在Buerhop2018数据集上进行与其他模型的比较. 如表5所示展示了相同条件下不同模型对各种缺陷的具体分割结果. 尽管EL-SegFormer对各个缺陷的分割结果均没有明显突出,但大部分分割效果与效果最好的网络相差仅约1.00个百分点. 其中,对于角缺失类型缺陷的分割结果虽然与最好的模型结果相差6.00个百分点,但仍然在所有模型中排名第2,并且总体效果在各个模型中仍是最好的,这表明尽管EL-SegFormer在某些特定缺陷类型上可能与最佳模型有一定的差距,但在综合性能上仍然保持了领先地位.

表 5   不同模型和缺陷下的分割MIoU对比

Tab.5  Comparison of segmentation MIoU under different models and defects

模型MIoU/%
FragmentCrackCornerFinger
FCN[28]53.1051.3049.5012.30
U-Net[29]60.2055.3033.0646.10
DeepLabv3[30]62.1062.0042.3452.17
PSPNet[31]61.4049.1362.0039.00
Convnext63.7562.3150.4055.26
Mask2former62.3362.9731.9054.08
Swin61.1362.6643.0354.32
Twins59.3061.0244.2751.79
Segmenter69.1656.2544.6437.58
SegFormer68.4258.2745.0651.00
EL-SegFormer(本研究)69.0061.2656.1954.38

新窗口打开| 下载CSV


表6所示展示了EL-SegFormer在不同模型大小的情况下与其他模型的对比结果. 相对于改进前,EL-SegFormer在小尺寸情况下不仅拥有近似的参数量和计算量,而且MIoU提升了3.49个百分点. 在基本模型方面,EL-SegFormer优化了8 M的参数量和1.9 G的计算量,且MIoU提升了3.30个百分点. 在大模型方面,EL-SegFormer-L仅以68.2 M参数量和102.6 M计算量就达到了67.60%的MIoU,相较于改进前降低了19.80%的参数量和8.0%的计算量,并提高了4.20个百分点的MIoU. 与大模型Mask2former-L和Convnext-B相比,EL-SegFormer-L分别以参数量降低55.4%和44.9%,以及计算量降低81%和65.7%的成果,取得了更好的分割MIoU.

表 6   各模型指标对比

Tab.6  Comparison of indexes of each model

大小类别模型尺寸FLOPs/GParams/MMIoU/%mPA/%
Segmenter-T512×51212.36.749.0055.87
Swin-T512×512242.759.053.2065.59
Convnext-T512×512204.659.354.3069.28
SegFormer-b1512×51216.013.757.0066.46
Twins-S512×512232.453.158.6066.26
Mask2former-S512×512246.044.059.4069.37
EL-SegFormer-S(本研究)512×51214.012.060.4970.45
基本Segmenter-S512×51238.526.056.0068.63
Swin-B512×512305.0122.960.4075.16
SegFormer-b3512×51277.547.261.0071.54
Twins-B512×512256.286.761.4072.27
Mask2former-B512×512293.063.061.6074.03
Convnext-S512×512262.180.963.7074.35
EL-SegFormer-B(本研究)512×51275.639.264.3075.36
Segmenter-B512×512129.0104.461.0068.68
Twins-L512×512303.0134.063.0075.91
SegFormer-b5512×512111.585.063.4078.43
Swin-L512×512416.8237.663.9066.43
Mask2former-L512×512542.0153.064.0074.29
Convnext-B512×512299.0123.966.0076.38
EL-SegFormer-L(本研究)512×512102.668.267.6079.85

新窗口打开| 下载CSV


综合考虑模型的计算量、参数量和分割结果,EL-SegFormer以更少的参数量和更低的计算复杂度实现了更好的分割效果,且均高于近年来的SOTA模型. 因此,EL-SegFormer被证明是高效的轻量级太阳能电池缺陷分割模型.

图10所示展示了随机选择的6张太阳能电池电致发光缺陷图片,这些图片涵盖了所有类型的缺陷. 图中,第1行是输入到模型的原始图片,第2行展示了输入图像的Ground Truth,即标记了图像中所有缺陷类型的真实标签,第3~8行展示了每个模型对输入图像进行分割后的结果.

图 10

图 10   各模型分割结果对比

Fig.10   Comparison of segmentation results of each model


在实验结果中,可以明显观察到Swin和Convnext生成的分割图像存在一些缺陷的错误标注问题. 虽然PSPNet在缺陷识别方面表现较好,但由于未能有效过滤噪声,其输出效果并不理想. 相比之下,DeepLabv3、SegFormer和EL-SegFormer在分割效果上相近,但EL-SegFormer在缺陷识别方面表现更为准确. 尽管如此,EL-SegFormer在对第5张图进行分割处理时,依然未能达到100%的缺陷分割,这可能是由于多晶硅背景与“Finger”类型缺陷存在混淆,从而影响了分割效果.

3. 结 语

提出改进型Vision Transformer模型EL-SegFormer,旨在对太阳电池缺陷精准分割,以获取缺陷的具体特征以供后期分析和维护. 以MSM模块替换网络浅层的Self-Attention从而在网络早期以卷积的方式取代Transformer块,使浅层网络更加注重细节纹理特征并拥有更低的计算量;轻量级MLP解码器以更低的计算代价实现对太阳能电池缺陷高效、精准的语义分割.

大量实验证明,EL-SegFormer在太阳能电池缺陷分割任务中取得了显著的成绩,为未来太阳能电池生产制造过程中的缺陷分析和电池维护提供了有力的解决方案和技术支持. 然而,尽管EL-SegFormer在指标上表现较好,但是在计算复杂度方面仍有提升空间,此外在实际测试中特别是多晶硅背景情况下分割效果仍有不足之处,因此减少背景干扰和降低计算量是下一步工作重点,并且后续将继续研究缺陷分割结果在自适应分析缺陷成因上的用途.

参考文献

吕玉荣

太阳能电池的发展背景及应用

[J]. 化工时刊, 2021, 35 (2): 26- 29

[本文引用: 1]

LV Yurong

The development background and applications of solar cells

[J]. Chemical Industry Times, 2021, 35 (2): 26- 29

[本文引用: 1]

BREITENSTEIN O, BAUER J, ALTERMATT P P, et al

Influence of defects on solar cell characteristics

[J]. Solid State Phenomena, 2010, 156: 1- 10

[本文引用: 1]

施光辉, 崔亚楠, 刘小娇, 等

电致发光 (EL) 在光伏电池组件缺陷检测中的应用

[J]. 云南师范大学学报: 自然科学版, 2016, 36 (2): 17- 21

[本文引用: 1]

SHI Guanghui, CUI Yanan, LIU Xiaojiao, et al

Electroluminescent application in defects detection of photovoltaic-module

[J]. Journal of Yunnan Normal University: Natural Sciences Edition, 2016, 36 (2): 17- 21

[本文引用: 1]

MANSOURI A, ZETTL M, MAYER O, et al. Defect detection in photovoltaic modules using electroluminescence imaging [C]// 27th European Photovoltaic Solar Energy Conference and Exhibition . Frankfurt: PVTECH, 2012, 64617926: 3374-3378.

[本文引用: 1]

KANAI A, SUGIYAMA M

Emission properties of intrinsic and extrinsic defects in Cu2SnS3 thin films and solar cells

[J]. Japanese Journal of Applied Physics, 2020, 60 (1): 015504

[本文引用: 1]

徐辉, 祝玉华, 甄彤, 等

深度神经网络图像语义分割方法综述

[J]. 计算机科学与探索, 2021, 15 (1): 47- 59

[本文引用: 1]

XU Hui, ZHU Yuhua, ZHEN Tong, et al

Survey of image semantic segmentation methods based on deep neural network

[J]. Journal of Frontiers of Computer Science and Technology, 2021, 15 (1): 47- 59

[本文引用: 1]

陈海永, 刘新如

交叉门控融合的改进语义分割网络及应用

[J]. 重庆理工大学学报 : 自然科学, 2023, 37 (6): 187- 195

[本文引用: 1]

CHEN Haiyong, LIU Xinru

An improved semantic segmentation network and its application by using cross-gated fusion

[J]. Journal of Chongqing University of Technology: Natural Science, 2023, 37 (6): 187- 195

[本文引用: 1]

RAHMAN M R U, CHEN H, XI W. U-Net based defects inspection in photovoltaic electroluminecscence images [C]// 2019 IEEE International Conference on Big Knowledge . Changsha: IEEE, 2019: 215–220.

[本文引用: 1]

王盛, 吴浩, 彭宁, 等

改进U2-Net的太阳能电池片缺陷分割方法

[J]. 国外电子测量技术, 2023, 42 (2): 177- 184

[本文引用: 1]

WANG Sheng, WU Hao, PENG Ning, et al

Improved U2-Net defect segmentation method for solar cells

[J]. Foreign Electronic Measurement Technology, 2023, 42 (2): 177- 184

[本文引用: 1]

BALZATEGUI J, ECIOLAZA L, ARANA-AREXOLALEIBA N. Defect detection on polycrystalline solar cells using electroluminescence and fully convolutional neural networks [C]// IEEE/SICE International Symposium on System Integration . Kunming: IEEE, 2020: 949–953.

[本文引用: 1]

张海波, 蔡磊, 任俊平, 等

基于Transformer的高效自适应语义分割网络

[J]. 浙江大学学报: 工学版, 2023, 57 (6): 1205- 1214

[本文引用: 1]

ZHANG Haibo, CAI Lei, REN Junping, et al

Efficient and adaptive semantic segmentation network based on Transformer

[J]. Journal of Zhejiang University: Engineering Science, 2023, 57 (6): 1205- 1214

[本文引用: 1]

DOSOVITSKIY A, BEYER L, KOLESNIKOV A, et al. An image is worth 16x16 words: Transformers for image recognition at scale [EB/OL]. (2020-10-22)[2023-11-07]. https://arxiv.org/search/?query=An+image+is+worth+16x16+words%3A+Transformers+for+image+recognition+at+scale&searchtype=all&source=header.

[本文引用: 1]

YAMADA M, D'AMARIO V, TAKEMOTO K, et al. Transformer module networks for systematic generalization in visual question answering [EB/OL]. (2022-01-27)[2023-11-07]. https://arxiv.org/abs/2201.11316.

[本文引用: 1]

ZHOU B, ZHAO H, PUIG X, et al. Scene parsing through ade20k dataset [C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition . Hawaii: IEEE, 2017: 633–641.

[本文引用: 1]

DENG J, DONG W, SOCHER R, et al. Imagenet: a large-scale hierarchical image database [C]// 2009 IEEE Conference on Computer Vision and Pattern Recognition . Tokyo: IEEE, 2009: 248–255.

[本文引用: 1]

LIU Z, LIN Y, CAO Y, et al. Swin transformer: hierarchical vision transformer using shifted windows [C]// Proceedings of the IEEE/CVF International Conference on Computer Vision . Sanya: IEEE, 2021: 10012–10022.

[本文引用: 1]

LIU J, WANG C, ZHA L

A middle-level learning feature interaction method with deep learning for multi-feature music genre classification

[J]. Electronics, 2021, 10 (18): 2206

DOI:10.3390/electronics10182206      [本文引用: 2]

XIE E, WANG W, YU Z, et al

SegFormer: simple and efficient design for semantic segmentation with transformers

[J]. Advances in Neural Information Processing Systems, 2021, 34: 12077- 12090

[本文引用: 1]

LIU X, YU H F, DHILLON I, et al. Learning to encode position for transformer with continuous dynamical model [C]// International Conference on Machine Learning . PMLR: [s.n.], 2020: 6327–6335.

[本文引用: 1]

BRAUWERS G, FRASINCAR F

A general survey on attention mechanisms in deep learning

[J]. IEEE Transactions on Knowledge and Data Engineering, 2021, 35 (4): 3279- 3298

[本文引用: 1]

LIN W, WU Z, CHEN J, et al. Scale-aware modulation meet transformer [C]// Proceedings of the IEEE/CVF International Conference on Computer Vision . Vancouver: IEEE, 2023: 6015–6026.

[本文引用: 1]

STRUDEL R, GARCIA R, LAPTEV I, et al. Segmenter: Transformer for semantic segmentation [C]// Proceedings of the IEEE/CVF International Conference on Computer Vision . Kuala Lumpur: IEEE, 2021: 7262–7272.

[本文引用: 1]

DEITSCH S, CHRISLTEIN V, BERGER S, at el

Automatic classification of defective photovoltaic module cells in electroluminescence images

[J]. Solar Energy, 2019, 185: 455- 468

DOI:10.1016/j.solener.2019.02.067      [本文引用: 1]

CHU X, TIAN Z, WANG Y, et al

Twins: revisiting the design of spatial attention in vision transformers

[J]. Advances in Neural Information Processing Systems, 2021, 34: 9355- 9366

[本文引用: 1]

STRUDEL R, GARCIA R, LAPTEV I, et al. Segmenter: Transformer for semantic segmentation [C]// Proceedings of the IEEE/CVF International Conference on Computer Vision . Venice: IEEE, 2021: 7262–7272.

LIU Z, MAO H, WU C Y, et al. A convnet for the 2020s [C]// Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition . Paris: IEEE, 2022: 11976–11986.

CHENG B, MISRA I, SCHWING A G, et al. Masked-attention mask transformer for universal image segmentation [C]// Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition . Paris: IEEE, 2022: 1290–1299.

[本文引用: 1]

LONG J, SHELHAMER E, DARRELL T. Fully convolutional networks for semantic segmentation [C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition . Boston: IEEE, 2015: 3431–3440.

[本文引用: 1]

RONNEBERGER O, FISCHER P, BROX T. U-net: convolutional networks for biomedical image segmentation [C]// Medical Image Computing and Computer-Assisted Intervention–MICCAI 2015: 18th International Conference . Munich: Springer International Publishing, 2015: 234–241.

[本文引用: 1]

CHEN L C, PAPANDREOU G, SCHROFF F, et al. Rethinking atrous convolution for semantic image segmentation [EB/OL]. (2017-06-17)[2023-11-07]. https://arxiv.org/abs/1706.05587.

[本文引用: 1]

ZHAO H, SHI J, QI X, et al. Pyramid scene parsing network [C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition . Hawaii: IEEE, 2017: 2881–2890.

[本文引用: 1]

/