<img src="https://www.zjujournals.com/eng/images/1008-973X/images/logo.png" class="img-responsive">

图 1 Dense Block 密集连接模块框架

Fig.1 Dense block connection module framework

(6) ${x_l} = {H_l}{\Big\{[{x_0},{x_{\rm{1}}}, \cdots ,{x_{l - 1}}]\Big\}}.$

式中： ${x_l}$为第l层网络的输出， ${{{H}}_l}$为第l 层的输出函数表示，每一层网络包含了批标准化化（batch normalization，BN）、Relu函数和卷积操作^[22].

在DenseNet网络中，H₄层的输入不仅包含了上一层H₃的直接输出，同时包括了原始信息 ${x_{\rm{0}}}$以及H₁、H₂层中的全部特征信息. DenseNet在反向传播的训练过程中， ${x_l}$的梯度信息包含了损失函数直接对Dense block中每一层的输出信息计算得到的导数.

1.3. 基于迁移学习的DenseNet169

DenseNet一般由多个密集连接模块和过渡层组成，本文通过迁移学习的方法，以网络结构深度为169的密集连接神经网络（DenseNet169）为基础，迁移DenseNet169在ImageNet数据集上预训练好的前4个密集连接模块，并重新设计分类层网络结构。由于本实验共有9个类别的晶圆图片，在晶圆图缺陷模式识别任务中使用9维全连接层代替原有分类层中的1000维全连接层. 图2展示了晶圆图识别任务中基于迁移学习的DenseNet169网络结构和模型参数，新网络由迁移模型和新任务模型两部分组成. 结构表中k代表每个卷积层滤波器的数量，每个密集连接模块中交替使用1×1和3×3的卷积操作. 分类层中采用Softmax函数将神经元输出转化为概率：

图 2

图 2 基于迁移学习的DenseNet网络结构

Fig.2 DenseNet network structure based on transfer learning

(7) $\begin{split} &{\rm{Softmax }}\;\left\{ {{{[{x_1},{x_2}, \cdots ,{x_n}]}^{\rm{T}}}} \right\} = \\ &\quad {\left[ {\frac{{\exp\; ({x_1})}}{{\displaystyle\sum\limits_{i = 1}^n {\exp \;({x_i})} }},\frac{{\exp\; ({x_2})}}{{\displaystyle\sum\limits_{i = 1}^n {\exp \;({x_i})} }}, \cdots ,\frac{{\exp\; ({x_n})}}{{\displaystyle\sum\limits_{i = 1}^n {\exp\;({x_i})} }}} \right]^{\rm{T}}}. \\ \end{split} $

式中： ${x_1},{x_{\rm{2}}},\cdots{x_n}$ 为神经网络全连接层的输出值，通过Softmax函数将对应的值映射到[0, 1.0]，将预测值转化为可能事件的概率分布.

DenseNet169采用交叉熵损失函数作为目标函数来衡量识别结果和真实类别的误差，其损失为

(8) ${{{{H}}}}(p,q) = - \sum\limits_x {p(x)\log\; q(x)} .$

式中： $p$与 $q$分别为真实分布和预测分布，对应本模型中的晶圆图像实际类别和模型预测分布.

DenseNet169采用随机梯度下降算法对网络进行训练：

(9) ${w_i} = {w_i} - \alpha \left[ {{h_{\rm{\theta }}}\left(x_0^{j},x_1^{j}, \cdots ,x_n^{j}\right) - {y_j}} \right]x_i.$

式中：j为网络中第j层，i为每层中的神经元， ${w_i}$为需要学习的权重参数， $\alpha $为当前学习率， ${{{h}}_\theta }$为神经网络的预测运算.

整个DenseNet网络在训练过程中冻结前3个DenseBlock，并对后面的网络进行局部微调，当模型收敛后，将最后分类层中全局池化操作所得到的数据特征抽取出来，作为晶圆图的深度特征信息.

2. 多粒度扫描深度森林特征分类模型

通过DenseNet169提取出的特征维度较高，特征信息抽象，直接使用全连接神经网络并不能有效识别各个晶圆图的类别. 深度森林（Deep forest）这一基于随机森林算法的决策树深度模型采用多维度扫描和级联处理的方法，可以有效地识别和处理高维度特征信息，并在模式识别问题上表现出了良好的性能. 多维度扫描集成森林GCForest是一种新型决策树集成方法^[32,35-36]，该方法在随机森林的基础上引入了级联结构和集成学习，从而增强了决策树模型的表征能力. 当输入是高维数据时，GCForest通过多维度扫描生成多尺度特征向量，从而进一步增强算法的表征学习能力. GCForest可以自适应地确定级联层数，自行决定模型复杂程度，用户可以根据可用的计算资源来控制训练成本. GCForest的另一优点在于该模型具有较少的超参数，且超参数具有较强的鲁棒性.

GCForest 由2个部分所组成. 第一部分是多粒度扫描结构，GCForest通过滑动窗口扫描原始数据，生成一组多尺寸特征向量. 第二部分是级联森林结构，其重要思想之一是根据每个输入实例生成对应类分布. 如图3所示，GCForest通过计算决策树中各叶节点处不同类实例数量占比的平均值，从而预测各实例的类别分布. 图4展示了深度森林的网络结构，多粒度扫描阶段首先根据输入数据生成多尺度特征向量. 其次，级联森林^[32]阶段对生成的多尺度特征向量进行逐层训练，预测其类别分布，并将生成的类别分布向量与原始向量连接，通过级联通道以输入到下级级联层. 在级联森林的训练过程中，当验证集的识别性能收敛时，模型自适应终止训练，因此，级联森林能够自适应地决定模型复杂度. 在本研究的级联森林中，每一层由2个随机森林和2个完全随机森林组成. 其中，每个随机森林包含500 棵决策树，每个完全随机森林则包含1 000棵决策树，两者的区别主要在于候选特征空间的选择. 完全随机森林在完整的特征空间中随机选择特征作为决策树的分裂节点，然后不断生长，当决策树中的所有叶节点都无法分裂时，则终止训练；普通随机森林随机选取 $ \sqrt{d} $ （d为输入特征维度）个候选特征，然后通过Gini指数筛选分裂节点进行生长分裂^[35]. 基尼指数公式如下：

图 3

图 3 GCForest的类向量生成

Fig.3 Class vector generation in GCForest

图 4

图 4 深度森林网络结构（以400维输入为例）

Fig.4 Deep forest network structure（taking 400-dimensional input as example）

(10) ${\rm{Gini}}\;(p) = \sum\nolimits_{k = 1}^K {{p_k}(1 - {p_k})} = 1 - \sum\nolimits_{k = 1}^K {p_k^2} .$

式中：假设样本的可能取值为{1，2，···，K}， ${p_k}$为样本属于k类别的概率.

3. DenseNet-GCForest晶圆图缺陷模式识别模型

3.1. DenseNet-GCForest

DenseNet-GCForest首先将DenseNet169在ImageNet上训练的网络参数作为本模型的初始参数，并舍弃模型的全局池化层和分类层，重新设计全连接层和输出层. 在冻结网络前3个DenseBlock参数的情况下，采用反向传播和随机梯度下降算法微调剩余局部网络权重参数，训练得到一个晶圆图像特征提取模型，抽取最后全局池化层的数据作为晶圆图的高维抽象特征. 采用深度森林算法，通过滑动窗口和级联森林进一步对所提取的高维图像特征进行感知分类，从而得到最终的预测结果.

3.2. DenseNet-GCForest应用流程

如图5所示为DenseNet-GCForest晶圆图缺陷识别算法的应用流程，DenseNet-GCForest算法分为离线建模与在线识别两部分，具体流程如下.

图 5

图 5 DenseNet-GCForest晶圆图缺陷识别流程

Fig.5 Defect identification process of DenseNet-GCForest wafer map

1）离线建模：

a. 读取晶圆图像并按照一定比例将其随机分为训练集和测试集；

b. 迁移ImageNet数据集上预训练好的DenseNet169模型及权重参数；

c. 重新设计全连接层和池化层并通过训练集进行微调训练，抽取全局平均池化层作为晶圆图像特征，形成特征提取模型；

d. 将训练集图片输入特征提取模型，得到晶圆图像高维特征；

e. 在训练集特征上训练深度森林模型.

2）在线检测：

a. 在线采集晶圆图像，将图像输入至DenseNet169模型进行特征提取；

b. 通过DenseNet169提取晶圆图缺陷的高维抽象特征；

c. 将提取的高维抽象特征模型输入至GCForest模型进行预测；

d. 得到最终的识别分类结果并进行验证.

4. 实验与结果分析

利用现场采集的工业数据集WM-811K^[37]晶圆图缺陷样本库来检验算法对缺陷的识别能力，该样本库中的图像均来自于实际半导体生产线. 该样本库中浅灰色、深灰色和白色像素分别表示每个晶片图的正常、有缺陷和空元素部分. WM-811K数据集由正常模式和8种缺陷模式组成，图6展现了中心（Center）、圆环（Donut）、边缘局部（Edge-local）、边缘环（Edge-ring）、局部（Local）、近满（Near-full）、随机（Random），划痕缺陷（Scratch）和正常无缺陷（None-pattern）共9种类型的图案. 图7列出了WM-811K数据集中的各类缺陷图像的数量N，由此可见，该样本库存在明显的类不平衡，这对正确识别缺陷模式带来了很大挑战. 每个晶圆图的大小被预处理为128×128像素. 本实验将这些图像随机分成5份，进行五折交叉验证. 每次验证随机选取7 112张晶圆图作为训练数据集，剩余2 000张作为验证数据集.

图 6

图 6 正常晶圆图模式与8种缺陷模式

Fig.6 Normal wafer maps and 8 defect modes

图 7

图 7 晶圆缺陷类型数量统计

Fig.7 Number of different types of wafer maps

4.1. 基于迁移学习的DenseNet特征学习

本文采用基于迁移学习的DenseNet169提取晶圆图像特征，为了验证迁移学习的有效性，测试原始DenseNet169和基于迁移学习的DenseNet169神经网络的训练过程. 图8（a）记录了原始DenseNet169和基于迁移学习的DenseNet169在训练过程中损失函数的变化曲线，其中，B为训练过程中的批次数，L为模型的交叉熵损失函数值. 从图中可知，基于迁移学习的DenseNet169通过不到3 000批次迭代训练，模型基本达到收敛，相比于直接对整个网路进行训练，基于迁移学习的网络损失函数值更小、收敛速度更快. 图8（b）记录了基于迁移学习的DenseNet169在训练数据集和测试数据集上的识别率变化曲线. 图中，E为训练轮数，R为识别准确率. 从图中可知，直接使用反向传播神经网络进行识别分类，最终识别准确率不到80%，因此本文进一步引入深度森林模型对高维抽象数据进行分类，进而提高模型的识别性能.

图 8

图 8 基于迁移学习的DenseNet169的训练过程

Fig.8 Training process of DenseNet169 based on transfer learning

图9为该晶圆图在DenseNet网络中第二、三、四卷积模块的特征输出图，随着层数的递增，特征逐渐细化、抽象化，整个神经网络对特征的关注重点由整体转入局部细节. 从第四卷积层的输出中，已经无法分辨出图像的特点，这充分表明了DenseNet后面卷积层的输出特征与前面相比抽象程度更高.

图 9

图 9 晶圆图多级网络输出特征

Fig.9 Output features of wafer maps in multilevel networks

为了探究DenseNet网络提取特征的有效性，运用T-SNE^[38]数据可视化算法，对原始图像和DenseNet网络的输出特征进行数据降维，将不同类别的高维原始图像和特征信息降维至二维平面，并运用散点图描绘相关数据信息。图10展示了T-SNE数据可视化的结果，在二维空间(D1D2)中，原始图像的多个类别混合在一起，极难判别，而DenseNet网络提取的特征有效分离了9个晶圆图缺陷类型，该特征具有良好的类判别性，说明DenseNet169具有优秀的特征提取能力.

图 10

图 10 原始数据和DenseNet特征的可视化分析

Fig.10 Visualization analysis of raw data and DenseNet features

4.2. 识别性能分析

如表1所示为DenseNet-GCForest晶圆缺陷识别率混淆矩阵，由表1可知，DenseNet-GCForest在测试数据集上的综合识别准确率达到了96.2%。由各个类别的识别率可知，除了随机型缺陷外，本文模型能够有效识别其他类型的晶圆图类别，识别准确率都在93.75%以上。除此之外，如图7所示的晶圆图数据集有着明显的类不平衡问题，近满、局部和划痕型晶圆图的数据量较少，而DenseNet-GCForest通过采用迁移学习和深度森林的方法，能够有效学习这类晶圆图的数据特征，获得了非常好的识别效果.

表 1 Densenet-GCForest晶圆缺陷识别率混淆矩阵

Tab.1 Confusion matrix of Densenet-GCForest wafer map defect recognition rate

%
预测真实	None	Center	Donut	Edge-local	Edge-ring	Local	Near-full	Random	Scratch
None	99.59	0.00	0	0.28	0	0	0	0	0.14
Center	0.83	97.52	0	0.83	0	0	0	0	0.83
Donut	0	0	94.74	0	0	5.26	0	0	0
Edge-local	0.86	0.29	0	96.83	0.29	1.44	0	0.29	0
Edge-ring	0	0	0	4.91	95.09	0	0	0	0
Local	0.75	0.38	0	1.51	0	96.23	0	0.75	0.38
Near-full	0	0	0	0	0	0	94.12	5.88	0
Random	0	2.56	0	0	2.56	5.13	2.56	87.18	0
Scratch	1.25	0	0	1.25	0	3.75	0	0	93.75

对于Random类晶圆图缺陷，进一步分析其误识别原因. 由表1可知，有5.13%、2.56%、2.56%和2.56%的Random晶圆图被误识别成了Local、Near_full、Edge_local、Center和Edge_ring类. 如图11所示为4张被误识别为其他类别的Random晶圆图，可知，其在具有标准随机缺陷的同时，依次还具有Local、Near_full、 Center和Edge_ring的缺陷特征（见图6），从而被模型误判。

图 11

图 11 Random类的误识别情况

Fig.11 Error identification of Random class

4.3. 参数灵敏度分析

多粒度扫描森林的主要超参数分为2类：一是结构参数；二是随机森林生长规则参数，其主要超参数有森林数数量、每个森林的决策树数量、滑动窗口大小、级联的每层森林数量、决策树停止生长规则. 本文主要针对随机森林生成规则参数进行灵敏度分析，如表2所示，其中，R_acc为预测准确率，表示预测为正的样本中真正的正样本所占的比例。从表2可以看出，在其他参数一样的情况下，单独调整某一参数对实验结果的影响不大. 从实验结果可知，GCForest的性能对于超参数的设置具有很强的鲁棒性，DenseNet-GCForest模型训练便捷，且训练的时间成本少于一般深度学习方法.

表 2 GCForest识别器参数灵敏度分析

Tab.2 Parameter sensitivity analysis of GCForest

参数名称	参数大小	R_acc/%
滑动窗口大小	400	97.31
	700	96.7
	1 000	96.2
	1 300	96.4
	1 664	96.2
决策树生成的最小样本数	0	96.2
	0.1	96.7
	0.2	96.2
	0.3	95.8
	0.4	95.4
决策树生成的允许误差	0	96.2
	0.1	96.7
	0.2	96.2
	0.3	95.8
	0.4	95.4
扫描层随机森林的决策树数量	200	96.9
	400	95.8
	600	97.0
	800	96.7
	1 000	96.0

4.4. 性能比较

为了验证所提方法的有效性和先进性，实验中将几种经典和最新的晶圆图缺陷模式识别方法作为DenseNet-GCForest的比较对象. 其中，CNN+Softmax分类器（CNN-Softmax）方法的CNN模型选择性能优秀的GoogleNet^[15]、ResNet^[14]和DenseNet^[16]. 将决策树C4.5的最大深度设置为25，节点数目为100. 支持向量机分别采用线性核函数和高斯核函数，将惩罚因子设置为C=1.0.将随机森林最大深度设置为50，包含800棵树. 将KNN分类器中的K值设置为5. 决策树集成算法^[14]将4种根据不同特征（最大值、最小值、均值和方差）形成的分类器进行集成投票. 堆叠降噪自编码器（stacked denoising auto encoder，SDAE）^[28]深度学习算法共包含2个隐层：第一隐层由100个神经元组成，第二隐层包含50个神经元.

如表3所示为DenseNet-GCForest与经典CNNs、决策树集成和SDAE在各类晶圆图缺陷上的识别性能对比. 其中，R_rec为召回率，表示在所有正样本中被预测正确的正样本所占比例；F为两者的调和平均数，用于表示模型识别性能的稳定性，F=2R_accR_rec/(R_acc+R_rec). 从表中可知，DenseNet-GCForest算法在Center、Donut、Edge_ring、Edge_local、Local、Scratch这6种晶圆图缺陷模式识别任务中，展现出了最佳的性能. 即使对于另外Near_full、None、Random 3种缺陷模式，其F值也达到了94.1、99.3和88.3。对于这3种缺陷类型，所有方法中的最高F值分别为95.7，99.7，91.2，本文算法的识别性能接近这些最优F值. 其中，Near_full和None这2类缺陷的特征非常明显，采用各个识别算法都能对其进行有效识别. 此外，所提出算法对于缺陷特征不够明显且样本数量较少的Donut和Scratch缺陷模式的识别准确率为97.3%和94.9%，明显优于对比算法（5% ~ 40%），因此认为基于迁移学习的DenseNet-GCForest晶圆图缺陷识别对小样本数据有较好的识别能力.

表 3 DenseNet-GCForest算法的对比实验结果

Tab.3 Performance comparison of DenseNet-GCForest and other algorithms

%
实验方法	缺陷类别	R_acc	R_rec	F
DenseNet-GCForest	Center	97.5	97.5	97.5
	Donut	100	94.7	97.3
	Edge_local	95.5	96.8	96.1
	Edge_ring	98.7	95.1	96.9
	Local	95.9	96.2	96.0
	Near_full	94.1	94.1	94.1
	None	99.0	99.6	99.3
	Random	89.5	87.2	88.3
	Scratch	96.2	93.8	94.9
GoogleNet	Center	72.2	34.5	46.7
	Donut	59.1	43.3	50.0
	Edge_local	63.9	79.8	71.0
	Edge_ring	93.4	87.6	90.4
	Local	57.3	48.8	52.7
	Near_full	93.3	93.3	93.3
	None	90.6	92.9	91.7
	Random	85.4	92.1	88.6
	Scratch	81.7	81.7	81.7
ResNet	Center	85.0	77.1	80.9
	Donut	47.2	81.0	59.6
	Edge_local	87.6	81.4	84.4
	Edge_ring	94.3	86.6	90.3
	Local	81.7	68.6	74.6
	Near_full	75.0	75.0	75.0
	None	89.9	99.3	94.4
	Random	88.2	73.2	80.0
	Scratch	59.5	71.0	64.4
DenseNet	Center	76.4	85.5	80.7
	Donut	95.2	64.5	76.9
	Edge_local	79.7	91.2	85.0
	Edge_ring	96.1	81.5	88.2
	Local	82.1	66.8	73.6
	Near_full	91.7	100	95.7
	None	95.2	99.3	97.2
	Random	86.4	65.5	74.5
	Scratch	81.5	72.6	76.8
Decision TreeEnsemble	Center	95.6	93.75	94.7
	Donut	92.6	92.3	92.4
	Edge_local	83.5	87.3	85.4
	Edge_ring	86.8	91.1	88.9
	Local	83.5	82.3	82.9
	Near_full	89.4	91.7	90.5
	None	100	99.5	99.7
	Random	91.7	87.3	88.4
	Scratch	86.0	88.5	87.2
SDAE	Center	98.5	87.3	92.6
	Donut	87.6	89.1	88.4
	Edge_local	87.5	85.4	86.4
	Edge_ring	98.8	94.7	96.7
	Local	83.5	55.8	66.9
	Near_full	85.3	96.2	90.4
	None	99.0	98.7	98.9
	Random	93.3	89.3	91.2
	Scratch	81.7	39.6	53.3

为了避免随机因素对实验结果的影响，验证所提出的模型性能的稳定性，进行五折交叉验证。基于五折交叉验证的不同识别器的平均识别率如表4所示. 可知，DenseNet-GCForest的识别效果非常突出，显著优于所有其他识别器. 此外，当将DenseNet所提取的特征应用到所有的分类算法时，几乎所有算法的识别准确率都得到了提高，如表5所示，DenseNet提取的特征提高了所有典型识别器的性能，GCForest仍然具有更好的识别性.

表 4 五折交叉识别率对比

Tab.4 Comparison of five-fold cross validation of various algorithms

分类器	R_acc/%	分类器	R_acc/%
DenseNet-GCForest	96.8	GCForest	73.7
C4.5 Ensemble	90.8	RF	68.9
SDAE	89.4	SVML	72.5
DenseNet	88.6	SVMG	40.2
GoogleNet	74.3	KNN	30.1
ResNet	86.5	C4.5	62.4

表 5 基于DenseNet特征的多种识别器五折交叉识别率对比

Tab.5 Comparison of five-fold cross recognition rate of various recognizers based on DenseNet features

分类器	R_acc/%	分类器	R_acc/%
GCForest	96.8	SVMG	95.5
BPN	85.1	KNN	92.6
RF	95.1	C4.5	87.2
SVML	95.6	−	−

5. 结　语

本文提出了基于迁移学习与深度森林的晶圆图缺陷模式识别模型DenseNet-GCForest，在实际工业数据集上的实验结果表明，该方法的识别准确率达到了96.8%，其性能优于典型的卷积神经网络以及其他常用识别方法. 该方法主要具有以下优点：

1）通过深度卷积神经网络直接从晶圆缺陷原始图像中提取特征，能够有效避免人工选取特征的主观性和局限性，同时提取的特征具有良好的分类特性；

2）通过迁移预训练好的特征提取模型，在保证特征提取的有效性上极大减少了模型训练时间并提升了模型的图像特征提取能力；

3）引入了深度森林算法对高维抽象特征进行分类，该方法作为基于随机森林的集成方法，吸收了深度神经网络的思想，具有良好的处理表征关系的能力和逐层加强表征学习的能力，相比于传统算法具有更好的分类性能.

参考文献

原文顺序

文献年度倒序

文中引用次数倒序

被引期刊影响因子

[1]

TAO Y, WAY K, SUK J B

Detection of spatial defect patterns generated in semiconductor fabrication processes

[J]. IEEE Transactions on Semiconductor Manufacturing, 2011, 24 (3): 392- 403

DOI:10.1109/TSM.2011.2154870 [本文引用: 1]

[2]

KIM B, JEONG Y S, TONG S H, et al

Step-down spatial randomness test for detecting abnormalities in DRAM wafers with multiple spatial maps

[J]. IEEE Transactions on Semiconductor Manufacturing, 2016, 29 (1): 57- 65

DOI:10.1109/TSM.2015.2486383

[3]

YU J, LU X

Wafer map defect detection and recognition using joint local and nonlocal linear discriminant analysis

[J]. IEEE Transactions on Semiconductor Manufacturing, 2016, 29 (1): 33- 42

DOI:10.1109/TSM.2015.2497264 [本文引用: 2]

[4]

SHANKAR N G, ZHONG Z W

Defect detection on semiconductor wafer surfaces

[J]. Microelectronic Engineering, 2005, 77 (3): 337- 346

[5]

LEE S H, KOO H I, CHO N I

New automatic defect classification algorithm based on a classification-after-segmentation framework

[J]. Journal of Electronic Imaging, 2010, 19 (2): 334- 343

[6]

HWANG J Y, KUO W

Model-based clustering for integrated circuit yield enhancement

[J]. European Journal of Operational Research, 2007, 178 (1): 143- 153

DOI:10.1016/j.ejor.2005.11.032 [本文引用: 1]

[7]

BALY R, HAJJ H

Wafer classification using support vector machines

[J]. IEEE Transactions on Semiconductor Manufacturing, 2012, 25 (3): 373- 383

DOI:10.1109/TSM.2012.2196058 [本文引用: 1]

[8]

XIE L, HUANG R, GU N, et al

A novel defect detection and identification method in optical inspection

[J]. Neural Computing and Applications, 2014, 24 (7/8): 1953- 1962

DOI:10.1007/s00521-013-1442-7 [本文引用: 1]

[9]

CHAO L C, TONG L I

Wafer defect pattern recognition by multi-class support vector machines by using a novel defect cluster index

[J]. Expert Systems with Applications, 2009, 36 (6): 10158- 10167

DOI:10.1016/j.eswa.2009.01.003 [本文引用: 1]

[10]

ADLY F, ALUSSEIN O, YOO P, et al

Simplified subspaced regression network for identification of defect patterns in semiconductor wafer maps

[J]. IEEE Transactions on Semiconductor Manufacturing, 2015, 11 (6): 1267- 1276

DOI:10.1016/j.engappai.2012.03.016 [本文引用: 1]

[11]

KIM B, JEONG Y S, TONG S H, et al

A regularized singular value decomposition-based approach for failure pattern classification on fail bit map in a DRAM wafer

[J]. IEEE Transactions on Semiconductor Manufacturing, 2015, 28 (1): 41- 49

DOI:10.1109/TSM.2014.2388192 [本文引用: 1]

[12]

OOI M P L, SOK H K, KUANG Y C, et al

Defect cluster recognition system for fabricated semiconductor wafers

[J]. Engineering Applications of Artificial Intelligence, 2013, 26 (3): 1029- 1043

[13]

余建波, 卢笑蕾, 宗卫周

基于局部与非局部线性判别分析和高斯混合模型动态集成的晶圆表面缺陷探测与识别

[J]. 自动化学报, 2016, 42 (1): 47- 59

YU Jian-bo, LU Xiao-lei, ZONG Wei-zhou

Wafer defect detection and recognition based on local and nonlocal linear discriminant analysis and dynamic ensemble of gaussian mixture models

[J]. ACTA Automatica Science, 2016, 42 (1): 47- 59

[14]

PIAO M, JIN C H, LEE J Y, et al

Decision tree ensemble-based wafer map failure pattern recognition based on radon transform-based features

[J]. IEEE Transactions on Semiconductor Manufacturing, 2018, 31 (2): 250- 257

DOI:10.1109/TSM.2018.2806931 [本文引用: 3]

[15]

SAQLAIN M, JARGALSAIKHAN B, LEE J Y

A voting ensemble classifier for wafer map defect patterns identification in semiconductor Manufacturing

[J]. IEEE Transactions on Semiconductor Manufacturing, 2019, 32 (2): 171- 182

DOI:10.1109/TSM.2019.2904306 [本文引用: 2]

[16]

LECUN Y, BENGIO Y, HINTON G

Deep learning

[J]. Nature, 2015, 521: 436- 444

DOI:10.1038/nature14539 [本文引用: 3]

[17]

杨婧, 耿辰, 王海林, 纪建松, 等

基于DenseNet的低分辨CT影像肺腺癌组织学亚型分类

[J]. 浙江大学学报: 工学版, 2019, 53 (6): 1164- 1170

YANG Jing, GENG Chen, WANG Hai-lin, et al

Classification on histological subtypes of lung adenocarcinoma from low-resolution CT images based on DenseNet

[J]. Journal of Zhejiang Unversity: Engineering Science, 2019, 53 (6): 1164- 1170

[18]

THIRUKOVALLURU R, DIXIT S, SEVAKULA RK et al. Generating feature sets for fault diagnosis using denoising stacked auto-encoder [C] // IEEE International Conference in Prognostics and Health Management (ICPHM). Ottawa: IEEE, 2016: 1-7.

[19]

JIANG G, HE H, XIE P, et al

Stacked Multilevel-Denoising Autoencoders: a new representation learning approach for wind turbine gearbox fault diagnosis

[J]. IEEE Transactions on Instrumentation and Measurement, 2017, 66: 2391- 2402

DOI:10.1109/TIM.2017.2698738 [本文引用: 1]

[20]

KRIZHEVSKY A, SUTSKEVER I, HINTON GE. Imagenet classification with deep convolutional neural networks [C] // Advances in Neural Information Processing Systems (NIPS). Lake Tahoe: [s. n.], 2012: 1097–1105.

[21]

袁公萍, 汤一平, 韩旺明, 等

基于深度卷积神经网络的车型识别方法

[J]. 浙江大学学报: 工学版, 2018, 52 (4): 694- 702

YUAN Gong-ping, TANG Yi-ping, et al

Vehicle category recognition based on deep convolutional neural network

[J]. Journal of Zhejiang University: Engineering Science, 2018, 52 (4): 694- 702

[22]

SZEGEDY C, LIU W, JIA Y, et al. Going deeper with convolutions [C] // 2015 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Boston: IEEE, 2015: 1-9.

[本文引用: 6]

[23]

HE K M, ZHANG X Y, REN S Q, et al. Deep residual learning for image recognition [C] // 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Las Vegas: IEEE, 2016: 770-778..

[24]

HUANG G, LIU Z, MAATEN L V D et al. Densely connected convolutional networks [C] // 2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Honolulu IEEE, 2017: 2261-2260.

[25]

DANIEL W, BERND S R, MOSHE S

Design of deep convolutional neural network architectures for automated feature extraction in industrial inspection

[J]. CIRP Annual Manufacturing Technology, 2016, 65 (1): 417- 420

DOI:10.1016/j.cirp.2016.04.072 [本文引用: 1]

[26]

NAKAZAWA T, KULKARNI D V

Wafer map defect pattern classification and image retrieval using convolutional neural network

[J]. IEEE Transactions on Semiconductor Manufacturing, 2018, 31 (2): 309- 314

DOI:10.1109/TSM.2018.2795466 [本文引用: 1]

[27]

KYEONG K, KIM H

Classification of mixed-type defect patterns in wafer bin maps using convolutional neural networks

[J]. IEEE Transactions on Semiconductor Manufacturing, 2018, 31 (3): 395- 402

DOI:10.1109/TSM.2018.2841416 [本文引用: 1]

[28]

LEE H, KIM Y, KIM C O

A deep learning model for robust wafer fault monitoring with sensor measurement noise

[J]. IEEE Transactions on Semiconductor Manufacturing, 2017, 30 (1): 23- 31

DOI:10.1109/TSM.2016.2628865 [本文引用: 2]

[29]

PAN S J, YANG Q

A survey on transfer learning

[J]. IEEE Transactions on Knowledge and Data Engineering, 2010, 22 (10): 1345- 1359

DOI:10.1109/TKDE.2009.191 [本文引用: 2]

[30]

张雪松, 庄严, 闫飞, 等

基于迁移学习的类别级物体识别与检测研究与进展

[J]. 自动化学报, 2019, 45 (7): 1224- 1243

ZHANG Xue-song, ZHUANG Yan, YAN Fei, et al

Status and development of transfer learning based category-Level object recognition and detection

[J]. Acta Automatica Sinica, 2019, 45 (7): 1224- 1243

[31]

DONAHUE J, JIA Y, VINYALS O et al. DeCAF: a deep convolutional activation feature for generic visual recognition [C] // International Conference on Machine Learning (ICML). Bengjin: [s. n.], 2014: 647-655.

[32]

ZHOU Z H, FENG J. Deep forest: towards an alternative to deep neural networks [C] // International Joint Conference on Artificial Intelligence (IJCAI). Melbourne: [s. n.], 2017: 3553-3559.

[本文引用: 4]

[33]

UTKIN L V, RYABININ M A. A deep Forest for transductive transfer learning by using a consensus measure [C] // Conference on Artificial Intelligence and Natural Language (AINL). Petersburg: Springer, 2017: 194-208.

[34]

SRIVASTAVA R K, GREFF K, SCHMIDHUBER J, et al. Highway networks [EB/OL].（2015-11-03）[2019-04-30], https://arxiv.org/abs/1505.00387

[35]

LIU F T, TING K M, YU Y, et al

Spectrum of variable-random trees

[J]. Journal of Artificial Intelligence Research, 2008, 32 (1): 355- 384

[36]

GUO Y C. Knowledge-enabled short-term load forecasting based on pattern-base using classification & regression tree and support vector regression [C] // Fifth International Conference on Natural Computation. Tianjin: IEEE, 2009: 425-429.

[37]

WU M J, JANG J S R, CHEN J L

Wafer map failure pattern recognition and similarity ranking for large-scale data sets

[J]. IEEE Transactions on Semiconductor Manufacturing, 2015, 28 (1): 1- 12

DOI:10.1109/TSM.2014.2364237 [本文引用: 1]

[38]

LAURENS V D M, GEOFFREY H

2008. Visualizing data using T-SNE

[J]. Journal of Machine Learning Research, 2008, 9 (11): 2578- 2605