<img src="https://www.zjujournals.com/sci/images/1008-9497/images/logo.png" class="img-responsive">

图1 基于注意力机制与GhostNet的人脸表情识别模型

Fig.1 FSAGN model

特征嵌入模块，主要用于提取视频每帧的特征，并将其嵌入向量。为降低参数量、提升模型性能、降低训练成本，本文用GhostNet提取特征，并同时进行特征嵌入，GhostNet特征提取的可视化效果如图2所示。由图2可知，GhostNet提取的特征非常抽象，属于图像的高级特征，且随着网络深度的增加，其对不含人脸的图像提取的特征较混乱，而对含人脸的图像提取的特征大多包含了人脸的关键部位。

图2

图2 GhostNet随机提取AFEW数据集特征图展示

Fig.2 GhostNet randomly extracted AFEW data set feature map display

自注意力模块，主要通过自注意力机制对视频每帧图像的特征向量用sigmoid函数计算其注意力权重，注意力权重为0~1，值越大代表此帧图像包含的表情特征越显著。帧间信息融合模块，主要用于视频帧的帧间信息融合，通过融合各关键帧的特征向量，得到较为准确的视频表示形式，并与自注意力权重融合，得到帧间信息注意力权重，权重越大表示此视频帧对整段视频的意义越显著。视频帧选择模块，对视频关键帧进行选择，首先获取由自注意力模块与帧间信息融合模块计算得到的各帧注意力权重，再通过帧选择损失对关键帧与非关键帧进行划分，最终在视频中挑选出表情特征丰富的关键帧，即注意力权重较大的帧进行后续分类操作，通过此模块，模型可以自发地学习如何在一段视频中挑选表情信息丰富的关键帧。模型设计了ATCE Loss实现结合注意力权重的交叉熵损失函数，在进行分类损失计算时，可更多地将注意力关注到难分类样本，从而提升分类效果。

综上所述，模型算法流程如图3所示。

图3

图3 模型算法流程

Fig.3 Model algorithm flow

首先将一段视频帧 v₁， v₂，…， v_n 导入GhostNet网络，得到一组特征向量 F₁， F₂，…， F_n，随后由这一组特征向量通过自注意力机制得到每帧图像对应的自注意力权重值α₁，α₂，…，α_n，将特征向量与权重值进行帧间信息融合，并计算融合后的向量相较原向量的损失，得到每张图像对应的相对帧权重β，获取两组注意力权重后，通过综合权重损失Lw_fu约束得到最后的综合权重γ。为自发选择视频关键帧，设计帧选择损失L_fs，去除视频段中特征不丰富的视频帧，完成关键帧的自发选择。最后，由ATCE损失得到最终的分类结果。

2.1　GhostNet

GhostNet^［14］为一种轻量级网络。先提取一半图像特征，再由这部分特征经线性计算得到剩余的特征，因此GhostNet在保证模型性能的同时，大大减轻了训练成本。目前GhostNet主要用于图像识别，尚未见用于视频领域的表情识别。

实验发现，在包括AFEW数据集与CK+数据集在内的多个表情数据集中，在第一层神经网络提取的特征中也存在成对冗余现象，这与GhostNet解决的问题极为接近。为此，本文将GhostNet与注意力模型相结合，在提升识别率的同时，可大大减少训练参数，降低训练成本。

2.2　自注意力与帧间信息注意力权重计算模块

2.2.1　基于自注意力机制的视频帧权重分配

通过自注意力机制与帧选择损失实现对关键帧的选取。值得注意的是，在一段含有表情动作的视频序列中，往往只有某几帧包含表情特征，其他帧中表情相对平淡，或不含表情信息；在某些数据集中，甚至一段视频中大多数帧不包含人脸信息，只有个别帧存在表情信息。图4所示的为AFEW数据集中的某视频片段，只在第3帧中存在包含表情的人脸信息，其余帧均不含表情信息，本文将通过设计自注意力模块解决此问题。

图4

图4 AFEW数据集中某视频片段

Fig.4 A video clip in the AFEW dataset

自注意力模块通过自注意力机制对表情特征丰富的帧赋予高权值，对表情特征不显著的帧赋予低权值，最后通过帧选择损失对所有帧权值进行排序，得到表情信息丰富的帧。

首先，用GhostNet提取视频中每帧的特征，得到对应帧的特征向量。随后，通过全连接层与sigmoid函数为当前帧分配注意力权重，注意力模型中常用的求解注意力权重的公式为

α_{i} = σ (W_{a}^{T} x_{i})

，（1）

其中，α_i 为第i帧的权重，W_a为最后一层全连接层的参数，σ表示sigmoid激活函数。

2.2.2　帧间信息融合与帧融合损失

经过视频帧自注意力计算，得到视频关键帧与对应的权重α，然后将关键帧的特征向量加权融合，得到视频的向量表示式：

f_{v}^{'} = \frac{\sum_{i = 1}^{n} α_{i} f_{i}}{\sum_{i = 1}^{n} α_{i}},

（2）

其中， f_i 为第i帧的特征向量， $f_{v}^{'}$ 为视频经过自注意力权重加权计算后的向量表示形式。

值得注意的是，对视频帧进行加权融合会损失部分视频信息，为此定义了视频帧融合损失。令 f_v 为视频原始向量，则视频帧融合损失函数定义为

L_{f r a m e_f u} = \{\begin{array}{l} 0, |f_{v} - f_{v}^{'}| < φ_{1} ， \\ \frac{1}{2} (f_{v} - f_{v}^{'})^{2}, φ_{1} < |f_{v} - f_{v}^{'}| \leq φ_{2} ， \\ φ_{2} |f_{v} - f_{v}^{'}| - \frac{1}{2} φ_{2}^{2}, |f_{v} - f_{v}^{'}| > φ_{2} ， \end{array}

（3）

其中，φ₁，φ₂为超参数。视频帧融合损失的原则是计算加权后的视频向量与原视频向量间的信息损失，目的在于降低融合损失的同时，保证自注意力权重在模型中的意义。所以，帧融合损失定义为当加权视频向量与原视频向量差异小于某一超参数时，损失为0，当两者差异在［φ₁，φ₂］内时，通过二次函数的形式缓慢降低误差，而当两者差异过大，超过φ₂时，则采用线性方式快速降低误差。通过帧融合损失，令模型有效学习自注意力权重与加权融合产生损失的关系，从而更有效地进行数据训练。通过帧融合损失，可得到考虑了自注意力权重并消除了部分损失的全新视频表示向量 $f_{v}^{'}$ ，从而有效削弱在帧间信息融合过程中由损失带来的影响。

至此，得到了视频帧全新的视频向量表示，但其缺乏视频帧之间的相互联系，导致模型鲁棒性不高。为此，本文用帧间信息注意力模块表示不同帧之间的联系。第i帧的帧间信息注意力权重为

β_{i} = σ ([f_{i} \otimes f_{v}^{'}]^{T} W^{1})

，（4）

其中， $W^{1}$ 为最后一层全连接层需要训练的参数， f_i $\otimes$ $f_{v}^{'}$ 为第i帧特征向量与整段视频表示向量的融合计算。

至此，本模型已经得到视频帧对应的自注意力权重与帧间信息注意力权重，为更好地利用这2个权重，对其进行加权融合，得到综合权重γ。令γ=ζ₁·α+ζ₂·β，需要注意的是，为便于后续网络操作，综合权重须约束在［0，1］内，若综合权重不在此区间，则会使模型的收敛出现问题。为实现综合权重的动态选择，并保证综合权重在［0，1］内，将综合权重融合损失L_{w_fu}定义为

L_{w_f u} = \{\begin{array}{l} ξ_{1} \cdot α + ξ_{2} \cdot β, γ > 1 ， \\ 0, 0 \leq γ \leq 1 ， \\ - ξ_{1} \cdot α - ξ_{2} \cdot β, γ < 0 ， \end{array}

（5）

其中，ζ₁与ζ₂均为损失函数需要优化的参数，α和β分别为自注意力权重与帧间信息注意力权重。通过定义此损失函数，可对自注意力权重与帧间信息注意力权重进行相关性加权得到综合权重，并将综合权重约束在［0，1］内，从而确保模型训练的有效性。

最终，通过帧间信息融合，得到结合综合注意力权重的视频表示式：

f_{v}^{} = \frac{\sum_{i = 0}^{n} γ_{i} [f_{i} \otimes f_{v}^{'}]}{\sum_{i = 0}^{n} γ_{i}},

（6）

其中，γ_i 为第i帧图像的综合权重。

2.3　视频帧选择

为选择关键帧，设计了视频帧选择损失。在视频帧选择模块中，首先用比率η通过学习将视频帧权重划分为高权重与低权重2个组，笔者设计了一个视频选择损失，可确保高权重组的平均权重远大于低权重组的平均权重。损失函数定义为

L_{f s} = \{\begin{array}{l} δ - （ γ_{H} - γ_{L} ）, γ_{H} - γ_{L} < δ ， \\ 0, γ_{H} - γ_{L} > δ ， \end{array}

（7）

由式（7），可推得

L_{f s} = m a x {0 ， δ - （ γ_{H} - γ_{L} ）}

s.t.： 0<

δ

<1，

其中，

γ_{H} = \frac{1}{M} \sum_{i = 0}^{M} γ_{i}

，

γ_{L} = \frac{1}{N - M} \sum_{i = M}^{N} γ_{i}

，（8）

δ为可调整超参数，用于对视频帧进行合理分组，γ为融合了自注意力权重与帧间信息的综合权重，γ_H与γ_L分别为高权重组与低权重组的平均权重，N为帧的总数，M为N与比率η的乘积，当且仅当γ_H-γ_L>δ时（其中δ为自定义超参数），损失降至最小值。通过计算损失函数，合理划分高权重组与低权重组，本文选择高权重组中的帧作为对应视频的关键帧进行后续分类操作，而低权重组中的帧因无法较好地表征表情特征，予以丢弃。

2.4　结合注意力权重的多分类交叉熵损失

多分类交叉熵损失是深度学习分类任务中常用的损失函数，而将注意力权重引入损失函数可取得更好的效果^［15］，焦点损失函数^［16］通过置信度区间将样本分为难分类样本与易分类样本，实现模型对难分样本的关注，通过设置超参数提高难分类样本损失。本文在注意力模块中经计算得到每帧的注意力权重，因在帧选择模块中非关键帧已被抛弃，所以在剩余样本中，可将高权重帧归为易分类样本、低权重帧归为难分类样本。在此基础上，本文设计了结合注意力权重的交叉熵损失（attention based cross-entropy loss），将得到的注意力权重与交叉熵损失结合，实现降低易分类样本损失、提高难分类样本损失的目的。在原始交叉熵损失的基础上，将不同样本与其对应注意力权重进行乘法运算，得到考虑了注意力的交叉熵损失。损失函数定义为

L_{A T C E} = \frac{1}{N} \sum_{i = 1}^{N} L o s s_{i} = - \frac{1}{N} \sum_{i = 1}^{N} l o g \frac{e^{γ_{i} (W_{y_{i}}^{T} x_{i} + b_{y_{i}})}}{\sum_{j = 1}^{C} e^{γ_{i} (W_{j}^{T} x_{i} + b_{j})}} ，

（9）

其中，W_j，b_j 分别为第j个类别的权值参数与偏置参数，x_i 为第i个样本， $W_{y_{i}}$ 和 $b_{y_{i}}$ 分别为神经网络中的参数与偏置。由式（2）可知，γ的取值将影响损失的大小，且二者成正比关系。

在模型的训练过程中，总的损失函数可定义为

L_{a l l} = λ_{1} L_{F S} + λ_{2} L_{A T C E} + λ_{3} L_{f r a m e_f u} + λ_{4} L_{w_f u},

（10）

其中，λ₁，λ₂，λ₃，λ₄为平衡率，且λ₁+λ₂=1， $λ_{3}$ =0.05~0.25， $λ_{4}$ =0.5~0.9。

3　实验和结果分析

3.1　数据集及实验准备

所用数据集为CK+与AFEW。CK+数据集共有123位参与者，包含593个视频序列，被标记为愤怒、蔑视、厌恶、恐惧、快乐、悲伤和惊讶共7种基本表情标签。CK+数据集未分训练集与测试集，本文按照等样本规则将其划分为训练集与测试集，并通过旋转、平移等方式进行数据增强操作。

AFEW数据集包含了从不同电影或电视剧中剪辑的表情视频片段，无用信息多，训练难度较大。AFEW数据集分训练集、验证集与测试集三部分，其中，训练集样本773个，验证集383个，测试集653个。因为AFEW的测试集样本是非开放的，所以只选择其中的训练集与验证集。

用pytorch工具构建训练特征集合。首先，提取各视频的RGB视频帧序列，随后将分辨率调整至224×224。然后，通过旋转、平移、滑动等操作，对视频帧进行数据增强，将2个数据集的数量扩充10倍。用SGD优化器对网络进行优化，动量设置为0.9，权重衰减为0.000 1。在CK+数据集中，设置初始学习率为0.1，且每隔20个循环降0.02，共进行80次循环。在AFEW数据集中，设置初始学习率为0.001，且每隔40个循环降0.000 2，共进行200次循环。

实验环境为CPU Intel Core i5-6500，内存为16 GB，显卡型号为NVIDIA GeForce GTX 1080ti，操作系统为Ubuntu16.04，采用pytorch深度学习框架。

表情识别准确率是表情识别任务中常用的评价方法，本文在识别任务后首先计算单类别识别准确率，即预测正确的视频数量与视频总数量的比值，之后，以所有类别识别准确率的平均值作为最终的评价指标。

3.2　实验结果及分析

3.2.1　CK+数据集

CK+数据集由实验室制作，数据集质量较高，外部环境对视频质量的影响较小。由于CK+数据集视频中的人脸表情大多由平静向表情峰值逐渐变化，因此通常选择最后一帧或后几帧进行特征提取与分类。为验证方法的有效性，将本文算法与效果较好的几种已有算法进行了实验对比，见表1。

表1 CK+数据集上各算法的识别率

Table 1 The recognition rate of each method on CK+dataset

算法	使用帧数	识别率/%
LoMo^［18］	全部帧	92.00
CNN+Island^［20］	其中两帧	94.35
RASNet^［1］	最后一帧	96.28
FAN^［4］	全部帧	99.69
WMDCNN^［19］	最后一帧	98.52
DTAGN^［17］	最后一帧	97.25
XIE等^［6］	其中三帧	97.83
本文算法	全部帧	99.64

由表1知，本文算法的平均识别率为99.64%，排第2，其中，SIKKA等^［18］提出的LoMo算法提取了传统的SIFT及LBP特征，并通过SVM进行分类，其识别率可达92%。CAI等^［20］将CNN模型与Island损失函数结合，应用于表情分类任务，取得了94.35%的识别率。HE等^［1］提出的RASNet模型，将注意力模块嵌入卷积层，得到了96.28%的识别率。MENG等^［4］提出的FAN模型，引入自注意力与相对注意力模块，在随机挑选视频帧的基础上，实现了99.69%的高识别率，是目前较出色的算法。本文算法的识别率为99.62%，仅次于MENG等^［4］的算法，算法有效。

3.2.2　AFEW数据集

AFEW数据集由工作人员从影视节目中剪辑而来，用于EmotionW竞赛，其环境复杂度高、表情特征不显著、个别视频帧不含表情特征，模型学习困难，是当前表情识别领域极具挑战性的数据集之一。表2为当前AFEW数据集中表现较好的几个算法的比较。

表2 AFEW数据集上各算法的识别率

Table 2 The recognition rate of each method on AFEW dataset

算法	训练时间	识别率/%
CNN-RNN	51 h 26 min 48 s	45.43
VGG-LSTM	51 h 40 min 06 s	48.60
HoloNet^［2］	42 h 05 min 18 s	44.57
DenseNet	42 h 11 min 30 s	51.44
FAN^［4］	41 h 35 min 28 s	51.18
XIE等^［6］	42 h 53 min 13 s	46.03
GRERN^［5］	39 h 11 min 03 s	52.26
本文算法	29 h 40 min 50 s	52.31

其中，CNN-RNN与VGG-LSTM算法将卷积神经网络与循环神经网络进行了有效结合，即先通过卷积神经网络提取视频帧特征，再将特征向量导入循环神经网络，学习其时间特征，最后进行表情分类。此算法学习了视频的动态时间信息，在一定程度上将循环神经网络带入表情识别任务，并取得了一定的效果。HoloNet与DenseNet算法则以卷积神经网络为基本框架，不包含动态时间信息，是一种静态识别方法。FAN算法在AFEW数据集也取得了不错的效果。

由表2知，本文方法达到了较高水准，识别率较VGG-LSTM等动态模型有较大幅度提升，超DenseNet 0.81%。值得注意的是，FAN算法也采用自注意力与相对注意力相结合的架构进行帧间信息融合操作，但因采用的是随机方式选择视频帧，导致其在AFEW数据集中容易选择表情特征不显著甚至不包含表情特征的图像，使模型学习到不利于表情识别的特征，降低了模型的识别率。经改进，本文算法的表情识别率有了较大提升。此外，在相同数据集下，通过引入GhostNet，在识别率提升的同时训练时间得以大幅缩短。

3.3　消融实验

3.3.1　3个模块对实验效果的影响分析

本文模型包含基于自注意力机制的帧选择模块、结合GhostNet的特征提取模块、基于相对帧注意力机制的帧间信息融合模块。为判断模型中每个模块的意义，设计了消融实验，实验结果如表3所示。

表3 3个模块的实验效果比较

Table 3 Effect comparison of three modules

帧选择模块	特征提取模块（GhostNet）	帧间信息融合模块	识别率/%
帧选择模块	特征提取模块（GhostNet）	帧间信息融合模块	CK+	AFEW
×	×	×	87.17	43.55
×	√	×	87.14	43.45
√	×	×	99.11	51.05
√	×	√	99.59	52.24
√	√	×	99.55	52.18
√	√	√	99.64	52.31

注 √表示使用，×表示不使用。

在没有使用GhostNet的实验中，用ResNet19提取视频图像特征。由表3前两行可知，在特征提取时，将其他网络替换为GhostNet，实验效果不仅不会提升，反而略有下降；由表3第3行知，帧选择模块可大幅提升识别率，在不使用帧间信息融合模块与GhostNet的前提下，加入帧选择模块，即式（2）与式（3），识别率在CK+数据集中提升了10%，在AFEW数据集中提升了7%，说明加入基于自注意力机制的帧选择模块是有效的。由表3第4、第5行知，在使用帧选择模块、不使用GhostNet的前提下，加入帧间信息融合模块，即式（5），识别率有小幅提升；同样，在使用GhostNet后，不加入帧间信息融合模块，识别率也有小幅提升，这也说明加入帧间信息融合模块是有效的。由表3最后一行知，在使用帧选择模块与帧间信息融合模块的前提下，引入GhostNet的识别率较不引入有较小幅度提升，考虑GhostNet的网络架构，实验参数较少，训练时间较其他网络大幅减少，因此大大降低了模型训练成本。

3.3.2　平衡率λ对识别率的影响分析

对分类损失函数ATCE Loss与帧选择损失函数FrameChoice Loss的平衡率λ₁和λ₂进行了实验，以判断λ₁和λ₂的选取对识别率的影响。实验在不包含λ₃和λ₄的条件下进行，结果如表4所示。发现λ₁取0.4时效果最好，逐渐提升或降低λ₁，效果变差，由此说明，分类损失函数的权重较帧选择损失函数大。

表4 λ₁和λ₂的不同取值对模型识别率的影响

Table 4 The influence of different values of λ₁ and λ₂ on model recognition rate

λ₁	λ₂	识别率/%
λ₁	λ₂	CK+	AFEW
0.2	0.8	97.49	48.25
0.3	0.7	98.49	49.17
0.4	0.6	99.62	52.25
0.5	0.5	99.48	52.17
0.6	0.4	98.17	50.49

同时，对帧融合损失平衡率λ₃与权重融合损失平衡率λ₄进行了实验，实验结果分别如表5和表6所示，其中λ₁和λ₂分别取0.4和0.6，对λ₃的实验，将λ₄设置为0.7，对λ₄的实验，将λ₃设置为0.15。发现，当λ₃取0.15时效果最佳，在AFEW数据集中相较原模型提高了0.04%，在CK+数据集中则无明显提升，λ₃的取值越高效果越差，这也说明帧融合损失函数对模型的提升具有局限性，面对实验室场景下的数据集，因数据完善，提升效果不明显，而对于自然场景下的数据集，可以有效融合自注意力权重与原图像，实现识别率的提升；在另一组实验中，当λ₄取0.7时，识别率有较大提升，说明综合权重的选择对提升模型识别率有重要意义。

表5 λ₃的不同取值对应的模型识别率

Table 5 The recognition rate of the model with different values λ₃

λ₃	识别率/%
λ₃	CK+	AFEW
0.05	99.49	51.17
0.10	99.54	51.49
0.15	99.62	52.29
0.20	99.61	52.25
0.25	99.6	52.17

表6 λ₄的不同取值对应的模型识别率

Table 6 The recognition rate of the model with different values λ₄

λ₄	识别率/%
λ₄	CK+	AFEW
0.5	99.62	52.21
0.6	99.61	52.26
0.7	99.64	52.31
0.8	99.58	51.98
0.9	99.50	51.05

3.3.3　高权重视频帧比率 $γ$ 对识别率的影响分析

γ为高权重组样本占总样本的比率。实验发现，比率γ对模型的识别效果有一定影响，图5中，黄色折线表示模型在CK+数据集中的识别率，蓝色折线表示模型在AFEW数据集中的识别率。由图5可知，当γ为0.7时，模型在AFEW数据集中取得了最佳效果，当γ小于0.7时，易造成过多视频帧被抛弃，丢失部分有用信息，导致模型识别率下降；反之，若γ过大，保留了绝大多数视频帧，无法有效删除无用视频帧，影响模型的识别率。值得注意的是，当γ为0.8时，模型在CK+数据集中取得了最佳效果。分析发现，因CK+数据集与表情无关的信息较少，对动态选择视频帧的需求相对较低，所以当γ较高时，识别率更好。

图5

图5 比率γ对模型识别效果的影响

Fig.5 The influence of parameter γ on model recognition effect

3.3.4　分组阈值参数δ对识别率的影响分析

δ为对视频帧进行分组的阈值参数，如图6所示，黄色折线表示模型在CK+数据集中的识别率，蓝色折线表示模型在AFEW数据集中的识别率。由图6可知，当参数δ为0.2时，模型在AFEW数据集中取得了最佳效果，当δ为0.15时，模型在CK+数据集中取得了最佳效果，说明此时高权重组权重平均值γ_H与低权重组权重平均值γ_L处于相对平衡状态，若破坏其平衡状态则会令模型效果变差。

图6

图6 参数δ对模型识别效果的影响

Fig.6 The influence of parameter δ on model recognition effect

3.4　在AFEW数据集中的帧选择权重γ及可视化

为更好地证明帧选择模块在模型中的意义，在AFEW数据集实验中对帧选择权重γ进行了记录和可视化。如图7所示，分别从AFEW数据集7种标签中随机挑选一段视频，为方便记录，挑选的视频均只包含6帧，其中，红色虚线框表示抛弃视频帧，蓝色虚线框表示保留视频帧。在对数据集进行训练后，记录挑选视频帧的权重γ，并对其做可视化操作。若一段视频中包含不存在人脸信息的视频帧，如恶心、害怕、悲伤3段视频，不含人脸信息的帧权重得分较低，而剩余包含人脸信息的视频帧权重得分较高，所以，在视频帧选择过程中，删除不包含人脸信息的视频帧；若一段视频全为人脸信息，则出现2种权重值分配方式，如生气、高兴、惊喜3段视频，帧与帧之间表情反差较大，存在由无表情到有表情的变化，通过权值分配，虽然权重差异并不大，但依然完成了对表情特征较丰富的关键帧的选取，此外，如图7中的中性视频片段所示，整段视频不存在明显的表情变化，各帧注意力权重较均匀，最终随机选择了部分视频帧。

图7

图7 视频帧选择权重γ可视化

Fig.7 Video frame selection weight γ visualization

由此可知，视频帧选择模块对无人脸表情信息或表情变化较大视频段的选择效果更佳。

4　结语

提出了一种基于自注意力视频帧选择与GhostNet结合的人脸表情识别模型，通过自注意力机制自发地选择数据集中表情特征显著的帧，通过帧间信息融合学习完整的视频表示，其中，引入GhostNet实现高效的特征提取工作，最终实现视频表情分类任务。由于在视频表情数据集中，人脸表情大多由平淡到峰值再到平淡的过程，且部分视频帧可能不包含表情特征，因此可利用基于自注意力机制的帧选择模块实现对关键帧的选取。其次，因为表情识别深度模型参数量大，训练成本较高，所以引入GhostNet，以降低训练成本。最后，在2个公开的视频表情数据集CK+与AFEW中设计了多组实验，并对模型进行了多个方面评估。实验结果表明，基于自注意力帧选择与GhostNet的模型在降低训练成本的同时，可有效提升表情识别率。

未来工作将考虑进一步改进GhostNet。GhostNet对第一层神经网络提取特征冗余部分的处理最为特殊，通过线性计算在得到与原始模型相似特征的基础上，可大大减少模型参数，降低模型训练成本。如何改进线性计算单元，使在降低模型参数的基础上更出色地提取特征，将是进一步研究的方向。微表情是表情识别的一个分支，其作为一种自发性的表情，动作幅度小、持续时间短，难以训练出好的针对微表情的模型。如何将此模型较好地应用于微表情，也是今后研究的方向。

http://dx.doi.org/10.3785/j.issn.1008-9497.2022.02.001

参考文献

原文顺序

文献年度倒序

文中引用次数倒序

被引期刊影响因子

[1]

K M

， ZHANG

X Y

， REN

S Q

，et al.

Deep residual learning for image recognition

［C］//IEEE Conference on Computer Vision and Pattern Recognition. Piscataway： IEEE，2016： 770-778. doi:10.1109/cvpr.2016.90

[本文引用: 3]

[2]

YAO

A B

， CAI

D Q

， HU

，et al.

HoloNet： Towards robust emotion recognition in the wild

［C］//Proceedings of the 18th ACM International Conference on Multimodal Interaction. New York： Association for Computing Machinery，2016： 472-478. DOI：10.1145/2993148.2997639

[3]

LIU

C H

， TANG

T H

，LYU K，et al.

Multi-feature based emotion recognition for video clips

［C］//ACM International Conference on Multimodal Interaction. New York： Association for Computing Machinery，2018： 630-634. doi:10.1145/3242969.3264989

[4]

MENG

D B

， PENG

X J

， WANG

，et al.

Frame attention networks for facial expression recognition in videos

［C］//2019 IEEE International Conference on Image Processing. Piscataway： IEEE，2019： 3866-3870. doi:10.1109/icip.2019.8803603

[本文引用: 5]

[5]

GAO

Q Q

， ZENG

H X

， LI

，et al.

Graph reasoning-based emotion recognition network

［J］. IEEE Access，2020，9： 6488-6497. DOI：10.1109/ACCESS.2020. 3048693

[6]

XIE

W C

， CHEN

W T

， SHEN

L L

，et al.

Surrogate network-based sparseness hyper-parameter optimization for deep expression recognition

［J］. Pattern Recognition，2020，111： 107701. DOI：10. 1016/j.patcog.2020.107701

[本文引用: 3]

[7]

LUCEY

， COHN

J F

， KANADE

，et al.

The extended cohn-kanade dataset （CK+）： A complete dataset for action unit and emotion-specified expression

［C］//2010 IEEE Computer Society Conference on Computer Vision and Pattern Recognition-Workshops. Piscataway： IEEE，2010： 94-101. DOI：10.1109/CVPRW.2010.5543262

[8]

DHALL

， GOECKE

， JOSHI

，et al.

Emotion recognition in the wild challenge 2014： Baseline，data and protocol

［C］//Proceedings of the 16th International Conference on Multimodal Interaction. Piscataway： IEEE，2014： 461-466. DOI：10.1145/2663204. 2666275

[9]

OJALA

， PIETIKAINEN

， MAENPAA

Multiresolution gray-scale and rotation invariant texture classification with local binary patterns

［J］. IEEE Transactions on Pattern Analysis and Machine Intelligence，2002，24（7）： 971-987. DOI：10.1109/TPAMI.2002.1017623

[10]

黄凯奇，任伟强，谭铁牛.

图像物体分类与检测算法综述

［J］.计算机学报，2014，37（6）： 1225-1240. DOI：10.3724/SP.J.1016.2014.01225

HUANG

K Q

， REN

W Q

， TAN

T N

，et al.

A review on image object classification and detection

［J］. Chinese Journal of Computers，2014，37（6）： 1225-1240. DOI：10.3724/SP.J.1016.2014.01225

[11]

HOCHREITER

， SCHMIDHUBER

Long short-term memory

［J］. Neural Computation，1997，9（8）： 1735-1780. DOI：10.1162/neco.1997.9.8.1735

[12]

BARGAL

S A

， BARSOUM

， FERRER

C C

，et al.

Emotion recognition in the wild from videos using images

［C］// Proceedings of the 18th ACM International Conference on Multimodal Interaction. New York： Association for Computing Machinery，2016： 433-436. doi:10.1145/2993148.2997627

[13]

ZHAO

X Y

， LIANG

X D

， LIU

L Q

，et al.

Peak-piloted deep network for facial expression recognition

［C］// European Conference on Computer Vision. Cham： Springer，2016： 425-442. DOI：10.1007/978-3-319-46475-6_27

[14]

HAN

， WANG

Y H

， TIAN

，et al.

GhostNet： More features from cheap operations

［C］// 2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway： IEEE，2020：1577-1586. doi:10.1109/cvpr42600.2020.00165

[15]

WEI

， HUANG

Y Y

， ZHANG

，et al.

Noise-tolerant paradigm for training face recognition CNNs

［C］// 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway： IEEE，2019：11887-11896. doi:10.1109/cvpr.2019.01216

[16]

LIN

T Y

， GOYAL

， GIRSHICK

，et al.

Focal loss for dense object detection

［C］// 2017 IEEE International Conference on Computer Vision. Piscataway： IEEE，2017：2999-3007. doi:10.1109/iccv.2017.324

[17]

JUNG

， LEE

，YIM J，et al.

Joint fine-tuning in deep neural networks for facial expression recognition

［C］//IEEE International Conference on Computer Vision. Piscataway： IEEE，2015： 2983-2991. DOI：10.1109/ICCV.2015.341

[18]

SIKKA

， SHARMA

， BARTLETT

LoMo： Latent ordinal model for facial analysis in videos

［C］//IEEE Conference on Computer Vision and Pattern Recognition. Piscataway： IEEE，2016：5580-5589. doi:10.1109/cvpr.2016.602

[19]

ZHANG

H P

， HUANG

， TIAN

G H

Facial expression recognition based on deep convolution long short-term memory networks of double-channel weighted mixture

［J］. Pattern Recognition Letters，2020，131： 128-134. DOI：10.1016/j.patrec.2019. 12.013

[20]

CAI

， MENG

Z B

， KHAN

A S

，et al.

Island loss for learning discriminative features in facial expression recognition

［C］//2018 13th IEEE International Conference on Automatic FACE and Gesture Recognition. Piscataway： IEEE，2018：302-309. doi:10.1109/fg.2018.00051