浙江大学学报(理学版), 2022, 49(2): 141-150 doi: 10.3785/j.issn.1008-9497.2022.02.002

智能视觉与可视化

FSAGN: 一种自主选择关键帧的表情识别方法

祝锦泰,,1,2, 叶继华,,1, 郭凤1, 江蕗1, 江爱文1

1.江西师范大学 计算机信息工程学院,江西 南昌 330022

2.淄博技师学院 信息工程系,山东 淄博 255030

FSAGN:An expression recognition method based on independent selection of video key frames

ZHU Jintai,,1,2, YE Jihua,,1, GUO Feng1, JIANG Lu1, JIANG Aiwen1

1.School of Computer Information Engineering,Jiangxi Normal University,Nanchang 330022,China

2.Department of Information Engineering,Zibo Technician College,Zibo 255030,Shandong Province,China

通讯作者: ORCID:https://orcid.org/0000-0001-5131-4454,E-mail:yjhwcl@163.com.

收稿日期: 2021-06-21  

基金资助: 国家自然科学基金资助项目.  61462042.  61966018

Received: 2021-06-21  

作者简介 About authors

祝锦泰(1994—),ORCID:https://orcid.org/0000-0003-0682-8100,男,硕士研究生,主要从事智能信息处理研究,E-mail:2545000505@qq.com. , E-mail:2545000505@qq.com

摘要

由于在包含表情的视频数据集中存在大量与表情特征无关的视频帧,使得模型在训练中学习到大量无关信息,导致识别率大幅下降,因此如何令模型自主地选择视频关键帧成为研究的关键。在已有的视频表情识别方法中,大多没有考虑关键帧和非关键帧对模型训练效果的影响,为此提出了一种基于注意力机制与GhostNet的人脸表情识别(FSAGN)模型。通过自注意力机制与帧选择损失计算不同帧的权重,根据权重自主选择视频序列的关键帧。此外,为减少模型参数、降低模型的训练成本,将传统的特征提取网络替换为训练参数较少的GhostNet网络,并与注意力机制结合,分别在CK+和AFEW数据集中进行了实验,得到的最高识别率分别为99.64%和52.31%,分类正确率具有竞争力,适用于对视频序列较长且在视频序列中表情特征分布不均匀的面部表情识别。

关键词: 面部表情识别 ; 注意力机制 ; 关键帧自主选择 ; GhostNet

Abstract

As there exist a large number of video frames unrelated to facial expressions in the video data set containing facial expressions, a large amount of information unrelated to facial expressions is learned in the training process of the model, which results in a significant decline of the performance. So how to make the model capable of choosing the relevant video key frame autonomously becomes the key problem. At present, most of the existing video expression recognition methods do not yet consider the different effects of key frame and non-key frame on the training effect of the model. In the paper, a face expression recognition model based on attention mechanism and GhostNet(FSAGN) is proposed. The model calculates the weights of different frames by self-attention mechanism and frame selection loss, then selects the key frames of the video sequence autonomously according to the weights. In addition, in order to reduce model parameters and training costs, our approach replaces the traditional feature extraction network with the GhostNet network with fewer training parameters, and combines it with the attention model. Experiments were carried out on the designed network in CK+ and AFEW data sets, and the highest recognition rates were 99.64% and 52.31%, respectively, which reached a competitive classification accuracy. It was suitable for facial expression recognition tasks with long video sequences and uneven distribution of facial expression features in video sequences.

Keywords: facial expression recognition ; attention model ; key frame selection ; GhostNet

PDF (2734KB) 元数据 多维度评价 相关文章 导出 EndNote| Ris| Bibtex  收藏本文

本文引用格式

祝锦泰, 叶继华, 郭凤, 江蕗, 江爱文. FSAGN: 一种自主选择关键帧的表情识别方法. 浙江大学学报(理学版)[J], 2022, 49(2): 141-150 doi:10.3785/j.issn.1008-9497.2022.02.002

ZHU Jintai, YE Jihua, GUO Feng, JIANG Lu, JIANG Aiwen. FSAGN:An expression recognition method based on independent selection of video key frames. Journal of Zhejiang University(Science Edition)[J], 2022, 49(2): 141-150 doi:10.3785/j.issn.1008-9497.2022.02.002

基于视频的人脸表情识别是表情识别任务的一部分,主要包含视频数据预处理、表情特征提取与分类,其中,视频中人脸表情信息的提取尤为重要。已有方法中,一部分通过CNN网络及其变体直接对视频帧进行表情特征提取,如HE等1提出的ResNet在表情识别任务中取得了不错效果,YAO等2提出的HoloNet网络在视频任务中给出了新的思路,LIU等3提出的DenseNet在AFEW表情数据集中的识别率达51.44%。另一部分通过帧间信息特征融合得到视频表示,以取得更高的表情识别率,如MENG等4引入了注意力模型,对视频相对帧的特征向量进行融合,取得了较好的识别效果,GAO等5尝试引入图卷积模型,结合注意力机制与图的节点特征,实现了对视频序列中表情的识别,通过新方法的交叉应用令识别率不断提升,XIE等6通过改进和优化超参数算法,在AFEW数据集与CK+数据集中取得了较好的识别效果。

在已有基于视频的表情数据集中,有些由实验室采集,如CK+数据集7,表情多由平静走向峰值,训练相对容易,且大多网络均具较高的识别率;有些通过剪辑的方式从电影的人脸表情视频片段中获取,如AFEW数据集8,此类数据集制作较困难,易导致同一片段中的表情分布不均匀,表情信息可能出现在中间几帧,也可能出现在前后几帧,甚至部分视频片段的某几帧不存在人脸信息,然而,目前已有的对于视频帧的选择方式大多为默认挑选最后一帧或随机选择某几帧,使得所选视频帧中含有一定量无表情帧,影响模型的识别率。此外,基于视频的表情识别网络,参数多、训练成本大,无法较好地应用于实际。

为解决上述问题,笔者设计了一个视频帧选择网络,通过自注意力机制赋予表情特征显著的帧以较高的权重,并根据帧的损失大小对视频信息进行划分,从而实现对具有显著表情特征帧的选择,即关键帧自主选择,此外,将帧选择模型与GhostNet结合,在提高识别率的同时大幅度减少了模型参数,从而降低模型训练的成本。本方法在CK+(Coh-Ka-Made dataset)和AFEW这2个公开数据集上均取得了不错的效果。

本文的主要贡献: 提出了一种基于注意力机制的帧选择模型,可使其在视频帧的选择任务中,尽可能选择表情特征显著的关键帧,从而提高识别率;设计了一个帧选择损失函数,通过计算帧信息的注意力权重,按帧对每段视频的信息进行有效性划分;将注意力模型与GhostNet有效结合,在提高识别率的同时大幅度减少了模型参数,从而降低模型训练的成本。

1 相关工作

根据特征提取方式的不同,基于视频的人脸表情识别可分为两大类:(1)传统手工特征提取方法,采用传统方法,手工提取表情特征并进行定位;(2)基于深度学习的特征提取方法,其优势是可自动提取特征,且可提取部分手工无法提取的特征。

传统手工特征提取方法主要包含局部二值模式(local binary pattern,LBP)9与方向梯度直方图10等,其在表情识别任务中取得了较好的效果,但因不能自发学习并提取表情深度特征,限制了其进一步发展。

随着深度学习的发展与完善,更多的深度学习模型被应用于表情识别,基于深度学习的特征提取方法主要有针对连续帧的特征提取与针对离散帧的特征提取2种。

基于时空的特征提取方法其目的是为视频中的时间或运动信息建模,主要用于连续帧的特征提取。目前,最常见的时空特征提取模型有长短期记忆模型(LSTM)和3D卷积神经网络(C3D)。利用特征向量提取序列信息的长短期记忆模型已成功应用于视频序列的特征提取。HOCHREITER等11提出了一种可灵活处理长度(长度可变)的连续数据LSTM模型,有效提升了连续帧任务中表情的识别率。此外,3D卷积神经网络与CNN和LSTM相结合的组合神经网络也开始广泛用于视频表情识别。

在针对离散帧的特征提取任务中,为获得与不同帧相关联的视频信息,如何融合视频帧实现更合理高效的视频表示广受关注,BARGAL等12提出的统计编码单元(STAT),通过计算每帧特征向量的平均值、最大值、最小值等实现帧间信息融合。ZHAO等13提出了一种峰值导频深度网络(PPDN),将同一测试者的非表情峰值和表情峰值图像输入神经网络,利用L2损失最小化2个输入图像的距离,从而使网络可学习表情峰值与非峰值的差异,最终将学习到的差异用于视频帧的选择与表情分类。

2 注意力机制结合GhostNet的人脸表情识别模型

基于注意力机制与GhostNet的人脸表情识别模型处理表情视频序列的执行过程如图1所示。主要分为特征嵌入(由GhostNet实现)、帧间信息融合和视频帧选择3个基本模块 。

图1

图1   基于注意力机制与GhostNet的人脸表情识别模型

Fig.1   FSAGN model


特征嵌入模块,主要用于提取视频每帧的特征,并将其嵌入向量。为降低参数量、提升模型性能、降低训练成本,本文用GhostNet提取特征,并同时进行特征嵌入,GhostNet特征提取的可视化效果如图2所示。由图2可知,GhostNet提取的特征非常抽象,属于图像的高级特征,且随着网络深度的增加,其对不含人脸的图像提取的特征较混乱,而对含人脸的图像提取的特征大多包含了人脸的关键部位。

图2

图2   GhostNet随机提取AFEW数据集特征图展示

Fig.2   GhostNet randomly extracted AFEW data set feature map display


自注意力模块,主要通过自注意力机制对视频每帧图像的特征向量用sigmoid函数计算其注意力权重,注意力权重为0~1,值越大代表此帧图像包含的表情特征越显著。帧间信息融合模块,主要用于视频帧的帧间信息融合,通过融合各关键帧的特征向量,得到较为准确的视频表示形式,并与自注意力权重融合,得到帧间信息注意力权重,权重越大表示此视频帧对整段视频的意义越显著。视频帧选择模块,对视频关键帧进行选择,首先获取由自注意力模块与帧间信息融合模块计算得到的各帧注意力权重,再通过帧选择损失对关键帧与非关键帧进行划分,最终在视频中挑选出表情特征丰富的关键帧,即注意力权重较大的帧进行后续分类操作,通过此模块,模型可以自发地学习如何在一段视频中挑选表情信息丰富的关键帧。模型设计了ATCE Loss实现结合注意力权重的交叉熵损失函数,在进行分类损失计算时,可更多地将注意力关注到难分类样本,从而提升分类效果。

综上所述,模型算法流程如图3所示。

图3

图3   模型算法流程

Fig.3   Model algorithm flow


首先将一段视频帧 v1v2,…, vn 导入GhostNet网络,得到一组特征向量 F1F2,…, Fn,随后由这一组特征向量通过自注意力机制得到每帧图像对应的自注意力权重值α1α2,…,αn,将特征向量与权重值进行帧间信息融合,并计算融合后的向量相较原向量的损失,得到每张图像对应的相对帧权重β,获取两组注意力权重后,通过综合权重损失Lw_fu约束得到最后的综合权重γ。为自发选择视频关键帧,设计帧选择损失Lfs,去除视频段中特征不丰富的视频帧,完成关键帧的自发选择。最后,由ATCE损失得到最终的分类结果。

2.1 GhostNet

GhostNet14为一种轻量级网络。先提取一半图像特征,再由这部分特征经线性计算得到剩余的特征,因此GhostNet在保证模型性能的同时,大大减轻了训练成本。目前GhostNet主要用于图像识别,尚未见用于视频领域的表情识别。

实验发现,在包括AFEW数据集与CK+数据集在内的多个表情数据集中,在第一层神经网络提取的特征中也存在成对冗余现象,这与GhostNet解决的问题极为接近。为此,本文将GhostNet与注意力模型相结合,在提升识别率的同时,可大大减少训练参数,降低训练成本。

2.2 自注意力与帧间信息注意力权重计算模块

2.2.1 基于自注意力机制的视频帧权重分配

通过自注意力机制与帧选择损失实现对关键帧的选取。值得注意的是,在一段含有表情动作的视频序列中,往往只有某几帧包含表情特征,其他帧中表情相对平淡,或不含表情信息;在某些数据集中,甚至一段视频中大多数帧不包含人脸信息,只有个别帧存在表情信息。图4所示的为AFEW数据集中的某视频片段,只在第3帧中存在包含表情的人脸信息,其余帧均不含表情信息,本文将通过设计自注意力模块解决此问题。

图4

图4   AFEW数据集中某视频片段

Fig.4   A video clip in the AFEW dataset


自注意力模块通过自注意力机制对表情特征丰富的帧赋予高权值,对表情特征不显著的帧赋予低权值,最后通过帧选择损失对所有帧权值进行排序,得到表情信息丰富的帧。

首先,用GhostNet提取视频中每帧的特征,得到对应帧的特征向量。随后,通过全连接层与sigmoid函数为当前帧分配注意力权重,注意力模型中常用的求解注意力权重的公式为

αi=σ(WaTxi)

其中,αi 为第i帧的权重,Wa为最后一层全连接层的参数,σ表示sigmoid激活函数。

2.2.2 帧间信息融合与帧融合损失

经过视频帧自注意力计算,得到视频关键帧与对应的权重α,然后将关键帧的特征向量加权融合,得到视频的向量表示式:

fv'=i=1nαifii=1nαi,

其中, fi 为第i帧的特征向量,fv'为视频经过自注意力权重加权计算后的向量表示形式。

值得注意的是,对视频帧进行加权融合会损失部分视频信息,为此定义了视频帧融合损失。令 fv 为视频原始向量,则视频帧融合损失函数定义为

Lframe_fu=0,    fv-fv'<φ112(fv-fv')2,    φ1<fv-fv'φ2φ2fv-fv'-12φ22,    fv-fv'>φ2

其中,φ1φ2为超参数。视频帧融合损失的原则是计算加权后的视频向量与原视频向量间的信息损失,目的在于降低融合损失的同时,保证自注意力权重在模型中的意义。所以,帧融合损失定义为当加权视频向量与原视频向量差异小于某一超参数时,损失为0,当两者差异在[φ1φ2]内时,通过二次函数的形式缓慢降低误差,而当两者差异过大,超过φ2时,则采用线性方式快速降低误差。通过帧融合损失,令模型有效学习自注意力权重与加权融合产生损失的关系,从而更有效地进行数据训练。通过帧融合损失,可得到考虑了自注意力权重并消除了部分损失的全新视频表示向量fv',从而有效削弱在帧间信息融合过程中由损失带来的影响。

至此,得到了视频帧全新的视频向量表示,但其缺乏视频帧之间的相互联系,导致模型鲁棒性不高。为此,本文用帧间信息注意力模块表示不同帧之间的联系。第i帧的帧间信息注意力权重为

βi=σ([fifv']TW1)

其中,W1为最后一层全连接层需要训练的参数, fi  fv'为第i帧特征向量与整段视频表示向量的融合计算。

至此,本模型已经得到视频帧对应的自注意力权重与帧间信息注意力权重,为更好地利用这2个权重,对其进行加权融合,得到综合权重γ。令γ=ζ1·α+ζ2·β,需要注意的是,为便于后续网络操作,综合权重须约束在[0,1]内,若综合权重不在此区间,则会使模型的收敛出现问题。为实现综合权重的动态选择,并保证综合权重在[0,1]内,将综合权重融合损失Lw_fu定义为

Lw_fu=ξ1α+ξ2β,    γ>10,    0γ1-ξ1α-ξ2β,    γ<0

其中,ζ1ζ2均为损失函数需要优化的参数,αβ分别为自注意力权重与帧间信息注意力权重。通过定义此损失函数,可对自注意力权重与帧间信息注意力权重进行相关性加权得到综合权重,并将综合权重约束在[0,1]内,从而确保模型训练的有效性。

最终,通过帧间信息融合,得到结合综合注意力权重的视频表示式:

fv=i=0nγi[fifv']i=0nγi,

其中,γi 为第i帧图像的综合权重。

2.3 视频帧选择

为选择关键帧,设计了视频帧选择损失。在视频帧选择模块中,首先用比率η通过学习将视频帧权重划分为高权重与低权重2个组,笔者设计了一个视频选择损失,可确保高权重组的平均权重远大于低权重组的平均权重。损失函数定义为

Lfs=δ-γH-γL,    γH-γL<δ0,    γH-γL>δ

式(7),可推得

Lfs=max{0δ-γH-γL} s.t.: 0<δ<1,

其中,

γH=1Mi=0MγiγL=1N-Mi=MNγi

δ为可调整超参数,用于对视频帧进行合理分组,γ为融合了自注意力权重与帧间信息的综合权重,γHγL分别为高权重组与低权重组的平均权重,N为帧的总数,MN与比率η的乘积,当且仅当γH-γL>δ时(其中δ为自定义超参数),损失降至最小值。通过计算损失函数,合理划分高权重组与低权重组,本文选择高权重组中的帧作为对应视频的关键帧进行后续分类操作,而低权重组中的帧因无法较好地表征表情特征,予以丢弃。

2.4 结合注意力权重的多分类交叉熵损失

多分类交叉熵损失是深度学习分类任务中常用的损失函数,而将注意力权重引入损失函数可取得更好的效果15,焦点损失函数16通过置信度区间将样本分为难分类样本与易分类样本,实现模型对难分样本的关注,通过设置超参数提高难分类样本损失。本文在注意力模块中经计算得到每帧的注意力权重,因在帧选择模块中非关键帧已被抛弃,所以在剩余样本中,可将高权重帧归为易分类样本、低权重帧归为难分类样本。在此基础上,本文设计了结合注意力权重的交叉熵损失(attention based cross-entropy loss),将得到的注意力权重与交叉熵损失结合,实现降低易分类样本损失、提高难分类样本损失的目的。在原始交叉熵损失的基础上,将不同样本与其对应注意力权重进行乘法运算,得到考虑了注意力的交叉熵损失。损失函数定义为

LATCE=1Ni=1NLossi=-1Ni=1Nlogeγi(WyiTxi+byi)j=1Ceγi(WjTxi+bj)

其中,Wjbj 分别为第j个类别的权值参数与偏置参数,xi 为第i个样本,Wyibyi分别为神经网络中的参数与偏置。由式(2)可知,γ的取值将影响损失的大小,且二者成正比关系。

在模型的训练过程中,总的损失函数可定义为

Lall=λ1LFS+λ2LATCE+λ3Lframe_fu+λ4Lw_fu,

其中,λ1λ2λ3λ4为平衡率,且λ1+λ2=1,λ3=0.05~0.25,λ4=0.5~0.9。

3 实验和结果分析

3.1 数据集及实验准备

所用数据集为CK+与AFEW。CK+数据集共有123位参与者,包含593个视频序列,被标记为愤怒、蔑视、厌恶、恐惧、快乐、悲伤和惊讶共7种基本表情标签。CK+数据集未分训练集与测试集,本文按照等样本规则将其划分为训练集与测试集,并通过旋转、平移等方式进行数据增强操作。

AFEW数据集包含了从不同电影或电视剧中剪辑的表情视频片段,无用信息多,训练难度较大。AFEW数据集分训练集、验证集与测试集三部分,其中,训练集样本773个,验证集383个,测试集653个。因为AFEW的测试集样本是非开放的,所以只选择其中的训练集与验证集。

用pytorch工具构建训练特征集合。首先,提取各视频的RGB视频帧序列,随后将分辨率调整至224×224。然后,通过旋转、平移、滑动等操作,对视频帧进行数据增强,将2个数据集的数量扩充10倍。用SGD优化器对网络进行优化,动量设置为0.9,权重衰减为0.000 1。在CK+数据集中,设置初始学习率为0.1,且每隔20个循环降0.02,共进行80次循环。在AFEW数据集中,设置初始学习率为0.001,且每隔40个循环降0.000 2,共进行200次循环。

实验环境为CPU Intel Core i5-6500,内存为16 GB,显卡型号为NVIDIA GeForce GTX 1080ti,操作系统为Ubuntu16.04,采用pytorch深度学习框架。

表情识别准确率是表情识别任务中常用的评价方法,本文在识别任务后首先计算单类别识别准确率,即预测正确的视频数量与视频总数量的比值,之后,以所有类别识别准确率的平均值作为最终的评价指标。

3.2 实验结果及分析

3.2.1 CK+数据集

CK+数据集由实验室制作,数据集质量较高,外部环境对视频质量的影响较小。由于CK+数据集视频中的人脸表情大多由平静向表情峰值逐渐变化,因此通常选择最后一帧或后几帧进行特征提取与分类。为验证方法的有效性,将本文算法与效果较好的几种已有算法进行了实验对比,见表1

表1   CK+数据集上各算法的识别率

Table 1  The recognition rate of each method on CK+dataset

算法使用帧数识别率/%
LoMo18全部帧92.00
CNN+Island20其中两帧94.35
RASNet1最后一帧96.28
FAN4全部帧99.69
WMDCNN19最后一帧98.52
DTAGN17最后一帧97.25
XIE等6其中三帧97.83
本文算法全部帧99.64

新窗口打开| 下载CSV


表1知,本文算法的平均识别率为99.64%,排第2,其中,SIKKA等18提出的LoMo算法提取了传统的SIFT及LBP特征,并通过SVM进行分类,其识别率可达92%。CAI等20将CNN模型与Island损失函数结合,应用于表情分类任务,取得了94.35%的识别率。HE等1提出的RASNet模型,将注意力模块嵌入卷积层,得到了96.28%的识别率。MENG等4提出的FAN模型,引入自注意力与相对注意力模块,在随机挑选视频帧的基础上,实现了99.69%的高识别率,是目前较出色的算法。本文算法的识别率为99.62%,仅次于MENG等4的算法,算法有效。

3.2.2 AFEW数据集

AFEW数据集由工作人员从影视节目中剪辑而来,用于EmotionW竞赛,其环境复杂度高、表情特征不显著、个别视频帧不含表情特征,模型学习困难,是当前表情识别领域极具挑战性的数据集之一。表2为当前AFEW数据集中表现较好的几个算法的比较。

表2   AFEW数据集上各算法的识别率

Table 2  The recognition rate of each method on AFEW dataset

算法训练时间识别率/%
CNN-RNN51 h 26 min 48 s45.43
VGG-LSTM51 h 40 min 06 s48.60
HoloNet242 h 05 min 18 s44.57
DenseNet42 h 11 min 30 s51.44
FAN441 h 35 min 28 s51.18
XIE等642 h 53 min 13 s46.03
GRERN539 h 11 min 03 s52.26
本文算法29 h 40 min 50 s52.31

新窗口打开| 下载CSV


其中,CNN-RNN与VGG-LSTM算法将卷积神经网络与循环神经网络进行了有效结合,即先通过卷积神经网络提取视频帧特征,再将特征向量导入循环神经网络,学习其时间特征,最后进行表情分类。此算法学习了视频的动态时间信息,在一定程度上将循环神经网络带入表情识别任务,并取得了一定的效果。HoloNet与DenseNet算法则以卷积神经网络为基本框架,不包含动态时间信息,是一种静态识别方法。FAN算法在AFEW数据集也取得了不错的效果。

表2知,本文方法达到了较高水准,识别率较VGG-LSTM等动态模型有较大幅度提升,超DenseNet 0.81%。值得注意的是,FAN算法也采用自注意力与相对注意力相结合的架构进行帧间信息融合操作,但因采用的是随机方式选择视频帧,导致其在AFEW数据集中容易选择表情特征不显著甚至不包含表情特征的图像,使模型学习到不利于表情识别的特征,降低了模型的识别率。经改进,本文算法的表情识别率有了较大提升。此外,在相同数据集下,通过引入GhostNet,在识别率提升的同时训练时间得以大幅缩短。

3.3 消融实验
3.3.1 3个模块对实验效果的影响分析

本文模型包含基于自注意力机制的帧选择模块、结合GhostNet的特征提取模块、基于相对帧注意力机制的帧间信息融合模块。为判断模型中每个模块的意义,设计了消融实验,实验结果如表3所示。

表3   3个模块的实验效果比较

Table 3  Effect comparison of three modules

帧选择模块

特征提取模块

(GhostNet)

帧间信息融合模块识别率/%
CK+AFEW
×××87.1743.55
××87.1443.45
××99.1151.05
×99.5952.24
×99.5552.18
99.6452.31

√表示使用,×表示不使用。

新窗口打开| 下载CSV


在没有使用GhostNet的实验中,用ResNet19提取视频图像特征。由表3前两行可知,在特征提取时,将其他网络替换为GhostNet,实验效果不仅不会提升,反而略有下降;由表3第3行知,帧选择模块可大幅提升识别率,在不使用帧间信息融合模块与GhostNet的前提下,加入帧选择模块,即式(2)与式(3),识别率在CK+数据集中提升了10%,在AFEW数据集中提升了7%,说明加入基于自注意力机制的帧选择模块是有效的。由表3第4、第5行知,在使用帧选择模块、不使用GhostNet的前提下,加入帧间信息融合模块,即式(5),识别率有小幅提升;同样,在使用GhostNet后,不加入帧间信息融合模块,识别率也有小幅提升,这也说明加入帧间信息融合模块是有效的。由表3最后一行知,在使用帧选择模块与帧间信息融合模块的前提下,引入GhostNet的识别率较不引入有较小幅度提升,考虑GhostNet的网络架构,实验参数较少,训练时间较其他网络大幅减少,因此大大降低了模型训练成本。

3.3.2 平衡率λ对识别率的影响分析

对分类损失函数ATCE Loss与帧选择损失函数FrameChoice Loss的平衡率λ1λ2进行了实验,以判断λ1λ2的选取对识别率的影响。实验在不包含λ3λ4的条件下进行,结果如表4所示。发现λ1取0.4时效果最好,逐渐提升或降低λ1,效果变差,由此说明,分类损失函数的权重较帧选择损失函数大。

表4   λ1λ2的不同取值对模型识别率的影响

Table 4  The influence of different values of λ1 and λ2 on model recognition rate

λ1λ2识别率/%
CK+AFEW
0.20.897.4948.25
0.30.798.4949.17
0.40.699.6252.25
0.50.599.4852.17
0.60.498.1750.49

新窗口打开| 下载CSV


同时,对帧融合损失平衡率λ3与权重融合损失平衡率λ4进行了实验,实验结果分别如表5表6所示,其中λ1λ2分别取0.4和0.6,对λ3的实验,将λ4设置为0.7,对λ4的实验,将λ3设置为0.15。发现,当λ3取0.15时效果最佳,在AFEW数据集中相较原模型提高了0.04%,在CK+数据集中则无明显提升,λ3的取值越高效果越差,这也说明帧融合损失函数对模型的提升具有局限性,面对实验室场景下的数据集,因数据完善,提升效果不明显,而对于自然场景下的数据集,可以有效融合自注意力权重与原图像,实现识别率的提升;在另一组实验中,当λ4取0.7时,识别率有较大提升,说明综合权重的选择对提升模型识别率有重要意义。

表5   λ3的不同取值对应的模型识别率

Table 5  The recognition rate of the model with different values λ3

λ3识别率/%
CK+AFEW
0.0599.4951.17
0.1099.5451.49
0.1599.6252.29
0.2099.6152.25
0.2599.652.17

新窗口打开| 下载CSV


表6   λ4的不同取值对应的模型识别率

Table 6  The recognition rate of the model with different values λ4

λ4识别率/%
CK+AFEW
0.599.6252.21
0.699.6152.26
0.799.6452.31
0.899.5851.98
0.999.5051.05

新窗口打开| 下载CSV


3.3.3 高权重视频帧比率γ对识别率的影响分析

γ为高权重组样本占总样本的比率。实验发现,比率γ对模型的识别效果有一定影响,图5中,黄色折线表示模型在CK+数据集中的识别率,蓝色折线表示模型在AFEW数据集中的识别率。由图5可知,当γ为0.7时,模型在AFEW数据集中取得了最佳效果,当γ小于0.7时,易造成过多视频帧被抛弃,丢失部分有用信息,导致模型识别率下降;反之,若γ过大,保留了绝大多数视频帧,无法有效删除无用视频帧,影响模型的识别率。值得注意的是,当γ为0.8时,模型在CK+数据集中取得了最佳效果。分析发现,因CK+数据集与表情无关的信息较少,对动态选择视频帧的需求相对较低,所以当γ较高时,识别率更好。

图5

图5   比率γ对模型识别效果的影响

Fig.5   The influence of parameter γ on model recognition effect


3.3.4 分组阈值参数δ对识别率的影响分析

δ为对视频帧进行分组的阈值参数,如图6所示,黄色折线表示模型在CK+数据集中的识别率,蓝色折线表示模型在AFEW数据集中的识别率。由图6可知,当参数δ为0.2时,模型在AFEW数据集中取得了最佳效果,当δ为0.15时,模型在CK+数据集中取得了最佳效果,说明此时高权重组权重平均值γH与低权重组权重平均值γL处于相对平衡状态,若破坏其平衡状态则会令模型效果变差。

图6

图6   参数δ对模型识别效果的影响

Fig.6   The influence of parameter δ on model recognition effect


3.4 在AFEW数据集中的帧选择权重γ及可视化

为更好地证明帧选择模块在模型中的意义,在AFEW数据集实验中对帧选择权重γ进行了记录和可视化。如图7所示,分别从AFEW数据集7种标签中随机挑选一段视频,为方便记录,挑选的视频均只包含6帧,其中,红色虚线框表示抛弃视频帧,蓝色虚线框表示保留视频帧。在对数据集进行训练后,记录挑选视频帧的权重γ,并对其做可视化操作。若一段视频中包含不存在人脸信息的视频帧,如恶心、害怕、悲伤3段视频,不含人脸信息的帧权重得分较低,而剩余包含人脸信息的视频帧权重得分较高,所以,在视频帧选择过程中,删除不包含人脸信息的视频帧;若一段视频全为人脸信息,则出现2种权重值分配方式,如生气、高兴、惊喜3段视频,帧与帧之间表情反差较大,存在由无表情到有表情的变化,通过权值分配,虽然权重差异并不大,但依然完成了对表情特征较丰富的关键帧的选取,此外,如图7中的中性视频片段所示,整段视频不存在明显的表情变化,各帧注意力权重较均匀,最终随机选择了部分视频帧。

图7

图7   视频帧选择权重γ可视化

Fig.7   Video frame selection weight γ visualization


由此可知,视频帧选择模块对无人脸表情信息或表情变化较大视频段的选择效果更佳。

4 结 语

提出了一种基于自注意力视频帧选择与GhostNet结合的人脸表情识别模型,通过自注意力机制自发地选择数据集中表情特征显著的帧,通过帧间信息融合学习完整的视频表示,其中,引入GhostNet实现高效的特征提取工作,最终实现视频表情分类任务。由于在视频表情数据集中,人脸表情大多由平淡到峰值再到平淡的过程,且部分视频帧可能不包含表情特征,因此可利用基于自注意力机制的帧选择模块实现对关键帧的选取。其次,因为表情识别深度模型参数量大,训练成本较高,所以引入GhostNet,以降低训练成本。最后,在2个公开的视频表情数据集CK+与AFEW中设计了多组实验,并对模型进行了多个方面评估。实验结果表明,基于自注意力帧选择与GhostNet的模型在降低训练成本的同时,可有效提升表情识别率。

未来工作将考虑进一步改进GhostNet。GhostNet对第一层神经网络提取特征冗余部分的处理最为特殊,通过线性计算在得到与原始模型相似特征的基础上,可大大减少模型参数,降低模型训练成本。如何改进线性计算单元,使在降低模型参数的基础上更出色地提取特征,将是进一步研究的方向。微表情是表情识别的一个分支,其作为一种自发性的表情,动作幅度小、持续时间短,难以训练出好的针对微表情的模型。如何将此模型较好地应用于微表情,也是今后研究的方向。

http://dx.doi.org/10.3785/j.issn.1008-9497.2022.02.001

参考文献

HE K MZHANG X YREN S Qet al.

Deep residual learning for image recognition

[C]//IEEE Conference on Computer Vision and Pattern Recognition. PiscatawayIEEE2016770-778. doi:10.1109/cvpr.2016.90

[本文引用: 3]

YAO A BCAI D QHU Pet al.

HoloNet: Towards robust emotion recognition in the wild

[C]//Proceedings of the 18th ACM International Conference on Multimodal Interaction. New YorkAssociation for Computing Machinery2016472-478. DOI:10.1145/2993148.2997639

[本文引用: 2]

LIU C HTANG T HLYU Ket al.

Multi-feature based emotion recognition for video clips

[C]//ACM International Conference on Multimodal Interaction. New YorkAssociation for Computing Machinery2018630-634. doi:10.1145/3242969.3264989

[本文引用: 1]

MENG D BPENG X JWANG Ket al.

Frame attention networks for facial expression recognition in videos

[C]//2019 IEEE International Conference on Image Processing. PiscatawayIEEE20193866-3870. doi:10.1109/icip.2019.8803603

[本文引用: 5]

GAO Q QZENG H XLI Get al.

Graph reasoning-based emotion recognition network

[J]. IEEE Access,202096488-6497. DOI:10.1109/ACCESS.2020. 3048693

[本文引用: 2]

XIE W CCHEN W TSHEN L Let al.

Surrogate network-based sparseness hyper-parameter optimization for deep expression recognition

[J]. Pattern Recognition,2020111107701. DOI:10. 1016/j.patcog.2020.107701

[本文引用: 3]

LUCEY PCOHN J FKANADE Tet al.

The extended cohn-kanade dataset (CK+): A complete dataset for action unit and emotion-specified expression

[C]//2010 IEEE Computer Society Conference on Computer Vision and Pattern Recognition-Workshops. PiscatawayIEEE201094-101. DOI:10.1109/CVPRW.2010.5543262

[本文引用: 1]

DHALL AGOECKE RJOSHI Jet al.

Emotion recognition in the wild challenge 2014: Baseline,data and protocol

[C]//Proceedings of the 16th International Conference on Multimodal Interaction. PiscatawayIEEE2014461-466. DOI:10.1145/2663204. 2666275

[本文引用: 1]

OJALA TPIETIKAINEN MMAENPAA T.

Multiresolution gray-scale and rotation invariant texture classification with local binary patterns

[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence,2002247): 971-987. DOI:10.1109/TPAMI.2002.1017623

[本文引用: 1]

黄凯奇任伟强谭铁牛.

图像物体分类与检测算法综述

[J].计算机学报,2014376): 1225-1240. DOI:10.3724/SP.J.1016.2014.01225

[本文引用: 1]

HUANG K QREN W QTAN T Net al.

A review on image object classification and detection

[J]. Chinese Journal of Computers,2014376): 1225-1240. DOI:10.3724/SP.J.1016.2014.01225

[本文引用: 1]

HOCHREITER SSCHMIDHUBER J.

Long short-term memory

[J]. Neural Computation,199798): 1735-1780. DOI:10.1162/neco.1997.9.8.1735

[本文引用: 1]

BARGAL S ABARSOUM EFERRER C Cet al.

Emotion recognition in the wild from videos using images

[C]// Proceedings of the 18th ACM International Conference on Multimodal Interaction. New YorkAssociation for Computing Machinery2016433-436. doi:10.1145/2993148.2997627

[本文引用: 1]

ZHAO X YLIANG X DLIU L Qet al.

Peak-piloted deep network for facial expression recognition

[C]// European Conference on Computer Vision. ChamSpringer2016425-442. DOI:10.1007/978-3-319-46475-6_27

[本文引用: 1]

HAN KWANG Y HTIAN Qet al.

GhostNet: More features from cheap operations

[C]// 2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition. PiscatawayIEEE20201577-1586. doi:10.1109/cvpr42600.2020.00165

[本文引用: 1]

WEI HHUANG Y YZHANG Fet al.

Noise-tolerant paradigm for training face recognition CNNs

[C]// 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition. PiscatawayIEEE201911887-11896. doi:10.1109/cvpr.2019.01216

[本文引用: 1]

LIN T YGOYAL PGIRSHICK Ret al.

Focal loss for dense object detection

[C]// 2017 IEEE International Conference on Computer Vision. PiscatawayIEEE20172999-3007. doi:10.1109/iccv.2017.324

[本文引用: 1]

JUNG HLEE SYIM Jet al.

Joint fine-tuning in deep neural networks for facial expression recognition

[C]//IEEE International Conference on Computer Vision. PiscatawayIEEE20152983-2991. DOI:10.1109/ICCV.2015.341

[本文引用: 1]

SIKKA KSHARMA GBARTLETT M.

LoMo: Latent ordinal model for facial analysis in videos

[C]//IEEE Conference on Computer Vision and Pattern Recognition. PiscatawayIEEE20165580-5589. doi:10.1109/cvpr.2016.602

[本文引用: 2]

ZHANG H PHUANG BTIAN G H.

Facial expression recognition based on deep convolution long short-term memory networks of double-channel weighted mixture

[J]. Pattern Recognition Letters,2020131128-134. DOI:10.1016/j.patrec.2019. 12.013

[本文引用: 1]

CAI JMENG Z BKHAN A Set al.

Island loss for learning discriminative features in facial expression recognition

[C]//2018 13th IEEE International Conference on Automatic FACE and Gesture Recognition. PiscatawayIEEE2018302-309. doi:10.1109/fg.2018.00051

[本文引用: 2]

/