浙江大学学报(工学版), 2023, 57(9): 1865-1875 doi: 10.3785/j.issn.1008-973X.2023.09.018

计算机技术

融合生成对抗网络与时间卷积网络的普通话情感识别

李海烽,, 张雪英,, 段淑斐, 贾海蓉

1. 太原理工大学 电子信息与光学工程学院,山西 太原 030024

2. 纽卡斯尔大学 计算机学院,泰恩-威尔 泰恩河畔纽卡斯尔 NE1 7RU

Fusing generative adversarial network and temporal convolutional network for Mandarin emotion recognition

LI Hai-feng,, ZHANG Xue-ying,, DUAN Shu-fei, JIA Hai-rong, LIANG Hui-zhi

1. College of Electronic Information and Optical Engineering, Taiyuan University of Technology, Taiyuan 030024, China

2. School of Computing, Newcastle University, Newcastle upon Tyne NE1 7RU, United Kingdom

通讯作者: 张雪英,女,教授. orcid.org/0000-0002-2035-0329. E-mail: tyzhangxy@163.com

收稿日期: 2022-06-23  

基金资助: 国家自然科学基金资助项目(12004275);山西省研究生创新项目(2022Y235);山西省留学人员科技活动择优资助项目(20200017);山西省回国留学人员科研资助项目(2019025,2020042);太原理工大学引进人才科研启动基金资助项目(tyut-rc201405b);山西省应用基础研究计划面上自然基金资助项目(20210302123186)

Received: 2022-06-23  

Fund supported: 国家自然科学基金资助项目(12004275);山西省研究生创新项目(2022Y235);山西省留学人员科技活动择优资助项目(20200017);山西省回国留学人员科研资助项目(2019025,2020042);太原理工大学引进人才科研启动基金资助项目(tyut-rc201405b);山西省应用基础研究计划面上自然基金资助项目(20210302123186)

作者简介 About authors

李海烽(1995—),男,博士生,从事信号处理与情感计算研究.orcid.org/0000-0002-7203-3894.E-mail:2244812211@qq.com , E-mail:2244812211@qq.com

摘要

为了探究声学与发音学转换对普通话情感识别的影响,提出融合声学与发音特征转换的情感识别系统. 根据人体发音机制,录制普通话多模态音视频情感数据库. 设计双向映射生成对抗网络(Bi-MGAN)来解决双模态间的特征转换问题,定义生成器损失函数和映射损失函数来优化网络. 搭建基于特征-维度注意力机制的残差时间卷积网络(ResTCN-FDA),利用注意力机制自适应地为不同种类特征和不同维度通道赋予不同的权重. 实验结果表明,Bi-MGAN在正向和反向映射任务中的转换精度均优于主流的转换网络算法;ResTCN-FDA在给定情感数据集上的评价指标远高于传统的情感识别算法;真实特征融合映射特征使得情感被正确识别的准确率显著提升,证明了映射对普通话情感识别的积极作用.

关键词: 循环生成对抗网络 ; 情感识别 ; 声学与发音学转换 ; 时间卷积网络 ; 注意力机制

Abstract

An emotion recognition system that integrates acoustic and articulatory feature conversions was proposed in order to investigate the influence of acoustic and articulatory conversions on Mandarin emotion recognition. Firstly, a multimodal emotional Mandarin database was recorded based on the human articulation mechanism. Then, a bi-directional mapping generative adversarial network (Bi-MGAN) was designed to solve the feature conversion problem with bimodality, and the generator loss functions and the mapping loss functions were proposed to optimise the network. Finally, a residual temporal convolutional network based on the feature-dimension attention (ResTCN-FDA) was constructed to use attention mechanisms to adaptively assign different weights to different variety features and different dimension channels. Experimental results show that the conversion accuracy of Bi-MGAN outperforms the current optimal algorithms for conversion network in both the forward and the reverse mapping tasks. The evaluation metrics of ResTCN-FDA on a given emotion dataset is much higher than traditional emotion recognition algorithms. The real features fused with the mapped features resulted in a significant increase in the accuracy of the emotions being recognized correctly, and the positive effect of mapping on Mandarin emotion recognition was demonstrated.

Keywords: cycle generative adversarial network ; emotion recognition ; acoustic and articulatory conversions ; temporal convolutional network ; attention mechanism

PDF (2044KB) 元数据 多维度评价 相关文章 导出 EndNote| Ris| Bibtex  收藏本文

本文引用格式

李海烽, 张雪英, 段淑斐, 贾海蓉. 融合生成对抗网络与时间卷积网络的普通话情感识别. 浙江大学学报(工学版)[J], 2023, 57(9): 1865-1875 doi:10.3785/j.issn.1008-973X.2023.09.018

LI Hai-feng, ZHANG Xue-ying, DUAN Shu-fei, JIA Hai-rong, LIANG Hui-zhi. Fusing generative adversarial network and temporal convolutional network for Mandarin emotion recognition. Journal of Zhejiang University(Engineering Science)[J], 2023, 57(9): 1865-1875 doi:10.3785/j.issn.1008-973X.2023.09.018

情感识别(emotion recognition, ER)是人机交互的重要接口[1],其目的是让计算机具备理解和识别情感的能力. 融合声学与发音特征转换的ER是情感研究领域中的重要分支,涉及情感数据库搭建、预处理、特征提取、特征转换和分类识别算法等问题. 具有丰富情感信息的多模态数据库、高精度的特征转换算法和有效的分类识别算法是提升ER系统性能的重要部分.

在情感研究领域,根据被试者表达信息的多样性构建的适合不同研究方向的数据库有CHEAVD[2]、NNIME[3]和IEMOCAP[4]等. 每个数据库都存在局限性,只有选择与研究方向契合的数据库,研究工作才能事半功倍. 在对人体发音机制的研究中,学者们发现声音和发音器官具有很强的关联性,即人体发出的部分声学信号是由发音器官独特的运动轨迹产生的[5]. 正向映射[6]和反向映射[7]是声音与发音器官的关联性研究中较深入的2类. 正向映射指由发音器官的发音特征转换出声学特征,反向映射是指由声学特征转换出发音特征. 深度学习已经在探索正向与反向映射的研究中被应用到不同的领域:Ling等[8]通过隐马尔科夫模型(hidden Markov model, HMM)探究发音特征到声学特征的联合分布关系,将正向映射应用到语音合成研究中;Li等[9]提取梅尔倒谱频率系数(Mel-frequency cepstrum cofficients, MFCC),通过高斯混合模型(Gaussian mixture model, GMM)探究声学到发音特征的关联性,将反向映射应用于说话人识别. 这些方法虽然在声学与发音特征转换中取得了不错的成绩,但都存在转换结果精度偏低的问题. Guo等[10]提取相位特征并探索如何将相位特征应用于语音情感识别. 双向长短期记忆网络(bi-directional long short-term memory, BiLSTM)[11]、卷积神经网络(convolutional neural network, CNN)[12]、深度递归神经网络(recurrent neural network, RNN)[13]和深层神经网络(deep neural network, DNN)[14]等算法通过建立说话人与情感间的关联模型来完成情感识别任务,但特征与维度通道中所包含的情感信息未被充分利用.

ER研究的现状如下:1)数据库存在局限性,暂未发现公开可用的、以普通话为语种的、为并行声学与发音学信号的情感数据库;2)传统的特征转换模型的精度偏低;3)识别算法没有充分利用特征所含的情感信息;4)正向映射、反向映射对普通话情感识别的影响暂无研究成果. 本研究提出融合声学与发音特征转换的情感识别系统. 该系统由特征转换网络和分类识别网络组成,其中双向映射生成对抗网络(bi-directional mapping generative adversarial network, Bi-MGAN)负责声学与发音特征转换任务,基于特征-维度注意力的残差时间卷积网络(residual temporal convolution network of feature-dimension attention, ResTCN-FDA)负责情感分类识别.

1. 相关理论

1.1. 循环生成对抗网络

在设计之初,循环生成对抗网络(cycle generative adversarial network, CycleGAN)通过学习样本空间XY的转换关系来解决图像风格转换问题[15]. CycleGAN已被应用到不匹配数据的语音增强[16]和情感识别[17]领域. CycleGAN包含2个生成器( $ {G_{X \to Y}} $$ {G_{Y \to X}} $)和2个判别器( $ {D_X} $$ {D_Y} $),生成器对 $ X $$ Y $的转换关系建模,判别器对真实特征与映射特征进行评判,并使用对抗性损失函数和循环一致性损失函数来训练模型. 对抗性损失函数用于衡量映射特征与真实特征的可分辨性, $ {G_{X \to Y}} $$ {D_Y} $的损失函数为

$ \begin{split} {L_{\rm{a}}}\left( {{G_{X \to Y}},{D_Y}} \right) =& {E_{x \sim X}}\left[ {{\rm{ln}} \;\left( {1 - {D_Y}\left( {{G_{X \to Y}}\left( x \right)} \right)} \right)} \right] +\\ & {E_{y \sim Y}}\left[ {{\rm{ln}}\; {D_Y}\left( y \right)} \right]. \\ \end{split} $

$ {D_Y} $$ y $判别时,若判别为真实数据,则该数据的损失值为1;当 $ {D_Y} $$ {G_{X \to Y}}\left( x \right) $判别时,若判别为映射数据,则该数据的损失值为0. 循环一致性损失函数将映射特征转换为循环特征,目的是使循环特征趋近于真实特征:

$ \begin{split} {L_{\rm{c}}}\left( {{G_{X \to Y}},{G_{Y \to X}}} \right) =& {E_{y \sim Y}}\left[ {{L_1}\left( {y,{G_{X \to Y}}\left( {{G_{Y \to X}}\left( y \right)} \right)} \right)} \right] +\\ &{E_{x \sim X}}\left[ {{L_1}\left( {x,{G_{Y \to X}}\left( {{G_{X \to Y}}\left( x \right)} \right)} \right)} \right]. \\ \end{split} $

其中 $ {L_1} $表示 $ {L_1} $正则化.

1.2. 时间卷积网络

时间卷积网络(TCN)可以并行处理特征序列, 为了提升TCN的建模能力, Lin等[18]将自注意力机制与TCN结合,提出多级SA-TCN网络;Pandey等[19]提出TCNN模型,用于探索时域中的实时语音增强;Zhang等[20]改良TCN,并将改良TCN用于声道的语音分离. ResTCN利用TCN来快速并行处理特征序列,并通过残差连接使模型在训练过程中产生稳定的梯度优化路径. 其中残差连接式为

$ {{\boldsymbol{x}}_{i+1}} = h\left( {{{\boldsymbol{x}}_i}} \right)+\varGamma \left( {{{\boldsymbol{x}}_i},{{\boldsymbol{w}}_{\left( {i,d} \right)}}} \right). $

式中: $ h\left( {{{\boldsymbol{x}}_i}} \right) $为直接映射,xii层输入特征, $ \varGamma \left( {{{\boldsymbol{x}}_i},{{\boldsymbol{w}}_{\left( {i,d} \right)}}} \right) $为残差连接, $ {{\boldsymbol{w}}_{\left( {i,d} \right)}} $为第 $ i $层膨胀因子为 $ d $的卷积.

2. STEM-E2VA数据库与特征集

2.1. STEM-E2VA数据库的构建

包含发音、声门、视频和音频数据的普通话情感数据库(Suzhou and Taiyuan emotional dataset on Mandarin with electromagnetic articulation, electroglottography, video and audio, STEM-E2VA)由苏州大学与太原理工大学联合录制,语料内容由528个韵母和2464个汉语句子组成,其中汉语句子包含7种情感,分别是中性、狂喜、愉悦、愤怒、冷漠、悲伤和痛苦. STEM-E2VA的数据采集招募22名被试者,其中62.5%为学士学位,37.5%为硕士学位,平均年龄25岁,男女比例为1∶1. 在采集数据之前,所有被试者均通过了《症状自评量表SCL-90》的检测。

STEM-E2VA的设计借鉴人体发声机理,将喉、舌和唇作为重要的发音器官,赋予语音丰富的情感信息. 本研究使用电子声门仪(electroglottography, EGG)采集声门信号,使用电磁发音仪(electromagnetic articulography, EMA)采集声学和发音学数据,使用SONY摄像机采集面部微表情数据. 将传感器固定在发音器官上,EMA通过电磁耦合以250 Hz的采样率采集传感器的笛卡尔坐标作为发音学数据,并同步记录声学数据,形成并行的声学与发音学数据,如图1所示. 如图2所示, EMA数据采集共设置13个传感器,分别为3个参考面传感器、3个咬合板传感器、4个唇部传感器和3个舌部传感器. 参考面传感器分别设置在被试者的B1、B2和B3位置,用以排除采集数据时因头部运动带来的误差;咬合板传感器分别布置在咬合板面的P1、P2和P3位置;唇部和舌部的传感器负责采集发音器官的运动轨迹数据,分别布置在左唇、右唇、上唇、下唇、舌根、舌中和舌尖. 在传感器可以稳定传输数据后,受试者按要求表述语料内容.

图 1

图 1   电磁发音仪采集声学与发音学数据的过程

Fig.1   Electromagnetic articulography acquisition process for acoustic and articulatory data


图 2

图 2   电磁发音仪采集数据时的传感器设置

Fig.2   Sensor settings for data acquisition by electromagnetic articulography


2.2. 数据预处理

选取数据库中的声学数据和发音学数据,研究声学与发音特征转换对情感识别的影响. EMA采集的发音学数据以电压幅值的形式存储,为便于后续的实验操作,须进行数据预处理. 预处理步骤:1)将电压幅值数据转换为原始三维空间数据,2)利用参考面传感器生成三维空间数据,3)将空间数据转换为ASCII码,4)使用Visartico软件筛选出合格的发音学数据.

在声学数据预处理中,让6名母语为普通话且听力正常的志愿者按照如表1所示的评估量表进行声学数据评分,选择评分不低于2.5的声学数据. 在预处理后,得到并行的声学和发音学数据共2 415条. 其中悲痛情感的为337条,狂喜情感的为335条,愉悦、愤怒情感的各345条,忧伤情感的为349条,中性、冷漠情感的各352条.

表 1   声学数据评估量表

Tab.1  Acoustic data assessment scale

评分 语音传达度 情感表达度
3 无噪音且语义明确 强烈的情绪表达
2 略微的噪音但语义明确 中度的情绪表达
1 明显的噪音且影响语义传达 轻微的情绪表达
0 音频嘈杂且无法理解 无情绪表达

新窗口打开| 下载CSV


2.3. 特征提取

从声学和发音学数据中分别提取MFCC和发音特征. MFCC特征能够模拟人耳对语音的处理, Kumaran等[13]发现MFCC特征转换出的发音特征具有良好的映射性能. 本研究选用MFCC作为声学特征,定义MFCC特征集为

$ {\boldsymbol{M}} = \left[ {S({{\boldsymbol{m}}_i}),K({{\boldsymbol{m}}_i}),\overline {{{\boldsymbol{m}}_i}} ,{\sigma ^2}\left( {{{\boldsymbol{m}}_i}} \right),{\rm{med}}({{\boldsymbol{m}}_i})} \right]. $

式中: $S({{\boldsymbol{m}}_i})$$K({{\boldsymbol{m}}_i})$$\overline {{{\boldsymbol{m}}_i}}$${\sigma ^2}\left( {{{\boldsymbol{m}}_i}} \right)$${\rm{med}}({{\boldsymbol{m}}_i})$依次为偏度、峰度、均值、方差和中值, ${{\boldsymbol{m}}_i}$为第 $ i $阶MFCC, $ i $=12,共60维声学特征. 在发音特征的提取中,以舌部和唇部为研究点,分析发音器官运动时的位移和速度特征,定义发音特征集为

$ {\boldsymbol{A}} = \left[ {{{\boldsymbol{S}}_x},{{\boldsymbol{S}}_y},{{\boldsymbol{S}}_z},{\boldsymbol{V}}} \right]. $

式中: $ {{\boldsymbol{S}}_x} $$ {{\boldsymbol{S}}_y} $$ {{\boldsymbol{S}}_z} $分别为发音器官在 $ x $$ y $$ z $轴的位移参数, $ {\boldsymbol{V}} $为发音器官的速度参数,共28维发音特征.

3. 融合Bi-MGAN和ResTCN-FDA的情感识别系统

融合Bi-MGAN和ResTCN-FDA的情感识别系统将声学与发音特征转换引入语音情感识别研究:1)Bi-MGAN负责将已知的真实特征转换为对应的映射特征;2)将真实特征与映射特征融合,使融合后的特征集同时包含声学和发音特征所表征的情感信息;3)将融合特征集输入ResTCN-FDA,利用FDA给不同特征的不同维度通道分配不同的权重系数,再经过Softmax层进行情感分类. 如图3所示, $ \widehat x $$ \widetilde x $分别为映射的发音特征和循环的发音特征, $ \widehat y $$ \widetilde y $分别为映射的声学特征和循环的声学特征;虚线箭头表示将发音特征和映射发音特征融合后输入ResTCN-FDA,点划线箭头表示将声学特征和映射声学特征融合后输入ResTCN-FDA;以此探索声学与发音特征转换中的正向与反向映射对情感识别的影响.

图 3

图 3   融合Bi-MGAN和ResTCN-FDA的情感识别算法整体结构

Fig.3   Overall structure of emotion recognition algorithm fusing Bi-MGAN and ResTCN-FDA


3.1. Bi-MGAN

转换网络的目的是利用真实特征生成高精度的映射特征,进而探究映射特征对语音情感识别的影响. CycleGAN应用在图像风格转换任务时不要求成对的训练数据[21],这与声学与发音特征转换任务不同. 人体多数语音都是依靠独特的声道形状产生[5],这就要求声学与发音学数据的并行性. 为了增强转换模型的映射能力,本研究对CycleGAN的网络结构和损失函数进行优化改进,提出适用于声学与发音特征转换任务的Bi-MGAN,如图4所示. 图4(a)中Bi-MGAN将真实发音特征 $ x $转换为映射声学特征 $ \widehat y $,再将 $ \widehat y $转换为循环发音特征 $ \widetilde x $:1)将真实的声学特征 $ x $转换为对应的映射发音特征 $ \widehat y $ ;2)利用 $ y $$ \widehat y $的误差,计算声学特征映射损失;3)将映射发音特征 $ \widehat y $转换为循环声学特征 $ \widetilde x $;4)利用 $ x $$ \widetilde x $的误差,计算发音特征循环一致性损失. 同理,图4(b)中Bi-MGAN将真实声学特征 $ y $转换为映射发音特征 $ \widehat x $,再将 $ \widehat x $转换为循环声学特征 $ \widetilde y $.

图 4

图 4   双向映射生成对抗网络的网络原理图

Fig.4   Network schematic of bi-directional mapping generative adversarial network


声学与发音特征转换任务的计算量相对较小,为了减少转换网络的冗余度,避免梯度消失,提高映射精度,对生成器和判别器进行优化. Bi-MGAN由正向生成器 $ {G_{X \to Y}} $、反向生成器 $ {G_{Y \to X}} $、发音学判别器 $ {D_X} $和声学判别器 $ {D_Y} $构成. 正向生成器的结构设计利用发音特征映射出对应的声学特征,目的是使声学判别器无法正确判断映射的声学特征和真实的声学特征. 为了减少模型冗余度,选用Dense层来构建上、下采样模块. 上采样模块将输入的28维发音特征扩展到512维,下采样模块负责将高维度的发音特征转换为60维的声学特征. 反向生成器的结构设计的不同之处在于反向生成器利用MFCC特征映射出对应的发音特征,目的是使发音学判别器无法正确判断映射的发音特征和真实的发音特征. 发音学判别器对真实的发音特征和映射的发音特征进行判别和计算,并利用损失函数回调反向生成器的权重参数,提高映射特征的精度,达到对映射发音特征的监督和反馈效果. 发音学判别器本质为二分类识别器,恰好与反向生成器的期望相反,目的是能够正确的判别映射的发音特征和真实的发音特征,如此映射模型将会在两者的交替迭代优化中找到全局最优解. 声学判别器是对真实的声学特征和映射的声学特征进行判别,并利用损失函数回调正向生成器的权重参数,达到对映射声学特征的监督和反馈效果.

Bi-MGAN的损失函数的优化主要体现在2个方面:生成器损失函数和束缚性映射损失函数. Bi-MGAN在训练期间考虑4种类型的损失:生成器损失、对抗性损失、循环一致性损失和束缚性映射损失. 1)生成器损失函数:新增 $ {L_{\rm{g}}} $作为生成器的基础映射函数,增强生成器的转换能力. $ {G_{X \to Y}} $$ {G_{Y \to X}} $的生成器损失函数分别为

$ {L_{\rm{g}}}\left( {{G_{X \to Y}}} \right) = {E_{x \sim X}}\left[ {{L_{{\rm{bce}}}}\left( {{G_{X \to Y}}\left( x \right)} \right)} \right], $

$ {L_{\rm{g}}}\left( {{G_{Y \to X}}} \right) = {E_{y \sim Y}}\left[ {{L_{{\rm{bce}}}}\left( {{G_{Y \to X}}\left( y \right)} \right)} \right]. $

式中: $ {L_{{\rm{bce}}}} $为交叉熵损失函数. 使用 $ {L_{{\rm{bce}}}} $$ {G_{X \to Y}}\left( x \right) $进行判定;若判定结果为真,则说明 $ {G_{X \to Y}}\left( x \right) $与真实特征 $ y $难以区分;若判断为假,则将产生误差. 2)束缚性映射损失函数:要完成声学与发音特征转换任务,仅依靠式(1)、(2)、(6)和(7)不能保证映射特征的精度,将真实特征与映射特征的正则化引入Bi-MGAN,通过减少模型在训练时生成误差较大的映射特征,约束映射特征的生成范围. 正向与反向束缚性映射损失函数分别为

$ {L_{\rm{m}}}\left( {y,{G_{X \to Y}}} \right) = {E_{x \sim X,y \sim Y}}\left[ {{L_1}\left( {y,{G_{X \to Y}}\left( x \right)} \right)} \right] ,$

$ {L_{\rm{m}}}\left( {x,{G_{Y \to X}}} \right) = {E_{x \sim X,y \sim Y}}\left[ {{L_1}\left( {x,{G_{Y \to X}}\left( y \right)} \right)} \right]. $

式中: $ {L_1}\left( {y,{G_{X \to Y}}\left( x \right)} \right) $为真实声学特征 $ y $与映射声学特征 $ {G_{X \to Y}}\left( x \right) $$ {L_1} $差值.

3.2. ResTCN-FDA

情感诱发下的不同特征以及不同维度通道携带的情感信息具有一定的差异性[9]. 在模型训练时,不同特征的不同维度通道分配的权重相同,将导致情感信息的不充分利用. 本研究将ResTCN与注意力机制相结合,提出融合FDA注意力机制的ResTCN情感识别网络,通过对ResTCN输出的特征进行加权调整,更好地利用声学与发音特征中与情感显著相关的特征和维度通道.

图5所示,1)序列特征 $ {\boldsymbol{z}} $在ResTCN模块中依次进行膨胀卷积操作、归一化、ReLU激活和Dropout,生成包含元素依赖关系的特征 $ {{\boldsymbol{z}}'} $;2) $ {\boldsymbol{z }}$$ {{\boldsymbol{z}}'} $进行拼接操作,使得特征既包含整体情感信息又包含局部元素依赖性信息;3)ResTCN输出的序列特征 $ \overline {\boldsymbol{z}} $将被输入FDA模块,完成对特征以及维度通道的权重再分配. 在训练中,ResTCN的膨胀卷积的卷积核为2. 将真实特征与映射特征进行融合,作为网络的输入信号 $ {\boldsymbol{z}} \in {{\bf{R}}^{{{F}} \times {{C}}}} $,其中 $ F $$ C $分别为特征图的特征数量和输出通道维度. 如图6所示,ResTCN的输出信号 $ \overline {\boldsymbol{z}} $依次经过特征注意力机制 $ {F_{\rm{f}}} \in {{\bf{R}}^{F \times 1}} $和维度注意力机制 $ {F_{\rm{d}}} \in {{\bf{R}}^{1 \times C}} $后得到输出信号 $ {\overline {\boldsymbol{z}} {''}} \in {{\bf{R}}^{F \times C}} $

图 5

图 5   ResTCN-FDA的整体结构图

Fig.5   Overall structure of ResTCN-FDA


$ {\overline {\boldsymbol{z}} '} = {F_{\rm{f}}}\left( {\overline {\boldsymbol{z}} } \right) \otimes \overline {\boldsymbol{z}} ,$

$ {\overline {\boldsymbol{z}} {''}} = {F_{\rm{d}}}\left( {{{\overline {\boldsymbol{z}} }'}} \right) \otimes {\overline {\boldsymbol{z}} '}. $

式中: $ \otimes $为元素乘法.

图 6

图 6   特征-维度注意力机制的整体结构框图

Fig.6   Overall structural framework of feature-dimensional attention mechanism


3.2.1. 特征注意力机制

在情感识别中,多特征融合比单一特征的识别效果好[9]. 不同的特征对情感识别的反应能力不同,为了更好地提取多类特征中的情感信息,计算 $ \overline {\boldsymbol{z}} $中各类特征的情感信息权重. 如图6所示,将转置后的特征向量分别通过全局最大池化层和全局平均池化层,再将两者的输出进行拼接,并通过卷积层和Sigmoid层,最终得到特征注意力权重 $ {F_{\rm{f}}} \in {{\bf{R}}^{F \times 1}} $.

3.2.2. 维度注意力机制

针对卷积层在处理序列特征时,维度通道分配相同权重系数导致情感信息的不充分利用问题[12],本研究提出维度通道注意力机制. 如图6所示,对 $ {\overline {\boldsymbol{z}} '} $进行全局平均池化,得到每个维度通道下的特征均值 $ {F_{{\text{avc}}}} $,再用全连接层和Sigmoid层实现维度注意力,最后将维度注意力的权重系数作用于 $ {\overline {\boldsymbol{z}} '} $, 为各个维度通道分配不同的权重系数:

$ {F_{{\text{ave}},c}} = \frac{1}{F}\sum\limits_{f = 1}^F {\left( {{{\overline {\boldsymbol{z}} }'}_c\left( f \right)} \right)} , $

$ \begin{split} \\ {F_{\rm{d}}}\left( {{{\overline {\boldsymbol{z}} }'}} \right) = {\rm{Sigmoid}}\left( {\omega {F_{{\text{ave}}}}} \right). \end{split} $

式中: $ \omega $为全连接层映射; $ {F_{{\text{ave}},c}} $为第 $ c $维度通道下的特征均值,其中 $ {\overline {\boldsymbol{z}} '}_c \in {{\bf{R}}^{F \times 1}} $为第 $ c $维度通道下的 $ F \times 1 $的特征.

4. 实验结果分析

4.1. 实验设置和评价指标

实验所用服务器显卡为NVIDIA GeForce RTX 2080,CPU为Intel Core i9-11950H. 算法基于Python下的Tensorflow框架完成. 网络模型皆以五折交叉验证的方法随机划分数据集. 为了验证转换网络的有效性,采用平均绝对误差和均方根误差作为评价指标,

${\rm{ MAE}} = \frac{1}{{{N_{{\rm{t}}}}}}\sum\limits_{i = 1}^{{N_{{{{\rm{t}}}}}}} {\left| {{e_i} - {t_i}} \right|} , $

$\begin{split} \\ {\rm{RMSE}} = \sqrt {\frac{1}{{{N_{{\rm{t}}}}}}\sum\limits_{i = 1}^{{N_{{\rm{t}}}}} {{{\left( {{e_i} - {t_i}} \right)}^2}} } \end{split} . $

式中:MAE为真实特征和映射特征绝对误差的平均值,RMSE为真实特征和映射特征之间的样本标准差, $ {N_{{\rm{t}}}} $为测试样本的数, $ {e_i} $$ {t_i} $分别代表第 $ i $测试样本的映射值和真实值. 为了验证识别网络的有效性,采用准确率、F1指标、曲线下面积(area under the curve)和混淆矩阵作为评价指标,

$ {\text{ACC}} = \frac{{{\rm{TP}}+{\rm{TN}}}}{{{\rm{TP}}+{\rm{TN}}+{\rm{FP}}+{\rm{FN}}}}, $

$ {\text{F}}1 = 2 \times \dfrac{{\dfrac{{{\rm{TP}}}}{{{\rm{TP}}+{\rm{FP}}}} \times \dfrac{{{\rm{TP}}}}{{{\rm{TP}}+{\rm{FN}}}}}}{{\dfrac{{{\rm{TP}}}}{{{\rm{TP}}+{\rm{FP}}}}+\dfrac{{{\rm{TP}}}}{{{\rm{TP}}+{\rm{FN}}}}}}, $

$ {\rm{AUC}} = \dfrac{{\displaystyle\sum\nolimits_{i \in {{\rm{pos}}}} {{r_i} - \dfrac{{O\left( {1+O} \right)}}{2}} }}{{O \times N}}. $

式中:ACC为总样本中被正确分类的样本比例, $ {\rm{TP}} $为真正例, ${\rm{ TN}} $为真反例, $ {\rm{FP}} $为假正例, $ {\rm{FN}} $为假反例,FI为模型的稳健程度AUC为任意正类样本大于负类样本的概率,pos为正例类别, $ O $为正样本个数, $ N $为负样本个数, $ {r_i} $为第 $ i $样本的序号.

4.2. 不同转换模型的性能对比

为了验证生成器损失函数和束缚性映射损失函数的有效性,进行转换模型的消融实验,对比模型分别设置为CycleGAN[21]、生成对抗网络(generative adversarial network, GAN)[22]、加入生成器损失函数的Bi-MGAN(G)、加入束缚性映射性损失函数的Bi-MGAN(M)和包含以上2种损失函数的Bi-MGAN(GM). 如表2所示,Bi-MGAN(G)较CycleGAN的MAE和RMSE分别提升0.010~0.093 mm和0.011~0.087 mm,Bi-MGAN(M)较CycleGAN的MAE和RMSE分别提升0.169~0.248 mm和0.038~0.294 mm,表明生成器损失函数与束缚性映射损失函数在正向和反向映射中皆有利于转换模型生成高精度的映射特征. 此外,Bi-MGAN(GM)较Bi-MGAN(M)的MAE和RMSE分别提升0.141~0.176 mm和0.198~0.214 mm,表明生成器损失函数与判别器损失函数的结合会增强模型映射能力,使得映射特征更加趋近于真实特征.

表 2   转换网络算法的消融实验

Tab.2  Ablation experiment of conversion network algorithm mm

算法 正向映射 反向映射
MAE RMSE MAE RMSE
GAN[22] 1.217 1.642 0.946 1.189
CycleGAN[21] 1.127 1.428 0.811 0.919
Bi-MGAN(G) 1.034 1.341 0.801 0.908
Bi-MGAN(M) 0.879 1.134 0.642 0.881
Bi-MGAN(GM) 0.703 0.920 0.501 0.683

新窗口打开| 下载CSV


为了验证所提转换网络算法有效性,将Bi-MGAN与传统的DNN[14]和BiLSTM[11]以及深度递归混合密度网路(deep recurrent mixture density network, DRMDN)[23]和粒子群优化算法的最小二乘支持向量机(particle swarm optimization algorithm of least squares support vector machines, PSO-LSSVM)[6]进行对比. 如表3所示,Bi-MGAN较传统的DNN和BiLSTM的MAE和RMSE大幅提升,较PSO-LSSVM的MAE和RMSE分别提升0.466~0.482 mm和0.344~0.453 mm,较DRMDN的MAE和RMSE分别提升0.181~0.330 mm和0.040~0.256 mm. 对比结果表明,Bi-MGAN可以大幅度提升网络的转换精度,在参加对比的网络中取得最佳的正向映射效果与反向映射效果,证明了Bi-MGAN的有效性.

表 3   转换网络算法的映射性能对比

Tab.3  Comparison of mapping performance for conversion networks algorithm mm

算法 正向映射 反向映射
MAE RMSE MAE RMSE
DNN[14] 1.479 1.613 1.143 1.259
BiLSTM[11] 1.298 1.422 1.003 1.217
PSO-LSSVM[6] 1.185 1.252 0.967 1.136
DRMDN[23] 0.884 0.948 0.831 0.939
Bi-MGAN 0.703 0.908 0.501 0.683

新窗口打开| 下载CSV


4.3. 情感识别网络的性能对比

为了探究FDA在情感识别中的作用,分别提取STEM-E2VA、CASIA、RADVESS和EMO-DB数据库的60维MFCC作为识别网络的输入,进行ResTCN-FDA的消融实验. 其中CASIA为6分类数据库,STEM-E2VA和EMO-DB为7分类数据库,RADVESS为8分类数据库. 如表4所示,将ResTCN-FA、ResTCN-DA与ResTCN对比可以发现,特征注意力机制对准确率提升量为1.52%~5.32%,维度注意力机制对准确率提升量为1.50%~4.54%,证明给不同特征和不同通道维度分配不同的权重参数有利于提升情感识别准确率. 将ResTCN-FDA对比TCN、ResTCN、ResTCN-FA和ResTCN-DA,准确率分别提升量为7.48%~10.92%、4.14%~8.16%、2.00%~4.16%和2.48%~6.66%. 另外,ResTCN-FDA的F1和AUC也比其他算法的有一定程度的提升,这说明ResTCN-FDA可以更好的处理情感信息.

表 4   情感识别网络算法的消融实验

Tab.4  Ablation experiment of emotion recognition networks algorithm %

数据库 算法 ACC F1 AUC
CASIA TCN[20] 70.69 69.18 70.79
ResTCN[18] 72.25 72.16 72.67
ResTCN-FA 76.25 76.56 76.96
ResTCN-DA 73.75 73.71 73.97
ResTCN-FDA 80.41 81.22 81.43
STEM-E2VA TCN[20] 64.71 64.52 66.69
ResTCN[18] 68.31 67.68 71.14
ResTCN-FA 73.63 73.78 74.83
ResTCN-DA 72.85 72.61 73.36
ResTCN-FDA 75.63 75.44 76.82
EMO-DB TCN[20] 71.26 68.67 71.71
ResTCN[18] 73.71 74.28 74.83
ResTCN-FA 76.22 76.62 76.94
ResTCN-DA 77.29 75.81 77.91
ResTCN-FDA 80.16 80.78 81.58
RADVESS TCN[20] 59.07 59.02 59.66
ResTCN[18] 62.41 61.15 61.77
ResTCN-FA 63.93 62.40 63.98
ResTCN-DA 64.07 63.82 64.90
ResTCN-FDA 66.55 65.57 66.86

新窗口打开| 下载CSV


为了进一步验证所提识别网络的有效性,以MFCC为输入特征,将ResTCN-FDA分别与传统的CNN,以及HS-TCN[24]和DRN[25]进行比较. 如表5所示,ResTCN-FDA在CASIA、STEM-E2VA、EMO-DB和RADVESS数据库上准确率分别达到80.41%、75.63%、80.16%和66.55%,与CNN、HS-TCN和DRN相比性能有明显提升. 此外,ResTCN-FDA与HS-TCN和DRN相比,F1分别取得2.01%~7.85%和3.69%~7.19%的提升量,AUC分别取得3.28%~6.07%和2.96%~7.96%的提升量,证明ResTCN-FDA在情感识别中的有效性.

表 5   情感识别网络算法的情绪评价指标对比

Tab.5  Comparison of emotion evaluation metrics for emotion recognition networks algorithm %

数据库 算法 ACC F1 AUC
CASIA CNN[12] 63.00 62.43 63.19
HS-TCN[24] 76.25 76.64 76.91
DRN[25] 76.91 76.67 76.94
ResTCN-FDA 80.41 81.22 81.43
STEM-E2VA CNN[12] 56.77 56.84 57.77
HS-TCN[24] 72.81 72.59 72.92
DRN[25] 68.15 68.25 68.86
ResTCN-FDA 75.63 75.44 76.82
EMO-DB CNN[12] 69.72 69.09 69.86
HS-TCN[24] 74.76 73.60 75.51
DRN[25] 76.64 74.72 76.96
ResTCN-FDA 80.16 80.78 81.58
RADVESS CNN[12] 57.29 55.67 57.85
HS-TCN[24] 63.29 63.56 63.58
DRN[25] 63.46 61.88 63.90
ResTCN-FDA 66.55 65.57 66.86

新窗口打开| 下载CSV


4.4. 声学与发音特征转换对情感识别的影响

为了探究声学和发音特征转换对情感识别的影响,提取STEM-E2VA的声学特征和发音特征,利用Bi-MGAN完成映射特征的生成,以ResTCN-FDA为识别网络,通过给识别网络输入不同的特征集来探索声学与发音特征转换对情感识别的影响. 另外,提取预训练特征[26-27]来对比声学与发音特征的情感识别性能.

表6所示,在单模态特征中,真实声学特征集的识别率最高为75.63%,映射声学特征集的准确率和映射发音特征集的准确率均低于对应真实特征集的准确率,说明映射特征所包含的情感信息低于真实特征,即正向映射与反向映射会降低识别准确率. 在双模态特征中,真实的声学与发音特征的识别率最高为83.77%,真实特征在与映射特征融合后,真实的声学和发音特征集的识别率均有提升,说明映射特征会对真实特征起到情绪补充作用. 对比所提特征与预训练特征不难发现,由48层转换提取的HuBERT特征的准确率达到89.66%,相较于真实的声学与发音特征提高5.89个百分点,这说明HuBERT特征在情感识别任务中可以取得比Wav2vec2.0特征和声学与发音特征更好的识别结果. 为了保证同一维度下不同特征的对比,对预训练特征使用主成分分析算法降维,通过线性投影将预训练特征分别投影到60维与88维的空间. 由表6中可知,60维的HuBERT的准确率最高为78.54%,分别比Acoustic(C)和Acoustic(R)特征识别率高19.31个百分点和2.91个百分点;88维的HuBERT的准确率为80.16%,高于真实声学与映射发音特征,但低于真实声学和真实发音特征,证明在低特征维度的时,HuBERT特征识别率会高于声学特征,但是低于声学与发音学的融合特征.

表 6   不同声学特征与发音特征的情感评价指标对比

Tab.6  Comparison of emotion evaluation indexes for different acoustic and articulatory features

特征类型 特征集 输入模态 维度 ACC/% F1/% AUC/%
发音学 Articulatory(C) 映射发音特征 28 53.02 52.03 53.61
发音学 Articulatory(R) 真实发音特征 28 63.56 62.96 63.87
声学 Acoustic(C) 映射声学特征 60 59.23 58.69 59.82
声学 Acoustic(R) 真实声学特征 60 75.63 75.44 76.82
声学与发音学 Acoustic(R) + Articulatory(C) 真实声学特征+映射发音特征 88 79.51 79.69 79.97
声学与发音学 Acoustic(C)+ Articulatory(R) 真实发音特征+映射声学特征 88 72.47 72.45 72.95
声学与发音学 Acoustic(R)+Articulatory(R) 真实声学特征+真实发音特征 88 83.77 83.64 83.97
预训练 HuBERT[26] 48层 transformer 1 280 89.66 89.85 91.96
预训练 Wav2vec 2.0[27] 24层 transformer 1 024 82.57 82.25 83.93
预训练与降维 HuBERT[26] 48层 transformer+主成分分析 60 78.54 78.93 79.15
预训练与降维 HuBERT[26] 48层 transformer+主成分分析 88 80.16 80.01 80.42
预训练与降维 Wav2vec 2.0[27] 24层 transformer+主成分分析 60 75.90 75.45 76.88
预训练与降维 Wav2vec 2.0[27] 24层 transformer+主成分分析 88 76.18 76.65 76.96

新窗口打开| 下载CSV


图7所示为不同特征的混淆矩阵. 从图7(a)~(d)可以看出,映射特征对狂喜、愤怒、冷漠和痛苦情感的识别率远低于真实特征,对中性和伤心情感的识别率略低于真实特征,说明声学与发音特征转换受情绪的影响. 对比图7(a)、(e)发现,当真实声学特征融合映射发音特征后,会使情感识别率有所提升,但不同的情绪提升效果有明显差异. 对比图7(c)、(f),当真实发音特征和映射声学特征融合后,映射声学特征对真实发音特征起补充情绪作用. 对比图7(a)、(c)、(e)、(f)和(g)可以发现,融合特征的情感识别率均低于真实的声学与发音特征的情感识别率,但映射特征对真实特征的情感补充作用会使真实特征的情感识别率有较大的提升.

图 7

图 7   不同特征集的混淆矩阵

Fig.7   Confusion matrix for different feature sets


5. 结 语

根据声学信号与发音学信号的特性,提出融合声学与发音特征转换的情感识别系统. 该系统能够利用Bi-MGAN生成高精度的映射声学特征和映射发音特征,融合FDA机制的ResTCN网络,实现了对特征的权重系数再分配,做到了对特征信息的最大化利用. 在探究真实特征和映射特征对情感识别的影响中,映射特征包含的情感信息对真实特征起情绪补充作用,且对不同情绪的补充效果不同. 本研究设计并录制的STEM-E2VA数据库填补了该领域研究中数据的不足. 未来计划引入预训练模型和对比学习,让计算机具有理解多模态情感信息的能力.

参考文献

LEI J J, ZHU X W, WANG Y

BAT: block and token self-attention for speech emotion recognition

[J]. Neural Networks, 2022, 156: 67- 80

DOI:10.1016/j.neunet.2022.09.022      [本文引用: 1]

LI Y, TAO J, CHAO L, et al

CHEAVD: a Chinese natural emotional audio visual database

[J]. Journal of Ambient Intelligence and Humanized Computing, 2017, 8 (6): 913- 924

DOI:10.1007/s12652-016-0406-z      [本文引用: 1]

CHOU H C, LIN W C, CHANG L C, et al. NNIME: the NTHU-NTUA Chinese interactive multimodal emotion corpus [C]// 2017 Seventh International Conference on Affective Computing and Intelligent Interaction. San Antonio: IEEE, 2017: 292-298.

[本文引用: 1]

BUSSO C, BULUT M, LEE C, et al

IEMOCAP: interactive emotional dyadic motion capture database

[J]. Language Resources and Evaluation, 2008, 42 (4): 335- 359

DOI:10.1007/s10579-008-9076-6      [本文引用: 1]

QIN C, CARREIRA M A. An empirical investigation of the nonuniqueness in the acoustic-to-articulatory mapping [C]// Eighth Annual Conference of the International Speech Communication Association. Antwerp: [s.n.], 2007: 27-31.

[本文引用: 2]

REN G, FU J, SHAO G, et al

Articulatory to acoustic conversion of Mandarin emotional speech based on PSO-LSSVM

[J]. Complexity, 2021, 29 (3): 696- 706

[本文引用: 3]

HOGDEN J, LOFQVIST A, GRACCO V, et al

Accurate recovery of articulator positions from acoustics: new conclusions based on human data

[J]. The Journal of the Acoustical Society of America, 1996, 100 (3): 1819- 1834

DOI:10.1121/1.416001      [本文引用: 1]

LING Z H, RICHMOND K, YAMAGISHI J, et al

Integrating articulatory features into HMM based parametric speech synthesis

[J]. IEEE Transactions on Audio, Speech, and Language Processing, 2009, 17 (6): 1171- 1185

DOI:10.1109/TASL.2009.2014796      [本文引用: 1]

LI M, KIM J, LAMMERT A, et al

Speaker verification based on the fusion of speech acoustics and inverted articulatory signals

[J]. Computer Speech and Language, 2016, 36: 196- 211

DOI:10.1016/j.csl.2015.05.003      [本文引用: 3]

GUO L, WANG L, DANG J, et al

Learning affective representations based on magnitude and dynamic relative phase information for speech emotion recognition

[J]. Speech Communication, 2022, 136 (4): 118- 127

[本文引用: 1]

CHEN Q, HUANG G

A novel dual attention based BLSTM with hybrid features in speech emotion recognition

[J]. Engineering Applications of Artificial Intelligence, 2021, 102 (5): 104277

[本文引用: 3]

张静, 张雪英, 陈桂军, 等

结合3D-CNN和频-空注意力机制的EEG情感识别

[J]. 西安电子科技大学学报, 2022, 49 (3): 191- 198

DOI:10.19665/j.issn1001-2400.2022.03.021      [本文引用: 6]

ZHANG Jing, ZHANG Xue-ying, CHEN Gui-jun, et al

EEG emotion recognition based on the 3D-CNN and spatial-frequency attention mechanism

[J]. Journal of Xidian University, 2022, 49 (3): 191- 198

DOI:10.19665/j.issn1001-2400.2022.03.021      [本文引用: 6]

KUMARAN U, RADHA R S, NAGARAJAN S M, et al

Fusion of mel and gammatone frequency cepstral coefficients for speech emotion recognition using deep C-RNN

[J]. International Journal of Speech Technology, 2021, 24 (2): 303- 314

DOI:10.1007/s10772-020-09792-x      [本文引用: 2]

LIESKOVSKA E, JAKUBEC M, JARINA R, et al

A review on speech emotion recognition using deep learning and attention mechanism

[J]. Electronics, 2021, 10 (10): 1163

DOI:10.3390/electronics10101163      [本文引用: 3]

ZHU J Y, PARK T, ISOLA P, et al. Unpaired image-to-image translation using cycle-consistent adversarial networks [C]// Proceedings of the IEEE International Conference on Computer Vision. Venice: ICCV, 2017: 2223-2232.

[本文引用: 1]

YUAN J, BAO C. CycleGAN based speech enhancement for the unpaired training data [C]// 2019 Asia-Pacific Signal and Information Processing Association Annual Summit and Conference. Lanzhou: APSIPA, 2019: 878-883.

[本文引用: 1]

SU B H, LEE C

Unsupervised cross-corpus speech emotion recognition using a multi-source CycleGAN

[J]. IEEE Transactions on Affective Computing, 2022, 48 (8): 650- 715

[本文引用: 1]

LIN J, WIJNGAARDEN A J L, WANG K C, et al

Speech enhancement using multi-stage self-attentive temporal convolutional networks

[J]. IEEE/ACM Transactions on Audio, Speech, and Language Processing, 2021, 29: 3440- 3450

DOI:10.1109/TASLP.2021.3125143      [本文引用: 5]

PANDEY A, WANG D L. TCNN: temporal convolutional neural network for real-time speech enhancement in the time domain [C]// 2019 IEEE International Conference on Acoustics, Speech and Signal Processing. Brighton: ICASSP, 2019: 6875-6879.

[本文引用: 1]

ZHANG L, SHI Z, HAN J, et al. Furcanext: end-to-end monaural speech separation with dynamic gated dilated temporal convolutional networks [C]// International Conference on Multimedia Modeling. Daejeon: ICMM, 2020: 653-665.

[本文引用: 5]

JIANG Z, ZHANG R, GUO Y, et al

Noise interference reduction in vision module of intelligent plant cultivation robot using better Cycle GAN

[J]. IEEE Sensors Journal, 2022, 22 (11): 11045- 11055

DOI:10.1109/JSEN.2022.3164915      [本文引用: 3]

GOODFELLOW I, POUGET A J, MIRZA M, et al

Generative adversarial nets

[J]. Advances in Neural Information Processing Systems, 2014, 27: 42- 51

[本文引用: 2]

LIU P, YU Q, WU Z, et al. A deep recurrent approach for acoustic-to-articulatory inversion [C]// 2015 IEEE International Conference on Acoustics, Speech and Signal Processing. Brisbane: ICASSP, 2015: 4450-4454.

[本文引用: 2]

CHENG Y, XU Y, ZHONG H, et al

Leveraging semisupervised hierarchical stacking temporal convolutional network for anomaly detection in IoT communication

[J]. IEEE Internet of Things Journal, 2020, 8 (1): 144- 155

[本文引用: 5]

ZHAO Z P, LI Q F, ZHANG Z X, et al

Combining a parallel 2D CNN with a self-attention dilated residual network for CTC-based discrete speech emotion recognition

[J]. Neural Networks, 2021, 141: 52- 60

DOI:10.1016/j.neunet.2021.03.013      [本文引用: 5]

CHANG, XUAN K. An exploration of self-supervised pretrained representations for end-to-end speech recognition [C]// 2021 IEEE Automatic Speech Recognition and Understanding Workshop. Cartagena: ASRU, 2021, 228-235.

[本文引用: 4]

ZHU, QIU S. A noise-robust self-supervised pre-training model based speech representation learning for automatic speech recognition [C]// 2022 IEEE International Conference on Acoustics, Speech and Signal Processing. Singapore: ICASSP, 2022: 3174-3178.

[本文引用: 4]

/