<img src="https://www.zjujournals.com/eng/images/1008-973X/images/logo.png" class="img-responsive">

图 1 电磁发音仪采集声学与发音学数据的过程

Fig.1 Electromagnetic articulography acquisition process for acoustic and articulatory data

图 2

图 2 电磁发音仪采集数据时的传感器设置

Fig.2 Sensor settings for data acquisition by electromagnetic articulography

2.2. 数据预处理

选取数据库中的声学数据和发音学数据，研究声学与发音特征转换对情感识别的影响. EMA采集的发音学数据以电压幅值的形式存储,为便于后续的实验操作，须进行数据预处理. 预处理步骤：1）将电压幅值数据转换为原始三维空间数据，2）利用参考面传感器生成三维空间数据，3)将空间数据转换为ASCII码，4)使用Visartico软件筛选出合格的发音学数据.

在声学数据预处理中，让6名母语为普通话且听力正常的志愿者按照如表1所示的评估量表进行声学数据评分，选择评分不低于2.5的声学数据. 在预处理后，得到并行的声学和发音学数据共2 415条. 其中悲痛情感的为337条，狂喜情感的为335条，愉悦、愤怒情感的各345条，忧伤情感的为349条，中性、冷漠情感的各352条.

表 1 声学数据评估量表

Tab.1 Acoustic data assessment scale

评分	语音传达度	情感表达度
3	无噪音且语义明确	强烈的情绪表达
2	略微的噪音但语义明确	中度的情绪表达
1	明显的噪音且影响语义传达	轻微的情绪表达
0	音频嘈杂且无法理解	无情绪表达

2.3. 特征提取

从声学和发音学数据中分别提取MFCC和发音特征. MFCC特征能够模拟人耳对语音的处理， Kumaran等^[13]发现MFCC特征转换出的发音特征具有良好的映射性能. 本研究选用MFCC作为声学特征，定义MFCC特征集为

(4) $ {\boldsymbol{M}} = \left[ {S({{\boldsymbol{m}}_i}),K({{\boldsymbol{m}}_i}),\overline {{{\boldsymbol{m}}_i}} ,{\sigma ^2}\left( {{{\boldsymbol{m}}_i}} \right),{\rm{med}}({{\boldsymbol{m}}_i})} \right]. $

式中： $S({{\boldsymbol{m}}_i})$、 $K({{\boldsymbol{m}}_i})$、 $\overline {{{\boldsymbol{m}}_i}}$、 ${\sigma ^2}\left( {{{\boldsymbol{m}}_i}} \right)$和 ${\rm{med}}({{\boldsymbol{m}}_i})$依次为偏度、峰度、均值、方差和中值， ${{\boldsymbol{m}}_i}$为第 $ i $阶MFCC， $ i $=12，共60维声学特征. 在发音特征的提取中，以舌部和唇部为研究点，分析发音器官运动时的位移和速度特征，定义发音特征集为

(5) $ {\boldsymbol{A}} = \left[ {{{\boldsymbol{S}}_x},{{\boldsymbol{S}}_y},{{\boldsymbol{S}}_z},{\boldsymbol{V}}} \right]. $

式中： $ {{\boldsymbol{S}}_x} $、 $ {{\boldsymbol{S}}_y} $、 $ {{\boldsymbol{S}}_z} $分别为发音器官在 $ x $、 $ y $和 $ z $轴的位移参数， $ {\boldsymbol{V}} $为发音器官的速度参数，共28维发音特征.

3. 融合Bi-MGAN和ResTCN-FDA的情感识别系统

融合Bi-MGAN和ResTCN-FDA的情感识别系统将声学与发音特征转换引入语音情感识别研究：1）Bi-MGAN负责将已知的真实特征转换为对应的映射特征；2）将真实特征与映射特征融合，使融合后的特征集同时包含声学和发音特征所表征的情感信息；3）将融合特征集输入ResTCN-FDA，利用FDA给不同特征的不同维度通道分配不同的权重系数，再经过Softmax层进行情感分类. 如图3所示， $ \widehat x $、 $ \widetilde x $分别为映射的发音特征和循环的发音特征， $ \widehat y $、 $ \widetilde y $分别为映射的声学特征和循环的声学特征；虚线箭头表示将发音特征和映射发音特征融合后输入ResTCN-FDA，点划线箭头表示将声学特征和映射声学特征融合后输入ResTCN-FDA；以此探索声学与发音特征转换中的正向与反向映射对情感识别的影响.

图 3

图 3 融合Bi-MGAN和ResTCN-FDA的情感识别算法整体结构

Fig.3 Overall structure of emotion recognition algorithm fusing Bi-MGAN and ResTCN-FDA

3.1. Bi-MGAN

转换网络的目的是利用真实特征生成高精度的映射特征，进而探究映射特征对语音情感识别的影响. CycleGAN应用在图像风格转换任务时不要求成对的训练数据^[21]，这与声学与发音特征转换任务不同. 人体多数语音都是依靠独特的声道形状产生^[5]，这就要求声学与发音学数据的并行性. 为了增强转换模型的映射能力，本研究对CycleGAN的网络结构和损失函数进行优化改进，提出适用于声学与发音特征转换任务的Bi-MGAN，如图4所示. 图4(a)中Bi-MGAN将真实发音特征 $ x $转换为映射声学特征 $ \widehat y $，再将 $ \widehat y $转换为循环发音特征 $ \widetilde x $：1)将真实的声学特征 $ x $转换为对应的映射发音特征 $ \widehat y $ ；2)利用 $ y $与 $ \widehat y $的误差，计算声学特征映射损失；3)将映射发音特征 $ \widehat y $转换为循环声学特征 $ \widetilde x $；4)利用 $ x $与 $ \widetilde x $的误差，计算发音特征循环一致性损失. 同理，图4(b)中Bi-MGAN将真实声学特征 $ y $转换为映射发音特征 $ \widehat x $，再将 $ \widehat x $转换为循环声学特征 $ \widetilde y $.

图 4

图 4 双向映射生成对抗网络的网络原理图

Fig.4 Network schematic of bi-directional mapping generative adversarial network

声学与发音特征转换任务的计算量相对较小，为了减少转换网络的冗余度，避免梯度消失，提高映射精度，对生成器和判别器进行优化. Bi-MGAN由正向生成器 $ {G_{X \to Y}} $、反向生成器 $ {G_{Y \to X}} $、发音学判别器 $ {D_X} $和声学判别器 $ {D_Y} $构成. 正向生成器的结构设计利用发音特征映射出对应的声学特征，目的是使声学判别器无法正确判断映射的声学特征和真实的声学特征. 为了减少模型冗余度，选用Dense层来构建上、下采样模块. 上采样模块将输入的28维发音特征扩展到512维，下采样模块负责将高维度的发音特征转换为60维的声学特征. 反向生成器的结构设计的不同之处在于反向生成器利用MFCC特征映射出对应的发音特征，目的是使发音学判别器无法正确判断映射的发音特征和真实的发音特征. 发音学判别器对真实的发音特征和映射的发音特征进行判别和计算，并利用损失函数回调反向生成器的权重参数，提高映射特征的精度，达到对映射发音特征的监督和反馈效果. 发音学判别器本质为二分类识别器，恰好与反向生成器的期望相反，目的是能够正确的判别映射的发音特征和真实的发音特征，如此映射模型将会在两者的交替迭代优化中找到全局最优解. 声学判别器是对真实的声学特征和映射的声学特征进行判别，并利用损失函数回调正向生成器的权重参数，达到对映射声学特征的监督和反馈效果.

Bi-MGAN的损失函数的优化主要体现在2个方面：生成器损失函数和束缚性映射损失函数. Bi-MGAN在训练期间考虑4种类型的损失：生成器损失、对抗性损失、循环一致性损失和束缚性映射损失. 1）生成器损失函数：新增 $ {L_{\rm{g}}} $作为生成器的基础映射函数，增强生成器的转换能力. $ {G_{X \to Y}} $、 $ {G_{Y \to X}} $的生成器损失函数分别为

(6) $ {L_{\rm{g}}}\left( {{G_{X \to Y}}} \right) = {E_{x \sim X}}\left[ {{L_{{\rm{bce}}}}\left( {{G_{X \to Y}}\left( x \right)} \right)} \right]， $

(7) $ {L_{\rm{g}}}\left( {{G_{Y \to X}}} \right) = {E_{y \sim Y}}\left[ {{L_{{\rm{bce}}}}\left( {{G_{Y \to X}}\left( y \right)} \right)} \right]. $

式中： $ {L_{{\rm{bce}}}} $为交叉熵损失函数. 使用 $ {L_{{\rm{bce}}}} $对 $ {G_{X \to Y}}\left( x \right) $进行判定；若判定结果为真，则说明 $ {G_{X \to Y}}\left( x \right) $与真实特征 $ y $难以区分；若判断为假，则将产生误差. 2）束缚性映射损失函数：要完成声学与发音特征转换任务，仅依靠式(1)、(2)、(6)和(7)不能保证映射特征的精度，将真实特征与映射特征的正则化引入Bi-MGAN，通过减少模型在训练时生成误差较大的映射特征，约束映射特征的生成范围. 正向与反向束缚性映射损失函数分别为

(8) $ {L_{\rm{m}}}\left( {y,{G_{X \to Y}}} \right) = {E_{x \sim X,y \sim Y}}\left[ {{L_1}\left( {y,{G_{X \to Y}}\left( x \right)} \right)} \right] ,$

(9) $ {L_{\rm{m}}}\left( {x,{G_{Y \to X}}} \right) = {E_{x \sim X,y \sim Y}}\left[ {{L_1}\left( {x,{G_{Y \to X}}\left( y \right)} \right)} \right]. $

式中： $ {L_1}\left( {y,{G_{X \to Y}}\left( x \right)} \right) $为真实声学特征 $ y $与映射声学特征 $ {G_{X \to Y}}\left( x \right) $的 $ {L_1} $差值.

3.2. ResTCN-FDA

情感诱发下的不同特征以及不同维度通道携带的情感信息具有一定的差异性^[9]. 在模型训练时，不同特征的不同维度通道分配的权重相同，将导致情感信息的不充分利用. 本研究将ResTCN与注意力机制相结合，提出融合FDA注意力机制的ResTCN情感识别网络，通过对ResTCN输出的特征进行加权调整，更好地利用声学与发音特征中与情感显著相关的特征和维度通道.

如图5所示，1）序列特征 $ {\boldsymbol{z}} $在ResTCN模块中依次进行膨胀卷积操作、归一化、ReLU激活和Dropout，生成包含元素依赖关系的特征 $ {{\boldsymbol{z}}'} $；2） $ {\boldsymbol{z }}$与 $ {{\boldsymbol{z}}'} $进行拼接操作，使得特征既包含整体情感信息又包含局部元素依赖性信息；3）ResTCN输出的序列特征 $ \overline {\boldsymbol{z}} $将被输入FDA模块，完成对特征以及维度通道的权重再分配. 在训练中，ResTCN的膨胀卷积的卷积核为2. 将真实特征与映射特征进行融合，作为网络的输入信号 $ {\boldsymbol{z}} \in {{\bf{R}}^{{{F}} \times {{C}}}} $，其中 $ F $、 $ C $分别为特征图的特征数量和输出通道维度. 如图6所示，ResTCN的输出信号 $ \overline {\boldsymbol{z}} $依次经过特征注意力机制 $ {F_{\rm{f}}} \in {{\bf{R}}^{F \times 1}} $和维度注意力机制 $ {F_{\rm{d}}} \in {{\bf{R}}^{1 \times C}} $后得到输出信号 $ {\overline {\boldsymbol{z}} {''}} \in {{\bf{R}}^{F \times C}} $：

图 5

图 5 ResTCN-FDA的整体结构图

Fig.5 Overall structure of ResTCN-FDA

(10) $ {\overline {\boldsymbol{z}} '} = {F_{\rm{f}}}\left( {\overline {\boldsymbol{z}} } \right) \otimes \overline {\boldsymbol{z}} ,$

(11) $ {\overline {\boldsymbol{z}} {''}} = {F_{\rm{d}}}\left( {{{\overline {\boldsymbol{z}} }'}} \right) \otimes {\overline {\boldsymbol{z}} '}. $

式中： $ \otimes $为元素乘法.

图 6

图 6 特征-维度注意力机制的整体结构框图

Fig.6 Overall structural framework of feature-dimensional attention mechanism

3.2.1. 特征注意力机制

在情感识别中，多特征融合比单一特征的识别效果好^[9]. 不同的特征对情感识别的反应能力不同，为了更好地提取多类特征中的情感信息，计算 $ \overline {\boldsymbol{z}} $中各类特征的情感信息权重. 如图6所示，将转置后的特征向量分别通过全局最大池化层和全局平均池化层，再将两者的输出进行拼接，并通过卷积层和Sigmoid层，最终得到特征注意力权重 $ {F_{\rm{f}}} \in {{\bf{R}}^{F \times 1}} $.

3.2.2. 维度注意力机制

针对卷积层在处理序列特征时，维度通道分配相同权重系数导致情感信息的不充分利用问题^[12]，本研究提出维度通道注意力机制. 如图6所示，对 $ {\overline {\boldsymbol{z}} '} $进行全局平均池化，得到每个维度通道下的特征均值 $ {F_{{\text{avc}}}} $，再用全连接层和Sigmoid层实现维度注意力，最后将维度注意力的权重系数作用于 $ {\overline {\boldsymbol{z}} '} $, 为各个维度通道分配不同的权重系数：

(12) $ {F_{{\text{ave}},c}} = \frac{1}{F}\sum\limits_{f = 1}^F {\left( {{{\overline {\boldsymbol{z}} }'}_c\left( f \right)} \right)} ， $

(13) $ \begin{split} \\ {F_{\rm{d}}}\left( {{{\overline {\boldsymbol{z}} }'}} \right) = {\rm{Sigmoid}}\left( {\omega {F_{{\text{ave}}}}} \right). \end{split} $

式中： $ \omega $为全连接层映射； $ {F_{{\text{ave}},c}} $为第 $ c $维度通道下的特征均值，其中 $ {\overline {\boldsymbol{z}} '}_c \in {{\bf{R}}^{F \times 1}} $为第 $ c $维度通道下的 $ F \times 1 $的特征.

4. 实验结果分析

4.1. 实验设置和评价指标

实验所用服务器显卡为NVIDIA GeForce RTX 2080，CPU为Intel Core i9-11950H. 算法基于Python下的Tensorflow框架完成. 网络模型皆以五折交叉验证的方法随机划分数据集. 为了验证转换网络的有效性，采用平均绝对误差和均方根误差作为评价指标，

(14) ${\rm{ MAE}} = \frac{1}{{{N_{{\rm{t}}}}}}\sum\limits_{i = 1}^{{N_{{{{\rm{t}}}}}}} {\left| {{e_i} - {t_i}} \right|} ， $

(15) $\begin{split} \\ {\rm{RMSE}} = \sqrt {\frac{1}{{{N_{{\rm{t}}}}}}\sum\limits_{i = 1}^{{N_{{\rm{t}}}}} {{{\left( {{e_i} - {t_i}} \right)}^2}} } \end{split} . $

式中：MAE为真实特征和映射特征绝对误差的平均值，RMSE为真实特征和映射特征之间的样本标准差， $ {N_{{\rm{t}}}} $为测试样本的数， $ {e_i} $、 $ {t_i} $分别代表第 $ i $测试样本的映射值和真实值. 为了验证识别网络的有效性，采用准确率、F1指标、曲线下面积（area under the curve）和混淆矩阵作为评价指标，

(16) $ {\text{ACC}} = \frac{{{\rm{TP}}+{\rm{TN}}}}{{{\rm{TP}}+{\rm{TN}}+{\rm{FP}}+{\rm{FN}}}}， $

(17) $ {\text{F}}1 = 2 \times \dfrac{{\dfrac{{{\rm{TP}}}}{{{\rm{TP}}+{\rm{FP}}}} \times \dfrac{{{\rm{TP}}}}{{{\rm{TP}}+{\rm{FN}}}}}}{{\dfrac{{{\rm{TP}}}}{{{\rm{TP}}+{\rm{FP}}}}+\dfrac{{{\rm{TP}}}}{{{\rm{TP}}+{\rm{FN}}}}}}， $

(18) $ {\rm{AUC}} = \dfrac{{\displaystyle\sum\nolimits_{i \in {{\rm{pos}}}} {{r_i} - \dfrac{{O\left( {1+O} \right)}}{2}} }}{{O \times N}}. $

式中：ACC为总样本中被正确分类的样本比例， $ {\rm{TP}} $为真正例， ${\rm{ TN}} $为真反例， $ {\rm{FP}} $为假正例， $ {\rm{FN}} $为假反例，FI为模型的稳健程度AUC为任意正类样本大于负类样本的概率，pos为正例类别， $ O $为正样本个数， $ N $为负样本个数， $ {r_i} $为第 $ i $样本的序号.

4.2. 不同转换模型的性能对比

为了验证生成器损失函数和束缚性映射损失函数的有效性，进行转换模型的消融实验，对比模型分别设置为CycleGAN^[21]、生成对抗网络(generative adversarial network, GAN)^[22]、加入生成器损失函数的Bi-MGAN(G)、加入束缚性映射性损失函数的Bi-MGAN(M)和包含以上2种损失函数的Bi-MGAN(GM). 如表2所示，Bi-MGAN(G)较CycleGAN的MAE和RMSE分别提升0.010~0.093 mm和0.011~0.087 mm，Bi-MGAN(M)较CycleGAN的MAE和RMSE分别提升0.169~0.248 mm和0.038~0.294 mm，表明生成器损失函数与束缚性映射损失函数在正向和反向映射中皆有利于转换模型生成高精度的映射特征. 此外，Bi-MGAN(GM)较Bi-MGAN(M)的MAE和RMSE分别提升0.141~0.176 mm和0.198~0.214 mm，表明生成器损失函数与判别器损失函数的结合会增强模型映射能力，使得映射特征更加趋近于真实特征.

表 2 转换网络算法的消融实验

Tab.2 Ablation experiment of conversion network algorithm mm

算法	正向映射		反向映射
算法	MAE	RMSE	MAE	RMSE
GAN^[22]	1.217	1.642	0.946	1.189
CycleGAN^[21]	1.127	1.428	0.811	0.919
Bi-MGAN(G)	1.034	1.341	0.801	0.908
Bi-MGAN(M)	0.879	1.134	0.642	0.881
Bi-MGAN(GM)	0.703	0.920	0.501	0.683

为了验证所提转换网络算法有效性，将Bi-MGAN与传统的DNN^[14]和BiLSTM^[11]以及深度递归混合密度网路(deep recurrent mixture density network, DRMDN)^[23]和粒子群优化算法的最小二乘支持向量机(particle swarm optimization algorithm of least squares support vector machines, PSO-LSSVM)^[6]进行对比. 如表3所示，Bi-MGAN较传统的DNN和BiLSTM的MAE和RMSE大幅提升，较PSO-LSSVM的MAE和RMSE分别提升0.466~0.482 mm和0.344~0.453 mm，较DRMDN的MAE和RMSE分别提升0.181~0.330 mm和0.040~0.256 mm. 对比结果表明，Bi-MGAN可以大幅度提升网络的转换精度，在参加对比的网络中取得最佳的正向映射效果与反向映射效果，证明了Bi-MGAN的有效性.

表 3 转换网络算法的映射性能对比

Tab.3 Comparison of mapping performance for conversion networks algorithm mm

算法	正向映射		反向映射
算法	MAE	RMSE	MAE	RMSE
DNN^[14]	1.479	1.613	1.143	1.259
BiLSTM^[11]	1.298	1.422	1.003	1.217
PSO-LSSVM^[6]	1.185	1.252	0.967	1.136
DRMDN^[23]	0.884	0.948	0.831	0.939
Bi-MGAN	0.703	0.908	0.501	0.683

4.3. 情感识别网络的性能对比

为了探究FDA在情感识别中的作用，分别提取STEM-E²VA、CASIA、RADVESS和EMO-DB数据库的60维MFCC作为识别网络的输入，进行ResTCN-FDA的消融实验. 其中CASIA为6分类数据库，STEM-E²VA和EMO-DB为7分类数据库，RADVESS为8分类数据库. 如表4所示，将ResTCN-FA、ResTCN-DA与ResTCN对比可以发现，特征注意力机制对准确率提升量为1.52%~5.32%，维度注意力机制对准确率提升量为1.50%~4.54%，证明给不同特征和不同通道维度分配不同的权重参数有利于提升情感识别准确率. 将ResTCN-FDA对比TCN、ResTCN、ResTCN-FA和ResTCN-DA，准确率分别提升量为7.48%~10.92%、4.14%~8.16%、2.00%~4.16%和2.48%~6.66%. 另外，ResTCN-FDA的F1和AUC也比其他算法的有一定程度的提升，这说明ResTCN-FDA可以更好的处理情感信息.

表 4 情感识别网络算法的消融实验

Tab.4 Ablation experiment of emotion recognition networks algorithm %

数据库	算法	ACC	F1	AUC
CASIA	TCN^[20]	70.69	69.18	70.79
	ResTCN^[18]	72.25	72.16	72.67
	ResTCN-FA	76.25	76.56	76.96
	ResTCN-DA	73.75	73.71	73.97
	ResTCN-FDA	80.41	81.22	81.43
STEM-E²VA	TCN^[20]	64.71	64.52	66.69
	ResTCN^[18]	68.31	67.68	71.14
	ResTCN-FA	73.63	73.78	74.83
	ResTCN-DA	72.85	72.61	73.36
	ResTCN-FDA	75.63	75.44	76.82
EMO-DB	TCN^[20]	71.26	68.67	71.71
	ResTCN^[18]	73.71	74.28	74.83
	ResTCN-FA	76.22	76.62	76.94
	ResTCN-DA	77.29	75.81	77.91
	ResTCN-FDA	80.16	80.78	81.58
RADVESS	TCN^[20]	59.07	59.02	59.66
	ResTCN^[18]	62.41	61.15	61.77
	ResTCN-FA	63.93	62.40	63.98
	ResTCN-DA	64.07	63.82	64.90
	ResTCN-FDA	66.55	65.57	66.86

为了进一步验证所提识别网络的有效性，以MFCC为输入特征，将ResTCN-FDA分别与传统的CNN，以及HS-TCN^[24]和DRN^[25]进行比较. 如表5所示，ResTCN-FDA在CASIA、STEM-E²VA、EMO-DB和RADVESS数据库上准确率分别达到80.41%、75.63%、80.16%和66.55%，与CNN、HS-TCN和DRN相比性能有明显提升. 此外，ResTCN-FDA与HS-TCN和DRN相比，F1分别取得2.01%~7.85%和3.69%~7.19%的提升量，AUC分别取得3.28%~6.07%和2.96%~7.96%的提升量，证明ResTCN-FDA在情感识别中的有效性.

表 5 情感识别网络算法的情绪评价指标对比

Tab.5 Comparison of emotion evaluation metrics for emotion recognition networks algorithm %

数据库	算法	ACC	F1	AUC
CASIA	CNN^[12]	63.00	62.43	63.19
	HS-TCN^[24]	76.25	76.64	76.91
	DRN^[25]	76.91	76.67	76.94
	ResTCN-FDA	80.41	81.22	81.43
STEM-E²VA	CNN^[12]	56.77	56.84	57.77
	HS-TCN^[24]	72.81	72.59	72.92
	DRN^[25]	68.15	68.25	68.86
	ResTCN-FDA	75.63	75.44	76.82
EMO-DB	CNN^[12]	69.72	69.09	69.86
	HS-TCN^[24]	74.76	73.60	75.51
	DRN^[25]	76.64	74.72	76.96
	ResTCN-FDA	80.16	80.78	81.58
RADVESS	CNN^[12]	57.29	55.67	57.85
	HS-TCN^[24]	63.29	63.56	63.58
	DRN^[25]	63.46	61.88	63.90
	ResTCN-FDA	66.55	65.57	66.86

4.4. 声学与发音特征转换对情感识别的影响

为了探究声学和发音特征转换对情感识别的影响，提取STEM-E²VA的声学特征和发音特征，利用Bi-MGAN完成映射特征的生成，以ResTCN-FDA为识别网络，通过给识别网络输入不同的特征集来探索声学与发音特征转换对情感识别的影响. 另外，提取预训练特征^[26-27]来对比声学与发音特征的情感识别性能.

如表6所示，在单模态特征中，真实声学特征集的识别率最高为75.63%，映射声学特征集的准确率和映射发音特征集的准确率均低于对应真实特征集的准确率，说明映射特征所包含的情感信息低于真实特征，即正向映射与反向映射会降低识别准确率. 在双模态特征中，真实的声学与发音特征的识别率最高为83.77%，真实特征在与映射特征融合后，真实的声学和发音特征集的识别率均有提升，说明映射特征会对真实特征起到情绪补充作用. 对比所提特征与预训练特征不难发现，由48层转换提取的HuBERT特征的准确率达到89.66%，相较于真实的声学与发音特征提高5.89个百分点，这说明HuBERT特征在情感识别任务中可以取得比Wav2vec2.0特征和声学与发音特征更好的识别结果. 为了保证同一维度下不同特征的对比，对预训练特征使用主成分分析算法降维，通过线性投影将预训练特征分别投影到60维与88维的空间. 由表6中可知，60维的HuBERT的准确率最高为78.54%，分别比Acoustic(C)和Acoustic(R)特征识别率高19.31个百分点和2.91个百分点；88维的HuBERT的准确率为80.16%，高于真实声学与映射发音特征，但低于真实声学和真实发音特征，证明在低特征维度的时，HuBERT特征识别率会高于声学特征，但是低于声学与发音学的融合特征.

表 6 不同声学特征与发音特征的情感评价指标对比

Tab.6 Comparison of emotion evaluation indexes for different acoustic and articulatory features

特征类型	特征集	输入模态	维度	ACC/%	F1/%	AUC/%
发音学	Articulatory(C)	映射发音特征	28	53.02	52.03	53.61
发音学	Articulatory(R)	真实发音特征	28	63.56	62.96	63.87
声学	Acoustic(C)	映射声学特征	60	59.23	58.69	59.82
声学	Acoustic(R)	真实声学特征	60	75.63	75.44	76.82
声学与发音学	Acoustic(R) + Articulatory(C)	真实声学特征+映射发音特征	88	79.51	79.69	79.97
声学与发音学	Acoustic(C)+ Articulatory(R)	真实发音特征+映射声学特征	88	72.47	72.45	72.95
声学与发音学	Acoustic(R)+Articulatory(R)	真实声学特征+真实发音特征	88	83.77	83.64	83.97
预训练	HuBERT^[26]	48层 transformer	1 280	89.66	89.85	91.96
预训练	Wav2vec 2.0^[27]	24层 transformer	1 024	82.57	82.25	83.93
预训练与降维	HuBERT^[26]	48层 transformer+主成分分析	60	78.54	78.93	79.15
预训练与降维	HuBERT^[26]	48层 transformer+主成分分析	88	80.16	80.01	80.42
预训练与降维	Wav2vec 2.0^[27]	24层 transformer+主成分分析	60	75.90	75.45	76.88
预训练与降维	Wav2vec 2.0^[27]	24层 transformer+主成分分析	88	76.18	76.65	76.96

如图7所示为不同特征的混淆矩阵. 从图7(a)~(d)可以看出，映射特征对狂喜、愤怒、冷漠和痛苦情感的识别率远低于真实特征，对中性和伤心情感的识别率略低于真实特征，说明声学与发音特征转换受情绪的影响. 对比图7(a)、(e)发现，当真实声学特征融合映射发音特征后，会使情感识别率有所提升，但不同的情绪提升效果有明显差异. 对比图7(c)、(f)，当真实发音特征和映射声学特征融合后，映射声学特征对真实发音特征起补充情绪作用. 对比图7(a)、(c)、(e)、(f)和(g)可以发现，融合特征的情感识别率均低于真实的声学与发音特征的情感识别率，但映射特征对真实特征的情感补充作用会使真实特征的情感识别率有较大的提升.

图 7

DOI:10.1016/j.neunet.2022.09.022 [本文引用: 1]

图 7 不同特征集的混淆矩阵

Fig.7 Confusion matrix for different feature sets

5. 结　语

根据声学信号与发音学信号的特性，提出融合声学与发音特征转换的情感识别系统. 该系统能够利用Bi-MGAN生成高精度的映射声学特征和映射发音特征，融合FDA机制的ResTCN网络，实现了对特征的权重系数再分配，做到了对特征信息的最大化利用. 在探究真实特征和映射特征对情感识别的影响中，映射特征包含的情感信息对真实特征起情绪补充作用，且对不同情绪的补充效果不同. 本研究设计并录制的STEM-E²VA数据库填补了该领域研究中数据的不足. 未来计划引入预训练模型和对比学习，让计算机具有理解多模态情感信息的能力.

参考文献

原文顺序

文献年度倒序

文中引用次数倒序

被引期刊影响因子

[1]

LEI J J, ZHU X W, WANG Y

BAT: block and token self-attention for speech emotion recognition

[J]. Neural Networks, 2022, 156: 67- 80

[2]

LI Y, TAO J, CHAO L, et al

CHEAVD: a Chinese natural emotional audio visual database

[J]. Journal of Ambient Intelligence and Humanized Computing, 2017, 8 (6): 913- 924

DOI:10.1007/s12652-016-0406-z [本文引用: 1]

[3]

CHOU H C, LIN W C, CHANG L C, et al. NNIME: the NTHU-NTUA Chinese interactive multimodal emotion corpus [C]// 2017 Seventh International Conference on Affective Computing and Intelligent Interaction. San Antonio: IEEE, 2017: 292-298.

[4]

BUSSO C, BULUT M, LEE C, et al

IEMOCAP: interactive emotional dyadic motion capture database

[J]. Language Resources and Evaluation, 2008, 42 (4): 335- 359

DOI:10.1007/s10579-008-9076-6 [本文引用: 1]

[5]

QIN C, CARREIRA M A. An empirical investigation of the nonuniqueness in the acoustic-to-articulatory mapping [C]// Eighth Annual Conference of the International Speech Communication Association. Antwerp: [s.n.], 2007: 27-31.

[本文引用: 2]

[6]

REN G, FU J, SHAO G, et al

Articulatory to acoustic conversion of Mandarin emotional speech based on PSO-LSSVM

[J]. Complexity, 2021, 29 (3): 696- 706

[本文引用: 3]

[7]

HOGDEN J, LOFQVIST A, GRACCO V, et al

Accurate recovery of articulator positions from acoustics: new conclusions based on human data

[J]. The Journal of the Acoustical Society of America, 1996, 100 (3): 1819- 1834

DOI:10.1121/1.416001 [本文引用: 1]

[8]

LING Z H, RICHMOND K, YAMAGISHI J, et al

Integrating articulatory features into HMM based parametric speech synthesis

[J]. IEEE Transactions on Audio, Speech, and Language Processing, 2009, 17 (6): 1171- 1185

DOI:10.1109/TASL.2009.2014796 [本文引用: 1]

[9]

LI M, KIM J, LAMMERT A, et al

Speaker verification based on the fusion of speech acoustics and inverted articulatory signals

[J]. Computer Speech and Language, 2016, 36: 196- 211

DOI:10.1016/j.csl.2015.05.003 [本文引用: 3]

[10]

GUO L, WANG L, DANG J, et al

Learning affective representations based on magnitude and dynamic relative phase information for speech emotion recognition

[J]. Speech Communication, 2022, 136 (4): 118- 127

DOI:10.19665/j.issn1001-2400.2022.03.021 [本文引用: 6]

[11]

CHEN Q, HUANG G

A novel dual attention based BLSTM with hybrid features in speech emotion recognition

[J]. Engineering Applications of Artificial Intelligence, 2021, 102 (5): 104277

[本文引用: 3]

[12]

张静, 张雪英, 陈桂军, 等

结合3D-CNN和频-空注意力机制的EEG情感识别

[J]. 西安电子科技大学学报, 2022, 49 (3): 191- 198

ZHANG Jing, ZHANG Xue-ying, CHEN Gui-jun, et al

EEG emotion recognition based on the 3D-CNN and spatial-frequency attention mechanism

[J]. Journal of Xidian University, 2022, 49 (3): 191- 198

DOI:10.19665/j.issn1001-2400.2022.03.021 [本文引用: 6]

[13]

KUMARAN U, RADHA R S, NAGARAJAN S M, et al

Fusion of mel and gammatone frequency cepstral coefficients for speech emotion recognition using deep C-RNN

[J]. International Journal of Speech Technology, 2021, 24 (2): 303- 314

DOI:10.1007/s10772-020-09792-x [本文引用: 2]

[14]

LIESKOVSKA E, JAKUBEC M, JARINA R, et al

A review on speech emotion recognition using deep learning and attention mechanism

[J]. Electronics, 2021, 10 (10): 1163

DOI:10.3390/electronics10101163 [本文引用: 3]

[15]

ZHU J Y, PARK T, ISOLA P, et al. Unpaired image-to-image translation using cycle-consistent adversarial networks [C]// Proceedings of the IEEE International Conference on Computer Vision. Venice: ICCV, 2017: 2223-2232.

[16]

YUAN J, BAO C. CycleGAN based speech enhancement for the unpaired training data [C]// 2019 Asia-Pacific Signal and Information Processing Association Annual Summit and Conference. Lanzhou: APSIPA, 2019: 878-883.

[17]

SU B H, LEE C

Unsupervised cross-corpus speech emotion recognition using a multi-source CycleGAN

[J]. IEEE Transactions on Affective Computing, 2022, 48 (8): 650- 715

[18]

LIN J, WIJNGAARDEN A J L, WANG K C, et al

Speech enhancement using multi-stage self-attentive temporal convolutional networks

[J]. IEEE/ACM Transactions on Audio, Speech, and Language Processing, 2021, 29: 3440- 3450

DOI:10.1109/TASLP.2021.3125143 [本文引用: 5]

[19]

PANDEY A, WANG D L. TCNN: temporal convolutional neural network for real-time speech enhancement in the time domain [C]// 2019 IEEE International Conference on Acoustics, Speech and Signal Processing. Brighton: ICASSP, 2019: 6875-6879.