融合生成对抗网络与时间卷积网络的普通话情感识别
|
李海烽,张雪英,段淑斐,贾海蓉,Huizhi Liang
|
Fusing generative adversarial network and temporal convolutional network for Mandarin emotion recognition
|
Hai-feng LI,Xue-ying ZHANG,Shu-fei DUAN,Hai-rong JIA,Hui-zhi LIANG
|
|
表 6 不同声学特征与发音特征的情感评价指标对比 |
Tab.6 Comparison of emotion evaluation indexes for different acoustic and articulatory features |
|
特征类型 | 特征集 | 输入模态 | 维度 | ACC/% | F1/% | AUC/% | 发音学 | Articulatory(C) | 映射发音特征 | 28 | 53.02 | 52.03 | 53.61 | 发音学 | Articulatory(R) | 真实发音特征 | 28 | 63.56 | 62.96 | 63.87 | 声学 | Acoustic(C) | 映射声学特征 | 60 | 59.23 | 58.69 | 59.82 | 声学 | Acoustic(R) | 真实声学特征 | 60 | 75.63 | 75.44 | 76.82 | 声学与发音学 | Acoustic(R) + Articulatory(C) | 真实声学特征+映射发音特征 | 88 | 79.51 | 79.69 | 79.97 | 声学与发音学 | Acoustic(C)+ Articulatory(R) | 真实发音特征+映射声学特征 | 88 | 72.47 | 72.45 | 72.95 | 声学与发音学 | Acoustic(R)+Articulatory(R) | 真实声学特征+真实发音特征 | 88 | 83.77 | 83.64 | 83.97 | 预训练 | HuBERT[26] | 48层 transformer | 1 280 | 89.66 | 89.85 | 91.96 | 预训练 | Wav2vec 2.0[27] | 24层 transformer | 1 024 | 82.57 | 82.25 | 83.93 | 预训练与降维 | HuBERT[26] | 48层 transformer+主成分分析 | 60 | 78.54 | 78.93 | 79.15 | 预训练与降维 | HuBERT[26] | 48层 transformer+主成分分析 | 88 | 80.16 | 80.01 | 80.42 | 预训练与降维 | Wav2vec 2.0[27] | 24层 transformer+主成分分析 | 60 | 75.90 | 75.45 | 76.88 | 预训练与降维 | Wav2vec 2.0[27] | 24层 transformer+主成分分析 | 88 | 76.18 | 76.65 | 76.96 |
|
|
|