浙江大学学报(工学版), 2019, 53(10): 2041-2048 doi: 10.3785/j.issn.1008-973X.2019.10.022

通信技术

面向情感语音识别的情感维度PAD预测

孙颖,, 胡艳香, 张雪英,, 段淑斐

Prediction of emotional dimensions PAD for emotional speech recognition

SUN Ying,, HU Yan-xiang, ZHANG Xue-ying,, DUAN Shu-fei

通讯作者: 张雪英,女,教授. orcid.org/0000-0002-2035-0329. E-mail: tyzhangxy@163.com

收稿日期: 2018-08-22  

Received: 2018-08-22  

作者简介 About authors

孙颖(1981—),女,讲师,从事情感语音识别、情感计算的研究.orcid.org/0000-0003-3926-062X.E-mail:tyutsy@163.com , E-mail:tyutsy@163.com

摘要

针对现有的情感特征仅从信号的角度对情感进行分析,不能直观反映情感状态的问题,提出将连续情感维度PAD引入情感识别. 实验样本选用TYUT2.0数据库和柏林语音库中的3种情感(悲伤、愤怒和高兴),提取情感特征(韵律特征、共振峰、MFCC和非线性特征). 为了获取客观、精确的PAD维度,利用灰色关联分析(GRA)选取影响P、A、D的主要特征,通过主成分分析(PCA)提取主要特征的主成分,将主成分作为最小二乘支持向量机(LSSVM)的输入预测P、A、D. 分别对情感特征、PAD维度及它们的融合,采用支持向量机进行情感识别. 实验结果表明,该预测方法在一定程度上提高了对P、A、D的预测精度,预测值可以有效识别情感,对情感特征在情感识别方面有一定的补充作用.

关键词: 语音情感识别 ; PAD维度 ; 最小二乘支持向量机(LSSVM) ; 灰色关联分析(GRA) ; 主成分分析(PCA)

Abstract

The continuous emotional dimension PAD (pleasure, arousal, dominance) was proposed to introduce into emotion recognition in view of the fact that the existing emotional characteristics only analyze emotion from the point of view of signal, and can not directly reflect the emotional state. The experimental samples were based on three emotions (sadness, anger and happiness) from the TYUT2.0 database and the Berlin voice library, and the emotional features (prosodic feature, formant, MFCC and nonlinear feature) were extracted. Grey relational analysis (GRA) was used to select the main features that affect P, A and D in order to obtain the objective and accurate PAD dimension values. Then principal component analysis (PCA) was used to extract the principal components of the main features, and was made as the input of least squares support vector machine (LSSVM) to predict the P, A and D. The emotional features, PAD dimensions and their fusion were used separately for emotion recognition by using support vector machine. The experimental results show that the prediction method improves the prediction accuracy of the P, A and D to a certain extent. The predictive values can effectively identify the emotion, which has a certain complement to emotional characteristics in emotion recognition.

Keywords: speech emotion recognition ; PAD dimensions ; least squares support vector machine (LSSVM) ; grey relational analysis (GRA) ; principal component analysis (PCA)

PDF (776KB) 元数据 多维度评价 相关文章 导出 EndNote| Ris| Bibtex  收藏本文

本文引用格式

孙颖, 胡艳香, 张雪英, 段淑斐. 面向情感语音识别的情感维度PAD预测. 浙江大学学报(工学版)[J], 2019, 53(10): 2041-2048 doi:10.3785/j.issn.1008-973X.2019.10.022

SUN Ying, HU Yan-xiang, ZHANG Xue-ying, DUAN Shu-fei. Prediction of emotional dimensions PAD for emotional speech recognition. Journal of Zhejiang University(Engineering Science)[J], 2019, 53(10): 2041-2048 doi:10.3785/j.issn.1008-973X.2019.10.022

语言是人类最直接的沟通方式[1],包含丰富的情感信息,语音情感识别技术[2]的关键之一是情感特征的提取. 关于情感特征的研究不断丰富,例如Zbancioc等[3]将改进的MFCC、LPCC特征用于情感识别,识别率达到75%;孙颖等[4]提取非线性几何特征并优化特征参数,获得了最优非线性特征. 以上特征是从信号处理的角度对情感分析研究,情感的产生涉及人的心理活动,目前较成熟的描述心理过程的情感模型是PAD(pleasure:愉悦度,arousal:激活度,dominance:优势度,PAD)情感模型[5].

目前关于PAD情感维度的研究主要是根据情感量表人工标注得到PAD[6],标注耗时长、主观性大等因素限制了情感维度领域的发展,所以要对情感维度P、A、D客观预测. 最小二乘支持向量机(least squares support vector machine,LSSVM)[7]在小样本、非线性识别案例表现出许多优势,主要应用于PM2.5浓度预测[8]、滑坡位移预测[9]等方面,尚未应用于情感维度预测. 在构建回归模型时,输入变量冗余或者变量间的相关性都会影响预测精度. 灰色关联分析(grey relational analysis,GRA)[10]和主成分分析(principal component analysis,PCA)[11]为该问题的解决提供了思路,GRA根据特征与情感维度的几何形状相似程度选择影响较大的主要情感特征,同时采用PCA提取主要情感特征的主成分作为LSSVM的输入,既避免了主观选择的不确定性,又可以减弱特征之间的相关性对预测效果的影响.

本文提出基于GRA-PCA-LSSVM模型预测情感维度P、A、D,利用预测得到的PAD识别情感. 选用TYUT2.0和柏林语音库的情感语句,提取韵律特征、共振峰、MFCC和非线性特征,融合得到FPFMN(fusion feature of prosodic feature,formant,MFCC and nonlinear feature,FPFMN);采用GRA从FPFMN中选取主要情感特征,通过PCA提取主要情感特征的主成分,将主成分作为LSSVM的输入,预测P、A、D;设计情感识别对比实验,验证PAD维度的识别性能. 实验表明,GRA-PCA-LSSVM回归模型对P、A、D维度的预测更精确,而且预测值可以对语音情感有效识别.

1. PAD三维情感模型

人类的情感微妙且复杂,例如悲喜交加、喜极而泣和百感交集等情感不完全属于某一基本情感类别,这对智能化的人机交互提出新挑战,情感的连续空间论[12]为解决该问题提供了解决思路. 该理论提出人类的情感由空间维度组成,该空间几乎可以涵盖所有的情感类型,不同情感之间可以连续、平稳地转变. 连续情感模型中较典型的是PAD三维情感模型[5],该模型将情感分为3个维度,分别如下:P表示愉悦度(pleasure-displeasure,表示个体情感状态的正负特性);A表示激活(arousal-nonarousal,表示个体的神经生理激活程度);D表示优势度(dominance - submissiveness,表示个体对情境和他人的控制状态). PAD三维情感模型如图1所示,任意情感都对应于三维空间的一点.

图 1

图 1   PAD三维情感模型

Fig.1   PAD three-dimensional emotion model


2. 理论基础

2.1. 灰色关联分析

GRA[10]根据各影响因素与研究对象之间的几何形状相似程度,判定影响因素对研究对象的贡献程度. 计算步骤如下.

1)确定影响因素和研究对象. 设研究对象 ${y_0}{\rm{ = }}\left\{ {{y_0}(k)\left| {k{\rm{ = }}1,2, \cdots ,n} \right.} \right\}$,影响因素 ${y_i} =\{ {y_i}(k)| i = 1,2, \cdots ,$ ${m} \} $. 研究对象为语音情感维度P、A、D, $n$为情感维度序列长度;影响因素为语音情感特征, $m$为情感特征维数.

2)原始数据的无量纲化. 为了保证研究对象与影响因素的可比性,采用初值化法处理原始数据. 对 ${y_i}$作初值化处理可得 ${x_i}$,其中 ${x_i}$为情感语音特征初值化结果.

${x_i} = \left( {\frac{{{y_i}(1)}}{{{y_i}(1)}},\frac{{{y_i}(2)}}{{{y_i}(1)}}, \cdots ,\frac{{{y_i}(n)}}{{{y_i}(1)}}} \right).$

3)计算关联系数. 对研究对象 ${x_0}$和影响因素 ${x_1},{x_2}, \cdots ,{x_n}$,采用下式计算关联系数:

${\xi _i}(k){\rm{ = }}\frac{{\mathop {\min }\limits_i \mathop {{\rm{min}}}\limits_k \left| {{x_0}(k) - {x_i}(k)} \right| + \rho \mathop {\max }\limits_i \mathop {{\rm{max}}}\limits_k \left| {{x_0}(k) - {x_i}(k)} \right|}}{{\left| {{x_0}(k) - {x_i}(k)} \right| + \rho \mathop {\max }\limits_i \mathop {{\rm{max}}}\limits_k \left| {{x_0}(k) - {x_i}(k)} \right|}}.$

式中: $\rho \in (0,1)$为分辨系数, ${\xi _i}(k)$为第 $i$维情感特征与情感维度的关联性, ${x_0}(k)$为第 $k$条语句的情感维度初值化结果, ${x_i}(k)$为第 $k$条语句第 $i$维情感特征的初值化结果.

4)计算关联度. 将关联系数集求平均,可得关联度:

${\gamma _i} = \frac{1}{n}\sum\limits_{i = 1}^n {{\xi _i}(k)} .$

式中: ${\gamma _i}$为情感特征与情感维度的关联度, ${\gamma _i}$越大,说明情感特征对情感维度的影响越大.

2.2. 主成分分析

PCA[11]将具有相关性的变量重新组合为相互无关的变量,PCA的主要步骤如下.

1)对原始数据进行标准化处理:

${x^*}_{ij} = \frac{{{x_{ij}} - {{\bar x}_j}}}{{\sqrt {\operatorname{var} ({x_j})} }}(i = 1,2, \cdots ,n;j = 1,2, \cdots ,m).$

式中: ${x_{ij}}$为原始数据第 $i$$j$列的值; ${x^*}_{ij}$为标准化后的数值; $\operatorname{var}\; ({x_j}) = ({n - 1})^{-1}{\sum\nolimits_{i = 1}^n {({x_{ij}} - {{\bar x}_j})} ^2}(j = 1,2, \cdots ,m)$为矩阵 ${{X}}$$j$列的方差; ${\bar x_j} = {n}^{-1}\sum\nolimits_{i = 1}^n {{x_{ij}}} $表示原始特征矩阵 ${{X}}$$j$列的均值,即第 $j$维特征的平均值.

2)计算数据经标准化处理后的相关系数矩阵.

${{R}}{\rm{ = }}\left[ {\begin{array}{*{20}{l}} {{r_{11}}}&{{r_{12}}}& \cdots &{{r_{1m}}} \\ {{r_{21}}}&{{r_{22}}}& \cdots &{{r_{2m}}} \\ \vdots & \vdots &{} & \vdots \\ {{r_{n1}}}&{{r_{n2}}}& \cdots &{{r_{nm}}} \end{array}} \right].$

式中:n>1; ${r_{ij}} = \operatorname{cov} \;({x_i},{x_j})$为矩阵 ${{X}}$$i$列特征与第 $j$列特征的协方差; ${{R}}$为原始特征矩阵的相关系数矩阵.

3)计算矩阵 ${{R}}$的特征值 ${\lambda _1},{\lambda _2}, \cdots, {\lambda _m}$和相应特征向量 ${{ a}_i} = [{a_{i1}},{a_{i2}}, \cdots ,{a_{im}}](i = 1,2, \cdots ,m)$.

4)根据情感特征对情感维度的累积贡献,选择前 $p$个因素. 累积贡献率的公式为

$\eta {\rm{ = }}{{\sum\limits_{i = 1}^p {{\lambda _i}} }}\bigg /{{\sum\limits_{i = 1}^m {{\lambda _i}} }}.$

$p$个特征向量组成降维矩阵 ${{U}}{\rm{ = }}[{{a_1},{a_2}, \cdots ,{a_p}} ]$,则将 $m$维情感特征降维成 $p$维情感特征,即 ${{{X}}'} = {{X}} {{U}}$,其中 ${{{X}}'}$为降维后的特征矩阵.

2.3. 最小二乘支持向量机理论

LSSVM[7]算法将最小二乘线性理论引入支持向量机,对支持向量机进行改进,通过在映射的高维空间寻求输入量与输出量之间的非线性关系,再反映射到原空间得到回归量,降低计算复杂度[13]. LSSVM的基本原理如下.

设样本集 $\left\{ {{{ x}_i},{y_i}} \right\},i = 1,2, \cdots ,n$,其中, ${{ x}_i} \in {{\bf R}^d}$为输入量, ${y_i} \in {\bf R}$为相应的输出量, $n$为样本集的大小,样本通过 $\varPhi ({ x})$映射到高维空间,构造最优决策函数 ${ y} = {{{\omega }}^{\rm T}}\varPhi ({ x}) + { b}$(其中 ${{\omega }}$为权向量, ${ b}$为偏差). 对于输入样本 ${ x}$,有 $\left| {y_i - {{{\omega }}^{\rm T}}\varPhi ({ x}_i) - b_i} \right| \leqslant {e_i}$,故LSSVM优化问题为

$\left. \begin{gathered} \min\; J({\omega},{ e}) = \frac{1}{2}{{{\omega }}^{\rm T}}{{\omega }} + \frac{1}{2}C\sum\limits_{i = 1}^n {{e_i}^2}{\text{;}} \\ {\rm{s.t.}}\begin{array}{*{20}{c}} {}&{{y_i}} \end{array} = {{{\omega }}^{\rm T}}\varPhi ({{ x}_i}) + b_i + {e_i},\;\;i = 1,2, \cdots ,n{\text{.}} \\ \end{gathered} \right\}$

式中: $C$为正则化参数;ei为误差变量, ${e_i} \in {\bf R}$. 利用Lagrange法求解优化问题,转为线性问题:

$\left[ {\begin{array}{*{20}{c}} {\bf 0}&{{{{I}}^{\rm T}}} \\ {{I}}&{{{K}} + {{I}}/C} \end{array}} \right]\left[ {\begin{array}{*{20}{c}} { b} \\ {{\alpha }} \end{array}} \right] = \left[ {\begin{array}{*{20}{c}} {\bf 0} \\ {{y}} \end{array}} \right].$

式中: ${{I}} = {[1,1, \cdots ,1]^{\rm T}}$n个1组成的向量,为n阶单位矩阵; ${{y}} = {[{y_1},{y_2}, \cdots ,{y_n}]^{\rm T}}$${{K}}$为核函数, $K({{ x}_i},{{ x}_j}) = $ $ \varPhi {({{ x}_i})^{\rm T}}\varPhi ({{ x}_j}),\;i,\;j = 1,2, \cdots ,n;$ ${{\alpha }} = {[{\alpha _1},\;{\alpha _2},\cdots ,{\alpha _n}]^{\rm{T}}}$为Lagrange乘子向量. 采用径向基(RBF)核函数 $K({ x},{{ x}_i}) = {\rm{exp}} \,( - {{{{\left\| {{ x} - {{ x}_i}} \right\|}^2}}}/({{2{\sigma ^2}}}))$,其中 $\sigma $为核函数宽度. 可得LSSVM模型如下:

${ y}({ x}) = \sum\limits_{i = 1}^n {{\alpha _i}K({ x},{{ x}_i})} + { b}{\text{.}} $

最终的映射关系如式(9)所示. 在本文研究中, $ x$表示情感语音特征, ${{ y}( x)}$表示情感维度P、A、D值.

3. GRA-PCA-LSSVM回归模型构建

将GRA、PCA与LSSVM相结合,构建GRA-PCA-LSSVM回归模型,并用于情感维度的预测. 如图2所示为GRA-PCA-LSSVM模型预测P、A、D维度流程图.

图 2

图 2   GRA-PCA-LSSVM模型预测P、A、D流程图

Fig.2   Flow chart of GRA-PCA-LSSVM model to predict P,A,D


具体过程如下.

1)提取情感特征. 将情感语音库中的语音按照训练集1与测试集1的样本数比例为2∶1的比例分类,对语音提取情感特征FPFMN.

2)GRA关联度排序. 由于P、A、D维度相互独立,对P、A、D维度的影响因素会有一定的差别,将训练集的人工标注P、A、D值分别和FPFMN特征进行GRA分析,得到特征与维度的关联度,根据关联度大小将特征进行排序.

3)PCA特征降维. 根据关联度分别筛选出对情感维度P、A、D影响大的主要特征,对主要特征采用PCA降维,消除特征间的相关性,得到最优特征.

4)P、A、D维度预测. 首先将最优特征依照首次对数据库训练集和测试集的分类原则区分,即训练集2与测试集2的样本数比例为2∶1,训练集2的特征是训练集1的FPFMN特征经GRA及PCA优化后的最优特征,测试集2的特征是测试集1的FPFMN特征经GRA及PCA优化后的最优特征;其次由人工标注的P、A、D值(即训练集1的维度)分别与训练集2中各维度对应的最优特征对LSSVM进行训练,得到训练好的LSSVM模型;最后将测试集2(即待测语音各维度对应的最优特征)输入训练好的LSSVM模型,得到待测语音的P、A、D预测值.

4. 实验分析

4.1. 实验数据库

情感语音数据库是进行情感分析和识别的重要前提. 为了全面、客观地评价客观预测PAD维度的识别性能,考虑不同语种对情感识别的影响,选用TYUT2.0中文情感语音数据库[14]和柏林德语情感语料库(EMO-DB)[15]为实验数据库,选择共有的情感类型即悲伤(52句)、愤怒(57句)和高兴(52句)3种基本情感作为实验样本,其中67%作为训练样本,33%作为测试样本.

TYUT2.0公开数据库是通过截取广播剧的方式获得的一种摘引型情感数据库,根据改进的PAD情感量表对语音进行维度标注. 在标注试验中,招募100名在校学生(44位男生、56位女生,年龄为21~28岁,身体健康),对TYUT2.0数据库的3类情感共161个语音样本,按照范围为1~5的PAD量表进行PAD维度标注,得到161×100维的数据样本. 每个语音样本的P、A、D维度取这100名学生对该语音维度标注值的平均值. 标注结果的分布如图3所示.

图 3

图 3   PAD空间情感分布

Fig.3   PAD spatial emotional distribution


柏林语音库是由10位演员(5男5女)对7种情感(中性 、生气 、害怕 、高兴 、悲伤 、厌恶 、无聊)进行模拟得到的. 该数据库的语音录制要求演员通过回忆自身经历来完成情绪的表达,使得语音情感真实度高、使用度较广、代表性较强.

4.2. 情感语音特征

为了较完整地表征语音情感进行并更精确地预测PAD维度,提取的具体的语音情感特征类别如表1所示.

表 1   情感语音特征

Tab.1  Emotional speech characteristics

特征 特征名称
韵律特征 语速;平均过零率;能量及其1阶差分最大值、最小值、均值;基频及其1阶差分最大值、最小值、均值
共振峰 第1、第2、第3共振峰及其1阶差分最大值、最小值、均值、方差
MFCC MFCC前12阶的偏度、峰度、均值、方差、中值
非线性特征 Hurst指数最大值、最小值、均值、中值、方差;最小延迟时间最大值、最小值、均值、中值、方差;关联维数最大值、最小值、均值、中值、方差;Kolmogorov熵最大值、最小值、均值、中值、方差;最大Lyapunov指数均值、中值、方差

新窗口打开| 下载CSV


表1所示,从以下2个方面选择特征:针对语音信号的短时平稳特性提取声学特征,即韵律特征(14维)、共振峰(24维)和MFCC特征(60维);针对语音的混沌特性提取非线性特征[16](23维). 将它们融合后,得到121维特征集,即FPFMN(fusion feature of prosodic feature,formant,MFCC feature and nonlinear feature,FPFMN).

4.3. 情感维度影响因素的GRA和PCA分析

设情感维度P( ${p_{01}}$)、A( ${p_{02}}$)、D( ${p_{03}}$)为研究对象,121维特征 ${p_i}(i = 1,2, \cdots ,121)$为影响因素. 根据式(1)对研究对象及影响因素作初值化处理,取分辨系数 $\rho {\rm{ = 0}}{\rm{.5}}$,根据式(2)、(3)计算 ${p_{0\alpha }}(\alpha = 1,2,3)$${p_i}(i = 1,2, \cdots ,121)$的关联度,将特征按照关联度由大至小排序. 将排序后的特征从一维开始逐次增加一维特征作为LSSVM的输入变量,对P、A、D维度进行预测,预测误差MAE如图4所示. 当确定最佳关联特征维数时,要遵循MAE最小原则;在MAE相同时,取维数最小的特征作为影响维度的主要特征. 如图4所示为根据GRA关联度排序后,选用递增的特征维数预测P、A、D维度的MAE误差趋势图.

图 4

图 4   基于不同特征维数的PAD预测MAE误差趋势图

Fig.4   MAE error chart of PAD prediction based on different feature dimensions


图4可知,从预测误差整体来看,对维度A的预测误差最小,说明所选特征对A维度的贡献度高于P、D维度. 由于P、A、D维度相互独立,3个维度的主要影响特征不同,基于确定最佳关联特征维数原则,对维度P的预测,取关联度>0.663的83维特征维数作为P维度的主要影响特征;对维度A的预测,取关联度>0.565的111维特征作为A维度的主要影响特征;对维度D的预测,取关联度>0.744的55维特征作为D维度的主要影响特征.

PCA分析时,通常当累积贡献率达到85%以上时,认为所包含的影响因素已包含数据的原始信息,而且累积贡献率越大,包含原始数据的信息越多. 为了尽可能完整地保留信息,选用累积贡献率为99%,此时包含的特征为最优特征,特征维数如表2所示.

表 2   GRA-PCA特征维数

Tab.2  Feature dimensions of GRA-PCA

维度 GRA处理后特征维数 GRA-PCA处理后特征维数
P 83 57
A 111 69
D 55 43

新窗口打开| 下载CSV


根据GRA-PCA处理结果可知,当利用GRA-PCA-LSSVM回归模型预测P、A、D维度时,分别以57维、69维、43维主成分作为LSSVM的输入,以 ${p_{01}}$${p_{02}}$${p_{03}}$为输出构建LSSVM模型.

4.4. 实验方案与结果分析

4.4.1. PAD维度预测

为了验证GRA-PCA-LSSVM模型的预测效果,将GRA-PCA-LSSVM(模型1)的预测结果与GRA-LSSVM(模型2)、2~4的建立如PCA-LSSVM(模型3)、LSSVM(模型4)比较. 模型如下.

模型2:先对训练集的121维特征进行GRA排序,再将由确定最佳关联特征维数原则选择出的主要特征作为LSSVM的输入,P、A、D维度分别作为输出构建模型2.

模型3:先对训练集121维特征进行PCA降维,再将由降维后的特征作为LSSVM的输入,P、A、D维度分别作为输出构建模型3.

模型4:将训练集的121维特征作为LSSVM的输入,P、A、D维度分别作为输出构建模型4.

选取Pearson相关系数r、模型决定系数R2和平均绝对误差(MAE)作为模型预测效果的评价指标,Pearson相关系数和模型决定系数越靠近1越好,MAE越小越好. 以4类回归模型对TYUT2.0数据库和柏林数据库的PAD维度预测结果评价指标如表3所示.

表 3   4类回归模型在2类数据库的预测结果比较

Tab.3  Comparison of prediction results of four kinds of regression models in two kinds of databases

维度 模型 TYUT2.0 EMO-DB
r R2 MAE r R2 MAE
P 模型1 0.53 0.28 0.89 0.59 0.33 0.87
P 模型2 0.48 0.22 0.94 0.46 0.18 0.91
P 模型3 0.48 0.23 0.92 0.46 0.19 0.94
P 模型4 0.44 0.20 0.95 0.45 0.16 0.93
A 模型1 0.73 0.53 0.40 0.74 0.52 0.34
A 模型2 0.70 0.49 0.43 0.68 0.38 0.40
A 模型3 0.69 0.45 0.43 0.69 0.41 0.38
A 模型4 0.68 0.44 0.45 0.67 0.33 0.41
D 模型1 0.69 0.46 0.74 0.96 0.92 0.27
D 模型2 0.63 0.40 0.76 0.96 0.92 0.28
D 模型3 0.59 0.35 0.78 0.96 0.90 0.31
D 模型4 0.59 0.34 0.80 0.96 0.91 0.29

新窗口打开| 下载CSV


综合表3,对2类数据库P、A、D维度的预测效果可得如下结论.

1)模型1的Person相关系数最大,说明该模型预测值与标注值的变化趋势最相似;模型1的模型决定系数最大,说明该模型对数据的拟合程度最优;模型1的MAE最小,说明该模型对情感维度P、A、D的预测精度最高.

2)从表3可以看出,2类数据库中对P、A、D的预测效果不同,在柏林数据库中对D维度的预测效果最优,在TYUT2.0中对A维度的预测效果最优,这主要是由于人们对P、A维度更容易被人们理解和评价,D维度的评价标准较模糊[17],而且与数据库的语言、录制方式等因素有关联. 针对4类回归模型的预测效果对比可知,4类回归模型相互对比的总体规律在2类数据库中一致,模型1的预测效果是最优的.

3)本文结果与文献[18]对P、A预测结果相比可知,模型1对P、A预测的决定系数分别高于利用KNN对P、A维度预测的模型决定系数0.24和0.35[18]. 综上所述,3项实验性能指标证明了GRA-PCA-LSSVM模型较GRA-LSSVM模型、PCA-LSSVM模型和LSSVM模型在PAD维度预测方面的有效性及优越性. GRA可以对情感特征进行有效的选择,而且PCA在一定程度上可以消除特征间的相关性. 由GRA结合PCA选取LSSVM输入变量,不仅降低了输入变量维数,而且可得对情感维度P、A、D贡献更大的情感特征,比单一GRA和单一PCA更能够提高LSSVM对情感维度的预测精度.

4.4.2. PAD维度识别情感

图3及文献[6]可知,同种情感在PAD维度空间不是以孤立点的形式存在的,而是占据一定的空间范围;不同情感在PAD维度空间所处的空间范围不同,即理论上可以通过PAD很好地区分情感,故将PAD预测值应用于情感识别. 为了验证情感维度PAD识别情感的有效性及普适性,设计情感识别实验. 对TYUT2.0数据库和柏林语音库设计实验,实验方案如下.

方案1:使用FPFMN特征进行语音情感识别.

方案2:使用由GRA-PCA-LSSVM回归模型,预测得到的PAD维度识别情感.

方案3:将FPFMN和由GRA-PCA-LSSVM回归模型预测得到的PAD维度进行融合识别情感.

该实验的评价指标选用识别率,即测试集经SVM得到正确分类的语音样本数与语音样本总数的比值. 识别结果如表4所示.

表 4   PAD维度与FPFMN特征的识别率对比

Tab.4  Comparison of recognition rate between PAD dimension and FPFMN feature

%
情感分类 TYUT2.0 EMO-DB
方案1 方案2 方案3 方案1 方案2 方案3
悲伤 52.94 52.94 76.47 100 100 100
愤怒 73.68 100 84.21 68.42 84.21 73.68
高兴 47.06 47.06 58.82 52.94 52.94 64.71
平均 58.49 67.92 73.58 73.58 79.25 79.25

新窗口打开| 下载CSV


表4可以得出以下结论.

1)针对TYUT2.0数据库的语音情感识别,从整体的平均识别结果来看,方案2和方案1在该数据库中的平均识别率依次为58.49%和67.92%,PAD维度的平均识别率高出FPFMN特征9.43%;方案2对“愤怒”情感的识别结果最理想,识别率达到100%;方案3对“愤怒”情感的识别率虽然低于方案2,但高于方案1,此外方案3对“悲伤”和“高兴”情感的识别性能均优于方案1、方案2,且平均识别率高于方案1、方案2,说明PAD与FPFMN特征在语音情感识别方面具有相互促进作用.

2)针对柏林语音库的语音情感识别,方案2不仅维持了方案1在“悲伤”情感上100%的识别率,而且从平均识别结果来看,方案2的识别率高出方案1的识别率5.67%;方案2对“愤怒”情感的识别能力明显增强,比方案1高15.79%;方案3对“愤怒”情感的识别率虽然低于方案2,但高于方案1,而且方案3对“高兴”情感的识别率高于方案1和方案2,说明PAD对FPFMN特征识别情感有一定的补充作用.

3)针对TYUT2.0数据库和柏林语音库的语音情感识别可以发现,PAD维度的平均识别性能优于FPFMN特征,并且PAD维度特征对“愤怒”情感的普适性最优、识别能力最强,达到80%以上;FPFMN与PAD的融合特征对语音情感的识别性能总体优于FPFMN与PAD单独识别,说明PAD维度在语音情感识别中对FPFMN具有补充作用,且在自然度更高的TYUT2.0数据库中补充作用更明显.

综上所述,GRA-PCA-LSSVM模型比LSSVM、GRA-LSSVM、PCA-LSSVM模型对情感维度P、A、D有更精确的预测效果;针对PAD维度在TYUT2.0数据库以及柏林语音库中的情感识别结果可以发现,PAD维度特征较FPFMN特征有更好的识别性能,普适性更强,而且PAD对FPFMN在语音情感识别方面具有一定的补充作用,证明采用的GRA-PCA-LSSVM模型对情感维度PAD预测的有效性.

5. 结 语

为了对情感从更直观的角度进行分析,本文提出基于GRA-PCA-LSSVM回归模型预测情感维度PAD,将预测结果作为特征识别语音情感. 从预测结果来看,通过GRA对情感特征的有效选择以及PCA对特征间相关性的消除作用,降低了LSSVM回归模型的复杂度,提高了对情感维度P、A、D的预测精度. 语音情感识别实验表明,PAD维度与情感特征相比可以有效提高情感识别率,对情感特征的语音情感识别性能具有一定的补充作用. PAD维度是基于情感特征客观预测的结果,情感特征的选择对PAD维度的预测效果有影响作用,在今后的研究中,寻找对情感维度贡献大的最优情感特征集是主要的研究方向.

参考文献

蒋海华, 胡斌

基于PCA和SVM的普通话语音情感识别

[J]. 计算机科学, 2015, 42 (11): 270- 273

[本文引用: 1]

JIANG Hai-hua, HU Bin

Speech emotion recognition in mandarin based on PCA and SVM

[J]. Computer Science, 2015, 42 (11): 270- 273

[本文引用: 1]

谭发曾. 语音情感状态模糊识别研究[D]. 成都: 电子科技大学, 2015.

[本文引用: 1]

TAN Fa-zeng. Study of speech motion states fuzzy recognition [D]. Chengdu: University of Electronic Science and Technology of China, 2015.

[本文引用: 1]

ZBANCIOC M D, FERARU M. Using the Lyapunov exponent from cepstral coefficients for automatic emotion recognition [C] // International Conference and Exposition on Electrical and Power Engineering. Iasi, Romania: IEEE, 2014: 110-113.

[本文引用: 1]

孙颖, 宋春晓

相空间重构的情感语音特征提取及优化

[J]. 西安电子科技大学学报: 自然科学版, 2017, 44 (6): 162- 168

[本文引用: 1]

SUN Ying, SONG Chun-xiao

Emotional speech feature extraction and optimization of phase space reconstruction

[J]. Journal of Xidian University: Natural Science, 2017, 44 (6): 162- 168

[本文引用: 1]

MEHRABIAN A

Pleasure-arousal-dominance: a general framework for describing and measuring individual differences in temperament

[J]. Current Psychology, 1996, 14 (4): 261- 292

DOI:10.1007/BF02686918      [本文引用: 2]

VERMA G K, TIWARY U S

Affect representation and recognition in 3D continuous valence–arousal–dominance space

[J]. Multimedia Tools and Applications, 2016, 76 (2): 1- 25

[本文引用: 2]

SUYKENS J A K, VANDEWALLE J

Least squares support machine classifiers

[J]. Neural Processing Letters, 1999, 9 (3): 293- 300

DOI:10.1023/A:1018628609742      [本文引用: 2]

SUN W, SUN J

Daily PM2.5 concentration prediction based on principal component analysis and LSSVM optimized by cuckoo search algorithm

[J]. Journal of Environmental Management, 2016, 188: 144- 152

[本文引用: 1]

CAI Z, XU W, MENG Y, et al

Prediction of landslide displacement based on GA-LSSVM with multiple factors

[J]. Bulletin of Engineering Geology and the Environment, 2016, 75 (2): 637- 646

DOI:10.1007/s10064-015-0804-z      [本文引用: 1]

梁宁, 耿立艳, 张占福, 等

基于GRA与SVM-mixed的货运量预测方法

[J]. 交通运输系统工程与信息, 2016, 16 (6): 94- 99

DOI:10.3969/j.issn.1009-6744.2016.06.015      [本文引用: 2]

LIANG Ning, GENG Li-yan, ZHANG Zhan-fu, et al

A prediction method of railway freight volumes using GRA and SVM-mixed

[J]. Journal of Transportation Systems Engineering and Information Technology, 2016, 16 (6): 94- 99

DOI:10.3969/j.issn.1009-6744.2016.06.015      [本文引用: 2]

王沛, 欧阳传湘, 陈宏生, 等

应用PCA和多元非线性回归快速预测储层敏感性

[J]. 断块油气田, 2018, 25 (2): 232- 235

[本文引用: 2]

WANG Pei, OUYANG Chuan-xiang, CHEN Hong-sheng, et al

Application of PCA and multiple nonlinear regression to rapid prediction of reservoir sensitivity

[J]. Fault-Block Oil and Gas Field, 2018, 25 (2): 232- 235

[本文引用: 2]

王丽. V-A空间连续维度情感预测方法研究[D]. 镇江: 江苏大学, 2015.

[本文引用: 1]

WANG Li. Research on dimensional and continuous emotion prediction in valence-arousal space [D]. Zhenjiang: Jiangsu University, 2015.

[本文引用: 1]

汪建新, 陈肖洁

LSSVM的特征选择算法在烧结过程的应用

[J]. 机械设计与制造, 2018, (3): 75- 77

DOI:10.3969/j.issn.1001-3997.2018.03.023      [本文引用: 1]

WANG Jian-xin, CHEN Xiao-jie

Application in sintering process modeling using the feature selection algorithm of least squares support vector machine

[J]. Machinery Design and Manufacture, 2018, (3): 75- 77

DOI:10.3969/j.issn.1001-3997.2018.03.023      [本文引用: 1]

张雪英, 张婷, 孙颖, 等

情感语音数据库优化及PAD情感模型量化标注

[J]. 太原理工大学学报, 2017, 48 (3): 469- 474

[本文引用: 1]

ZHANG Xue-ying, ZHANG Ting, SUN Ying, et al

Emotional speech database optimization and quantitative annotation based on PAD emotion model

[J]. Journal of Taiyuan University of Technology, 2017, 48 (3): 469- 474

[本文引用: 1]

BURKHARDT F, PAESCHKE A, ROLFES M, et al. A database of German emotional speech [C] // European Conference on Speech Communication and Technology. Lisbon, Portugal: DBLP, 2005: 1517-1520.

[本文引用: 1]

姚慧, 孙颖, 张雪英

情感语音的非线性动力学特征

[J]. 西安电子科技大学学报: 自然科学版, 2016, 43 (5): 167- 172

DOI:10.3969/j.issn.1001-2400.2016.05.029      [本文引用: 1]

YAO Hui, SUN Ying, ZHANG Xue-ying

Research on nonlinear dynamics features of emotional speech

[J]. Journal of Xidian University: Natural Science, 2016, 43 (5): 167- 172

DOI:10.3969/j.issn.1001-2400.2016.05.029      [本文引用: 1]

李幼军, 钟宁, 黄佳进, 等

基于高斯核函数支持向量机的脑电信号时频特征情感多类识别

[J]. 北京工业大学学报, 2018, 44 (2): 234- 243

DOI:10.11936/bjutxb2017040018      [本文引用: 1]

LI You-jun, ZHONG Ning, HUANG Jia-jin, et al

Human emotion multi-classification recognition based on the EEG time and frequency features by using a Gaussian kernel function SVM

[J]. Journal of Beijing University of Technology, 2018, 44 (2): 234- 243

DOI:10.11936/bjutxb2017040018      [本文引用: 1]

GIANNAKOPOULOS T, PIKRAKIS A, THEODORIDIS S. A dimensional approach to emotion recognition of speech from movies [C] // IEEE International Conference on Acoustics, Speech and Signal Processing. Taipei, Taiwan: IEEE, 2009: 65-68.

[本文引用: 2]

/