浙江大学学报(工学版), 2026, 60(4): 782-790 doi: 10.3785/j.issn.1008-973X.2026.04.010

计算机技术

基于无监督图对比学习的语音情感识别

张雪梅,, 孙颖,, 张雪英

太原理工大学 电子信息工程学院,山西 太原 030024

Speech emotion recognition with unsupervised graph contrastive learning

ZHANG Xuemei,, SUN Ying,, ZHANG Xueying

College of Electronic Information Engineering, Taiyuan University of Technology, Taiyuan 030024, China

通讯作者: 孙颖,女,副教授. orcid.org/0000-0003-3926-062X. E-mail:tyutsy@163.com

收稿日期: 2025-05-14  

Received: 2025-05-14  

作者简介 About authors

张雪梅(2000—),女,硕士生,从事语音情感识别研究.orcid.org/0009-0008-4842-4159.E-mail:2929164474@qq.com , E-mail:2929164474@qq.com

摘要

针对多数语音数据集中有标签数据稀疏和高维语音特征建模困难的问题,提出基于无监督图对比学习的语音情感识别网络(SERUGCL). 该方法使用无标签数据进行训练,基于特征相似性构建语音特征原始视图,利用图结构建模语音帧之间的依赖关系,从而缓解高维特征直接建模带来的计算压力;通过快速梯度符号方法(FGSM)和子图采样-边缘扰动组合生成2种增强视图. 所有视图通过差异化编码器进行处理,并采用加权池化机制获取全局嵌入. 使用支持向量机(SVM)进行情感分类. 所提出的SERUGCL模型在IEMOCAP数据集上取得69.96%的未加权准确率(UA)和70.24%的加权准确率(WA),在EMO-DB数据集上取得91.04%的UA和90.29%的WA. 相较于DSTCNet,SERUGCL在IEMOCAP数据集上的UA和WA提高了8.18个百分点和8.44个百分点,在EMO-DB数据集上的UA和WA提高了4.49个百分点和1.50个百分点. 对比试验和消融实验结果也验证了模型的有效性.

关键词: 语音情感识别 ; 无监督学习 ; 图对比学习 ; 特征增强 ; 加权池化

Abstract

A speech emotion recognition network based on unsupervised graph contrastive learning (SERUGCL) was proposed to address the issues of sparse labeled data and difficulties in modeling high-dimensional speech features in most speech datasets. This method was trained using unlabeled data. Firstly, an original view of speech features was constructed based on feature similarity, and the graph structure was utilized to model the dependencies between speech frames, thereby alleviating the computational pressure caused by directly modeling high-dimensional features. Then, two enhanced views were generated through a combination of the fast gradient sign method (FGSM) and subgraph sampling-edge perturbation. All views were processed by a differentiated encoder, and a weighted pooling mechanism was adopted to obtain the global embedding. Finally, support vector machine (SVM) was used for emotion classification. The SERUGCL model achieved unweighted accuracy (UA) of 69.96% and weighted accuracy (WA) of 70.24% on the IEMOCAP dataset, and UA of 91.04% and WA of 90.29% on the EMO-DB dataset. Compared with DSTCNet, the UA and WA of SERUGCL improved by 8.18 and 8.44 percentage points on IEMOCAP and by 4.49 and 1.50 percentage points on EMO-DB datasets respectively. The results of comparative and ablation experiments also verified the effectiveness of the model.

Keywords: speech emotion recognition ; unsupervised learning ; graph contrastive learning ; feature augmentation ; weighted pooling

PDF (1157KB) 元数据 多维度评价 相关文章 导出 EndNote| Ris| Bibtex  收藏本文

本文引用格式

张雪梅, 孙颖, 张雪英. 基于无监督图对比学习的语音情感识别. 浙江大学学报(工学版)[J], 2026, 60(4): 782-790 doi:10.3785/j.issn.1008-973X.2026.04.010

ZHANG Xuemei, SUN Ying, ZHANG Xueying. Speech emotion recognition with unsupervised graph contrastive learning. Journal of Zhejiang University(Engineering Science)[J], 2026, 60(4): 782-790 doi:10.3785/j.issn.1008-973X.2026.04.010

语音情感识别(speech emotion recognition,SER)是信号处理领域和情感计算领域的一个重要研究方向,旨在通过分析语音信号的特征和内容来识别说话者的情感状态[1-2],被应用在医疗、人机交互、智能客服等许多领域[3]. 然而,由于语音的差异性和情感的复杂性,语音情感识别依然是具有挑战的[4].

目前,深度学习已经被应用到语音情感识别领域. 常见的模型有卷积神经网络(convolutional neural networks,CNN)、长短期记忆网络(long short-term memory,LSTM)和门控循环单元(gate recurrent unit,GRU)等. Abdelhamid等[5]将CNN和LSTM组合并基于随机分形搜索优化算法进行语音情感识别. Zhu等[6]在卷积循环网络的基础上,使用双向GRU增强对短时长语音样本的处理能力,并引入聚焦损失函数处理样本不平衡问题. 不过存在以下两方面的问题. 1)它们往往需要大量的密集型有标签数据来训练模型[7],而大多数语音情感识别数据集存在稀疏性的问题[8]. 2)由于计算的限制,处理语音数据产生的高维特征空间是困难的[4,9]. 针对问题1,无监督学习使用无标签数据进行训练,可以有效避免语音情感识别中数据集稀疏性的问题[7-8]. 针对问题2,图信号处理理论中的图表示是紧凑高效的,它能够有效捕捉语音信号帧之间的时序依赖和结构关系,将高维特征映射为低维表示[10-12]. 图对比学习作为一种图表示学习方法,通过构建对比任务,可以从语音数据产生的高维特征空间中学习并优化整个图的低维嵌入表示[9,13-15].

基于此,本研究的主要工作如下:1)提出基于无监督图对比学习的语音情感识别网络(speech emotion recognition network based on unsupervised graph contrastive learning,SERUGCL),该网络通过图对比学习和无监督的训练方式捕捉语音信号的特征相似性,从而解决语音情感识别中的高维特征空间和数据稀疏的问题. 2)从特征空间和结构空间2个层面设计了互补的图增强方式,并引入加权池化机制,以提升无监督图表示的判别性与鲁棒性;采用差异化编码器对不同增强视图进行独立建模,增强跨视图对齐能力. 3)在IEMOCAP和EMO-DB数据集上进行大量实验,以验证SERUGCL模型的有效性.

1. 相关工作

1.1. 无监督学习

近年来,无监督学习被应用到语音情感识别中,主要是为了克服对大量标注数据的依赖[7,16]. 无监督学习旨在从未标记的数据中自动挖掘潜在结构和分布规律,无需外部标签信息即可提取判别性表示. 典型的无监督方法包括聚类方法、自编码器、对比预测编码等. Eskimez等[17]提出使用变分自编码器的无监督特征学习方法. Li等[7]采用对比预测编码方法对未标记语音数据进行无监督学习,来获得对语音情感识别有用的特征表示.

1.2. 图对比学习

对比学习作为一种无监督表示学习方法,其核心思想是最大化正样本之间的一致性并最小化负样本之间的相似性,已广泛应用于图像识别、语音建模、推荐系统等任务中. Kang等[18]提出基于聚焦对比学习的语音情感识别网络,该网络包括双向GRU、注意力机制和加权损失函数. Song等[19]通过对比学习解决情感识别中的不平衡分类问题.

图论被认为是信号处理的强大工具[4]. 近年来,已有研究尝试将语音帧之间的关系建模为图结构,利用图神经网络提取上下文特征,用于语音情感识别任务. 例如,Shirian等[12]将语音信号建模为循环图或线图,并在此基础上构建了GCN架构. Li等[20]通过特征相似性构建语音图,采用GCN和LSTM进行语音情感识别. Pentari等[4]提出利用图论方法提取语音情感识别的特征集,并通过随机森林分类器进行情感分类.

图对比学习是将对比学习方法和图论相结合,在无需标签的情况下对图进行高质量的表示学习,常应用于节点分类、链接预测和图分类[15,21]. 基于此,本研究提出基于无监督图对比学习的语音情感识别框架,将语音数据建模为图,不仅能够有效捕捉语音帧之间的长期依赖关系,还能采用对比学习将高维特征映射为更具有表达性的低维嵌入表示,缓解高维特征直接建模带来的计算压力. 该方法不依赖标注数据,全部采用无标签的数据进行训练.

2. SERUGCL模型设计

2.1. 模型架构

基于以上分析,本研究提出SERUGCL模型设计,如图1所示,SERUGCL由特征提取、图对比学习和情感分类3个部分组成. 1)在特征提取部分,网络首先通过音频特征提取工具对语音序列数据进行分帧和特征提取操作. 然后对语音帧按照特征相似性构建原始视图$ G $,引入图结构建模,以缓解高维特征直接建模带来的计算压力. 2)在图对比学习部分,采用无监督学习方式,无需任何标签信息. 首先,模型采用FGSM和子图采样-边缘扰动组合的2种增强策略,生成2个增强视图$ {T}_{{\mathrm{t}}}(G) $$ {T}_{{\mathrm{f}}}(G) $. 然后,将2个增强视图$ {T}_{{\mathrm{t}}}(G) $$ {T}_{{\mathrm{f}}}(G) $和原始视图$ G $分别输入对应的差异化编码器,并通过加权池化机制获得各自的视图嵌入$ {\boldsymbol{h}}_{i} $$ {\boldsymbol{h}}_{j} $$ \boldsymbol{h} $. 最后,将不同视图的嵌入输入预测头以计算对比损失,并根据损失值进行反向传播更新网络参数. 3)在情感分类部分,采用没有增强的原始视图数据通过训练好的网络获得图的全局嵌入$ {\boldsymbol{h}} $,然后图嵌入$ \;{\boldsymbol{h}} $通过SVM分类器进行情感分类. 在情感分类部分,将未进行数据增强的原始视图输入训练好的网络,以获得图的全局嵌入$ \boldsymbol{h} $;随后将该嵌入输入SVM分类器完成情感分类. SERUGCL模型一方面利用图结构建模语音帧之间的高维特征依赖关系,提升语音特征表达能力;另一方面通过无监督机制缓解对大规模有标签语音情感数据的依赖.

图 1

图 1   SERUGCL框架

Fig.1   Framework of SERUGCL


2.2. 图构建

图数据集表示为$ G=(V,E) $,其中$ V $为节点集,$ E $为边集. 图的邻接矩阵表示为$ \boldsymbol{A } $$ \boldsymbol{A}\in {{R}}^{n\times n} $. 图的节点特征矩阵表示为$ \boldsymbol{X} $$ \boldsymbol{X}\in {{R}}^{n\times d} $,其中$ n $表示节点数量,$ d $表示特征维度.

本研究采用基于帧的图构建方法[12-13],其中每个语音帧形成图中的一个节点,帧级声学特征作为节点特征向量. 采用余弦相似度来衡量语音帧的特征相似性,将语音转换为图数据,具体过程如图2所示. 这种图构建方式可以捕获长期依赖性并防止来自不相关邻居的扰动.

图 2

图 2   基于特征相似性的语音图构建流程

Fig.2   Speech graph construction based on feature similarity


1)计算任意2个节点之间的余弦相似度. 对于图中任意2个节点$ i $和节点$ j $,其对应的特征向量分别为$ {\boldsymbol{x}}_{i} $$ {\boldsymbol{x}}_{j} $,它们之间的余弦相似度如下:

$ {s}_{ij}=\frac{\boldsymbol{x}_{i}^{\text{T}}{\boldsymbol{x}}_{j}}{\|{\boldsymbol{x}}_{i}\|\times \|{\boldsymbol{x}}_{j}\|}. $

式中:$ {\boldsymbol{x}}_{i}\in {{R}}^{d} $为特征矩阵$ \boldsymbol{X} $的第$ i $行,$ \boldsymbol{x}_{i}^{\text{T}} $为特征向量$ {{\boldsymbol{x}}}_{i} $的转置. $ \left|\left|\cdot \right|\right| $为L2范数,$ {s}_{ij}\in [0,1.0] $为节点$ i $和节点$ j $之间的余弦相似度.

2)根据相似度$ {s}_{ij} $构建图的邻接矩阵. 对于每个节点$ i $选择最相似的一个节点$ j $建立边连接:

$ a_{i j}=\left\{\begin{array}{ll}1, & s_{i j} \geq \forall s_{i k}, k \neq j ;\\0, & 其他. \end{array} \right. $

式中:$ {a}_{ij} $表示邻接矩阵$ \boldsymbol{A} $$ (i,j) $位置处的取值. 当节点$ i $与节点$ j $之间的余弦相似度最大时,节点之间建立边,即$ {a}_{ij}=1 $.

2.3. 图对比学习

2.3.1. 图数据增强

图数据增强是通过扰动图中的属性或拓扑信息来生成增强视图[21],本研究专注于节点级增强和图级增强. 已有研究证明FGSM具有高效、简单的优点,适合用于快速对抗训练[22]. 相较于随机噪声扰动,FGSM直接基于损失梯度生成针对性扰动,能够更有效地暴露模型对于关键特征维度的敏感性,从而引导编码器学习更具判别力和鲁棒性的全局图嵌入. 因此,在本研究中,节点级增强是采用FGSM对图$ G $的节点特征进行扰动,且保持图的拓扑结构不变,进而生成增强视图$ {T}_{{\mathrm{t}}}(G) $. 节点级扰动大小设置为0.1,算法流程如下.

FGSM算法流程$ (G,\epsilon ) $
输入:图$ G=(V,E,\boldsymbol{X}) $,扰动强度$ \epsilon$
输出:增强图$ {T}_{{\mathrm{t}}}(G)=(V,E,{\boldsymbol{X}}^{\prime}) $
1:使用编码器$ f(\cdot ) $生成图嵌入$ {{{{\bf{g}}}}}{{{{\bf{x}}}}} $$ {\bf{g}}{\bf{x}}_{1} $
2:计算$ \bf{g}\bf{x} $$ {\bf{g}}{\bf{x}}_{1} $之间的损失$ {\mathcal{L}}({\bf{g}}{\bf{x}},{\bf{g}}{\bf{x}}_{1}) $
3:反向传播,计算损失函数关于$ \boldsymbol{X} $的梯度
$ {\nabla }_{{\boldsymbol{X}}}\mathcal{L} $(gx, gx1)
4:生成对抗特征矩阵$ {{{{\boldsymbol{X}}}}^{\prime}}=\boldsymbol{X}+\epsilon \cdot \text{sign}\;({\nabla }_{{\boldsymbol{X}}}\mathcal{L}({\bf{g}}{\bf{x}},{\bf{g}}{\bf{x}}_{1})) $
5:构建增强图$ {T}_{{\mathrm{t}}}(G) $,保持拓扑结构不变

由于之前的研究已经证明组合不同的增强方式能更有效地提升模型性能[15]. 因此,图级增强选择子图采样-边缘扰动组合的方式来改变图$ G $的拓扑结构,生成增强视图$ {T}_{{\mathrm{f}}}(G) $. 具体过程如图3所示. 对图$ G $采取随机选择增强策略来确定具体增强方式. 当随机数为0时,选择边缘扰动,它会随机添加或删除一定比例的边来扰乱图$ G $的连通性. 当随机数为1时,选择子图采样,它使用随机游走的方式对图$ G $进行采样. 图级增强比例设置为0.2.

图 3

图 3   子图采样-边缘扰动组合的增强方式

Fig.3   Enhancement method combining subgraph sampling and edge perturbation


2.3.2. 图编码器

根据不同视图的特性选择最佳的编码器,可以避免模型对单一结构或特征依赖过重的问题. 对于原始视图$ G $和增强视图$ {T}_{{{{\mathrm{t}}}}}(G) $,编码器$ {f}_{1}(\cdot ) $为图同构网络(graph isomorphism network,GIN),它可以捕捉图的节点特征细节. 本研究使用的GIN采用求和聚合策略聚合来自邻居节点的信息[23],表达式如下:

$ \boldsymbol{h}_i^{(k)}=\operatorname{MLP}^{(k)}\left(\left(1+\varepsilon^{(k)}\right) \boldsymbol{h}_i^{(k-1)}+\sum_{j \in {N}(i)} \boldsymbol{h}_j^{(k-1)}\right) . $

式中:$ \boldsymbol{h}_{i}^{(k)} $为节点$ i $$ k $层的输出;$ {N}(i) $为节点$ i $的邻域;$ {\text{MLP}}^{(k)} $为多层感知机;$ {\varepsilon }^{(k)} $为可学习的参数,用于调节当前节点特征与其邻居聚合特征之间的相对权重.

对于增强视图$ {T}_{{\mathrm{f}}}(G) $,编码器$ {f}_{2}(\cdot ) $为图卷积网络(graph convolutional network,GCN),它能够分析图的拓扑结构信息[24]. 表达式如下:

$ \boldsymbol{H}^{(l+1)}=\operatorname{RELU}\left({{\tilde{{\boldsymbol{D}}}}}^{-\tfrac{1}{2}} {{\tilde{{\boldsymbol{A}}}}} {{\tilde{{\boldsymbol{D}}}}}^{-\tfrac{1}{2}} \boldsymbol{H}^{(l)} \boldsymbol{W}^{(l)}\right) . $

式中:$ \tilde{\boldsymbol{A}}=\boldsymbol{A}+{\boldsymbol{I}}_{{\mathrm{N}}} $,为添加了自连接的邻接矩阵,$ {\boldsymbol{I}}_{{\mathrm{N}}} $为单位矩阵;$ {\tilde{{D}}}_{ii}={\sum}_{j}{\tilde{{A}}}_{ij} $$ {\boldsymbol{W}}^{(l)} $为可训练权重矩阵;$ \text{RELU}(\cdot ) $为非线性激活函数;$ {\boldsymbol{H}}^{(l)}\in {{R}}^{N\times D} $,为第$ l $层的激活矩阵.

在图构建过程中,由于邻居节点之间存在大量冗余连接,许多边承载的信息贡献度较低,导致节点表示存在冗余和信息混淆. 在这种情况下,传统的池化操作很难从复杂且密集的连接中准确提取代表性特征. 因此本研究采用加权池化机制,该机制综合考虑多种全局统计特征,对节点表示进行多视角加权融合,从而获得更具判别力的图嵌入. 如图4所示为加权池化机制,它是基于全局最大池化、全局平均池化和全局软池化联合构建的. 将图$ G $输入编码器后,对每一层输出的特征矩阵分别采用3种池化操作,并对池化结果进行加权求和以获得该层的嵌入;随后,将各层嵌入进行拼接得到最终的图嵌入. 全局软池化通过学习的方式对所有节点赋予不同的权重,并以加权求和的方式聚合节点特征. 表达式如下:

图 4

图 4   加权池化机制

Fig.4   Weighted pooling mechanism


$ {\boldsymbol{x}}_{{\mathrm{pool}}}=\alpha \cdot \text{max}_{i=1}^{n}\;{\boldsymbol{x}}_{i}+\beta \cdot \text{mean}_{i=1}^{n}\;{\boldsymbol{x}}_{i}+\gamma \cdot \text{soft}_{i=1}^{n}\;{\boldsymbol{x}}_{i}. $

式中:max、mean和soft表示全局池化的3种类型;$ {\boldsymbol{x}}_{i} $表示节点$ i $的特征向量;$ \alpha $$ \beta $$ \gamma $表示3种池化的权重,实验设置为{0.3,0.3,0.3}.

2.3.3. 投影头

投影头为两层感知机,用于将图嵌入$ \boldsymbol{h} $映射到另一个潜在空间,以便计算对比损失. 其结构如下:

$ \boldsymbol{z}=\text{MLP}(\boldsymbol{h})=\mathrm{Re}\text{LU}({\boldsymbol{W}}_{2}\cdot (\mathrm{Re}\text{LU(}{\boldsymbol{W}}_{1}\cdot \boldsymbol{h}\text+{{\boldsymbol{b}}}_{1}\text{)})+{{\boldsymbol{b}}}_{2}). $

式中:$ {\boldsymbol{W}}_{1} $$ {\boldsymbol{W}}_{\mathbf{2}} $为权重矩阵,$ {{\boldsymbol{b}}}_{1} $$ {{\boldsymbol{b}}}_{2} $为偏置项,$ \mathrm{Re}\text{LU}(\cdot ) $为非线性激活函数.

2.3.4. 损失函数

损失函数是基于归一化温度尺度交叉熵损失(normalized temperature-scaled cross-entropy loss,NT-Xent)所设计的. 从原始视图和增强视图中学习的图级表示应该表现出高度一致性. 因此,损失函数应该最大化它们之间的互信息. 以小批量中的第$ i $个图$ {G}_{i} $以及增强视图$ {T}_{{{{\mathrm{t}}}}}({G}_{i}) $为例,计算公式如下:

$ \mathcal{L}_{\mathrm{t}}=-\frac{1}{M} \sum_{i=1}^M \log \; \frac{\exp \; \left(\operatorname{sim}\left({\boldsymbol{z}}_i, {\boldsymbol{z}}_{{\mathrm{t}}, i}\right) / \tau\right)}{\sum_{j=1}^M \exp \; \left(\operatorname{sim}\left({\boldsymbol{z}}_i, {\boldsymbol{z}}_{{\mathrm{t}}, j}\right) / \tau\right)} . $

式中:$ M $为小批量中原始图的数量,$ \tau $为温度参数,$ \text{sim}\;({{{\boldsymbol{z}}}}_{i},{\boldsymbol{z}}_{{\mathrm{t}},i})=\boldsymbol{z}_{i}^{\text{T}}\boldsymbol{z}/(\|{\boldsymbol{z}}_{i}\|\;\|{\boldsymbol{z}}_{{\mathrm{t}},i}\|) $为余弦相似函数. 同理,对于原始图$ {G}_{i} $和增强视图$ {T}_{{\mathrm{f}}}({G}_{i}) $,表达式如下:

$ {\mathcal{L}}_{{\mathrm{f}}}=-\frac{1}{M}\sum\limits_{i=1}^{M}\log \; \frac{\exp \;(\text{sim}\;({\boldsymbol{z}}_{i},{\boldsymbol{z}}_{{\mathrm{f}},i})/\tau )}{\sum\limits_{j=1}^{M}\exp \;(\text{sim\;(}{\boldsymbol{z}}_{i,}{\boldsymbol{z}}_{{\mathrm{f}},j}\text{)/}\tau )}. $

图的增强视图$ {T}_{{\mathrm{t}}}({G}_{i}) $$ {T}_{{\mathrm{f}}}({G}_{i}) $是通过分离图$ {G}_{i} $的特征和拓扑信息生成的,因此它们从原图中可以获得不同的信息. 本研究还约束了2个增强视图之间的关系,以增强信息多样性. 表达式如下:

$ {\mathcal{L}}_{{\mathrm{ft}}}=\frac{1}{M}\sum\limits_{i=1}^{M}\log \frac{\exp \;(\text{sim}\;({\boldsymbol{z}}_{{\mathrm{t}},i},{\boldsymbol{z}}_{{\mathrm{f}},i})/\tau )}{\sum\limits_{j=1,j\neq i}^{M}\exp \;(\text{sim\;(}{\boldsymbol{z}}_{{\mathrm{t}},i}\text{,}{\boldsymbol{z}}_{{\mathrm{f}},j}\text{)/}\tau )}. $

总的损失函数表达式如下:

$ \mathcal{L}=\lambda {\mathcal{L}}_{{\mathrm{t}}}+(1-\lambda ){\mathcal{L}}_{{\mathrm{f}}}+\mu {\mathcal{L}}_{{\mathrm{ft}}}. $

式中:公式右侧的前2项,增强视图和原始视图呈正相关,用于约束增强视图与原始视图之间的一致性;第3项则是决定2个增强视图之间的关系,通过最小化第3项,增强视图可以保留来自原始视图的不同信息;$ \lambda $$ \mu $为非负超参数.

2.4. 情感分类

将情感分类任务转换为图分类任务,将原始图数据通过训练好的编码器(GIN)获得图嵌入$ \boldsymbol{h} $,然后通过SVM分类器进行分类.

3. 实验设置

3.1. 数据集

使用IEMOCAP[25]情感语音数据集和EMO-DB[26]数据集来评估模型的有效性. IEMOCAP:包含12 h的视听数据,本研究中的情感识别任务仅使用语音数据. 为了和之前的研究保持一致,选择了4种情绪数据:中性、快乐(包含兴奋)、悲伤和愤怒,共5531个语音样本. EMO-DB: 由10名专业演员录制的德语数据集,共包含535个语音样本. 数据集包含7种情绪:愤怒、无聊、厌恶、焦虑、快乐、悲伤和中性.

3.2. 节点特征

使用openSMILE工具包从INTERSPEECH 2010副语言挑战[27]中提取一组低级描述符(low-level descriptors,LLD). 特征集包括PCM响度、F0包络、LSP频率、梅尔频率倒谱系数、抖动等. 对于每个样本,研究使用长度为25 ms、步长为10 ms的滑动窗口来提取LLD. 并且,IEMOCAP数据集额外添加自发性的二进制特征. 因此每个语音样本会产生120个节点的图,IEMOCAP数据集的每个节点会产生78维特征向量,EMO-DB数据集的每个节点会产生76维特征向量.

3.3. 实验设置

实验使用Adam优化器进行训练,学习率设置为0.001,批量大小设置为128. 卷积层数量设置为2,隐藏层维度设置为128. $ \lambda $$ \mu $分别设置为0.4和0.0001. 所有实验均在NVIDIA 4060 GPU上进行.

采用 10 折交叉验证对模型进行评估. 具体地,将整个数据集划分为10个子集,每次选取其中一个子集作为测试集,其余9个子集作为训练集. 使用加权准确率(weighted accuracy,WA)和未加权准确率(unweighted accuracy,UA)指标作为模型评价标准.

4. 实验结果及分析

4.1. 模型比较

将提出的方法分别与基线模型和先进的语音情感识别模型进行比较.

4.1.1. 基线模型

4种基线模型如下. 模型1:两视图对比,增强策略为FGSM和子图采样2种,池化方式为加权池化. 模型2:两视图对比,增强策略为FGSM和边缘扰动2种,池化方式为加权池化. 模型3:两视图对比,增强策略为FGSM和子图采样-边缘扰动组合2种,池化方式为加权池化. 模型4:三视图对比,增强策略为FGSM和子图采样-边缘扰动组合2种,池化方式为全局和池化.

表1所示展示了在IEMOCAP和EMO-DB数据集上,SERUGCL模型与基线模型的比较结果. 从整体趋势来看,模型性能随着增强方式、对比视图的增加以及加权池化的选择而显著增强. 模型3将子图采样和边缘扰动2种增强方式组合,性能相较模型1、2得到提升. 子图采样提供全局结构变化,边缘扰动专注局部扰动信息,两者结合可以互补,提升增强视图的多样性和表达能力,从而增强对比学习的判别性. 模型4采用三视图,相较于两视图,其性能得到明显提升,说明多视图能有效缓解两视图信息不完整的问题,为模型提供更丰富的上下文信息. SERUGCL采用加权池化,相较于模型4,能够更有效地分配不同节点在图表示中的重要性.

表 1   不同增强策略与池化方式下的模型对比

Tab.1  Performance comparison of models under different augmentation strategies and pooling methods

模型IEMOCAPEMO-DB
UA/%WA/%UA/%WA/%
模型160.8661.2388.1687.01
模型263.4263.4989.1087.69
模型363.9464.0489.4588.48
模型468.8469.0590.5089.68
SERUGCL69.9670.2491.0490.29

新窗口打开| 下载CSV


4.1.2. 语音情感识别模型

表23所示为SERUGCL模型与其他语音情感识别模型的比较结果. 从表2可以看出:SERUGCL模型在IEMOCAP数据集上取得了69.96%的UA和70.24%的WA,优于所有对比方法. 从模型结构角度分析,相较于表格中前4个模型,SERUGCL采用三视图对比学习框架,有效提升了模型对语音数据多样情感表达的建模与识别能力. 相较于同为无监督学习的MTL模型,SERUGCL的构图方式更贴近情绪建模目标,且采用差异化编码器提升了情感特征的判别能力. 此外,DSTCNet与APIN的识别性能显著低于其他方法的,可能与建模方式的局限性有关. DSTCNet采用时频卷积结构,虽然在频谱建模方面具有一定优势,但难以有效捕捉语音中情感的长时间依赖关系. APIN在复数域中联合幅度与相位信息建模,较多关注底层信号层面,缺乏对高层语义特征的有效建模. 相比之下,SERUGCL通过帧级特征构建图,结合多视图对比学习机制,能更细致地捕捉语音信号的关键信息,有效提升情绪建模的精度和鲁棒性. 从表3可以看出:在EMO-DB数据集上,SERUGCL模型达到了91.04%的UA和90.29%的WA,优于其他对比方法. EMO-DB数据集样本数量相对较小,但情感分布相对均衡,说明模型对小样本情感识别任务具有良好的泛化能力.

表 2   在IEMOCAP数据集上与其他语音情感识别模型的比较

Tab.2  Comparison with other speech emotion recognition models in IEMOCAP dataset

模型年份UA/%WA/%
GA-GRU[28]202063.8062.27
LSTM-GIN[29]202165.5364.65
CoGCN[13]202263.6762.64
GLNN[20]202368.6568.11
MTL[30]202469.16
DSTCNet[31]202561.7861.80
APIN[32]202560.3560.80
SERUGCL202569.9670.24

新窗口打开| 下载CSV


表 3   在EMO-DB数据集上与其他语音情感识别模型的比较

Tab.3  Comparison with other speech emotion recognition models in EMO-DB dataset

模型年份UA/%WA/%
AMSNet[33]202388.5688.34
SER-Graph[4]202477.80
DSTCNet-BLSTM[31]202584.7285.98
DSTCNet[31]202586.5588.79
APIN[32]202586.0087.85
CL[34]202589.60
SERUGCL202591.0490.29

新窗口打开| 下载CSV


SERUGCL模型在IEMOCAP和EMO-DB数据集上的情感分类混淆矩阵如图5所示,横轴表示模型的预测标签,纵轴表示真实标签. 在IEMOCAP数据集上,模型在识别愤怒、中性和悲伤情绪时表现良好,准确率较高,说明模型对这些情绪具有较强的区分能力. 对于快乐和兴奋情绪,准确率相对较低,且与愤怒和中性情绪存在混淆,表明这些情绪在语音特征上具有一定的相似性. 在EMO-DB数据集上,模型表现更加优异,识别准确率更高. 模型在识别愤怒、悲伤和厌恶情绪时性能最为突出. 但高兴易被误判成愤怒,无聊和中性情绪存在一定混淆,说明模型对边界不明显的情绪区别能力较弱. 总体而言,模型在大多数情绪上表现较稳定,但在部分情绪边界模糊的情况下仍有提升空间.

图 5

图 5   SERUGCL模型的混淆矩阵

A-愤怒,H+E-快乐和兴奋,N-中性,S-悲伤,H-快乐,F-恐惧,D-厌恶,B-无聊   Confusion matrix of SERUGCL model


4.2. 消融实验
4.2.1. 增强模块消融

在无监督学习环境下,采用消融实验来进一步分析SERUGCL增强模块的有效性. 具体设置有2种:1)S-F,不使用FGSM的增强策略;2)S-SE,不使用子图采样-边缘扰动组合的增强策略. 如表4所示显示了SERUGCL模型及其消融设置的结果. 可以看出,完整的SERUGCL模型在2个数据集上均获得最佳性能. 当移除FGSM时,模型在IEMOCAP和EMO-DB数据集上的UA分别下降0.77个百分点和0.51个百分点. 这表明,FGSM提供的对抗特征增强对模型性能提升具有一定的作用,主要体现在提高模型对节点特征扰动的鲁棒性. 当去除结构增强时,模型性能明显下降,这说明结构增强对建模语音图的上下文结构信息具有关键作用.

表 4   增强模块消融实验结果

Tab.4  Results of enhanced module ablation experiment

方法IEMOCAPEMO-DB
UA/%WA/%UA/%WA/%
S-F69.1969.4290.5389.48
S-SE65.5765.9389.0587.70
SERUGCL69.9670.2491.0490.29

新窗口打开| 下载CSV


尽管FGSM增强策略对模型性能的提升较为有限,但其与结构增强结合可以有效提高模型的表征能力与识别结果,验证了增强模块在模型中的有效性.

4.2.2. 池化模块消融

在无监督学习环境下,采用消融实验进一步分析SERUGCL池化机制的有效性. 具体设置有3种:1)mean,使用全局平均池化;2)max,使用全局最大池化;3)sum,使用全局和池化. 如表5所示显示了SERUGCL模型及其消融设置的结果. 可以看出,3种池化方式的识别性能均低于加权池化. mean池化是将图中所有节点特征简单平均,max池化仅关注图中特征最显著的节点,sum池化将所有节点特征进行聚合. 它们都侧重一方面,而加权池化对节点特征进行多尺度加权融合,缓解了冗余连接造成的干扰,提升了模型的整体性能.

表 5   池化模块消融实验结果

Tab.5  Results of pooling module ablation experiment

方法IEMOCAPEMO-DB
UA/%WA/%UA/%WA/%
mean67.1567.4190.6189.77
max66.8967.0889.4687.63
sum68.8469.0590.5089.68
SERUGCL69.9670.2491.0490.29

新窗口打开| 下载CSV


4.2.3. 编码器模块消融

在无监督学习环境下,采用消融实验进一步分析SERUGCL差异化编码器的有效性. 具体设置有3种:1)GIN,三视图使用图同构网络;2)GCN,三视图使用图卷积网络;3)GCN-GIN,原始视图和增强视图$ {T}_{{{{\mathrm{t}}}}}(G) $使用图卷积网络,增强视图$ {T}_{{{{{{\mathrm{f}}}}}}}(G) $使用图同构网络. 如表6所示显示了SERUGCL模型及其消融设置的结果. 结果表明,SERUGCL取得了最佳性能,验证了其差异化编码器结构的有效性. GIN具有较强的图判别能力,更适合捕捉节点特征和分类任务. GCN对图结构依赖较强,更适合分析图的拓扑变化. 原始视图和增强视图$ {T}_{{{{\mathrm{t}}}}}(G) $使用GIN,有利于保留原始语音的特征信息. 增强视图$ {T}_{{{{\mathrm{f}}}}}(G) $使用GCN,增强了模型对拓扑扰动的适应能力. 通过差异化编码器,SERUGCL能够多角度挖掘视图中的潜在情感表达,实现更高效的情感识别性能.

表 6   编码器模块消融实验结果

Tab.6  Results of encoder module ablation experiment

方法IEMOCAPEMO-DB
UA/%WA/%UA/%WA/%
GIN68.1168.2489.4588.43
GCN68.9569.1290.2389.33
GCN-GIN68.5468.8189.9089.02
SERUGCL69.9670.2491.0490.29

新窗口打开| 下载CSV


4.2.4. 超参数分析

探讨FGSM的扰动强度、图级增强比例和加权池化的权重这3个超参数对SERUGCL模型性能的敏感性和影响. 如表7所示为池化名称对应的各池化方式所占权重.

表 7   池化名称对应的各池化方式所占权重

Tab.7  Weights of each pooling method corresponding to pooling name

池化简称maxmeansoft
A0.500.250.25
B0.250.500.25
C0.250.250.50
D0.600.200.20
E0.200.600.20
F0.200.200.60
G0.300.300.30

新窗口打开| 下载CSV


图6所示为FGSM的不同扰动强度和不同图级增强比例的实验结果. 可以看出,当FGSM扰动强度为0.10时,2个数据集上模型性能达到最优,说明适度扰动有助于增强特征判别性,过强则可能引入噪声从而影响识别性能. 当图级增强比例为0.2时,模型识别准确率最高,表明适当的增强比例有助于提升数据多样性,但比例过高则会导致结构冗余,影响识别效果.

图 6

图 6   FGSM的不同扰动强度和不同图级增强比例的实验结果

Fig.6   Results of FGSM with different perturbation intensities and different proportions of graph-level augmentations


图7所示展示了不同池化权重组合对模型性能的影响. 实验结果表明,组合G在2个数据集上都获得了最好的结果,验证了加权策略设计的有效性. 同时,这也表明均衡融合3种池化方式有助于提取更丰富的特征.

图 7

图 7   不同加权池化权重的实验结果

Fig.7   Results of different weighted pooling weights


5. 结 语

本研究提出基于无监督图对比学习的语音情感识别网络(SERUGCL). 该方法在训练时不依赖标签数据,全部采用无标签数据进行训练. 首先,将语音序列数据根据特征相似性建模为图,利用图结构建模语音帧之间的依赖关系,从而缓解高维特征直接建模带来的计算压力. 然后,采用FGSM和子图采样-边缘扰动组合增强方式生成2种增强视图. 这3种视图通过相应的差异化编码器和加权池化机制获得各自的全局嵌入. 损失函数使得原始视图嵌入朝着有利于情感分类的方向发展. 最后,采用SVM进行情感分类. 在IEMOCAP和EMO-DB数据集上的结果表明,本研究提出的SERUGCL相较于其他方法具有更好的性能.

尽管 SERUGCL 在无监督语音情感识别任务中展现出了良好的性能,但仍存在一定的局限性. 例如,当前图构建过程主要依赖帧级特征相似性,未充分考虑语音的长时语义信息;此外,本研究采用的增强策略在训练过程中保持固定,未能根据不同样本特性或训练阶段进行自适应调整,这在一定程度上可能限制模型的表达能力. 未来研究将探索引入更丰富的时序与语义建模机制,并设计自适应或动态的数据增强策略,以进一步提升模型的泛化能力和鲁棒性.

参考文献

HU Y, TANG Y, HUANG H, et al. A graph isomorphism network with weighted multiple aggregators for speech emotion recognition [C]// Interspeech 2022. Incheon: ISCA, 2022: 4705−4709.

[本文引用: 1]

孙颖, 胡艳香, 张雪英, 等

面向情感语音识别的情感维度PAD预测

[J]. 浙江大学学报: 工学版, 2019, 53 (10): 2041- 2048

[本文引用: 1]

SUN Ying, HU Yanxiang, ZHANG Xueying, et al

Prediction of emotional dimensions PAD for emotional speech recognition

[J]. Journal of Zhejiang University: Engineering Science, 2019, 53 (10): 2041- 2048

[本文引用: 1]

孙志, 王冠

自监督对比学习的CNN-GRU语音情感识别算法

[J]. 西安电子科技大学学报, 2024, 51 (6): 182- 193

DOI:10.19665/j.issn1001-2400.20241109      [本文引用: 1]

SUN Zhi, WANG Guan

CNN-GRU speech emotion recognition algorithm for self-supervised comparative learning

[J]. Journal of Xidian University, 2024, 51 (6): 182- 193

DOI:10.19665/j.issn1001-2400.20241109      [本文引用: 1]

PENTARI A, KAFENTZIS G, TSIKNAKIS M

Speech emotion recognition via graph-based representations

[J]. Scientific Reports, 2024, 14: 4484

DOI:10.1038/s41598-024-52989-2      [本文引用: 5]

ABDELHAMID A A, EL-KENAWY E M, ALOTAIBI B, et al

Robust speech emotion recognition using CNN+LSTM based on stochastic fractal search optimization algorithm

[J]. IEEE Access, 2022, 10: 49265- 49284

DOI:10.1109/ACCESS.2022.3172954      [本文引用: 1]

ZHU Z, DAI W, HU Y, et al

Speech emotion recognition model based on Bi-GRU and focal loss

[J]. Pattern Recognition Letters, 2020, 140: 358- 365

DOI:10.1016/j.patrec.2020.11.009      [本文引用: 1]

LI M, YANG B, LEVY J, et al. Contrastive unsupervised learning for speech emotion recognition [C]// 2021 IEEE International Conference on Acoustics, Speech and Signal Processing. Toronto: IEEE, 2021: 6329−6333.

[本文引用: 4]

GERCZUK M, AMIRIPARIAN S, OTTL S, et al

EmoNet: a transfer learning framework for multi-corpus speech emotion recognition

[J]. IEEE Transactions on Affective Computing, 2023, 14 (2): 1472- 1487

DOI:10.1109/TAFFC.2021.3135152      [本文引用: 2]

XU X, DENG J, COUTINHO E, et al

Connecting subspace learning and extreme learning machine in speech emotion recognition

[J]. IEEE Transactions on Multimedia, 2019, 21 (3): 795- 808

DOI:10.1109/TMM.2018.2865834      [本文引用: 2]

PENTARI A, KAFENTZIS G, TSIKNAKIS M. Investigating graph-based features for speech emotion recognition [C]// IEEE-EMBS International Conference on Biomedical and Health Informatics. Ioannina: IEEE, 2022: 1–5.

[本文引用: 1]

MELO D F P, FADIGAS I S, PEREIRA H B B

Graph-based feature extraction: a new proposal to study the classification of music signals outside the time-frequency domain

[J]. PLoS One, 2020, 15 (11): e0240915

DOI:10.1371/journal.pone.0240915     

SHIRIAN A, GUHA T. Compact graph architecture for speech emotion recognition [C]// 2021 IEEE International Conference on Acoustics, Speech and Signal Processing. Toronto: IEEE, 2021: 6284–6288.

[本文引用: 3]

KIM J, KIM J. Representation learning with graph neural networks for speech emotion recognition [EB/OL]. (2022–01–26) [2025–06–10]. https://arxiv.org/abs/2208.09830.

[本文引用: 3]

GHAYEKHLOO M, NICKABADI A

Supervised contrastive learning for graph representation enhancement

[J]. Neurocomputing, 2024, 588: 127710

DOI:10.1016/j.neucom.2024.127710     

YOU Y N, CHEN T L, SUI Y D, et al. Graph contrastive learning with augmentations [C]// 34th International Conference on Neural Information Processing Systems. Vancouver: NeurIPS, 2020: 5812−5823.

[本文引用: 3]

SHIRIAN A, SOMANDEPALLI K, GUHA T

Self-supervised graphs for audio representation learning with limited labeled data

[J]. IEEE Journal of Selected Topics in Signal Processing, 2022, 16 (6): 1391- 1401

DOI:10.1109/JSTSP.2022.3190083      [本文引用: 1]

ESKIMEZ S E, DUAN Z, HEINZELMAN W. Unsupervised learning approach to feature analysis for automatic speech emotion recognition [C]// IEEE International Conference on Acoustics, Speech and Signal Processing. Calgary: IEEE, 2018: 5099–5103.

[本文引用: 1]

KANG H, XU Y, JIN G, et al

FCAN: speech emotion recognition network based on focused contrastive learning

[J]. Biomedical Signal Processing and Control, 2024, 96: 106545

DOI:10.1016/j.bspc.2024.106545      [本文引用: 1]

SONG X, HUANG L, XUE H, et al. Supervised prototypical contrastive learning for emotion recognition in conversation [C]// Proceedings of the 2022 Conference on Empirical Methods in Natural Language Processing. Abu Dhabi, Stroudsburg: ACL, 2022: 5197−5206.

[本文引用: 1]

LI Y, WANG Y, YANG X, et al

Speech emotion recognition based on Graph-LSTM neural network

[J]. EURASIP Journal on Audio, Speech, and Music Processing, 2023, (1): 40

DOI:10.1186/s13636-023-00303-9      [本文引用: 2]

XU Y, WANG J, GUANG M, et al

Graph contrastive learning with Min-max mutual information

[J]. Information Sciences, 2024, 665: 120378

DOI:10.1016/j.ins.2024.120378      [本文引用: 2]

WONG E, RICE L, KOLTER J. Fast is better than free: revisiting adversarial training [C]// 8th International Conference on Learning Representations. [S. l. ]: ICLR, 2020.

[本文引用: 1]

XU K, HU W H, LESKOVEC J, et al. How powerful are graph neural networks? [C]// 7th International Conference on Learning Representations. New Orleans: ICLR, 2019.

[本文引用: 1]

KIPF T N, WELLING M. Semi-supervised classification with graph convolutional networks [C]// 5th International Conference on Learning Representation. Toulon: ICLR, 2017.

[本文引用: 1]

BUSSO C, BULUT M, LEE C C, et al

IEMOCAP: interactive emotional dyadic motion capture database

[J]. Language Resources and Evaluation, 2008, 42 (4): 335- 359

DOI:10.1007/s10579-008-9076-6      [本文引用: 1]

BURKHARDT F, PAESCHKE A, ROLFES M, et al. A database of German emotional speech [C]// Interspeech 2005. Lisbon: ISCA, 2005: 1517−1520.

[本文引用: 1]

SCHULLER B, STEIDL S, BATLINER A, et al. The INTERSPEECH 2010 paralinguistic challenge [C]// Interspeech 2010. Chiba: ISCA, 2010: 2794−2797.

[本文引用: 1]

PANDEY S K, SHEKHAWAT H S, PRASANNA S R M

Attention gated tensor neural network architectures for speech emotion recognition

[J]. Biomedical Signal Processing and Control, 2022, 71: 103173

DOI:10.1016/j.bspc.2021.103173      [本文引用: 1]

LIU J, WANG H. Graph isomorphism network for speech emotion recognition [C]// Interspeech 2021. Brno: ISCA, 2021: 3405−3409.

[本文引用: 1]

ULGEN I R, DU Z, BUSSO C, et al. Revealing emotional clusters in speaker embeddings: a contrastive learning strategy for speech emotion recognition [C]// 2024 IEEE International Conference on Acoustics, Speech and Signal Processing. Seoul: IEEE, 2024: 12081–12085.

[本文引用: 1]

GUO L, DING S, WANG L, et al

DSTCNet: deep spectro-temporal-channel attention network for speech emotion recognition

[J]. IEEE Transactions on Neural Networks and Learning Systems, 2025, 36 (1): 188- 197

DOI:10.1109/TNNLS.2023.3304516      [本文引用: 3]

GUO L, LI J, DING S, et al

APIN: amplitude- and phase-aware interaction network for speech emotion recognition

[J]. Speech Communication, 2025, 169: 103201

DOI:10.1016/j.specom.2025.103201      [本文引用: 2]

CHEN Z, LI J, LIU H, et al

Learning multi-scale features for speech emotion recognition with connection attention mechanism

[J]. Expert Systems with Applications, 2023, 214: 118943

DOI:10.1016/j.eswa.2022.118943      [本文引用: 1]

GONG Z, SHI P, DONBEKCI K, et al. Learning more with less: self-supervised approaches for low-resource speech emotion recognition [EB/OL]. (2025−06−01) [2025−06−10]. https://arxiv. org/abs/2506.02059.

[本文引用: 1]

/