<img src="https://www.zjujournals.com/eng/images/1008-973X/images/logo.png" class="img-responsive">

图 1 SERUGCL框架

Fig.1 Framework of SERUGCL

2.2. 图构建

图数据集表示为$ G=(V,E) $，其中$ V $为节点集，$ E $为边集. 图的邻接矩阵表示为$ \boldsymbol{A } $，$ \boldsymbol{A}\in {{R}}^{n\times n} $. 图的节点特征矩阵表示为$ \boldsymbol{X} $，$ \boldsymbol{X}\in {{R}}^{n\times d} $，其中$ n $表示节点数量，$ d $表示特征维度.

本研究采用基于帧的图构建方法^[12-13]，其中每个语音帧形成图中的一个节点，帧级声学特征作为节点特征向量. 采用余弦相似度来衡量语音帧的特征相似性，将语音转换为图数据，具体过程如图2所示. 这种图构建方式可以捕获长期依赖性并防止来自不相关邻居的扰动.

图 2

图 2 基于特征相似性的语音图构建流程

Fig.2 Speech graph construction based on feature similarity

1）计算任意2个节点之间的余弦相似度. 对于图中任意2个节点$ i $和节点$ j $，其对应的特征向量分别为$ {\boldsymbol{x}}_{i} $和$ {\boldsymbol{x}}_{j} $，它们之间的余弦相似度如下：

(1)$ {s}_{ij}=\frac{\boldsymbol{x}_{i}^{\text{T}}{\boldsymbol{x}}_{j}}{\|{\boldsymbol{x}}_{i}\|\times \|{\boldsymbol{x}}_{j}\|}. $

式中：$ {\boldsymbol{x}}_{i}\in {{R}}^{d} $为特征矩阵$ \boldsymbol{X} $的第$ i $行，$ \boldsymbol{x}_{i}^{\text{T}} $为特征向量$ {{\boldsymbol{x}}}_{i} $的转置. $ \left|\left|\cdot \right|\right| $为L2范数，$ {s}_{ij}\in [0,1.0] $为节点$ i $和节点$ j $之间的余弦相似度.

2）根据相似度$ {s}_{ij} $构建图的邻接矩阵. 对于每个节点$ i $选择最相似的一个节点$ j $建立边连接：

(2)$ a_{i j}=\left\{\begin{array}{ll}1, & s_{i j} \geq \forall s_{i k}， k \neq j ；\\0, & 其他. \end{array} \right. $

式中：$ {a}_{ij} $表示邻接矩阵$ \boldsymbol{A} $中$ (i,j) $位置处的取值. 当节点$ i $与节点$ j $之间的余弦相似度最大时，节点之间建立边，即$ {a}_{ij}=1 $.

2.3. 图对比学习

2.3.1. 图数据增强

图数据增强是通过扰动图中的属性或拓扑信息来生成增强视图^[21]，本研究专注于节点级增强和图级增强. 已有研究证明FGSM具有高效、简单的优点，适合用于快速对抗训练^[22]. 相较于随机噪声扰动，FGSM直接基于损失梯度生成针对性扰动，能够更有效地暴露模型对于关键特征维度的敏感性，从而引导编码器学习更具判别力和鲁棒性的全局图嵌入. 因此，在本研究中，节点级增强是采用FGSM对图$ G $的节点特征进行扰动，且保持图的拓扑结构不变，进而生成增强视图$ {T}_{{\mathrm{t}}}(G) $. 节点级扰动大小设置为0.1，算法流程如下.

FGSM算法流程$ (G,\epsilon ) $
输入：图$ G=(V,E,\boldsymbol{X}) $，扰动强度$ \epsilon$
输出：增强图$ {T}_{{\mathrm{t}}}(G)=(V,E,{\boldsymbol{X}}^{\prime}) $
1：使用编码器$ f(\cdot ) $生成图嵌入$ {{{{\bf{g}}}}}{{{{\bf{x}}}}} $、$ {\bf{g}}{\bf{x}}_{1} $
2：计算$ \bf{g}\bf{x} $和$ {\bf{g}}{\bf{x}}_{1} $之间的损失$ {\mathcal{L}}({\bf{g}}{\bf{x}},{\bf{g}}{\bf{x}}_{1}) $
3：反向传播，计算损失函数关于$ \boldsymbol{X} $的梯度 $ {\nabla }_{{\boldsymbol{X}}}\mathcal{L} $(gx, gx₁)
4：生成对抗特征矩阵$ {{{{\boldsymbol{X}}}}^{\prime}}=\boldsymbol{X}+\epsilon \cdot \text{sign}\;({\nabla }_{{\boldsymbol{X}}}\mathcal{L}({\bf{g}}{\bf{x}},{\bf{g}}{\bf{x}}_{1})) $
5：构建增强图$ {T}_{{\mathrm{t}}}(G) $，保持拓扑结构不变

由于之前的研究已经证明组合不同的增强方式能更有效地提升模型性能^[15]. 因此，图级增强选择子图采样-边缘扰动组合的方式来改变图$ G $的拓扑结构，生成增强视图$ {T}_{{\mathrm{f}}}(G) $. 具体过程如图3所示. 对图$ G $采取随机选择增强策略来确定具体增强方式. 当随机数为0时，选择边缘扰动，它会随机添加或删除一定比例的边来扰乱图$ G $的连通性. 当随机数为1时，选择子图采样，它使用随机游走的方式对图$ G $进行采样. 图级增强比例设置为0.2.

图 3

图 3 子图采样-边缘扰动组合的增强方式

Fig.3 Enhancement method combining subgraph sampling and edge perturbation

2.3.2. 图编码器

根据不同视图的特性选择最佳的编码器，可以避免模型对单一结构或特征依赖过重的问题. 对于原始视图$ G $和增强视图$ {T}_{{{{\mathrm{t}}}}}(G) $，编码器$ {f}_{1}(\cdot ) $为图同构网络（graph isomorphism network，GIN），它可以捕捉图的节点特征细节. 本研究使用的GIN采用求和聚合策略聚合来自邻居节点的信息^[23]，表达式如下：

(3)$ \boldsymbol{h}_i^{(k)}=\operatorname{MLP}^{(k)}\left(\left(1+\varepsilon^{(k)}\right) \boldsymbol{h}_i^{(k-1)}+\sum_{j \in {N}(i)} \boldsymbol{h}_j^{(k-1)}\right) . $

式中：$ \boldsymbol{h}_{i}^{(k)} $为节点$ i $第$ k $层的输出；$ {N}(i) $为节点$ i $的邻域；$ {\text{MLP}}^{(k)} $为多层感知机；$ {\varepsilon }^{(k)} $为可学习的参数，用于调节当前节点特征与其邻居聚合特征之间的相对权重.

对于增强视图$ {T}_{{\mathrm{f}}}(G) $，编码器$ {f}_{2}(\cdot ) $为图卷积网络（graph convolutional network，GCN），它能够分析图的拓扑结构信息^[24]. 表达式如下：

(4)$ \boldsymbol{H}^{(l+1)}=\operatorname{RELU}\left({{\tilde{{\boldsymbol{D}}}}}^{-\tfrac{1}{2}} {{\tilde{{\boldsymbol{A}}}}} {{\tilde{{\boldsymbol{D}}}}}^{-\tfrac{1}{2}} \boldsymbol{H}^{(l)} \boldsymbol{W}^{(l)}\right) . $

式中：$ \tilde{\boldsymbol{A}}=\boldsymbol{A}+{\boldsymbol{I}}_{{\mathrm{N}}} $，为添加了自连接的邻接矩阵，$ {\boldsymbol{I}}_{{\mathrm{N}}} $为单位矩阵；$ {\tilde{{D}}}_{ii}={\sum}_{j}{\tilde{{A}}}_{ij} $；$ {\boldsymbol{W}}^{(l)} $为可训练权重矩阵；$ \text{RELU}(\cdot ) $为非线性激活函数；$ {\boldsymbol{H}}^{(l)}\in {{R}}^{N\times D} $，为第$ l $层的激活矩阵.

在图构建过程中，由于邻居节点之间存在大量冗余连接，许多边承载的信息贡献度较低，导致节点表示存在冗余和信息混淆. 在这种情况下，传统的池化操作很难从复杂且密集的连接中准确提取代表性特征. 因此本研究采用加权池化机制，该机制综合考虑多种全局统计特征，对节点表示进行多视角加权融合，从而获得更具判别力的图嵌入. 如图4所示为加权池化机制，它是基于全局最大池化、全局平均池化和全局软池化联合构建的. 将图$ G $输入编码器后，对每一层输出的特征矩阵分别采用3种池化操作，并对池化结果进行加权求和以获得该层的嵌入；随后，将各层嵌入进行拼接得到最终的图嵌入. 全局软池化通过学习的方式对所有节点赋予不同的权重，并以加权求和的方式聚合节点特征. 表达式如下：

图 4

图 4 加权池化机制

Fig.4 Weighted pooling mechanism

(5)$ {\boldsymbol{x}}_{{\mathrm{pool}}}=\alpha \cdot \text{max}_{i=1}^{n}\;{\boldsymbol{x}}_{i}+\beta \cdot \text{mean}_{i=1}^{n}\;{\boldsymbol{x}}_{i}+\gamma \cdot \text{soft}_{i=1}^{n}\;{\boldsymbol{x}}_{i}. $

式中：max、mean和soft表示全局池化的3种类型；$ {\boldsymbol{x}}_{i} $表示节点$ i $的特征向量；$ \alpha $、$ \beta $和$ \gamma $表示3种池化的权重，实验设置为{0.3，0.3，0.3}.

2.3.3. 投影头

投影头为两层感知机，用于将图嵌入$ \boldsymbol{h} $映射到另一个潜在空间，以便计算对比损失. 其结构如下:

(6)$ \boldsymbol{z}=\text{MLP}(\boldsymbol{h})=\mathrm{Re}\text{LU}({\boldsymbol{W}}_{2}\cdot (\mathrm{Re}\text{LU(}{\boldsymbol{W}}_{1}\cdot \boldsymbol{h}\text+{{\boldsymbol{b}}}_{1}\text{)})+{{\boldsymbol{b}}}_{2}). $

式中：$ {\boldsymbol{W}}_{1} $和$ {\boldsymbol{W}}_{\mathbf{2}} $为权重矩阵，$ {{\boldsymbol{b}}}_{1} $和$ {{\boldsymbol{b}}}_{2} $为偏置项，$ \mathrm{Re}\text{LU}(\cdot ) $为非线性激活函数.

2.3.4. 损失函数

损失函数是基于归一化温度尺度交叉熵损失（normalized temperature-scaled cross-entropy loss，NT-Xent）所设计的. 从原始视图和增强视图中学习的图级表示应该表现出高度一致性. 因此，损失函数应该最大化它们之间的互信息. 以小批量中的第$ i $个图$ {G}_{i} $以及增强视图$ {T}_{{{{\mathrm{t}}}}}({G}_{i}) $为例，计算公式如下：

(7)$ \mathcal{L}_{\mathrm{t}}=-\frac{1}{M} \sum_{i=1}^M \log \; \frac{\exp \; \left(\operatorname{sim}\left({\boldsymbol{z}}_i, {\boldsymbol{z}}_{{\mathrm{t}}, i}\right) / \tau\right)}{\sum_{j=1}^M \exp \; \left(\operatorname{sim}\left({\boldsymbol{z}}_i, {\boldsymbol{z}}_{{\mathrm{t}}, j}\right) / \tau\right)} . $

式中：$ M $为小批量中原始图的数量，$ \tau $为温度参数，$ \text{sim}\;({{{\boldsymbol{z}}}}_{i},{\boldsymbol{z}}_{{\mathrm{t}},i})=\boldsymbol{z}_{i}^{\text{T}}\boldsymbol{z}/(\|{\boldsymbol{z}}_{i}\|\;\|{\boldsymbol{z}}_{{\mathrm{t}},i}\|) $为余弦相似函数. 同理，对于原始图$ {G}_{i} $和增强视图$ {T}_{{\mathrm{f}}}({G}_{i}) $，表达式如下：

(8)$ {\mathcal{L}}_{{\mathrm{f}}}=-\frac{1}{M}\sum\limits_{i=1}^{M}\log \; \frac{\exp \;(\text{sim}\;({\boldsymbol{z}}_{i},{\boldsymbol{z}}_{{\mathrm{f}},i})/\tau )}{\sum\limits_{j=1}^{M}\exp \;(\text{sim\;(}{\boldsymbol{z}}_{i,}{\boldsymbol{z}}_{{\mathrm{f}},j}\text{)/}\tau )}. $

图的增强视图$ {T}_{{\mathrm{t}}}({G}_{i}) $和$ {T}_{{\mathrm{f}}}({G}_{i}) $是通过分离图$ {G}_{i} $的特征和拓扑信息生成的，因此它们从原图中可以获得不同的信息. 本研究还约束了2个增强视图之间的关系，以增强信息多样性. 表达式如下：

(9)$ {\mathcal{L}}_{{\mathrm{ft}}}=\frac{1}{M}\sum\limits_{i=1}^{M}\log \frac{\exp \;(\text{sim}\;({\boldsymbol{z}}_{{\mathrm{t}},i},{\boldsymbol{z}}_{{\mathrm{f}},i})/\tau )}{\sum\limits_{j=1,j\neq i}^{M}\exp \;(\text{sim\;(}{\boldsymbol{z}}_{{\mathrm{t}},i}\text{,}{\boldsymbol{z}}_{{\mathrm{f}},j}\text{)/}\tau )}. $

总的损失函数表达式如下：

(10)$ \mathcal{L}=\lambda {\mathcal{L}}_{{\mathrm{t}}}+(1-\lambda ){\mathcal{L}}_{{\mathrm{f}}}+\mu {\mathcal{L}}_{{\mathrm{ft}}}. $

式中：公式右侧的前2项，增强视图和原始视图呈正相关，用于约束增强视图与原始视图之间的一致性；第3项则是决定2个增强视图之间的关系，通过最小化第3项，增强视图可以保留来自原始视图的不同信息；$ \lambda $和$ \mu $为非负超参数.

2.4. 情感分类

将情感分类任务转换为图分类任务，将原始图数据通过训练好的编码器（GIN）获得图嵌入$ \boldsymbol{h} $，然后通过SVM分类器进行分类.

3. 实验设置

3.1. 数据集

使用IEMOCAP^[25]情感语音数据集和EMO-DB^[26]数据集来评估模型的有效性. IEMOCAP：包含12 h的视听数据，本研究中的情感识别任务仅使用语音数据. 为了和之前的研究保持一致，选择了4种情绪数据：中性、快乐（包含兴奋）、悲伤和愤怒，共5531个语音样本. EMO-DB：由10名专业演员录制的德语数据集，共包含535个语音样本. 数据集包含7种情绪：愤怒、无聊、厌恶、焦虑、快乐、悲伤和中性.

3.2. 节点特征

使用openSMILE工具包从INTERSPEECH 2010副语言挑战^[27]中提取一组低级描述符（low-level descriptors，LLD）. 特征集包括PCM响度、F0包络、LSP频率、梅尔频率倒谱系数、抖动等. 对于每个样本，研究使用长度为25 ms、步长为10 ms的滑动窗口来提取LLD. 并且，IEMOCAP数据集额外添加自发性的二进制特征. 因此每个语音样本会产生120个节点的图，IEMOCAP数据集的每个节点会产生78维特征向量，EMO-DB数据集的每个节点会产生76维特征向量.

3.3. 实验设置

实验使用Adam优化器进行训练，学习率设置为0.001，批量大小设置为128. 卷积层数量设置为2，隐藏层维度设置为128. $ \lambda $和$ \mu $分别设置为0.4和0.0001. 所有实验均在NVIDIA 4060 GPU上进行.

采用 10 折交叉验证对模型进行评估. 具体地，将整个数据集划分为10个子集，每次选取其中一个子集作为测试集，其余9个子集作为训练集. 使用加权准确率（weighted accuracy，WA）和未加权准确率（unweighted accuracy，UA）指标作为模型评价标准.

4. 实验结果及分析

4.1. 模型比较

将提出的方法分别与基线模型和先进的语音情感识别模型进行比较.

4.1.1. 基线模型

4种基线模型如下. 模型1：两视图对比，增强策略为FGSM和子图采样2种，池化方式为加权池化. 模型2：两视图对比，增强策略为FGSM和边缘扰动2种，池化方式为加权池化. 模型3：两视图对比，增强策略为FGSM和子图采样-边缘扰动组合2种，池化方式为加权池化. 模型4：三视图对比，增强策略为FGSM和子图采样-边缘扰动组合2种，池化方式为全局和池化.

如表1所示展示了在IEMOCAP和EMO-DB数据集上，SERUGCL模型与基线模型的比较结果. 从整体趋势来看，模型性能随着增强方式、对比视图的增加以及加权池化的选择而显著增强. 模型3将子图采样和边缘扰动2种增强方式组合，性能相较模型1、2得到提升. 子图采样提供全局结构变化，边缘扰动专注局部扰动信息，两者结合可以互补，提升增强视图的多样性和表达能力，从而增强对比学习的判别性. 模型4采用三视图，相较于两视图，其性能得到明显提升，说明多视图能有效缓解两视图信息不完整的问题，为模型提供更丰富的上下文信息. SERUGCL采用加权池化，相较于模型4，能够更有效地分配不同节点在图表示中的重要性.

表 1 不同增强策略与池化方式下的模型对比

Tab.1 Performance comparison of models under different augmentation strategies and pooling methods

模型	IEMOCAP		EMO-DB
模型	UA/%	WA/%	UA/%	WA/%
模型1	60.86	61.23	88.16	87.01
模型2	63.42	63.49	89.10	87.69
模型3	63.94	64.04	89.45	88.48
模型4	68.84	69.05	90.50	89.68
SERUGCL	69.96	70.24	91.04	90.29

4.1.2. 语音情感识别模型

如表2、3所示为SERUGCL模型与其他语音情感识别模型的比较结果. 从表2可以看出：SERUGCL模型在IEMOCAP数据集上取得了69.96%的UA和70.24%的WA，优于所有对比方法. 从模型结构角度分析，相较于表格中前4个模型，SERUGCL采用三视图对比学习框架，有效提升了模型对语音数据多样情感表达的建模与识别能力. 相较于同为无监督学习的MTL模型，SERUGCL的构图方式更贴近情绪建模目标，且采用差异化编码器提升了情感特征的判别能力. 此外，DSTCNet与APIN的识别性能显著低于其他方法的，可能与建模方式的局限性有关. DSTCNet采用时频卷积结构，虽然在频谱建模方面具有一定优势，但难以有效捕捉语音中情感的长时间依赖关系. APIN在复数域中联合幅度与相位信息建模，较多关注底层信号层面，缺乏对高层语义特征的有效建模. 相比之下，SERUGCL通过帧级特征构建图，结合多视图对比学习机制，能更细致地捕捉语音信号的关键信息，有效提升情绪建模的精度和鲁棒性. 从表3可以看出：在EMO-DB数据集上，SERUGCL模型达到了91.04%的UA和90.29%的WA，优于其他对比方法. EMO-DB数据集样本数量相对较小，但情感分布相对均衡，说明模型对小样本情感识别任务具有良好的泛化能力.

表 2 在IEMOCAP数据集上与其他语音情感识别模型的比较

Tab.2 Comparison with other speech emotion recognition models in IEMOCAP dataset

模型	年份	UA/%	WA/%
GA-GRU^[28]	2020	63.80	62.27
LSTM-GIN^[29]	2021	65.53	64.65
CoGCN^[13]	2022	63.67	62.64
GLNN^[20]	2023	68.65	68.11
MTL^[30]	2024	69.16	—
DSTCNet^[31]	2025	61.78	61.80
APIN^[32]	2025	60.35	60.80
SERUGCL	2025	69.96	70.24

表 3 在EMO-DB数据集上与其他语音情感识别模型的比较

Tab.3 Comparison with other speech emotion recognition models in EMO-DB dataset

模型	年份	UA/%	WA/%
AMSNet^[33]	2023	88.56	88.34
SER-Graph^[4]	2024	77.80	—
DSTCNet-BLSTM^[31]	2025	84.72	85.98
DSTCNet^[31]	2025	86.55	88.79
APIN^[32]	2025	86.00	87.85
CL^[34]	2025	89.60	—
SERUGCL	2025	91.04	90.29

SERUGCL模型在IEMOCAP和EMO-DB数据集上的情感分类混淆矩阵如图5所示，横轴表示模型的预测标签，纵轴表示真实标签. 在IEMOCAP数据集上，模型在识别愤怒、中性和悲伤情绪时表现良好，准确率较高，说明模型对这些情绪具有较强的区分能力. 对于快乐和兴奋情绪，准确率相对较低，且与愤怒和中性情绪存在混淆，表明这些情绪在语音特征上具有一定的相似性. 在EMO-DB数据集上，模型表现更加优异，识别准确率更高. 模型在识别愤怒、悲伤和厌恶情绪时性能最为突出. 但高兴易被误判成愤怒，无聊和中性情绪存在一定混淆，说明模型对边界不明显的情绪区别能力较弱. 总体而言，模型在大多数情绪上表现较稳定，但在部分情绪边界模糊的情况下仍有提升空间.

图 5

图 5 SERUGCL模型的混淆矩阵

A-愤怒，H+E-快乐和兴奋，N-中性，S-悲伤，H-快乐，F-恐惧，D-厌恶，B-无聊 Confusion matrix of SERUGCL model

4.2. 消融实验

4.2.1. 增强模块消融

在无监督学习环境下，采用消融实验来进一步分析SERUGCL增强模块的有效性. 具体设置有2种：1）S-F，不使用FGSM的增强策略；2）S-SE，不使用子图采样-边缘扰动组合的增强策略. 如表4所示显示了SERUGCL模型及其消融设置的结果. 可以看出，完整的SERUGCL模型在2个数据集上均获得最佳性能. 当移除FGSM时，模型在IEMOCAP和EMO-DB数据集上的UA分别下降0.77个百分点和0.51个百分点. 这表明，FGSM提供的对抗特征增强对模型性能提升具有一定的作用，主要体现在提高模型对节点特征扰动的鲁棒性. 当去除结构增强时，模型性能明显下降，这说明结构增强对建模语音图的上下文结构信息具有关键作用.

表 4 增强模块消融实验结果

Tab.4 Results of enhanced module ablation experiment

方法	IEMOCAP		EMO-DB
方法	UA/%	WA/%	UA/%	WA/%
S-F	69.19	69.42	90.53	89.48
S-SE	65.57	65.93	89.05	87.70
SERUGCL	69.96	70.24	91.04	90.29

尽管FGSM增强策略对模型性能的提升较为有限，但其与结构增强结合可以有效提高模型的表征能力与识别结果，验证了增强模块在模型中的有效性.

4.2.2. 池化模块消融

在无监督学习环境下，采用消融实验进一步分析SERUGCL池化机制的有效性. 具体设置有3种：1）mean，使用全局平均池化；2）max，使用全局最大池化；3）sum，使用全局和池化. 如表5所示显示了SERUGCL模型及其消融设置的结果. 可以看出，3种池化方式的识别性能均低于加权池化. mean池化是将图中所有节点特征简单平均，max池化仅关注图中特征最显著的节点，sum池化将所有节点特征进行聚合. 它们都侧重一方面，而加权池化对节点特征进行多尺度加权融合，缓解了冗余连接造成的干扰，提升了模型的整体性能.

表 5 池化模块消融实验结果

Tab.5 Results of pooling module ablation experiment

方法	IEMOCAP		EMO-DB
方法	UA/%	WA/%	UA/%	WA/%
mean	67.15	67.41	90.61	89.77
max	66.89	67.08	89.46	87.63
sum	68.84	69.05	90.50	89.68
SERUGCL	69.96	70.24	91.04	90.29

4.2.3. 编码器模块消融

在无监督学习环境下，采用消融实验进一步分析SERUGCL差异化编码器的有效性. 具体设置有3种：1）GIN，三视图使用图同构网络；2）GCN，三视图使用图卷积网络；3）GCN-GIN，原始视图和增强视图$ {T}_{{{{\mathrm{t}}}}}(G) $使用图卷积网络，增强视图$ {T}_{{{{{{\mathrm{f}}}}}}}(G) $使用图同构网络. 如表6所示显示了SERUGCL模型及其消融设置的结果. 结果表明，SERUGCL取得了最佳性能，验证了其差异化编码器结构的有效性. GIN具有较强的图判别能力，更适合捕捉节点特征和分类任务. GCN对图结构依赖较强，更适合分析图的拓扑变化. 原始视图和增强视图$ {T}_{{{{\mathrm{t}}}}}(G) $使用GIN，有利于保留原始语音的特征信息. 增强视图$ {T}_{{{{\mathrm{f}}}}}(G) $使用GCN，增强了模型对拓扑扰动的适应能力. 通过差异化编码器，SERUGCL能够多角度挖掘视图中的潜在情感表达，实现更高效的情感识别性能.

表 6 编码器模块消融实验结果

Tab.6 Results of encoder module ablation experiment

方法	IEMOCAP		EMO-DB
方法	UA/%	WA/%	UA/%	WA/%
GIN	68.11	68.24	89.45	88.43
GCN	68.95	69.12	90.23	89.33
GCN-GIN	68.54	68.81	89.90	89.02
SERUGCL	69.96	70.24	91.04	90.29

4.2.4. 超参数分析

探讨FGSM的扰动强度、图级增强比例和加权池化的权重这3个超参数对SERUGCL模型性能的敏感性和影响. 如表7所示为池化名称对应的各池化方式所占权重.

表 7 池化名称对应的各池化方式所占权重

Tab.7 Weights of each pooling method corresponding to pooling name

池化简称	max	mean	soft
A	0.50	0.25	0.25
B	0.25	0.50	0.25
C	0.25	0.25	0.50
D	0.60	0.20	0.20
E	0.20	0.60	0.20
F	0.20	0.20	0.60
G	0.30	0.30	0.30

如图6所示为FGSM的不同扰动强度和不同图级增强比例的实验结果. 可以看出，当FGSM扰动强度为0.10时，2个数据集上模型性能达到最优，说明适度扰动有助于增强特征判别性，过强则可能引入噪声从而影响识别性能. 当图级增强比例为0.2时，模型识别准确率最高，表明适当的增强比例有助于提升数据多样性，但比例过高则会导致结构冗余，影响识别效果.

图 6

图 6 FGSM的不同扰动强度和不同图级增强比例的实验结果

Fig.6 Results of FGSM with different perturbation intensities and different proportions of graph-level augmentations

如图7所示展示了不同池化权重组合对模型性能的影响. 实验结果表明，组合G在2个数据集上都获得了最好的结果，验证了加权策略设计的有效性. 同时，这也表明均衡融合3种池化方式有助于提取更丰富的特征.

图 7

图 7 不同加权池化权重的实验结果

Fig.7 Results of different weighted pooling weights

5. 结　语

本研究提出基于无监督图对比学习的语音情感识别网络（SERUGCL）. 该方法在训练时不依赖标签数据，全部采用无标签数据进行训练. 首先，将语音序列数据根据特征相似性建模为图，利用图结构建模语音帧之间的依赖关系，从而缓解高维特征直接建模带来的计算压力. 然后，采用FGSM和子图采样-边缘扰动组合增强方式生成2种增强视图. 这3种视图通过相应的差异化编码器和加权池化机制获得各自的全局嵌入. 损失函数使得原始视图嵌入朝着有利于情感分类的方向发展. 最后，采用SVM进行情感分类. 在IEMOCAP和EMO-DB数据集上的结果表明，本研究提出的SERUGCL相较于其他方法具有更好的性能.

尽管 SERUGCL 在无监督语音情感识别任务中展现出了良好的性能，但仍存在一定的局限性. 例如，当前图构建过程主要依赖帧级特征相似性，未充分考虑语音的长时语义信息；此外，本研究采用的增强策略在训练过程中保持固定，未能根据不同样本特性或训练阶段进行自适应调整，这在一定程度上可能限制模型的表达能力. 未来研究将探索引入更丰富的时序与语义建模机制，并设计自适应或动态的数据增强策略，以进一步提升模型的泛化能力和鲁棒性.

参考文献

原文顺序

文献年度倒序

文中引用次数倒序

被引期刊影响因子

[1]

HU Y, TANG Y, HUANG H, et al. A graph isomorphism network with weighted multiple aggregators for speech emotion recognition [C]// Interspeech 2022. Incheon: ISCA, 2022: 4705−4709.

[2]

孙颖, 胡艳香, 张雪英, 等

面向情感语音识别的情感维度PAD预测

[J]. 浙江大学学报: 工学版, 2019, 53 (10): 2041- 2048

SUN Ying, HU Yanxiang, ZHANG Xueying, et al

Prediction of emotional dimensions PAD for emotional speech recognition

[J]. Journal of Zhejiang University: Engineering Science, 2019, 53 (10): 2041- 2048

DOI:10.19665/j.issn1001-2400.20241109 [本文引用: 1]

[3]

孙志, 王冠

自监督对比学习的CNN-GRU语音情感识别算法

[J]. 西安电子科技大学学报, 2024, 51 (6): 182- 193

SUN Zhi, WANG Guan

CNN-GRU speech emotion recognition algorithm for self-supervised comparative learning

[J]. Journal of Xidian University, 2024, 51 (6): 182- 193

DOI:10.19665/j.issn1001-2400.20241109 [本文引用: 1]

[4]

PENTARI A, KAFENTZIS G, TSIKNAKIS M

Speech emotion recognition via graph-based representations

[J]. Scientific Reports, 2024, 14: 4484

DOI:10.1038/s41598-024-52989-2 [本文引用: 5]

[5]

ABDELHAMID A A, EL-KENAWY E M, ALOTAIBI B, et al

Robust speech emotion recognition using CNN+LSTM based on stochastic fractal search optimization algorithm

[J]. IEEE Access, 2022, 10: 49265- 49284

DOI:10.1109/ACCESS.2022.3172954 [本文引用: 1]

[6]

ZHU Z, DAI W, HU Y, et al

Speech emotion recognition model based on Bi-GRU and focal loss

[J]. Pattern Recognition Letters, 2020, 140: 358- 365

DOI:10.1016/j.patrec.2020.11.009 [本文引用: 1]

[7]

LI M, YANG B, LEVY J, et al. Contrastive unsupervised learning for speech emotion recognition [C]// 2021 IEEE International Conference on Acoustics, Speech and Signal Processing. Toronto: IEEE, 2021: 6329−6333.

[本文引用: 4]

[8]

GERCZUK M, AMIRIPARIAN S, OTTL S, et al

EmoNet: a transfer learning framework for multi-corpus speech emotion recognition

[J]. IEEE Transactions on Affective Computing, 2023, 14 (2): 1472- 1487

DOI:10.1109/TAFFC.2021.3135152 [本文引用: 2]

[9]

XU X, DENG J, COUTINHO E, et al

Connecting subspace learning and extreme learning machine in speech emotion recognition

[J]. IEEE Transactions on Multimedia, 2019, 21 (3): 795- 808

DOI:10.1109/TMM.2018.2865834 [本文引用: 2]

[10]

PENTARI A, KAFENTZIS G, TSIKNAKIS M. Investigating graph-based features for speech emotion recognition [C]// IEEE-EMBS International Conference on Biomedical and Health Informatics. Ioannina: IEEE, 2022: 1–5.

[11]

MELO D F P, FADIGAS I S, PEREIRA H B B

Graph-based feature extraction: a new proposal to study the classification of music signals outside the time-frequency domain

[J]. PLoS One, 2020, 15 (11): e0240915

DOI:10.1371/journal.pone.0240915

[12]

SHIRIAN A, GUHA T. Compact graph architecture for speech emotion recognition [C]// 2021 IEEE International Conference on Acoustics, Speech and Signal Processing. Toronto: IEEE, 2021: 6284–6288.

[本文引用: 3]

[13]

KIM J, KIM J. Representation learning with graph neural networks for speech emotion recognition [EB/OL]. (2022–01–26) [2025–06–10]. https://arxiv.org/abs/2208.09830.

[本文引用: 3]

[14]

GHAYEKHLOO M, NICKABADI A

Supervised contrastive learning for graph representation enhancement

[J]. Neurocomputing, 2024, 588: 127710

DOI:10.1016/j.neucom.2024.127710

[15]

YOU Y N, CHEN T L, SUI Y D, et al. Graph contrastive learning with augmentations [C]// 34th International Conference on Neural Information Processing Systems. Vancouver: NeurIPS, 2020: 5812−5823.

[本文引用: 3]

[16]

SHIRIAN A, SOMANDEPALLI K, GUHA T

Self-supervised graphs for audio representation learning with limited labeled data

[J]. IEEE Journal of Selected Topics in Signal Processing, 2022, 16 (6): 1391- 1401

DOI:10.1109/JSTSP.2022.3190083 [本文引用: 1]

[17]

ESKIMEZ S E, DUAN Z, HEINZELMAN W. Unsupervised learning approach to feature analysis for automatic speech emotion recognition [C]// IEEE International Conference on Acoustics, Speech and Signal Processing. Calgary: IEEE, 2018: 5099–5103.

[18]

KANG H, XU Y, JIN G, et al

FCAN: speech emotion recognition network based on focused contrastive learning

[J]. Biomedical Signal Processing and Control, 2024, 96: 106545

DOI:10.1016/j.bspc.2024.106545 [本文引用: 1]

[19]

SONG X, HUANG L, XUE H, et al. Supervised prototypical contrastive learning for emotion recognition in conversation [C]// Proceedings of the 2022 Conference on Empirical Methods in Natural Language Processing. Abu Dhabi, Stroudsburg: ACL, 2022: 5197−5206.

[20]

LI Y, WANG Y, YANG X, et al

Speech emotion recognition based on Graph-LSTM neural network

[J]. EURASIP Journal on Audio, Speech, and Music Processing, 2023, (1): 40

DOI:10.1186/s13636-023-00303-9 [本文引用: 2]

[21]

XU Y, WANG J, GUANG M, et al

Graph contrastive learning with Min-max mutual information

[J]. Information Sciences, 2024, 665: 120378

DOI:10.1016/j.ins.2024.120378 [本文引用: 2]

[22]

WONG E, RICE L, KOLTER J. Fast is better than free: revisiting adversarial training [C]// 8th International Conference on Learning Representations. [S. l. ]: ICLR, 2020.

[23]

XU K, HU W H, LESKOVEC J, et al. How powerful are graph neural networks? [C]// 7th International Conference on Learning Representations. New Orleans: ICLR, 2019.

[24]

KIPF T N, WELLING M. Semi-supervised classification with graph convolutional networks [C]// 5th International Conference on Learning Representation. Toulon: ICLR, 2017.

[25]

BUSSO C, BULUT M, LEE C C, et al

IEMOCAP: interactive emotional dyadic motion capture database

[J]. Language Resources and Evaluation, 2008, 42 (4): 335- 359

DOI:10.1007/s10579-008-9076-6 [本文引用: 1]

[26]

BURKHARDT F, PAESCHKE A, ROLFES M, et al. A database of German emotional speech [C]// Interspeech 2005. Lisbon: ISCA, 2005: 1517−1520.

[27]

SCHULLER B, STEIDL S, BATLINER A, et al. The INTERSPEECH 2010 paralinguistic challenge [C]// Interspeech 2010. Chiba: ISCA, 2010: 2794−2797.

[28]

PANDEY S K, SHEKHAWAT H S, PRASANNA S R M

Attention gated tensor neural network architectures for speech emotion recognition

[J]. Biomedical Signal Processing and Control, 2022, 71: 103173

DOI:10.1016/j.bspc.2021.103173 [本文引用: 1]

[29]

LIU J, WANG H. Graph isomorphism network for speech emotion recognition [C]// Interspeech 2021. Brno: ISCA, 2021: 3405−3409.

[30]

ULGEN I R, DU Z, BUSSO C, et al. Revealing emotional clusters in speaker embeddings: a contrastive learning strategy for speech emotion recognition [C]// 2024 IEEE International Conference on Acoustics, Speech and Signal Processing. Seoul: IEEE, 2024: 12081–12085.

DOI:10.1016/j.specom.2025.103201 [本文引用: 2]

[31]

GUO L, DING S, WANG L, et al

DSTCNet: deep spectro-temporal-channel attention network for speech emotion recognition

[J]. IEEE Transactions on Neural Networks and Learning Systems, 2025, 36 (1): 188- 197

DOI:10.1109/TNNLS.2023.3304516 [本文引用: 3]

[32]

GUO L, LI J, DING S, et al

APIN: amplitude- and phase-aware interaction network for speech emotion recognition

[J]. Speech Communication, 2025, 169: 103201

[33]

CHEN Z, LI J, LIU H, et al

Learning multi-scale features for speech emotion recognition with connection attention mechanism

[J]. Expert Systems with Applications, 2023, 214: 118943

DOI:10.1016/j.eswa.2022.118943 [本文引用: 1]

[34]

GONG Z, SHI P, DONBEKCI K, et al. Learning more with less: self-supervised approaches for low-resource speech emotion recognition [EB/OL]. (2025−06−01) [2025−06−10]. https://arxiv. org/abs/2506.02059.