浙江大学学报(工学版), 2026, 60(5): 1092-1099 doi: 10.3785/j.issn.1008-973X.2026.05.018

计算机技术、控制工程

基于特征映射模型的情感语音合成方法

罗杰,, 杨鉴,

云南大学 信息学院,云南 昆明 650504

Emotional speech synthesis approach via feature mapping model

LUO Jie,, YANG Jian,

School of Information Science and Engineering, Yunnan University, Kunming 650504, China

通讯作者: 杨鉴,男,教授. orcid.org/0009-0006-3138-2779. E-mail:jianyang@ynu.edu.cn

收稿日期: 2025-06-9  

基金资助: 国家重点研发计划资助项目(2020AAA0107901);国家自然科学基金资助项目(61961043).

Received: 2025-06-9  

Fund supported: 国家重点研发计划资助项目(2020AAA0107901);国家自然科学基金资助项目(61961043).

作者简介 About authors

罗杰(2002—),男,硕士生,从事语音合成、识别与理解研究.orcid.org/0009-0005-2689-7877.E-mail:luojie_lc5f@stu.ynu.edu.cn , E-mail:luojie_lc5f@stu.ynu.edu.cn

摘要

现有情感语音合成方法存在文本变化导致语音情感表达粗糙、合成语音质量下降的问题,为此提出新的情感语音合成方法. 应用主成分分析与线性判别分析,对音频特征进行特征过滤与分类,降低冗余信息对语音质量的负面影响. 引入交叉注意力机制与MoE结构,学习文本、情感特征与综合特征之间的映射关系,依据学习得到的映射范式自适应生成情感特征,提高对文本变化的适应能力. 应用U-Net结构并改进残差连接方式,实现具体特征到抽象特征的转换,降低处理过程中产生的信息损失. 以VITS为基线模型,应用所提方法构建情感语音合成系统,通过实验测评验证方法的有效性. 结果表明,改进后模型的情感语音合成质量与文本适应能力均优于其他对比模型,所提方法能够有效提高模型的情感语音合成能力与文本泛化能力.

关键词: 情感语音合成 ; VITS ; 自适应特征生成 ; 特征转换 ; 特征预提取

Abstract

A new method for emotional speech synthesis was proposed to address coarse emotional expression and reduced speech quality caused by text variations in existing methods. Principal component analysis and linear discriminant analysis were used to filter and classify audio features, reducing the negative impact of redundant information on speech quality. Meanwhile, a cross-attention mechanism and MoE structure were introduced to map text, emotion, and integrated features. Emotional features were generated adaptively using the learned mapping patterns, improving adaptability to text variations. In addition, a U-Net structure was applied, with optimized residual connections, to convert specific features into abstract ones and reduce information loss during processing. Based on the VITS model, the proposed method was used to build an emotional speech synthesis system, and the effectiveness of the method was validated through evaluation experiments. Results showed that the emotional speech synthesis quality and text adaptability of the improved model were superior to those of other comparison models. The proposed method could effectively enhance the emotional speech synthesis ability and text generalization ability of the model.

Keywords: emotional speech synthesis ; VITS ; adaptive feature generation ; feature transformation ; feature pre-extraction

PDF (912KB) 元数据 多维度评价 相关文章 导出 EndNote| Ris| Bibtex  收藏本文

本文引用格式

罗杰, 杨鉴. 基于特征映射模型的情感语音合成方法. 浙江大学学报(工学版)[J], 2026, 60(5): 1092-1099 doi:10.3785/j.issn.1008-973X.2026.05.018

LUO Jie, YANG Jian. Emotional speech synthesis approach via feature mapping model. Journal of Zhejiang University(Engineering Science)[J], 2026, 60(5): 1092-1099 doi:10.3785/j.issn.1008-973X.2026.05.018

情感语音合成须实现相同文本下的不同语音变体,即对同一文本生成不同情感特征,以合成表达不同情感的语音[1]. 这要求情感语音合成依据情感实现文本到语音的一对多映射,稀缺的情感语音样本使得这种映射关系难以通过广泛的样本学习实现. 使用深度神经网络对文本到语音的映射关系进行有效建模是情感语音合成的挑战,亦是研究热点.

在情感语音合成研究早期,研究者从已有的情感音频中获取情感特征[2]来规避对于广泛样本的需求,该类方法被称为基于参考的方法[3]. 例如,Park 等[4]提出的DEX-TTS将语音转换为梅尔谱作为参考,并从中提取情感特征来控制语音合成. Tang等[5]提出的EmoMix使用语音情感识别模型的识别特征指导情感音频的生成. 该类方法从音频中获取情感信息,可以详细描述情感在语音中的细致表达. 音频中除了情感信息,还包含其他相互耦合的信息,这使得合成语音易受参考语音的影响. 为此,基于参考的方法要对音频进行信息解耦[6-7]. 针对该问题,Li等[8]提出的StyleTTS直接从参考音频中获取更为丰富的说话人信息,以此来避免解耦处理. Xu等[9]提出的SECap使用HuBERT[10]对参考音频进行情感信息提取,以此实现对语音情感的细致描述. 随着情感语音合成的不断发展,基于标签的方法[3]也得到广泛应用. 与基于参考的方法不同,该方法依据标签或文本提示生成情感特征[11-13]. 如Gao等[14]提出的Emo-DPO根据给定的标签生成包含情感信息的文本编码,并进一步地合成情感语音. 这类方法的情感特征依据文本内容生成,不受参考音频的限制,但生成的情感特征较为粗糙,导致合成的情感语音质量降低. 基于码本的方法在情感语音合成方向上取得了新的成果. 基于码本的方法将音频处理为特征向量并存储为码本,依据标签或参考音频从码本中选择合适的向量作为情感特征. 该方法既保证了情感特征包含充分的细节信息,又避免了由于信息混杂带来的特征解耦问题. 如Shi等[15]提出的RSET对情感音频进行特征提取并排序以获得码本,之后依据参考音频选择合适的码本作为情感特征. 该方法提取的码本均基于已有的情感音频,存在明显的局限性.

本研究针对文本变化导致情感表达粗糙、语音质量下降的问题,提出基于特征映射模型的情感语音合成方法. 一方面,从情感音频中提取合适的综合特征;另一方面,学习不同特征之间的映射关系并应用于情感语音合成. 本研究1)应用机器学习中的主成分分析(principal component analysis, PCA)与线性判别分析(linear discriminant analysis, LDA),从情感音频中提取包含情感与说话人音色信息的综合特征. 2)构建特征映射模块,学习文本、情感、说话人特征到综合特征的映射关系,形成通用映射范式. 3)构建基于U-Net结构的特征转换模块,将具体特征进一步转换为抽象特征以适应具有时序性的文本特征. 4)采用经过改进的VITS[16]实现情感语音合成,在保证合成语音质量的同时充分表达情感.

1. 基线系统

采用VITS作为情感语音合成的基线系统. VITS使用基于归一化流[17]的合成方法,该方法期望通过获得数据的最大似然估计来近似实际后验概率分布. 如图1所示,在VITS的训练过程中,模型将真实音频的梅尔谱通过后验编码器转换为遵循简单正态概率分布的后验特征$ {\boldsymbol{z}} $,通过归一化流将后验特征转换为遵循复杂概率分布的先验特征,这种转换是可逆的. 转换后的概率分布使用文本特征$ {\boldsymbol{c}}_{\text{text}} $以及对齐矩阵$ \boldsymbol{A} $参数化,由此建立文本到语音之间的直接联系. 转换后的概率分布式为

图 1

图 1   VITS训练流程

Fig.1   VITS training flow


$ {p}_{\text{θ}}({\boldsymbol{z}}|c)={N}({f}_{\text{θ}}({\boldsymbol{z}});\;{\mu }_{\text{θ}}(c),\;{\sigma }_{\text{θ}}(c))\left| \det \frac{\partial {f}_{\text{θ}}({\boldsymbol{z}})}{\partial {\boldsymbol{z}}}\right|, $

$ c=\left\{{{\boldsymbol{c}}}_{\text{text}},\boldsymbol{A}\right\}. $

在训练过程中,$ \boldsymbol{A} $由转换后的先验特征$ {f}_{\text{θ}}({\boldsymbol{z}}) $$ {\mu }_{\text{θ}} $$ {\sigma }_{\text{θ}} $使用基于最大似然估计的单调搜索对齐[18](monotonic alignment search, MAS)逐步得到,并由此训练持续时间预测器. 在如图2所示的推理过程中,A依据持续时间预测器给出的时间向量与$ {\mu }_{\text{θ}} $$ {\sigma }_{\text{θ}} $得到

图 2

图 2   VITS推理流程

Fig.2   VITS inference flow


$ \boldsymbol{A}=\underset{\hat{{\boldsymbol{A}}}}{\arg \max }\log {N(}{f}_{\text{θ}}\text{(}{\boldsymbol{z}}\text{);}\;{\mu }_{\text{θ}}\text{(}{{\boldsymbol{c}}}_{\text{text}}\text{,}{\hat{\boldsymbol{A}}}\text{),}\;{\sigma }_{\text{θ}}\text{(}{{\boldsymbol{c}}}_{\text{text}}\text{,}{\hat{\boldsymbol{A}}}\text{)).} $

依据$ \boldsymbol{A} $,VITS将$ {\mu }_{\text{θ}} $$ {\sigma }_{\text{θ}} $转换为$ {f}_{\text{θ}}({\boldsymbol{z}}) $,并根据归一化流的可逆性还原为概率分布$ {\boldsymbol{z}} $. 作为完全端到端模型,VITS不需要额外单独训练声码器,而是直接通过解码器由$ {\boldsymbol{z}} $合成语音波形,这样可以减少数据在传递和处理过程中带来的累积误差. VITS使用不同概率分布之间的转换实现文本特征到语音特征的映射,不仅关注特征本身所具有的信息,还从中进一步学习不同信息的概率分布. 相较于其他现有语音合成模型,VITS对丰富多样的情感语音具有更好的适应性,能够从少量的情感文本语音对中学习不同情感特征的概率分布变化,合成高质量语音.

2. 模型结构与改进方法

2.1. 音频特征预提取

在现有情感语音合成方法中,基于码本的方法预先从音频或相关特征中获取情感特征并存储为固定的码本;基于参考的方法直接从包含相关信息的音频中提取情感特征;基于标签的方法依据标签信息生成情感特征. 尽管不同的情感语音合成方法获得情感特征的方式不同,但获得包含充分信息的情感特征是现有情感语音合成方法不可缺少的处理流程. 基于特征映射模型的方法同样需要获得合适的特征作为映射关系学习的样本,故该方法实现的第一步是从音频中提取包含丰富信息的综合特征.

使用开源的OpenSmile工具包提取音频特征,获得包括基频、音高、音强、响度、梅尔倒谱系数等多个基本特征,对各项基本特征应用诸如微分、最大值、最小值等函数得到1 750维的附加特征. 由于音频中多种信息相互耦合,经过OpenSmile处理得到的附加特征只描述音频相关属性,包含情感、说话人音色、发音习惯等信息,须进行特征过滤处理. 过大的特征维度会大幅度增加模型参数量,也容易导致在学习不同特征之间的映射关系时损失难以收敛;特征维度过小又使得特征中的信息丢失而失去作用. 为了平衡模型参数量与特征信息量,选择将综合特征维度设定为1 024维. 使用PCA对附加特征进行过滤降维处理,使处理后的细节特征各维分量相互独立以保留最多的信息量. 由于PCA无法彻底过滤冗余信息,参考StyleTTS的处理方法,从音频特征中直接获取情感与说话人音色信息以有效利用其中的冗余信息. 经过PCA处理的细节特征包含情感信息与说话人信息,但PCA不具有分类能力,这使得处理后的特征在特征空间中混杂分布,不利于模型训练. 使用LDA为细节特征补充分类信息以加强不同情感特征的区分度. 为了降低冗余信息的干扰,强化LDA的分类效果,使用经过PCA处理后的1 024维特征作为基础进行LDA分类处理. 仅以情感为类别进行分类时,同一说话人的情感聚类区域相互重叠,分类效果较差. 故在分类时将数据集按照说话人分类为多个子集,之后将每个子集按照情感类别进行LDA分类,以此分离不同情感的聚类区域. ESD数据集[19]中10个英语子集的分类处理可视化结果如图3所示. 可以看出,经过说话人分类后的LDA特征具有更好的分类能力. LDA从原始特征中抽取具有分类能力的分类特征,但不保留包含信息的细节特征. 使用PCA处理得到包含具体信息的细节特征,使用LDA处理得到具有显著分类能力的分类特征,再将二者组合得到作为学习样本的综合特征. 基于LDA的分类特性,最大分类维度为4维,故PCA的细节特征维度选择为1 020维. 从参考音频中提取综合特征的处理流程如图4所示.

图 3

图 3   说话人分类前后的线性判别分析结果对比

Fig.3   Comparison of linear discriminant analysis results before and after speaker classification


图 4

图 4   改进后模型综合特征处理流程

Fig.4   Comprehensive feature processing flow of improved model


2.2. 特征映射模块

在获得合适的综合特征之后,须完成文本、情感以及说话人音色到综合特征的映射关系的学习拟合. 本研究构建如图5所示的特征映射模块. 在语音当中,文本、情感、说话人音色等特征之间相互关联、相互影响,单一特征的变化会影响其他特征在语音中的表达,故在学习映射关系之前须重构输入特征之间的相互联系. 文本特征具有时序性,情感与说话人音色特征不具有时序性,三者处于不同特征空间. 参考多模态语音识别领域的融合方法[20],通过交叉注意力机制将3项特征转换到同一特征空间并使其相互关联. 在注意力计算过程中,文本特征$ {{\boldsymbol{h}}}_{\text{text}} $作为键向量K与值向量V,情感编码$ {{\boldsymbol{E}}}_{\text{emb}} $作为查询向量Q. 情感特征将被标注于保留了位置关系的文本特征上,从而将情感与文本相互联系起来. 说话人编码$ {{\boldsymbol{S}}}_{\text{emb}} $以同样的方式处理并标注说话人音色特征,得到包含多项信息的融合特征. 经过交叉注意力层处理的融合特征是抽象的、不可理解的;由线性矩阵变换得到的综合特征是具体的、可理解的,二者之间在信息表达方式上存在较大差异. 这种特征之间的差异使得融合特征到综合特征的映射关系学习拟合较为困难,要求模块具有强大的学习拟合能力. 参考FastSpeech2[21]的方差适应器结构及大语言模型常用的MoE结构[22],在保证模块具备足够的学习拟合能力的同时避免模型过于复杂. 在特征映射模块中,方差适应器作为共享模块加入与说话人数量相当的映射层作为专用模块,每个映射层均由4个全连接层组成. 由共享模块对融合特征中与说话人音色无关的共性特征进行初步处理,得到预处理特征. 预处理特征依据说话人标签送入对应的专用模块,并根据与说话人音色相关的差异特征进行映射转换,最终获得预测特征$ {{\boldsymbol{F}}}_{1} $. 通过这种方式,原本由单一模块对包含多个说话人的映射关系的学习拟合任务被分解为多个子任务,不同的映射层学习拟合单一说话人的映射关系,提高了模块对复杂映射关系的学习拟合能力. 为了尽可能降低$ {{\boldsymbol{F}}}_{1} $与综合特征的差异,在训练过程中将$ {{\boldsymbol{F}}}_{1} $与综合特征进行比较并计算L1损失,以此指导模块学习到正确的映射关系.

图 5

图 5   特征映射模块

Fig.5   Feature mapping module


$ {{\boldsymbol{F}}}_{\text{1}}={f}_{\text{c}}({{\boldsymbol{h}}}_{\text{text}},{{\boldsymbol{E}}}_{\text{emb}},{{\boldsymbol{S}}}_{\text{emb}},i). $

式中:$ {f}_{\text{c}} $为模块从样本中学习到的映射关系式,$ i $为不同说话人类别. 相似的网络结构应用于$ \boldsymbol{A} $的调整. 此时模块的输入仅有$ {{\boldsymbol{h}}}_{\text{text}} $$ {{\boldsymbol{E}}}_{\text{emb}} $,因此仅保留1个映射层与交叉注意力层. 此时,由$ {{\boldsymbol{h}}}_{\text{text}} $以及$ {{\boldsymbol{E}}}_{\text{emb}} $生成的特征$ {{\boldsymbol{F}}}_{\text{t}} $作为$ \boldsymbol{A} $的最大似然估计的参数输入,则$ \boldsymbol{A} $的计算式改为

$ {{\boldsymbol{F}}}_{\text{t}}={f}_{\text{t}}({{\boldsymbol{h}}}_{\text{text}},{{\boldsymbol{E}}}_{\text{emb}}), $

$ \boldsymbol{A}=\underset{\hat{{\boldsymbol{A}}}}{\arg \max }\log {N(}{f}_{\text{θ}}\text{(}{\boldsymbol{z}}\text{);}\;{\mu }_{\text{θ}}\text{(}{{\boldsymbol{c}}}_{\text{text}}\text{,}\;{\hat{\boldsymbol{A}}}\text{),}\;{\sigma }_{\text{θ}}\text{(}{{\boldsymbol{c}}}_{\text{text}}\text{,}{\hat{\boldsymbol{A}}}\text{),}{{\boldsymbol{F}}}_{\text{t}}). $

2.3. 特征转换模块

特征映射模块依据学习到的映射关系将各项抽象特征转换为具体的、可理解的综合特征,但基线模型本身的文本特征属于具有时序性的抽象特征,与不具有时序性的综合特征不适配. 如果将综合特征直接加入基线模型,抽象特征与具体特征之间会产生冲突并损失信息,导致合成语音质量下降. 参考改进U-Net结构的方法[23],构建基于U-Net网络结构的特征转换模块作为过渡模块. 通过该模块,具体的综合特征将被转换为适应于基线模型的抽象特征,以此避免特征之间产生冲突.

图6所示,特征转换模块依据功能分为1)完成具体特征到抽象特征转换的特征转换部分,2)补充说话人分类信息的特征再融合部分. 在特征处理过程中,特征信息会不可避免地产生损失,这会降低合成语音的情感表达能力以及细腻程度. 本研究采用U-Net网络并对网络结构进行改进,减少特征转换过程中的信息损失. U-Net结构的中间卷积层被替换为3个全连接层,通过多次特征投影强化不同情感、不同说话人音色的特征差异性来增强转换后特征的分类能力,提高合成语音的情感辨识度. 在U-Net结构中,未经处理的原始特征与处理后的重点特征直接相加,使得重点特征中的信息容易被原始特征的丰富信息覆盖,导致信息损失. 本研究将重点特征与原始特征看作不同性质的特征进行处理,使用交叉注意力机制将其融合,以此避免不同特征之间的信息覆盖问题. 尽管在特征转换部分强化了说话人音色的特征差异性,但综合特征中的分类特征主要对情感进行分类,对说话人的分类能力较弱,须通过特征再融合部分补充说话人分类信息. 该部分将说话人编码$ {{\boldsymbol{S}}}_{\text{emb}} $与转换后的抽象特征拼接,通过3个通道数逐个递减的卷积层实现特征的再次融合,得到输出特征$ {{\boldsymbol{F}}}_{2} $.$ {{\boldsymbol{F}}}_{2} $作为参数,输入归一化流和解码器中来控制合成语音的情感以及说话人音色表达. 此时,基线模型的先后验概率分布的转换式变为

图 6

图 6   特征转换模块

Fig.6   Feature transformation module


$ {p}_{\text{θ}}({\boldsymbol{z}}|c)={N}({f}_{\text{θ}}({\boldsymbol{z}});\;{\mu }_{\text{θ}}(c),\;{\sigma }_{\text{θ}}(c),\;{{\boldsymbol{F}}}_{\text{2}})\left| \det \frac{\partial {f}_{\text{θ}}({\boldsymbol{z}})}{\partial {\boldsymbol{z}}}\right| . $

改进后的模型经由式(7)将情感属性和说话人音色属性加入后验与先验概率分布的建模中,使得模型通过训练得到对情感语音特征的复杂概率分布及其转换. 在合成推理时,可根据概率分布以及输入参数自适应合成包含不同情感、表现不同音色的情感语音,大大增强模型在多变文本条件下的情感表达能力以及情感细腻程度.

2.4. 改进后的模型结构

改进VITS,将基于特征映射模型的方法应用于情感特征生成流程,改进后的模型结构如图7所示. 特征映射模块负责对不同特征进行映射转换,实现文本内容与情感特征相匹配;特征预提取流程负责为情感特征的学习提供正确参考;特征转换模块负责将显式的情感特征转换为潜在高级特征以适应具有时序性的文本特征.

图 7

图 7   改进后VITS

Fig.7   Improved VITS


3. 模型测评实验

3.1. 实验设计

为了验证基于特征映射模型的情感语音合成方法的有效性以及该方法与其他情感语音合成方法[24-25]的性能差异,将改进后的模型FM_VITS同基线模型VITS、VITS2[26]以及基于参考语音方法的VITS情感语音合成模型AR_VITS,在语音合成质量、情感表达以及文本泛化能力方面进行比较. VITS与VITS2仅使用情感标签控制合成语音情感;AR_VITS使用预训练的wave2vec2[27]从参考音频中提取情感特征并指导VITS合成情感语音. 开展消融实验,验证不同模块对FM_VITS模型性能的影响. 使用ESD情感语音数据集作为实验数据集以训练和测试各模型. 该数据集分为中文和英文数据子集,每个子集包含10位说话人,每位说话人录制1 750条包括开心、愤怒、惊讶、伤心以及中性情感在内的情感语音. 受限于情感表达需要,ESD数据集的情感语音时长较短,平均每条语音的文本约为6个单词长度. 为了验证模型在多说话人条件下的情感语音合成能力,同时控制模型参数量以及数据集的建模复杂度,使用编号为0012、0013的男性说话人数据子集以及编号为0017、0018、0019的女性说话人数据子集作为训练集与验证集. 单说话人条件下的实验使用0019数据子集. 各模型的训练均使用具有24 GB显存的NVIDIA显卡,进行批大小为52、共计1200轮次的训练.

3.2. 评价指标

3.2.1. 主观指标

使用平均意见得分MOS作为对语音合成质量的主观评价指标. MOS将依据听众对语音质量的主观感受对合成语音进行0到5分的语音质量评价. 针对合成语音情感相似度以及说话人音色相似度,使用与MOS类似的相似度平均意见得分SMOS来评价合成语音与真实语音之间的相似度. 对于合成语音的情感表达能力,使用情感平均意见得分EMOS对合成语音的情感表达进行主观评价. 加入偏好性测试以直观体现不同模型情感语音合成质量的差别. 主观指标将邀请相关领域的专业人员进行评分,计算平均分作为最终结果.

3.2.2. 客观指标

使用的客观指标包括实时因子RTF、词错误率WER、情感分类准确率ECA以及情感嵌入余弦相似度EECS. RTF用于评价模型的语音合成速度,WER用于评价语音合成质量,ECA和EECS用于评价合成语音的情感表达能力与情感细节还原程度. WER使用预训练的Whisper模型[28]进行语音识别,并计算识别结果中出现单词错误的概率. EECS和ECA以预训练的emotion2vec[29]为基础,加入基于全连接层的特征分类器,构建如图8所示的情感识别分类器. 使用ESD数据集训练情感识别分类器,识别准确率为92%. 使用该分类器获得合成语音的ECA以及合成语音与真实语音的情感嵌入,计算二者的余弦相似度得到EECS.

图 8

图 8   情感识别分类器

Fig.8   Emotion recognition classifier


3.3. 实验结果
3.3.1. 对比实验

表1所示,分别测评VITS、VITS2、AR_VITS和FM_VITS在单说话人和多说话人条件下合成语音的质量和情感,并将结果与真实音频进行对比. 在语音质量方面,FM_VITS相较对比模型有明显提升,在MOS与WER的语音质量评价指标中均为最优. 这证明基于特征映射模型的方法有效提高了模型的情感语音合成质量. AR_VITS的合成语音质量随着数据集的增多出现下降,说明该模型受到参考语音的负面影响. 在情感表达方面,FM_VITS合成语音的情感表达能力相较VITS、VITS2有明显提高,总体表现略优于AR_VITS. 这说明基于特征映射模型的方法预测生成的情感特征可以充分、细致地描述情感在语音上的表达,进而提高模型的语音情感表达能力. 在计算效率方面,FM_VITS的附加模块未导致模型的计算效率下降.

表 1   不同语音合成模型的主客观评测结果

Tab.1  Subjective and objective evaluation results of different speech synthesis models

模型说话人数量MOS↑SMOS↑EMOS↑RTF↓WER↓/%ECA↑/%EECS↑/%
真实音频4.514.447.5291.6
VITS单个说话人4.024.173.920.061 819.5580.098.30
VITS24.074.284.050.060 119.8977.399.18
AR_VITS4.114.264.150.119 617.7782.099.33
FM_VITS4.184.264.110.064 915.2082.399.52
VITS多个说话人4.054.223.930.062 216.5475.698.14
VITS24.164.363.980.060 616.8872.099.14
AR_VITS4.144.284.120.117 918.8077.799.27
FM_VITS4.294.324.070.060 410.5278.999.33

新窗口打开| 下载CSV


进一步分析各模型在不同情感上的具体表现,在多说话人条件下测评不同情感语音的语音质量,结果如表2所示. 从情感类别上来看,开心和惊喜的情感语音相较于悲伤或愤怒的情感语音,语调变化更为丰富,音高变化更为复杂多样. 这使得开心和惊喜的情感语音更难重构复现,语音质量相对较差. 从模型上来看,FM_VITS在不同情感的语音质量上均优于对比模型,证明基于特征映射模型的方法在提高合成语音情感表达能力的同时一定程度上解决了由于情感特征与文本特征不适配导致的语音质量下降问题.

表 2   不同语音合成模型情感语音质量测评结果

Tab.2  Evaluation results of emotional speech quality for different speech synthesis models

模型WER↓/%
中性开心悲伤惊喜愤怒
VITS16.119.215.914.914.8
VITS216.315.013.220.917.8
AR_VITS22.819.418.324.99.3
FM_VITS12.111.18.912.98.3

新窗口打开| 下载CSV


对比各模型对变化文本的适应能力,使用不属于ESD数据集的平均单词长度在19个左右的长文本作为测试文本,在多说话人条件下对各模型进行语音评测. 语音质量评价结果如表3所示. 当所有模型均使用未经过训练的长难文本进行情感语音合成时,FM_VITS的语音质量以及情感表达能力未下降,模型性能优于对比模型;AR_VITS受到参考语音的影响,由于参考语音提供的情感特征无法适应变化的文本长度与内容,导致语音质量严重下降. AR_VITS合成未知长难文本的语音质量不佳,与其他对比模型差距过大,故不参与偏好性测试. 如表4所示,偏好性测试的结果进一步体现了本研究提出的改进方法对情感语音合成的影响,证明了FM_VITS在长难文本条件下的情感语音合成能力有明显提高,情感表达更符合对应的文本内容.

表 3   不同语音合成模型语音质量评测结果

Tab.3  Speech quality evaluation results of different speech synthesis models

模型MOS↑EMOS↑WER↓/%
VITS4.114.0713.57
VITS24.154.1413.29
AR_VITS3.243.6746.70
FM_VITS4.244.1810.63

新窗口打开| 下载CSV


表 4   不同语音合成模型语音质量偏好性测试结果

Tab.4  Test results of speech quality preference of different speech synthesis models

偏好性占比/%
FM_VITS无偏好VITSVITS2
44.331.424.3
35.733.630.7

新窗口打开| 下载CSV


综上所述,FM_VITS相较对比模型在情感语音合成方面具有显著优势,合成语音的语音质量更高,情感表达更自然、流畅. 由此证明,基于特征映射模型的情感语音合成方法能够有效提高VITS的情感语音合成质量,增强VITS对不同文本、不同情感的适应能力.

3.3.2. 消融实验

设计针对FM_VITS中的特征映射层MP、U-Net结构以及用于指导映射关系学习的L1损失FL的消融实验,使用WER测评各模块对模型合成语音质量的影响,使用ECA与EECS测评各模块对模型合成语音情感的影响,结果如表5所示. MP将复杂任务分解为多个简单子任务,降低模块的拟合学习复杂度. 在移除MP后,特征映射模块难以在单一处理流程的情况下学习多个说话人的特征映射关系. 这使得特征映射模块在语音合成过程中预测生成的特征同真实特征相比存在较大失真,导致生成的预测特征与文本特征难以匹配,语音合成质量大幅下降,语音情感也受到影响. U-Net结构负责将具体特征转换为抽象特征,以匹配抽象的文本特征. 在移除U-Net结构后,不同特征之间的不匹配严重降低了语音合成质量,影响了合成语音的情感表达. FL能够准确地指导特征映射模块学习到合适的特征映射关系,为情感语音的合成提供正确、丰富的特征信息. 在移除FL后,特征映射模块无法依据学习到的映射关系生成合适的情感特征,致使合成语音的情感表达能力显著退化. 消融实验结果证明,本研究提出的各项改进均有效地提高了模型的语音合成质量,使合成语音更加贴近于真实音频,情感表达更加细腻真实.

表 5   改进后VITS的模块消融实验结果

Tab.5  Ablation study results of improved VITS modules

消融模块WER↓/%ECA↑/%EECS↑/%
移除 MP+9.78−8.30−0.36
移除 U-Net+9.51−4.90−0.37
移除 FL+2.26−47.6−1.53

新窗口打开| 下载CSV


4. 结 语

本研究针对现有情感语音合成方法中存在的文本变化导致情感表达粗糙的问题,提出基于特征映射模型的情感语音合成方法. 通过少量样本学习文本、情感、说话人到对应情感特征的映射关系,依据该映射关系进行合理预测,生成适应于不同文本的情感特征. 将所提方法应用于VITS并通过实验验证方法的有效性. 主客观实验证明,基于特征映射模型的情感语音合成方法既能保证生成的情感特征细腻、丰富,也具备针对不同文本的自适应情感特征生成能力. 基于上述方法改进后的模型能够合成具有良好语音质量和充分情感表达的情感语音,兼顾模型的计算效率,具备一定的实际应用能力. 本研究使用英语作为训练数据,语种单一,未对多语种条件下的情感语音合成做进一步深入探索. 在后续的工作中,将以本研究为基础进行拓展,增加模型对不同语种的情感语音合成能力,提高模型的通用性.

参考文献

TAN X, QIN T, SOONG F, et al. A survey on neural speech synthesis [EB/OL]. (2021–07–23)[2025–05–31]. https://arxiv.org/pdf/2106.15561.

[本文引用: 1]

TRIANTAFYLLOPOULOS A, SCHULLER B W. Expressivity and speech synthesis [EB/OL]. (2025–04–10)[2025–05–31]. https://arxiv.org/pdf/2404.19363.

[本文引用: 1]

TRIANTAFYLLOPOULOS A, SCHULLER B W, İYMEN G, et al

An overview of affective speech synthesis and conversion in the deep learning era

[J]. Proceedings of the IEEE, 2023, 111 (10): 1355- 1381

DOI:10.1109/JPROC.2023.3250266      [本文引用: 2]

PARK H J, KIM J S, SHIN W, et al. DEX-TTS: diffusion-based EXpressive text-to-speech with style modeling on time variability [EB/OL]. (2024–06–27)[2025–05–31]. https://arxiv.org/pdf/2406.19135.

[本文引用: 1]

TANG H, ZHANG X, WANG J, et al. EmoMix: emotion mixing via diffusion models for emotional speech synthesis [C]// Proceedings of the INTERSPEECH 2023. Dublin: International Speech Communication Association, 2023: 12–16.

[本文引用: 1]

CHEN Z, LI X, AI Z, et al. StyleFusion TTS: multimodal style-control and enhanced feature fusion for zero-shot text-to-speech synthesis [C]// Pattern Recognition and Computer Vision. Singapore: Springer, 2024: 263–277.

[本文引用: 1]

LEI Y, YANG S, ZHU X, et al

Cross-speaker emotion transfer through information perturbation in emotional speech synthesis

[J]. IEEE Signal Processing Letters, 2022, 29: 1948- 1952

DOI:10.1109/LSP.2022.3203888      [本文引用: 1]

LI Y A, HAN C, MESGARANI N

StyleTTS: a style-based generative model for natural and diverse text-to-speech synthesis

[J]. IEEE Journal of Selected Topics in Signal Processing, 2025, 19 (1): 283- 296

DOI:10.1109/JSTSP.2025.3530171      [本文引用: 1]

XU Y, CHEN H, YU J, et al. SECap: speech emotion captioning with large language model [C]// Proceedings of the AAAI Conference on Artificial Intelligence. Vancouver: AAAI Press, 2024, 38(17): 19323–19331.

[本文引用: 1]

HSU W N, BOLTE B, TSAI Y H, et al

HuBERT: self-supervised speech representation learning by masked prediction of hidden units

[J]. IEEE/ACM Transactions on Audio, Speech, and Language Processing, 2021, 29: 3451- 3460

DOI:10.1109/TASLP.2021.3122291      [本文引用: 1]

BOTT T, LUX F, VU N T. Controlling emotion in text-to-speech with natural language prompts [C]// Proceedings of the Interspeech 2024. Kos: International Speech Communication Association, 2024: 1795–1799.

[本文引用: 1]

INOUE S, ZHOU K, WANG S, et al. Hierarchical emotion prediction and control in text-to-speech synthesis [C]// Proceedings of the ICASSP 2024. Seoul: IEEE, 2024: 10601–10605.

INOUE S, ZHOU K, WANG S, et al. Fine-grained quantitative emotion editing for speech generation [C]// Proceedings of the Asia Pacific Signal and Information Processing Association Annual Summit and Conference. Macau: IEEE, 2025: 1–6.

[本文引用: 1]

GAO X, ZHANG C, CHEN Y, et al. Emo-DPO: controllable emotional speech synthesis through direct preference optimization [C]// Proceedings of the ICASSP 2025. Hyderabad: IEEE, 2025: 1–5.

[本文引用: 1]

SHI H, WANG J, ZHANG X, et al. RSET: remapping-based sorting method forEmotion transfer speech synthesis [C]// Web and Big Data. Jinhua: Springer, 2024: 90–104.

[本文引用: 1]

KIM J, KONG J, SON J. Conditional variational autoencoder with adversarial learning for end-to-end text-to-speech [C]// Proceedings of the 38th International Conference on Machine Learning. [S.l.]: PMLR, 2021: 5530–5540.

[本文引用: 1]

REZENDE D, MOHAMED S. Variational inference with normalizing flows [C]// Proceedings of the 32nd International Conference on Machine Learning. Lille: PMLR, 2015: 1530–1538.

[本文引用: 1]

KIM J, KIM S, KONG J, et al. Glow-TTS: a generative flow for text-to-speech via monotonic alignment search [C]// Proceedings of the 34th International Conference on Neural Information Processing Systems. [S.l.]: Curran Associates Inc., 2020: 8067–8077.

[本文引用: 1]

ZHOU K, SISMAN B, LIU R, et al

Emotional voice conversion: theory, databases and ESD

[J]. Speech Communication, 2022, 137: 1- 18

DOI:10.1016/j.specom.2021.11.006      [本文引用: 1]

WANG H, GUO P, ZHOU P, et al. MLCA-AVSR: multi-layer cross attention fusion based audio-visual speech recognition [C]// Proceedings of the ICASSP 2024. Seoul: IEEE, 2024: 8150–8154.

[本文引用: 1]

REN Y, HU C, TAN X, et al. FastSpeech 2: fast and high-quality end-to-end text to speech [EB/OL]. (2022–08–08)[2025–05–31]. https://arxiv.org/pdf/2006.04558.

[本文引用: 1]

ZUO S, ZHANG Q, LIANG C, et al. MoEBERT: from BERT to mixture-of-experts via importance-guided adaptation [C]// Proceedings of the 2022 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies. Seattle: Association for Computational Linguistics, 2022: 1610–1623.

[本文引用: 1]

VARSHAVSKY-HASSID M, HIRSCH R, COHEN R, et al. On the semantic latent space of diffusion-based text-to-speech models [C]// Proceedings of the 62nd Annual Meeting of the Association for Computational Linguistics. Bangkok: Association for Computational Linguistics, 2024, 2: 246–255.

[本文引用: 1]

QI T, ZHENG W, LU C, et al. PAVITS: exploring prosody-aware VITS for end-to-end emotional voice conversion [C]// Proceedings of the ICASSP 2024. Seoul: IEEE, 2024: 12697–12701.

[本文引用: 1]

ZHAO W, YANG Z

An emotion speech synthesis method based on VITS

[J]. Applied Sciences, 2023, 13 (4): 2225

DOI:10.3390/app13042225      [本文引用: 1]

KONG J, PARK J, KIM B, et al. VITS2: improving quality and efficiency of single-stage text-to-speech with adversarial learning and architecture design [C]// Proceedings of the INTERSPEECH 2023. Dublin: International Speech Communication Association, 2023: 4374–4378.

[本文引用: 1]

BAEVSKI A, ZHOU H, MOHAMED A, et al. wav2vec 2.0: a framework for self-supervised learning of speech representations [C]// Proceedings of the 34th International Conference on Neural Information Processing Systems. Vancouver: [s.n.], 2020: 12449–12460

[本文引用: 1]

RADFORD A, KIM J W, XU T, et al. Robust speech recognition via large-scale weak supervision [C]// Proceedings of the 40th International Conference on Machine Learning. [S.l.]: PMLR, 2023: 28495–28518.

[本文引用: 1]

MA Z, ZHENG Z, YE J, et al. emotion2vec: self-supervised pre-training for speech emotion representation [C]// Proceedings of the Findings of the Association for Computational Linguistics: ACL 2024. Bangkok: Association for Computational Linguistics, 2024: 15747–15760.

[本文引用: 1]

/