浙江大学学报(工学版), 2025, 59(10): 2186-2194 doi: 10.3785/j.issn.1008-973X.2025.10.019

信息与通信工程

采用ConvNeXt解码器和基频预测的低资源语音合成

王猛,, 杨鉴,

云南大学 信息学院,云南 昆明 650504

Low resource speech synthesis using ConvNeXt decoder and fundamental frequency prediction

WANG Meng,, YANG Jian,

School of Information Science and Engineering, Yunnan University, Kunming 650504, China

通讯作者: 杨鉴,男,教授. orcid.org/0009-0006-3138-2779. E-mail:jianyang@ynu.edu.cn

收稿日期: 2024-08-29  

基金资助: 国家重点研发计划资助项目(2020AAA0107901);云南大学第十五届研究生科研创新项目(KC-23236037).

Received: 2024-08-29  

Fund supported: 国家重点研发计划资助项目(2020AAA0107901);云南大学第十五届研究生科研创新项目(KC-23236037).

作者简介 About authors

王猛(2000—),男,硕士生,从事语音合成研究.orcid.org/0009-0005-0232-1953.E-mail:wangmeng_boo9@stu.ynu.edu.cn , E-mail:wangmeng_boo9@stu.ynu.edu.cn

摘要

现有模型合成低资源语言的语音自然度低,为此提出改进模型. 以VITS为基线模型,使用ConvNeXt V2模块替换原模型解码器中的转置卷积模块以降低混叠干扰,应用逆短时傅立叶变换(iSTFT)构建新的解码器以提升合成语音的自然流畅性. 将帧级别的基频预测器引入模型,离散化预测器输出并转换为高维向量,再与VITS中流模块的输出向量拼接后送入所构建解码器结构中. 添加基频损失函数以捕捉和模拟声调. 使用缅甸语、越南语和泰语数据集训练并评估所提改进模型. 模型性能对比实验结果表明,所提改进模型的语音合成效果优于现有模型.

关键词: 语音合成 ; 低资源语言 ; VITS ; ConvNeXt ; 基频建模

Abstract

An improved model was proposed to enhance the speech naturalness of the existing models, specifically targeting the challenge of synthesizing speech for low-resource languages. VITS was employed as a baseline model, and the transposed convolutions in the original decoder were replaced by the ConvNeXt V2 modules to reduce aliasing artifacts. A new decoder was built by applying the inverse short-time Fourier transform (iSTFT) to enhance the naturalness and fluency of the synthesized speech. A frame-level fundamental frequency (F0) predictor was integrated into the model, and the output of the predictor was discretized and then transformed into a high-dimensional vector. The vector was combined with the vector output from the flow module in VITS and then fed into the new decoder. An extra F0 loss function was also introduced to capture and model tone variations. The improved model was trained and assessed using Burmese, Vietnamese, and Thai languages. Results of model performance comparison experiments show that the method outperforms the existing models in terms of speech synthesis quality.

Keywords: speech synthesis ; low-resource language ; VITS ; ConvNeXt ; fundamental frequency modeling

PDF (733KB) 元数据 多维度评价 相关文章 导出 EndNote| Ris| Bibtex  收藏本文

本文引用格式

王猛, 杨鉴. 采用ConvNeXt解码器和基频预测的低资源语音合成. 浙江大学学报(工学版)[J], 2025, 59(10): 2186-2194 doi:10.3785/j.issn.1008-973X.2025.10.019

WANG Meng, YANG Jian. Low resource speech synthesis using ConvNeXt decoder and fundamental frequency prediction. Journal of Zhejiang University(Engineering Science)[J], 2025, 59(10): 2186-2194 doi:10.3785/j.issn.1008-973X.2025.10.019

随着深度学习技术的不断进步和语音合成研究的深入,通用且资源丰富的语言如汉语和英语的合成语音质量正在逐步接近自然语音的水平. 对于缅甸语、越南语和泰语等非通用且资源较少的语言,由于语音数据有限和研究投入不足,合成语音与自然语音的差距明显[1-2],提升低资源环境下的合成语音自然度具有挑战性.

基于神经网络的语音合成模型已成为研究主流,这些模型有Tacotron 2[3]、FastSpeech 2[4]、Glow-TTS[5]和VITS[6]等. 其中Tacotron 2、FastSpeech 2和Glow-TTS属于两阶段模型,这类模型须结合声码器实现从文本到时域语音的生成. 声码器大都由英语或汉语训练而成,这样的声码器用于低资源条件下目标语言的语音合成会缺少目标语言的声学特征,产生声学特征失配问题[7]. VITS采用变分自动编码器结合标准化流的方法,其完全端到端的设计在通用语语音合成的性能上超越了传统的两阶段模型. 直接把VITS应用在低资源语音合成上并不可取. 一方面,以VITS中的解码器为代表的HiFi-GAN[8]生成器结构将转置卷积作为上采样,这样的操作可能引入混叠干扰[9-10]. 在低资源条件下,合成语音的摩擦音(如/s/、/ʃ/、/f/等)和爆破音(如/p/、/t/、/k/等)会因混叠干扰而变得模糊且易混淆[11],使得合成语音的可理解性降低并影响合成语音质量. 另一方面,现有模型训练时将音调信息(如基频等)与文本信息耦合,由于缺乏对音调信息的显式建模,低资源环境下的模型难以有效模拟目标语音的声调和语气,导致生成的语音语气平淡[12],限制了合成语音的自然度和表现力.

本研究以VITS为基线模型,分析该模型在低资源语言文本到语音转换(text-to-speech, TTS)任务中的局限性,并提出改进模型. 1)将原有的上采样卷积模块替换为包含跳连接的卷积结构模块—ConvNeXt V2[13]以削弱混叠效应,应用逆短时傅里叶变换(inverse short-time Fourier transform,iSTFT)构建新的解码器结构以提高合成语音的自然度和流畅性. 2)为了更好地捕捉和模拟不同语言的声调和语气,将帧级别的基频预测器引入所提改进模型. 3)使用缅甸语、越南语和泰语数据集进行改进模型的训练与评估,通过与现有语音合成模型的性能对比,验证改进模型在低资源条件下提升合成语音的自然度和质量的优势.

1. 相关工作

1.1. 语音合成研究现状

相比传统方法,基于神经网络的语音合成技术显著提高了合成语音的质量,成为研究的主流趋势[11]. 基于神经网络的语音合成模型可以分为两阶段模型和完全端到端模型.

两阶段模型由声学模型和声码器构成,2个阶段的模型均独立研发. 完全端到端模型减少了对人工设计的声学特征和参数的依赖,由输入文本或音素序列直接合成时域波形.在声学模型方面,Shen等[3]改进Tacotron,提出的Tacotron 2通过使用梅尔谱来控制WaveNet[14]生成器,并使用多尺度波形一致性损失提高语音的自然度和清晰度. 以Tacotron 2为代表的自回归模型在推理阶段的速度较慢,模型的鲁棒性表现不佳. 考虑到自回归模型存在的问题,Ren等[4]提出非自回归模型FastSpeech 2,引入音高、能量和更有效的时长建模,使训练速度和语音质量得到提升. Kim等[5]提出Glow-TTS,基于流的方法直接从文本数据学习语音波形的映射,并通过一系列可逆的变换步骤连续生成自然的语音波形,提升了合成语音的连贯性和自然感. 在声码器方面,基于深度学习的神经网络声码器逐渐成为研究主流,其中Kong等[8]提出的HiFi-GAN在保持合成语音高保真度的同时实现了高效率的音频生成. 为了补偿输入声学特征和输出波形之间时间分辨率的差异,声码器通常需要多个转置卷积将输入特征上采样到所需的采样率,从而产生大量的计算成本,可能产生的高频混叠效应将导致音频波形出现不自然的周期性振荡[9-10]. Kaneko等[15]提出的iSTFTNet结合了神经网络和传统的信号处理技术,能够通过iSTFT直接从梅尔谱生成语音波形,在保持语音质量的同时降低了模型的复杂性和计算成本,提升了模型效率. Vocos[16]在iSTFTNet的基础上去除了转置卷积,有效缓解了生成音频中的周期伪影现象.

完全端到端模型直接从字符或音素序列生成语音波形,相比两阶段模型在减少错误传播方面具有明显优势[11]. 这类模型有FastSpeech 2s[4]、基于注意力机制的序列到序列模型EATS[17],基于变分自编码器的TTS模型VITS. 其中VITS结合变分推理、标准化流和对抗训练的方法,使用隐变量而非频谱串联语音合成中的声学模型和声码器,在通用语上展现出超越两阶段系统的性能.

1.2. 低资源语音合成现状

针对缅甸语、越南语和泰语等东南亚低资源语言的深度神经网络的语音合成研究相对较少. 在越南语的语音合成研究中,Nguyen等[18]在基于隐马尔可夫模型(hidden Markov model,HMM)的越南语TTS系统中探讨上下文特征对合成语音的影响,提出韵律特征以提高系统的自然性. Nguyen等[19]开发出基于深度神经网络的越南语音合成系统,通过数据清理和更深架构的使用,实现比传统HMM更优的TTS性能. Trang 等[20]进一步研究韵律边界预测模型,通过引入句法块和句法链接特征,显著提高了越南语TTS的自然性. Phuong等[21]开展TTS自适应技术研究,利用少量越南语数据适应英语预训练模型,以合成高质量的语音. 在缅甸语方面,Win等[22]通过采用Tacotron提升了缅甸语TTS系统的自然度. Hlaing等[23]探索词向量在缅甸语TTS系统中的应用,研究词向量作为附加输入特征在DNN、LSTM-RNN以及混合模型中的效果,发现额外的输入特征能够提升合成语音的自然性. Hlaing等[24]研究LSTM-RNN在缅甸语TTS中的应用,验证了上下文语言特征的重要性. 在泰语TTS领域,Janyoi等[25]深入研究神经序列到序列语音合成,得出分词是神经序列到序列泰语TTS中文本处理任务的必要步骤. Chomphan等[26]提出实现泰语语音合成的新方法,在统一的HMM框架中同时对频谱、音调和音素持续时间进行建模,并使用基于决策树的不同风格的上下文聚类技术对频谱、音调和音素持续时间的参数分布进行独立聚类以改善声调正确性和韵律自然性. Tesprasit等[27]提出的泰语TTS框架可以同时解决分词和同形异义词歧义问题. 这些研究为泰语TTS合成技术的发展提供了新的思路和方法.

受限于Tacotron系列模型的自回归特性,采用该系列模型的语音合成系统语音合成速度较慢,而且语言特征捕捉存在局限. 当前基于端到端模型的低资源语音合成研究相对较少,主要原因是端到端语音合成模型虽然能生成自然度较高的语音,但其内部处理过程中韵律信息和文本信息交织而非显式解耦[12]. 这种混合处理方式限制了模型对文本中韵律特征的深入解析和有效捕捉,可能影响合成语音的韵律准确性,降低语音的自然性和可理解性. 尤其是在训练数据有限的情况下,这种现象更为明显[28].

1.3. VITS

VITS的模型架构如图1所示,其中A为通过单调对齐搜索得到的对齐矩阵. VITS的训练过程采用条件变分自编码器结构,结合标准化流和对抗训练过程来提高生成模型的表现力. VITS的随机持续时间预测器用于合成具有不同节奏的语音,完成从输入文本到生成语音的步骤. VITS能够在不依赖预定义中间特征的情况下,直接从文本生成高质量的语音波形. VITS结构分为5个部分. 1)后验编码器:通过学习如何从线性频谱$ {\boldsymbol{x}}_{\mathrm{l}\mathrm{i}\mathrm{n}} $到潜在变量$ \boldsymbol{z} $的映射,后验编码器能够捕捉和再现语音的细微特征,提高合成语音的自然度和质量. 在训练阶段,后验编码器以$ {\boldsymbol{x}}_{\mathrm{l}\mathrm{i}\mathrm{n}} $为输入,输出一系列$ \boldsymbol{z} $,这些变量能够捕捉$ {\boldsymbol{x}}_{\mathrm{l}\mathrm{i}\mathrm{n}} $的详尽信息. 随后$ {\boldsymbol{z}} $被用于解码器以合成最终的时域波形. 2)先验编码器:将文本信息$ {\boldsymbol{c}}_{\mathrm{t}\mathrm{e}\mathrm{x}\mathrm{t}} $转换至潜在空间. 通过学习$ {\boldsymbol{c}}_{\mathrm{t}\mathrm{e}\mathrm{x}\mathrm{t}} $$ {\boldsymbol{z}} $的映射,先验编码器能够捕捉文本的语义和韵律信息,并在生成过程中保持这些信息. 3)解码器:将潜在变量转换为时域语音信号. 4)鉴别器:捕捉语音信号在各种时间尺度上的特征,通过对抗训练提升语音合成的质量和自然度,通过多周期判别器捕捉不同时间尺度的特征,以更准确地评价和提升生成语音的真实性. 5)持续时间预测器:为模型提供关于字符或音素时长的额外信息,解决文本到语音合成中的一对多问题,即同1个文本输入可以以多种不同的方式发音. VITS的推断过程不再使用后验编码模块,也不将线性频谱作为输入,而是直接将标准化流的输出隐变量$ \boldsymbol{z} $作为解码器的输入来合成时域波形.

图 1

图 1   VITS的模型架构

Fig.1   Model architecture of VITS


通用、高资源语言的合成语音已经越来越接近自然语音,而低资源条件下的语音合成系统仍然存在影响合成语音质量的共性问题:1)HiFi-GAN V1解码器结构为了补偿输入声学特征和输出波形之间时间分辨率的差异,使用多个转置卷积将输入特征上采样到所需的采样率,引入混叠伪影[9-10]. 2) 不同语言的声调范围不同,在低资源条件下的可用训练数据较少,基线系统无法准确预测音高信息,导致合成语音语气平淡,缺乏足够的韵律信息[29-30],这种情况在缅甸语、越南语和泰语等语言的合成语音中尤为明显.

2. 语音合成改进模型

图2所示,本研究提出的语音合成改进模型使用包含跳连接的ConvNeXt V2搭建基于iSTFT的解码器结构以更好地抑制混叠效应,引入帧级别的基频预测并添加基频损失以更精细地捕捉声调的连续变化,进而增强合成语音的韵律表达和自然度.

图 2

图 2   语音合成改进模型的架构

Fig.2   Architecture of improved speech synthesis model


2.1. 改进解码器

在VITS框架中,HiFi-GAN V1的生成器结构被用作解码器. 以HiFi-GAN为代表的生成对抗网络(generative adversarial network,GAN)类型的声码器结构在生成音频信号的频谱表示方面的表现欠佳. 一方面,STFT的幅度谱能清晰呈现信号在不同频率分量上的幅度变化. 尽管理论上可通过 STFT的幅度谱重建原始信号,但在实际应用中,仅依靠幅度信息仍会造成信号损失,且相位在时频域中的分布具有复杂性,因此建模相位分布是具有挑战性的任务. 另一方面,HiFi-GAN的生成器使用转置卷积层进行上采样,将低分辨率的音频特征映射到高分辨率的时域信号可能会引入混叠效应,导致音频波形出现不自然的周期性振荡[16].

参考iSTFTNet的声码器结构,本研究设计基于iSTFT的解码器结构以根据中间变量对语音的幅度特征和相位特征进行估计,进而使用iSTFT恢复语音波形. 如图3所示,考虑到音高信息本身具有的上下文关系以及模型对于音高信息的捕捉能力,将基频预测模块得到的对数基频$ \mathrm{lg}{\widehat{\boldsymbol{F}}}_{0} $离散化并转换为高维向量$ {\boldsymbol{z}}_{\mathrm{p}\mathrm{i}\mathrm{t}} $后与标准化流的输出$ {\boldsymbol{z}}_{\mathrm{f}\mathrm{l}\mathrm{o}} $拼接作为解码器的输入$ {\boldsymbol{z}}_{\mathrm{d}\mathrm{e}\mathrm{c}} $. 整个解码器以ConvNeXt V2框架为基础骨干,由以下3个部分构成. 1)堆叠$ N $个ConvNeXt V2模块,每个ConvNeXt V2模块都包含1个较大卷积核的深度卷积层、1个层归一化操作、1个提升特征维度的逐点卷积层、1个激活层、1个全局响应归一化层,1个将特征恢复到原始维度的逐点卷积层. 采用残差连接,将输入添加到最后一个逐点卷积层的输出中,作为模块的输出. 不同于使用转置卷积在各模块逐步进行上采样的过程,采用残差连接保证整个网络各部分保持相同的时间分辨率,这种各向同性的结构有助于减少潜在的混叠效应[16]. 2)将生成器的输出映射到傅里叶谱系数:投影隐藏维度的激活值至具有$ 2+{\boldsymbol{n}}_{\mathrm{f}\mathrm{f}\mathrm{t}} $通道的张量中,通过指数函数生成幅度特征$ \boldsymbol{M} $,并通过计算余弦和正弦值来映射相位特征$ \boldsymbol{p} $,得到复数短时傅里叶变换(STFT)系数$ {\boldsymbol{Z}}_{\mathrm{f}\mathrm{t}} $. 3)进行iSTFT计算,得到时域波形$ \widehat{\boldsymbol{y}} $

图 3

图 3   改进解码器结构

Fig.3   Structure of improved decoder


$ {\boldsymbol{Z}}_{\mathrm{f}\mathrm{t}}=\boldsymbol{M}\exp\left({\mathrm{j}}\boldsymbol{p}\right), $

$ \widehat{\boldsymbol{y}}={\mathrm{iSTFT}}\left({\boldsymbol{Z}}_{\mathrm{f}\mathrm{t}}\right). $

2.2. 基频预测

语言可分为声调语言和非声调语言2个大类. 在汉语、越南语、缅甸语、泰语等声调语言中声调是词汇区分的关键,同一个音节的不同声调可以代表不同的词义[31],不同声调具有不同的持续时间与音高变化范围. 越南语属于南亚语系,是越南的官方用语及通用媒介语,共包含平声、玄声、问声、跌声、锐声和重声6种声调[32]. 泰语属于汉藏语系,包含中平声、降声、升声、高平声和低沉声5种声调[33]. 缅甸语属于汉藏语系,包含低平声、高平声和高降声3种声调[34]. 对于缅甸语、泰语和越南语等声调语言,声调有助于区分拼写相同但含义不同的单词,对于清晰的沟通和理解至关重要[35]. 在语音合成中,基频是反映声调变化的重要声学参数,尤其在资源有限的情况下,通过精确控制和预测基频的变化,合成语音展现的情感和语气丰富,能够提高语音合成的自然度和表现力.

在低资源条件下VITS的训练过程中,基线系统无法准确捕捉和模拟声调,合成语音往往会缺乏生动性和情感[29-30]. 可能的原因是现有研究在文本预处理时大多将固定的声调标签作为先验信息,这种离散标签不能完全捕捉声调的连续变化,导致合成语音在声调转折处出现不连贯的情况. 本研究通过在模型中添加帧级别的基频预测器并添加基频损失来提高语音合成的自然度和表现力. 如图4所示,基频预测器由长度调节器和多个带有激活函数的卷积模块构成,其中长度调节器负责将文本编码器得到的文本维度特征变为帧级别,经过多个卷积模块后得到对数基频$ \mathrm{lg}{\widehat{\boldsymbol{F}}}_{0} $,添加L2损失$ {L}_{\mathrm{p}\mathrm{i}\mathrm{t}} $用于辅助训练:

图 4

图 4   基频预测器结构

Fig.4   Structure of fundamental frequency predictor


$ {L}_{\mathrm{p}\mathrm{i}\mathrm{t}}={||\mathrm{lg}{\boldsymbol{F}}_{0}-\mathrm{lg}{\widehat{\boldsymbol{F}}}_{0}||}_{2}. $

训练阶段的总损失${L}_{\mathrm{s}\mathrm{u}\mathrm{m}} $为原有模型的损失${L}_{\mathrm{vits}} $加基频损失${L}_{\mathrm{pit}} $

$ {L}_{\mathrm{s}\mathrm{u}\mathrm{m}}={{\lambda }_{\mathrm{v}\mathrm{i}\mathrm{t}\mathrm{s}}L}_{\mathrm{v}\mathrm{i}\mathrm{t}\mathrm{s}}+{{\lambda }_{\mathrm{p}\mathrm{i}\mathrm{t}}L}_{\mathrm{p}\mathrm{i}\mathrm{t}}. $

式中:$\lambda_{\mathrm{vits}} $$\lambda_{\mathrm{pit}} $分别为对应损失的权重. 得到的$ \mathrm{lg}{\widehat{\boldsymbol{F}}}_{0} $将与标准化流模块的输出$ {\boldsymbol{z}}_{\mathrm{f}\mathrm{l}\mathrm{o}} $一起作为改进后解码器的输入用于生成时域波形.

3. 实验部分

3.1. 实验数据

实验使用的数据来自缅甸语、越南语和泰语数据集. 越南语数据集由1位母语为越南语的女性说话人录制,总时长为6.9 h,音频前后保留50 ms的静音段并切分为3 996句,其中3 796句用于训练,150句用于测试,50句用于验证. 泰语数据集由1位母语为泰语的女性说话人录制,总时长为8.1 h,音频前后保留50 ms的静音段并切分为4 984句,其中4 784句用于训练,150句用于测试,50句用于验证. 缅甸语数据集由1位母语为缅甸语的女性说话人录制,总时长为4.1 h,音频前后保留50 ms的静音段并切分为2 530句,其中2 410句用于训练,90句用于测试,30句用于验证. 对应语言的文本均经过校对修改. 考虑到不同语言字符集的差异,为了更精准地表示文本内容,在文本预处理阶段将各语言的文本转换为国际音标表示. 所有音频数据均为单声道,采样率为22 050 Hz,16PCM编码,提取80维对数梅尔谱,快速傅里叶变换(fast Fourier transform,FFT)大小为1 024,跳跃长度为256,窗口长度为1 024. 参考基频使用WORLD声码器中DIO算法[36]进行提取. DIO是高效的基频估计算法,用于语音分析中的周期性信号处理,相较于其他算法,不仅处理速度更快,还能保持估计结果的可靠性.

3.2. 实验设置

在所提改进模型中,解码器输入隐藏变量的维度为192,基频预测器输出的1维对数基频在离散化后,被转为80维向量并与隐藏变量拼接送入解码器,使得模型可以学习到更复杂的音高模式和变化,从而提高合成语音的自然度和表现力. 文本编码器包含 6个FFT 块,持续时间预测器由4个使用了标准化的1维卷积神经网络组成. 音高预测器中卷积层层数M=4. 卷积解码器使用ConvNeXt V2块的层数N=8,其他参数设置与VITS保持一致. 对比实验中FastSpeech2、Glow-TTS和VITS均采用默认结构. 实验均基于Linux操作系统完成,代码采用Python编写,基于PyTorch深度学习框架实现. 使用NVIDIA RTX 4090显卡训练,批量大小设置为16,模型训练迭代轮次为1 200. $ {L}_{\mathrm{v}\mathrm{i}\mathrm{t}\mathrm{s}} $中的重构损失$ {L}_{\mathrm{r}\mathrm{e}\mathrm{c}} $、KL散度损失$ {L}_{\mathrm{k}\mathrm{l}} $、持续时间损失$ {L}_{\mathrm{d}\mathrm{u}\mathrm{r}} $、对抗训练损失$ {L}_{\mathrm{a}\mathrm{d}\mathrm{v}} $$ {L}_{\mathrm{p}\mathrm{i}\mathrm{t}} $分配权重为45、1、1、1、2. 引入基频预测后,设置$ {\lambda }_{\mathrm{v}\mathrm{i}\mathrm{t}\mathrm{s}}=1 $$ {\lambda }_{\mathrm{p}\mathrm{i}\mathrm{t}}=2 $. 网络使用AdamW优化器训练,学习率按照每轮减少${0.999^{1/8}}$的比例进行衰减,初始学习率为$2 \times {10^{ - 4}}$.

3.3. 评测方法

在主观评价方面,评估标准使用平均意见得分MOS、比较平均意见得分CMOS和ABX倾向性测试ABX. 为了保证评估的专业性和准确性,邀请来自外国语学院、专业为对应语言的中国硕士生作为受试者对音频的质量和自然度进行评估. 3种评估标准的评测方法如下. 1)MOS:从每种语言的测试集中随机抽取16个片段请受试者进行主观聆听,每位受试者根据自己的听觉感受进行评分,评分范围为0.0~5.0,分值越高表示音频的可懂度和自然度越高. 2)CMOS:要求受试者对2个音频片段进行比较评分,评分范围为−3~3,其中−3表示第2个音频片段比第1个差很多,3表示第2个音频片段比第1个好很多,0表示两者没有明显差异. 3)ABX:随机从测试集中选择30组音频以及对应的文本用于合成语音,每组音频由音频A、B和X组成,其中A和B分别代表不同模型合成的音频,X使用真实音频作为参考音频. 按照“X更接近A还是B”,聆听者给出偏向,当2个音频难以区分时,选择“中立”.

在客观评价方面,选择梅尔倒谱失真[37]MCD、基频的均方误差RMSE和感知语音质量评价[38]PESQ作为评价指标. MCD用于衡量合成语音与目标语音的接近程度,MCD值越低,表示合成语音与目标语音的相似度越高,质量越好. RMSE用于评估基频预测的准确性,RMSE值越低,表示合成语音的基频轮廓与目标语音越接近,合成质量越高. PESQ 提供相对综合的语音质量评价,评分范围为−0.5~4.5,分数越高表示语音质量越好.

3.4. 实验结果与分析

将实验得到的MOS与MCD、RMSE和PESQ按照语言类别记录于表1. 观察MOS可以看出,在越南语和泰语的语音合成任务中,相较于FastSpeech2、Glow-TTS以及VITS基线模型,改进模型的评分显著提升:越南语相比于基线模型提升了1.26分,达到4.45分;泰语相比于基线模型提升了1.09分,达到4.10分;缅甸语相比于基线模型提升了0.34分,达到3.44分. 改进模型在MCD和PESQ上均表现出比FastSpeech2、Glow-TTS和VITS更好的效果. 在基频预测方面,改进模型的RMSE比对照模型的RMSE小,可以认为采用基频预测的改进模型相比其他模型合成的语音在基频预测方面更接近真实语音.

表 1   不同语音合成模型在3种语言数据集中的性能测评结果

Tab.1  Performance evaluation results of different speech synthesis models in three language datasets

语言类型模型MOS(↑)MCD(↓)RMSE(↓)PESQ(↑)
缅甸语真实音频4.460.004.50
FastSpeech23.099.480.312.45
Glow-TTS3.049.250.252.50
VITS3.109.340.302.52
改进模型3.447.990.212.84
越南语真实音频4.790.004.50
FastSpeech23.316.070.292.62
Glow-TTS3.155.810.262.71
VITS3.195.290.282.69
改进模型4.454.960.222.87
泰语真实音频4.650.004.50
FastSpeech23.075.780.242.56
Glow-TTS3.215.240.212.62
VITS3.015.660.232.60
改进模型4.104.660.172.89

新窗口打开| 下载CSV


不同语音合成模型在3个数据集中的CMOS如表2所示. 可以看出,改进模型引入基频预测并将解码器改进,因此相比于基线模型在缅甸语、越南语和泰语上CMOS分别高出0.026,0.032和0.055,并且明显优于另外2个模型.

表 2   不同语音合成模型在3种语言数据集中的比较平均意见得分

Tab.2  Comparative mean opinion scores of different speech synthesis models in three language datasets

模型CMOS
越南语缅甸语泰语
FastSpeech2−0.245−0.365−0.457
Glow-TTS−0.198−0.361−0.451
VITS−0.209−0.351−0.313
改进模型−0.177−0.325−0.258

新窗口打开| 下载CSV


ABX倾向性测试结果如表3所示. 可以看出,在缅甸语、越南语和泰语3种语言数据集上,改进模型比VITS分别高出 10、7和19个百分点,说明改进模型能够比基线模型更接近真实语音的音频. 综上,尽管改进模型的合成效果在一定程度上受到资源的限制,但改进模型的合成语音质量和基频预测效果在低资源条件下优于其他模型.

表 3   语音合成改进模型的ABX测试结果

Tab.3  ABX test results of improved speech synthesis model

语言类型ABX/%
改进模型中立VITS
泰语511732
越南语392932
缅甸语363826

新窗口打开| 下载CSV


3.5. 消融实验

为了检验改进模型的有效性,设置如下消融实验. 模型1):为了验证改进解码器结构对于合成语音的质量提升效果,将改进模型中的ConvNeXt V2架构解码器结构替换为基线系统中包含转置卷积的解码器结构. 模型2):为了验证帧级别的基频预测对于模型性能的提升,移除模型中的帧级别的基频预测器,并在训练损失中移除基频损失进行实验. 模型3):为了验证将基频预测器提取的对数基频离散化并转换为高频向量再送入解码器的必要性,将基频预测器的输出不转换为高维向量直接送入解码器. 在这些消融实验中,除了所移除或修改的部分之外,其余的网络结构和训练设置均保持与原始模型一致. 将各组消融实验得到的语音进行MCD和MOS并取平均值记录于表4. 可以看出,当从模型中移除ConvNeXt架构时,3种语言的MCD均显著增加,MOS均有所下降. 结果表明,相比于使用转置卷积进行上采样的基线系统,采用跳连接和iSTFT的ConvNeXt架构可以有效缓解混叠效应,且能够更好地学习潜在变量到幅度信息和相位信息的映射,在减少失真和提高语音自然度方面起到关键作用. 在改进模型中去除基频预测部分或者直接使用单一维度的基频送入解码器,观察到合成语音的MCD平均值增加,MOS平均分降低. 这表明引入帧级别的基频预测对于在资源受限的环境中提升合成语音的质量和自然度具有积极作用,且将基频预测器提取的对数基频离散化并转换为高频向量再送入解码器是有必要的. 此外,不同语言在改进模型下的表现存在差异,这可能与各自独特的声学特性相关. 尽管如此,改进解码器和基频预测器的共同使用对3种语言的低资源语音合成均显示出积极的效果.

表 4   语音合成改进模型和模块消融实验结果

Tab.4  Experimental results of module-ablation study on improved speech synthesis model

模型越南语缅甸语泰语
MOS(↑)MCD(↓)MOS(↑)MCD(↓)MOS(↑)MCD(↓)
真实音频4.794.464.65
改进模型4.454.963.447.994.104.66
1)3.785.213.219.013.355.32
2)4.035.183.328.473.684.92
3)4.055.143.358.263.724.82

新窗口打开| 下载CSV


4. 结 语

本研究以VITS为低资源语音合成基线模型,使用包含跳连接的ConvNeXt V2模块改进现有解码器结构,引入帧级别的基频预测并添加基频损失捕捉基频的连续变化. 实验结果表明,在缅甸语、越南语和泰语的TTS任务中,所提改进模型相较基线系统性能显著提升. 未来,计划进一步探索模型的多语言支持能力,扩展改进模型在不同语言环境中的适用性,结合跨语言迁移训练、自监督训练进一步提升模型在低资源条件下合成语音的质量和自然度.

参考文献

BYAMBADORJ Z, NISHIMURA R, AYUSH A, et al. Multi-speaker TTS system for low-resource language using cross-lingual transfer learning and data augmentation [C]// Proceedings of the Asia-Pacific Signal and Information Processing Association Annual Summit and Conference. Tokyo: IEEE, 2021: 849–853.

[本文引用: 1]

GOKAY R, YALCIN H. Improving low resource Turkish speech recognition with data augmentation and TTS [C]// Proceedings of the 16th International Multi-Conference on Systems, Signals and Devices. Istanbul: IEEE, 2019: 357–360.

[本文引用: 1]

SHEN J, PANG R, WEISS R J, et al. Natural TTS synthesis by conditioning wavenet on MEL spectrogram predictions [C]// Proceedings of the IEEE International Conference on Acoustics, Speech and Signal Processing. Calgary: IEEE, 2018: 4779–4783.

[本文引用: 2]

REN Y, HU C X, TAN X, et al. FastSpeech 2: fast and high-quality end-to-end text to speech [EB/OL]. (2022−08−08)[2024−08−25]. https://arxiv.org/pdf/2006.04558.

[本文引用: 3]

KIM J, KIM S, KONG J, et al. Glow-TTS: a generative flow for text-to-speech via monotonic alignment search [C]// 34th Conference on Neural Information Processing Systems. Vancouver: [s.n.], 2020: 1−11.

[本文引用: 2]

KIM J, KONG J, SON J. Conditional variational autoencoder with adversarial learning for end-to-end text-to-speech [EB/OL]. (2021−06−11)[2024−08−25]. https://arxiv.org/pdf/2106.06103.

[本文引用: 1]

KATUMBA A, KAGUMIRE S, NAKATUMBA-NABENDE J, et al

Building text-to-speech models for low-resourced languages from crowdsourced data

[J]. Applied AI Letters, 2025, 6 (2): e117

DOI:10.1002/ail2.117      [本文引用: 1]

KONG J, KIM J, BAE J. HiFi-GAN: generative adversarial networks for efficient and high fidelity speech synthesis [C]// 34th Conference on Neural Information Processing Systems. Vancouver: [s.n.], 2020: 1−12.

[本文引用: 2]

MORRISON M, KUMAR R, KUMAR K, et al. Chunked autoregressive GAN for conditional waveform synthesis [EB/OL]. (2022−03−03)[2024−08−25]. https://arxiv.org/pdf/2110.10139.

[本文引用: 3]

KARRAS T, AITTALA M, LAINE S, et al. Alias-free generative adversarial networks [EB/OL]. [2021−10−18][2024−08−25]. https://arxiv.org/pdf/2106.12423.

[本文引用: 3]

TAN X, QIN T, SOONG F, et al. A survey on neural speech synthesis [EB/OL]. (2021−07−23)[2024−08−25]. https://arxiv.org/pdf/2106.15561.

[本文引用: 3]

LEE J, JUNG W, CHO H, et al. PITS: variational pitch inference without fundamental frequency for end-to-end pitch-controllable TTS [EB/OL]. (2023−06−06)[2024−11−20]. https://arxiv.org/pdf/2302.12391.

[本文引用: 2]

WOO S, DEBNATH S, HU R, et al. ConvNeXt V2: co-designing and scaling ConvNets with masked autoencoders [C]// Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. Vancouver: IEEE, 2023: 16133–16142.

[本文引用: 1]

VAN DEN OORD A, DIELEMAN S, ZEN H, et al. WaveNet: a generative model for raw audio [EB/OL]. (2016−09−19)[2024−08−25]. https://arxiv.org/pdf/1609.03499.

[本文引用: 1]

KANEKO T, TANAKA K, KAMEOKA H, et al. iSTFTNet: fast and lightweight mel-spectrogram vocoder incorporating inverse short-time Fourier transform [C]// Proceedings of the ICASSP 2022 - 2022 IEEE International Conference on Acoustics, Speech and Signal Processing. Singapore: IEEE, 2022: 6207–6211.

[本文引用: 1]

SIUZDAK H. Vocos: closing the gap between time-domain and Fourier-based neural vocoders for high-quality audio synthesis [EB/OL]. (2024−05−29)[2024−08−25]. https://arxiv.org/pdf/2306.00814v3.

[本文引用: 3]

DONAHUE J, DIELEMAN S, BIŃKOWSKI M, et al. End-to-end adversarial text-to-speech [EB/OL]. (2021−03−17)[2024−08−25]. https://arxiv.org/pdf/2006.03575.

[本文引用: 1]

NGUYEN T T T, TRAN D D, RILLIARD A, et al. Intonation issues in HMM-based speech synthesis for Vietnamese [C]// Spoken Language Technologies for Under-Resourced Languages. Petersburg: [s.n.], 2014: 98−104.

[本文引用: 1]

NGUYEN T V, NGUYEN B Q, PHAN K H, et al

Development of Vietnamese speech synthesis system using deep neural networks

[J]. Journal of Computer Science and Cybernetics, 2019, 34 (4): 349- 363

DOI:10.15625/1813-9663/34/4/13172      [本文引用: 1]

TRANG N T T, KY N H, RILLIARD A, et al. Prosodic boundary prediction model for Vietnamese text-to-speech [C]// Proceedings of the Interspeech 2021. [S.l.]: ISCA, 2021: 3885−3889.

[本文引用: 1]

PHUONG P N, QUANG C T, DO Q T, et al. A study on neural-network-based text-to-speech adaptation techniques for Vietnamese [C]// Proceedings of the 24th Conference of the Oriental COCOSDA International Committee for the Co-ordination and Standardisation of Speech Databases and Assessment Techniques (O-COCOSDA2021). Singapore: IEEE, 2021: 199−205.

[本文引用: 1]

WIN Y, LWIN H P, MASADA T. Myanmar text-to-speech system based on Tacotron (end-to-end generative model) [C]// Proceedings of the International Conference on Information and Communication Technology Convergence. Jeju: IEEE, 2020: 572−577.

[本文引用: 1]

HLAING A, PA W

Word representations for neural network based Myanmar text-to-speech system

[J]. International Journal of Intelligent Engineering and Systems, 2020, 13 (2): 239- 249

DOI:10.22266/ijies2020.0430.23      [本文引用: 1]

HLAING A M, PA W P, THU Y K. Enhancing Myanmar speech synthesis with linguistic information and LSTM-RNN [C]// Proceedings of the 10th ISCA Workshop on Speech Synthesis. [S.l.]: ISCA, 2019: 189−193.

[本文引用: 1]

JANYOI P, THANGTHAI A. Investigation of an input sequence on Thai neural sequence-to-sequence speech synthesis [C]// Proceedings of the 24th Conference of the Oriental COCOSDA International Committee for the Co-ordination and Standardisation of Speech Databases and Assessment Techniques (O-COCOSDA2021). Singapore: IEEE, 2021: 218−223.

[本文引用: 1]

CHOMPHAN S, KOBAYASHI T. Implementation and evaluation of an HMM-based Thai speech synthesis system [C]// Proceedings of the Interspeech 2007. [S.l.]: ISCA, 2007: 2849−2852.

[本文引用: 1]

TESPRASIT V, CHAROENPORNSAWAT P, SORNLERTLAMVANICH V. A context-sensitive homograph disambiguation in Thai text-to-speech synthesis [C]// Proceedings of the 2003 Human Language Technology Conference of the North American Chapter of the Association for Computational Linguistics. Edmonton: ACL, 2003: 103−105.

[本文引用: 1]

DHIAULHAQ M A, GINANJAR R R, LOVENIA H, et al. Indonesia expressive text to speech system based on global style token and Tacotron 2 [C]// Proceedings of the 8th International Conference on Advanced Informatics: Concepts, Theory and Applications. Bandung: IEEE, 2021: 1–6.

[本文引用: 1]

LANCUCKI A. FastPitch: parallel text-to-speech with pitch prediction [C]// Proceedings of the ICASSP 2021 - 2021 IEEE International Conference on Acoustics, Speech and Signal Processing. Toronto: IEEE, 2021: 6588−6592.

[本文引用: 2]

SKERRY-RYAN R J, BATTENBERG E, XIAO Y, et al. Towards end-to-end prosody transfer for expressive speech synthesis with Tacotron [EB/OL]. (2018−03−24)[2024−08−25]. https://arxiv.org/pdf/1803.09047.

[本文引用: 2]

HAN M S, KIM K O

Phonetic variation of Vietnamese tones in disyllabic utterances

[J]. Journal of Phonetics, 1974, 2 (3): 223- 232

DOI:10.1016/S0095-4470(19)31272-0      [本文引用: 1]

KIRBY J P

Vietnamese (Hanoi Vietnamese)

[J]. Journal of the International Phonetic Association, 2011, 41 (3): 381- 392

DOI:10.1017/S0025100311000181      [本文引用: 1]

LUKSANEEYANAWIN S. Intonation in Thai [M]// HIRST D, DI CRISTO A. Intonation systems: a survey of twenty languages. Cambridge: Cambridge University Press, 1998: 379−397.

[本文引用: 1]

GREEN A D. Word, foot, and syllable structure in Burmese [C]// Studies in Burmese linguistics. Canberra: Pacific Linguistics, 2005: 1–24.

[本文引用: 1]

BRUNELLE M, KIRBY J

Tone and phonation in Southeast Asian languages

[J]. Language and Linguistics Compass, 2016, 10 (4): 191- 207

DOI:10.1111/lnc3.12182      [本文引用: 1]

MORISE M, KAWAHARA H, KATAYOSE H. Fast and reliable F0 estimation method based on the period extraction of vocal fold vibration of singing voice and speech [C]// 35th Audio Engineering Society International Conference 2009: Audio for Games. London: Curran Associates, Inc. , 2009: 77−81.

[本文引用: 1]

KUBICHEK R. Mel-cepstral distance measure for objective speech quality assessment [C]// Proceedings of the Proceedings of IEEE Pacific Rim Conference on Communications Computers and Signal Processing. Victoria: IEEE, 1993: 125–128.

[本文引用: 1]

RIX A W, BEERENDS J G, HOLLIER M P, et al. Perceptual evaluation of speech quality (PESQ): a new method for speech quality assessment of telephone networks and codecs [C]// Proceedings of the IEEE International Conference on Acoustics, Speech, and Signal Processing. Proceedings. Salt Lake City: IEEE, 2002: 749–752.

[本文引用: 1]

/