采用ConvNeXt解码器和基频预测的低资源语音合成
王猛,杨鉴

Low resource speech synthesis using ConvNeXt decoder and fundamental frequency prediction
Meng WANG,Jian YANG
表 2 不同语音合成模型在3种语言数据集中的比较平均意见得分
Tab.2 Comparative mean opinion scores of different speech synthesis models in three language datasets
模型CMOS
越南语缅甸语泰语
FastSpeech2−0.245−0.365−0.457
Glow-TTS−0.198−0.361−0.451
VITS−0.209−0.351−0.313
改进模型−0.177−0.325−0.258