采用ConvNeXt解码器和基频预测的低资源语音合成

采用ConvNeXt解码器和基频预测的低资源语音合成

王猛,杨鉴

Low resource speech synthesis using ConvNeXt decoder and fundamental frequency prediction

Meng WANG,Jian YANG

表 1 不同语音合成模型在3种语言数据集中的性能测评结果

Tab.1 Performance evaluation results of different speech synthesis models in three language datasets

语言类型	模型	MOS(↑)	MCD(↓)	RMSE(↓)	PESQ(↑)
缅甸语	真实音频	4.46	—	0.00	4.50
	FastSpeech2	3.09	9.48	0.31	2.45
	Glow-TTS	3.04	9.25	0.25	2.50
	VITS	3.10	9.34	0.30	2.52
	改进模型	3.44	7.99	0.21	2.84
越南语	真实音频	4.79	—	0.00	4.50
	FastSpeech2	3.31	6.07	0.29	2.62
	Glow-TTS	3.15	5.81	0.26	2.71
	VITS	3.19	5.29	0.28	2.69
	改进模型	4.45	4.96	0.22	2.87
泰语	真实音频	4.65	—	0.00	4.50
	FastSpeech2	3.07	5.78	0.24	2.56
	Glow-TTS	3.21	5.24	0.21	2.62
	VITS	3.01	5.66	0.23	2.60
	改进模型	4.10	4.66	0.17	2.89