采用ConvNeXt解码器和基频预测的低资源语音合成
|
|
王猛,杨鉴
|
Low resource speech synthesis using ConvNeXt decoder and fundamental frequency prediction
|
|
Meng WANG,Jian YANG
|
|
| 表 1 不同语音合成模型在3种语言数据集中的性能测评结果 |
| Tab.1 Performance evaluation results of different speech synthesis models in three language datasets |
|
| 语言类型 | 模型 | MOS(↑) | MCD(↓) | RMSE(↓) | PESQ(↑) | | 缅甸语 | 真实音频 | 4.46 | — | 0.00 | 4.50 | | FastSpeech2 | 3.09 | 9.48 | 0.31 | 2.45 | | Glow-TTS | 3.04 | 9.25 | 0.25 | 2.50 | | VITS | 3.10 | 9.34 | 0.30 | 2.52 | | 改进模型 | 3.44 | 7.99 | 0.21 | 2.84 | | 越南语 | 真实音频 | 4.79 | — | 0.00 | 4.50 | | FastSpeech2 | 3.31 | 6.07 | 0.29 | 2.62 | | Glow-TTS | 3.15 | 5.81 | 0.26 | 2.71 | | VITS | 3.19 | 5.29 | 0.28 | 2.69 | | 改进模型 | 4.45 | 4.96 | 0.22 | 2.87 | | 泰语 | 真实音频 | 4.65 | — | 0.00 | 4.50 | | FastSpeech2 | 3.07 | 5.78 | 0.24 | 2.56 | | Glow-TTS | 3.21 | 5.24 | 0.21 | 2.62 | | VITS | 3.01 | 5.66 | 0.23 | 2.60 | | 改进模型 | 4.10 | 4.66 | 0.17 | 2.89 |
|
|
|