采用ConvNeXt解码器和基频预测的低资源语音合成
王猛,杨鉴

Low resource speech synthesis using ConvNeXt decoder and fundamental frequency prediction
Meng WANG,Jian YANG
图 1 VITS的模型架构
Fig.1 Model architecture of VITS