采用ConvNeXt解码器和基频预测的低资源语音合成

王猛,杨鉴

Low resource speech synthesis using ConvNeXt decoder and fundamental frequency prediction

Meng WANG,Jian YANG

图 1 VITS的模型架构

Fig.1 Model architecture of VITS