改进深度信念网络在语音转换中的应用
Improved deep belief network and its application in voice conversion
通讯作者:
收稿日期: 2018-10-10
Received: 2018-10-10
作者简介 About authors
王文浩(1994—),男,硕士生,从事语音信号处理、模式识别研究.orcid.org/0000-0002-3199-2618.E-mail:
综合考虑语音帧间关系及后处理网络的效果,提出一种改进的基于深度信念网络(DBN)的语音转换方法. 该方法利用线性预测分析-合成模型提取说话人线性预测谱的特征参数,构建基于区域融合谱特征参数的深度信念网络用以预训练模型,经过微调阶段后引入误差修正网络以实现细节谱特征的补偿. 对比实验结果表明,随着训练语音帧数的增加,转换语音的谱失真呈下降趋势. 同时,在训练语音帧数较少的情况下,改进方法在异性间转换的谱失真小于50%,在同性间转换的谱失真小于60%. 实验结果表明,改进方法的谱失真度较传统方法降低约6.5%,且同性别间转换效果比异性间转换效果更为明显,转换后语音的自然度和可理解度明显提高.
关键词:
An improved voice conversion method based on deep belief network (DBN) was proposed, comprehensively considering the relationship between the speech frames and the effect of post-processing network. The method utilized a linear predictive analysis-synthesis model to extract the feature parameters of a speaker’s linear predictive spectrum, and the regional fusion spectral feature parameters for DBN were constructed so as to pretrain the model. Finally, an error correction network for the feature compensation of a detailed spectrum was introduced after fine-tuning. The comparison results show that, the spectral distortion of the converted speech shows the tendency of decreasing as the number of speech frames increases. Meanwhile, when the number of training speech frames was small, the spectral distortion of the proposed method was less than 50% between genders and less than 60% within genders. The experimental results showed that the spectral distortion of the proposed method was 6.5% lower than that of the traditional method. The proposed method significantly improves the naturalness and intelligibility of converted speech in view of two different subjective evaluations.
Keywords:
本文引用格式
王文浩, 张筱, 万永菁.
WANG Wen-hao, ZHANG Xiao, WAN Yong-jing.
基于谱包络的语音转换算法一直是研究热点,在过去几十年中,有许多相关方法已被提出,这些方法大致可分为两类:基于规则的方法和基于统计的方法. 前一种方法基于特定的规则直接修改语音信号的声学信息,该方法尽管保留了大部分信息,但由于不同说话人需要不同的转换规则,不具有通用性. 基于统计的方法估计了源说话人和目标说话人间谱包络的非线性映射函数,建立了比基于规则的方法更精确的复杂转换模型,具有普遍性与适用性. 在基于统计的语音转换算法中,较经典的方法有:矢量量化(vector quantization, VQ)法[7]、隐马尔科夫模型(hidden Markov model, HMM)法[8]、高斯混合模型(Gaussian mixed model, GMM)法[9]、改进的GMM算法[10]以及人工神经网络(artificial neural network, ANN)法[11-13]等. 近些年来,随着人工智能研究领域的兴起,将各类神经网络应用于语音转换中已成为新的研究热点. 其中,基于传统深度信念网络(deep belief network, DBN)的语音转换算法将原始谱特征抽象到高层空间中,并在高层空间中进行谱特征转换,使得模型即使在训练语音数不多的情况下,也能够转换出使人可接受的语音. 但传统DBN转换模型忽略了转换语音帧间动态变化的信息,即使通过微调网络修正,效果仍然不佳,转换出的语音谱包络有一定的失真与不连续,在听觉上表现为含有一些“喳喳”的噪声. 叶伟等[14]针对此问题,提出对每一帧特征参数,取其前后相邻的7帧,利用扩展后的15帧特征训练DBN. 该算法在一定程度上缓解了各语音帧独立转换时引起的谱包络不连续问题,但不能刻画出语音帧间动态变化的细节信息,因此,谱包络不连续问题仍然存在. 同时,直接扩展相邻多帧的特征,使得扩展后特征维度过大,冗余信息过多,导致网络参数变多,模型训练不稳定,训练时长大幅度增加.
针对转换语音谱包络出现的失真与不连续的问题,本文提出一种改进的DBN算法,构建源说话人和目标说话人谱包络间的非线性关系. 该算法由2个独立的受限玻尔兹曼机(restricted boltzmann machine, RBM)、1个级联的神经网络和1个后处理的神经网络组成. 利用源说话人和目标说话人的语音分别训练2个RBM. 然后,将2个RBM的高层特征用一个级联的神经网络连接. 利用一个具有后处理机制的误差修正网络补偿语音的细节谱特征,即通过引入区域融合谱特征与误差修正网络,以减小转换谱包络与目标谱包络间的失真,改善转换谱包络不连续的现象,提升转换后语音的主、客观评价指标.
1. 传统DBN语音转换算法
1.1. 语音转换流程
图 1
图 1 训练、转换阶段语音转换流程图
Fig.1 Voice conversion flow chart of training and conversion phase
1.2. 受限玻尔兹曼机与深度信念网络
图 2
图 2 受限玻尔兹曼机与深度信念网络的图模型
Fig.2 Graphical model of restrict Boltzmann machine and deep belief network
假设
式中:
式中:
对于l=2,相邻2个隐层单元的开启概率为
式中:
给定训练数据集,DBN模型的参数
1.3. 基于DBN的语音转换算法原理
DBN有多种形式,其中最常见的是基于Bernoulli-Bernoulli形式的DBN[20]. 在这种形式中,每一个显层单元是二值的. 由于谱特征参数的连续变化性,很难固定一个阈值对其进行硬二值化,因此,需要将语音的谱特征参数x进行软二值化:
式中:x为语音的谱特征参数,
如图3所示为函数
图 3
传统DBN方法转换过程的架构如图4所示,DBNs和DBNt分别是表征源语音和目标语音谱包络的2个无向随机神经网络,NNst是一个带反向传播机制的神经网络. 在预训练阶段,首先对动态时间规整后的源语音与目标语音谱特征参数进行软二值化,得到
图 4
图 4 传统深度信念网络(DBN)方法训练过程架构
Fig.4 Construction of training process based on deep belief network (DBN) method
微调阶段如图4(d)所示.
传统的基于深度信念网络的谱特征转换方法没有考虑到语音帧与帧之间的联系,使得转换后语音的谱包络中存在一定的不连续性.
2. 改进DBN的原理及实现方法
2.1. 区域融合谱特征参数的构建
源语音和目标语音的静态特征参数为
本文算法通过计算源语音和目标语音中相邻帧间的差分均值,描述语音帧间的动态变化信息,得到帧间动态谱特征参数. 以源语音为例,第i帧的动态特征参数按下式计算:
式中:
源语音和目标语音的区域融合谱特征参数为
本文通过构建区域融合谱特征参数转换矩阵M,实现静态谱特征参数到含有动态谱特征信息的区域融合谱特征参数的转换. 即:
式中:M为
区域融合谱特征参数虽然也是在谱特征参数基础上增加维度而得到,但相比于传统直接扩展谱特征的方法来说,其维度增长在一定限度内. 同时,由于该方法充分利用了语音相邻帧间的差分,能够捕捉到谱特征间动态变化的细节信息,很好地解决了转换语音谱包络不连续的问题.
2.2. 误差修正网络
如图5所示,误差修正网络Err-corr NN是一个具有4层网络结构的后处理网络. 该网络的目的在于将转换后的谱特征映射为残差特征,从而得到转换语音谱特征的细节特征,使最终获得的谱包络更加贴近目标语音的谱包络. 网络输入为转换后的谱特征
图 5
图 5 补偿转换语音细节谱特征的误差修正网络
Fig.5 Error correction network used to compensate detailed spectral features of converted speech
式中:y为目标语音谱特征.
利用最小均误差反传算法训练该网络,最小化误差
式中:
2.3. 改进深度信念网络谱特征转换算法实现方法
针对传统DBN算法在语音转换中存在的问题,提出一种基于改进深度信念网络的谱特征转换算法的实现方法,具体流程如图6所示.
图 6
图 6 基于改进DBN的语音转换算法流程图
Fig.6 Voice conversion algorithm flow chart based on improved DBN
在预训练阶段,首先对源语音和目标语音进行分帧、加窗、预加重等预处理. 通过线性预测分析得到源语音和目标语音的谱包络,将源语音和目标语音每一帧的静态谱特征参数进行动态时间规整. 然后,利用区域融合谱特征转换矩阵M,将静态谱特征参数转换为区域融合谱特征参数.
由于动态特征信息的引入,训练模型的特征维度增加,模型参数随之增加,利用DBN进行无监督预训练所得到的语音高阶谱特征不稳定. 在训练时,仅进行传统DBN转换算法中有监督的微调操作,模型训练容易出现不稳定的情况,难以收敛,使得转换后语音的谱包络很难充分接近目标语音谱包络. 因此,引入后处理误差修正网络Err-corr NN,将转换后的谱特征映射为残差特征,完善网络架构,并使最终转换后的谱包络更贴近目标语音谱包络.
本文算法实现步骤如下.
1)使用源说话人二值化的区域融合谱特征
2)类似地,使用目标说话人二值化的区域融合谱特征
3)由平行高阶特征
4)利用最小均方误差反传算法对DBNs、NNst以及逆DBNt所有层的参数进行微调,得到3个训练好的神经网络DBNs、DBNt和NNst.
5)将源说话人二值化后的区域融合谱特征参数
6)利用
3. 实验结果及分析
3.1. 语料库描述及模型参数设置
本实验采用中国科学院自动化研究所的汉语语料库. 选择两男(M1和M2)、两女(F1和F2),共4个专业说话人的120句相同文本的语音,并对这涵盖400个语音音节的120句语音进行对齐. 本文选用22阶的线谱对参数LSP[11]作为谱特征参数,采用由2个RBM堆叠的深度信念网络架构. 其中,DBNs与DBNt结点数取为[22-66-16],采用CD算法由一步Gibbs采样训练,学习速率为0.05,动量为0.9,迭代次数为50次,训练样本的批次为10. 对于NNst网络而言,则使用2个含有双隐含层的网络架构,NNst网络的结点数分别为[16LL-32NL-32NL-16LL],其中LL代表“线性的”输出函数,NL代表“正切的”输出函数,误差修正网络Err-corr NN同样为双隐含层结构,其结点数分别为[22LL-44NL-44NL-22LL].
3.2. 基于谱失真的客观评价
基于谱失真的评价准则是一种被广泛使用的客观评价方法,该方法通过采用IS谱距离来作为谱失真(spectral distance, SD)测度的度量值,其计算方法[21]如下式所示:
式中:
通过改变训练语音的帧数来比较3种方法在相同性别与不同性别间转换的谱失真度变化情况. 在100句训练语音中分别选取15、25、40、60、80、100句语音作为6组训练数据,对应的帧数分别约为2 000、4 000、6 000、10 000、12 000和16 000帧,且同一组中4对说话人所选的训练语音相同. 本文分析比较4种谱特征转换模型:DBN、EDBN、NDBN和NEDBN. 其中,DBN为传统转换模型,EDBN是在传统DBN转换模型基础上加入Err-corr网络,NDBN是在传统DBN转换模型的基础上引入区域融合特征参数,NEDBN是在传统DBN转换模型的基础上同时引入区域融合特征与Err-corr网络. 如图7所示为6组不同训练数据下20句测试语音(约3 500 帧)的平均谱失真度.
图 7
图 7 不同谱特征转换模型下平均谱失真对比图
Fig.7 Comparison of average spectral distortion in different spectral feature conversion models
随着训练语音帧数的增加,转换语音的平均谱失真呈下降趋势,且下降趋势趋于平缓. 由实验结果可知,不同性别说话人间转换语音的谱失真测度整体低于50%,同性别间转换语音的谱失真测度整体高于50%. 这是由于谱失真度指标是一个相对指标,当源语音和目标语音特征参数间的谱距离较小时,谱失真度的值就会较大.
由于同性别说话人之间语音谱距离本身较小,相比不同性别之间,转换后语音谱失真更大. 不同性别间转换时,EDBN算法谱失真较NDBN算法小;同性别间转换时,NDBN算法谱失真较EDBN算法小. 不论是同性间还是异性间转换,EDBN算法与NDBN算法的谱失真都小于传统DBN算法,NEDBN算法的谱失真则具有最低的谱失真度值. 实验结果表明了本文算法的有效性.
在模型训练时长方面,由于区域融合特征参数的引入,语音中每一帧特征参数的维度变为原来的2倍,模型参数成倍增长. 因此,训练模型所需的时长随着谱特征维数的增加而线性增加,NDBN与NEDBN转换模型的训练时长是另外2种转换模型DBN与EDBN训练时长的2倍. 在语音转换效率方面,当转换模型训练好后,4种转换模型的转换效率基本相同,均具有毫秒级响应.
3.3. 基于MOS意见分和ABX测试的主观评价方法
式中:
A用来对转换语音的相似度进行评价,让评测人判断转换语音和目标语音的相似度,计算方法如下式所示:
式中:
如表1所示为传统DBN、NDBN、EDBN与NEDBN算法在训练语音帧数为4 000、10 000和16 000帧模型下的MOS值与ABX值. 从主观评价指标MOS和ABX可以看出,NEDBN方法转换后的语音清晰度、自然度与可理解度都较传统DBN方法好,尤其是在同性别间的转换,ABX值达到了80%以上,MOS值接近3.0分. 在模型相同的条件下,随着训练语音帧数的增加,得到的转换效果越好. 在听觉上,“喳喳”的噪声明显较少,听觉效果有较大的提升.
表 1 4种不同转换算法的MOS值与ABX值对比
Tab.1
转换 算法 | 帧数/ 103 | MOS | ABX | |||||||
F-M | F-F | M-F | M-M | F-M | F-F | M-F | M-M | |||
DBN | 4 | 2.5 | 2.2 | 2.5 | 2.3 | 86.2 | 74.8 | 86.5 | 76.2 | |
10 | 2.7 | 2.4 | 2.7 | 2.5 | 88.4 | 75.2 | 88.9 | 78.4 | ||
16 | 2.8 | 2.5 | 2.9 | 2.7 | 90.1 | 76.4 | 91.2 | 79.6 | ||
NDBN | 4 | 2.5 | 2.4 | 2.6 | 2.4 | 87.5 | 75.3 | 88.1 | 79.1 | |
10 | 2.8 | 2.6 | 2.8 | 2.6 | 91.1 | 76.1 | 91.6 | 80.4 | ||
16 | 2.8 | 2.6 | 2.9 | 2.8 | 91.5 | 77.2 | 92.8 | 82.1 | ||
EDBN | 4 | 2.6 | 2.3 | 2.8 | 2.3 | 88.4 | 75.1 | 89.1 | 77.8 | |
10 | 2.9 | 2.5 | 2.9 | 2.5 | 92.5 | 75.8 | 92.9 | 79.1 | ||
16 | 2.9 | 2.5 | 3.0 | 2.8 | 92.8 | 76.9 | 93.1 | 81.7 | ||
NEDBN | 4 | 2.7 | 2.7 | 2.9 | 2.5 | 89.5 | 80.0 | 90.3 | 81.7 | |
10 | 2.9 | 2.9 | 2.9 | 2.7 | 92.6 | 81.2 | 92.9 | 82.3 | ||
16 | 3.0 | 2.7 | 3.1 | 2.8 | 93.5 | 82.1 | 94.5 | 83.5 |
3.4. 实际语音转换效果对比
如图8所示为文本“从奴隶到将军的时候”的源语音、目标语音、DBN转换语音以及NEDBN转换语音的波形对比图. 图中,R为语音波形的幅度,t为时间. 可以看出,由NEDBN算法转换出的语音的时域波形连续性与细节丰富性较传统DBN算法更好. 同时,使用NEDBN算法转换出的语音听上去更接近于目标语音.
图 8
图 8 源语音、目标语音与转换语音的波形对比图
Fig.8 Waveform comparison of source speech, target speech and converted speech
4. 结 语
本文针对传统DBN方法存在的语音谱包络的失真与不连续问题,提出了一种改进的语音转换建模方法. 实验结果表明,提出的NEDBN方法在控制特征维度不致过大的情况下,有效改善了转换语音帧间不连续的问题;同时,相比于其他方法,NEDBN方法在可训练平行语音数不多的情况下,能够使转换后语音谱包络与目标语音谱包络之间谱失真相对更小,语音的清晰度和可理解度在听觉上也相对更高.
提出的方法在一定程度上缓解了语音谱包络的不连续性问题,降低了谱失真,但转换出的语音仍带有部分杂音. 因此,后续研究将聚焦于进一步减小杂音,使得转换语音更加清晰、自然.
参考文献
Interpretable parametric voice conversion functions based on Gaussian Mixture Models and constrained transformations
[J].
Alaryngeal speech enhancement based on one-to-many eigenvoice conversion
[J].DOI:10.1109/TASLP.2013.2286917 [本文引用: 1]
Statistical voice conversion techniques for body-conducted unvoiced speech enhancement
[J].DOI:10.1109/TASL.2012.2205241 [本文引用: 1]
Voice conversion algorithm based on piecewise linear conversion rules of formant frequency and spectral tilt
[J].
Analysis of speaker adaptation algorithm
[J].DOI:10.1109/TASL.2008.2006647 [本文引用: 1]
一种基于预测谱偏移的自适应高斯混合模型在语音转换中的应用
[J].
An adaptive Gaussian Mixed Model based on predictive spectral shift and its application in voice conversion
[J].
基于径向基神经网络的声音转换
[J].DOI:10.3969/j.issn.1003-0077.2004.01.012 [本文引用: 2]
Voice conversion by GA-based RBF neural network
[J].DOI:10.3969/j.issn.1003-0077.2004.01.012 [本文引用: 2]
Transformation of formants for voice conversion using artificial neural networks
[J].
采用深度信念网络的语音转换方法
[J].DOI:10.3778/j.issn.1002-8331.1409-0383 [本文引用: 1]
Voice conversion using deep belief networks
[J].DOI:10.3778/j.issn.1002-8331.1409-0383 [本文引用: 1]
Training products of experts by minimizing contrastive divergence
[J].
Voice conversion based on feature combination with limited training data
[J].
Voice conversion based on weighted frequency warping
[J].DOI:10.1109/TASL.2009.2038663 [本文引用: 1]
/
〈 |
|
〉 |
