浙江大学学报(工学版), 2019, 53(12): 2372-2380 doi: 10.3785/j.issn.1008-973X.2019.12.015

计算机科学与人工智能

改进深度信念网络在语音转换中的应用

王文浩,, 张筱, 万永菁,

Improved deep belief network and its application in voice conversion

WANG Wen-hao,, ZHANG Xiao, WAN Yong-jing,

通讯作者: 万永菁,女,副教授. orcid.org/0000-0002-3722-7271. E-mail: wanyongjing@ecust.edu.cn

收稿日期: 2018-10-10  

Received: 2018-10-10  

作者简介 About authors

王文浩(1994—),男,硕士生,从事语音信号处理、模式识别研究.orcid.org/0000-0002-3199-2618.E-mail:13122386132@163.com , E-mail:13122386132@163.com

摘要

综合考虑语音帧间关系及后处理网络的效果,提出一种改进的基于深度信念网络(DBN)的语音转换方法. 该方法利用线性预测分析-合成模型提取说话人线性预测谱的特征参数,构建基于区域融合谱特征参数的深度信念网络用以预训练模型,经过微调阶段后引入误差修正网络以实现细节谱特征的补偿. 对比实验结果表明,随着训练语音帧数的增加,转换语音的谱失真呈下降趋势. 同时,在训练语音帧数较少的情况下,改进方法在异性间转换的谱失真小于50%,在同性间转换的谱失真小于60%. 实验结果表明,改进方法的谱失真度较传统方法降低约6.5%,且同性别间转换效果比异性间转换效果更为明显,转换后语音的自然度和可理解度明显提高.

关键词: 深度信念网络(DBN) ; 语音转换 ; 区域融合谱特征 ; 误差修正网络 ; 谱失真度

Abstract

An improved voice conversion method based on deep belief network (DBN) was proposed, comprehensively considering the relationship between the speech frames and the effect of post-processing network. The method utilized a linear predictive analysis-synthesis model to extract the feature parameters of a speaker’s linear predictive spectrum, and the regional fusion spectral feature parameters for DBN were constructed so as to pretrain the model. Finally, an error correction network for the feature compensation of a detailed spectrum was introduced after fine-tuning. The comparison results show that, the spectral distortion of the converted speech shows the tendency of decreasing as the number of speech frames increases. Meanwhile, when the number of training speech frames was small, the spectral distortion of the proposed method was less than 50% between genders and less than 60% within genders. The experimental results showed that the spectral distortion of the proposed method was 6.5% lower than that of the traditional method. The proposed method significantly improves the naturalness and intelligibility of converted speech in view of two different subjective evaluations.

Keywords: deep belief network (DBN) ; voice conversion ; regional fusion spectral feature ; error correction network ; spectral distortion

PDF (1364KB) 元数据 多维度评价 相关文章 导出 EndNote| Ris| Bibtex  收藏本文

本文引用格式

王文浩, 张筱, 万永菁. 改进深度信念网络在语音转换中的应用. 浙江大学学报(工学版)[J], 2019, 53(12): 2372-2380 doi:10.3785/j.issn.1008-973X.2019.12.015

WANG Wen-hao, ZHANG Xiao, WAN Yong-jing. Improved deep belief network and its application in voice conversion. Journal of Zhejiang University(Engineering Science)[J], 2019, 53(12): 2372-2380 doi:10.3785/j.issn.1008-973X.2019.12.015

语音转换技术旨在保持语义信息不变,修改一个说话人(源说话人)的声音,使其听起来像是由另一个给定说话人(目标说话人)发出的声音[1]. 语音转换技术作为语音信号处理领域的一个新兴分支,具有重要的研究价值和应用前景,可应用于语音修复[2]、语音增强[3]、影视配音、保密通信[4-5]等多个领域. 语音转换包括谱包络转换和基频轨迹转换两部分,由于语音的谱包络中包含大量的内容信息与个性化特征,谱包络转换在语音转换中占主导地位. 因此,本文仅对语音基频轨迹进行简单的单高斯转换[6],主要研究语音中基于谱包络的转换方法.

基于谱包络的语音转换算法一直是研究热点,在过去几十年中,有许多相关方法已被提出,这些方法大致可分为两类:基于规则的方法和基于统计的方法. 前一种方法基于特定的规则直接修改语音信号的声学信息,该方法尽管保留了大部分信息,但由于不同说话人需要不同的转换规则,不具有通用性. 基于统计的方法估计了源说话人和目标说话人间谱包络的非线性映射函数,建立了比基于规则的方法更精确的复杂转换模型,具有普遍性与适用性. 在基于统计的语音转换算法中,较经典的方法有:矢量量化(vector quantization, VQ)法[7]、隐马尔科夫模型(hidden Markov model, HMM)法[8]、高斯混合模型(Gaussian mixed model, GMM)法[9]、改进的GMM算法[10]以及人工神经网络(artificial neural network, ANN)法[11-13]等. 近些年来,随着人工智能研究领域的兴起,将各类神经网络应用于语音转换中已成为新的研究热点. 其中,基于传统深度信念网络(deep belief network, DBN)的语音转换算法将原始谱特征抽象到高层空间中,并在高层空间中进行谱特征转换,使得模型即使在训练语音数不多的情况下,也能够转换出使人可接受的语音. 但传统DBN转换模型忽略了转换语音帧间动态变化的信息,即使通过微调网络修正,效果仍然不佳,转换出的语音谱包络有一定的失真与不连续,在听觉上表现为含有一些“喳喳”的噪声. 叶伟等[14]针对此问题,提出对每一帧特征参数,取其前后相邻的7帧,利用扩展后的15帧特征训练DBN. 该算法在一定程度上缓解了各语音帧独立转换时引起的谱包络不连续问题,但不能刻画出语音帧间动态变化的细节信息,因此,谱包络不连续问题仍然存在. 同时,直接扩展相邻多帧的特征,使得扩展后特征维度过大,冗余信息过多,导致网络参数变多,模型训练不稳定,训练时长大幅度增加.

针对转换语音谱包络出现的失真与不连续的问题,本文提出一种改进的DBN算法,构建源说话人和目标说话人谱包络间的非线性关系. 该算法由2个独立的受限玻尔兹曼机(restricted boltzmann machine, RBM)、1个级联的神经网络和1个后处理的神经网络组成. 利用源说话人和目标说话人的语音分别训练2个RBM. 然后,将2个RBM的高层特征用一个级联的神经网络连接. 利用一个具有后处理机制的误差修正网络补偿语音的细节谱特征,即通过引入区域融合谱特征与误差修正网络,以减小转换谱包络与目标谱包络间的失真,改善转换谱包络不连续的现象,提升转换后语音的主、客观评价指标.

1. 传统DBN语音转换算法

1.1. 语音转换流程

语音转换过程分为训练和转换2个阶段,如图1所示. 在训练阶段,首先对源语音和目标语音进行分帧、加窗、预加重等预处理[15],通过线性预测分析提取谱包络与基频轨迹;然后分别通过动态时间规整后谱包络和基频轨迹的转换算法,得到相应的转换模型. 在转换阶段,对测试语音进行预处理,同样利用线性预测分析提取谱包络与基频轨迹,采用训练阶段得到的转换模型进行转换,最后基于转换后的谱包络与基音频率,采用参数合成法[16]得到合成语音.

图 1

图 1   训练、转换阶段语音转换流程图

Fig.1   Voice conversion flow chart of training and conversion phase


1.2. 受限玻尔兹曼机与深度信念网络

可将RBM视为一个二分无向图模型[17],如图2(a)所示. 该模型有2层结构,其中,双线圈表示显层,单线圈表示隐层. 显层对应显随机变量集 ${{v}} = {[{v_1},{v_{\rm{2}}},\cdots,{v_{{m}}}]^{\rm{T}}}$,隐层对应隐随机变量集 ${{h}} = $ $ {[{h_1},{h_{\rm{2}}},\cdots,{h_n}]^{\rm{T}}}$,其中mn分别为显层和隐层单元数.

图 2

图 2   受限玻尔兹曼机与深度信念网络的图模型

Fig.2   Graphical model of restrict Boltzmann machine and deep belief network


假设 ${{v}} \in {\{ 0,1\} ^{{m}}}$${{h}} \in {\{ 0,1\} ^{{n}}}$均为二值随机向量,状态 $\{ {{v}},{{h}}\} $的能量函数定义为

$E({{v}},{{h}}) = - \sum\limits_{i = 1}^{{m}} {{a_i}{v_i}} - \sum\limits_{j = 1}^{{n}} {{b_j}{h_j}} - \sum\limits_{i = 1}^{{m}} {\sum\limits_{j = 1}^{{n}} {{w_{ij}}{v_i}{h_j}} } .$

式中: ${{a}} = {[{a_1},{a_2},\cdots,{a_{{m}}}]^{\rm{T}}}$$\,{{b}} = {[{b_1},{b_2},\cdots,{b_{{n}}}]^{\rm{T}}}$分别为显层和隐层的偏置, ${ w}_{ij} $W中的元素, ${{W}} \in {{\bf{R}}^{{{m}} \times {{n}}}}$为连接两层间的权值矩阵.

深度信念网络(DBN)是一个由多隐含层构成的类似于自编码器的概率生成模型,具有强大的抽象、表征能力,可将原始空间中谱包络特征编码为只含有“0”和“1”的高层空间中的抽象特征[18]. 如图2(b)所示为一个含有2个隐含层的DBN,整个网络由2个RBM堆叠而成. 假设vhll∈{1, 2})均为二值随机变量,对于l=1,在给定显层单元条件下,隐层各神经元开启的概率为

$p({{{h}}^{(1)}} = {\bf{1}}\,\,|\,\,{{v}}) = \sigma ({{{a}}^{(2)}} + {{{v}}^{\rm {T}}}{{{W}}^{(1)}}).$

式中: ${{{W}}^{(1)}} \in {{\bf R}^{{n_{{v_0}}} \times {n_{{h_1}}}}}$为DBN的第一层权值矩阵,激励函数 $\sigma ( \cdot )$为Sigmoid函数.

对于l=2,相邻2个隐层单元的开启概率为

$p({{{h}}^{(2)}} = {\bf{1}}|{{{h}}^{(1)}}) = \sigma ({{{b}}^{(2)}} + {{ v}^{\rm {T}}}{{W}}).$

式中: ${{{W}}^{(2)}} \in {{\bf R}^{{n_{{h_1}}} \times {n_{{h_2}}}}}$为DBN的第二层权值矩阵.

给定训练数据集,DBN模型的参数 ${{\theta}} = \{ {{{a}}^{(1)}}, $ ${{{W}}^{(1)}},{{{a}}^{(2)}},{{{b}}^{(2)}},{{{W}}^{(2)}}\} $能够用对比散度(CD)算法通过最大似然准则估计[19].

1.3. 基于DBN的语音转换算法原理

DBN有多种形式,其中最常见的是基于Bernoulli-Bernoulli形式的DBN[20]. 在这种形式中,每一个显层单元是二值的. 由于谱特征参数的连续变化性,很难固定一个阈值对其进行硬二值化,因此,需要将语音的谱特征参数x进行软二值化:

${\sigma _\theta }({{ x}}) = \frac{1}{{1 + {{\rm{e}} ^{ - {\theta} { x}}}}}.$

式中:x为语音的谱特征参数, $\theta $为增益系数.

图3所示为函数 ${\sigma _\theta }({{x}})$分别在 $\theta = 1$和2时的图像. 可以看出,该函数取值在(0, 1.0),当 $\theta = {\rm{1}}$时,为Sigmoid函数;当 $\theta = 2$ 时,函数图像在x=0附近相比Sigmoid函数更为“陡峭”,可用于将谱特征参数二值化. 本文取 $\theta = 2$ 对特征参数进行软二值化.

图 3

图 3   Sigmoid在参数取1和2时的函数图像

Fig.3   Graph of Sigmoid with parameters of 1 and 2


传统DBN方法转换过程的架构如图4所示,DBNs和DBNt分别是表征源语音和目标语音谱包络的2个无向随机神经网络,NNst是一个带反向传播机制的神经网络. 在预训练阶段,首先对动态时间规整后的源语音与目标语音谱特征参数进行软二值化,得到 ${\sigma _\theta }({{x}})$${\sigma _\theta }({{y}})$.图4(a)~(c)所示,分别建立表征源和目标特征参数 ${\sigma _\theta }({{x}})$${\sigma _\theta }({{y}})$谱包络分布的DBNs和DBNt. 然后将DBNs和DBNt的输出hsht用NNst相连,从而建立源与目标间的非线性转换模型.

图 4

图 4   传统深度信念网络(DBN)方法训练过程架构

Fig.4   Construction of training process based on deep belief network (DBN) method


微调阶段如图4(d)所示. ${\sigma _\theta }({{x}})$为输入, ${\sigma _\theta }({{y}})$为输出,利用最小均方误差反传算法对DBNs、NNst以及逆DBNt的所有层的参数进行微调,最终得到完整的转换系统. 在转换阶段,将待转换语音二值化的谱特征参数依次通过DBNs、NNst和逆DBNt,再通过去二值化,得到转换后目标说话人语音的谱特征.

传统的基于深度信念网络的谱特征转换方法没有考虑到语音帧与帧之间的联系,使得转换后语音的谱包络中存在一定的不连续性.

2. 改进DBN的原理及实现方法

2.1. 区域融合谱特征参数的构建

源语音和目标语音的静态特征参数为

${{x}} = {[{x_1},{x_2},\cdots,{x_i},\cdots,{x_N}]^{\rm T}}{\text{,}}$

$\!\!\!\!\!\!\!\!{{y}} = {[{y_1},{y_2},\cdots,{y_i},\cdots,{y_N}]^{\rm T}}.$

本文算法通过计算源语音和目标语音中相邻帧间的差分均值,描述语音帧间的动态变化信息,得到帧间动态谱特征参数. 以源语音为例,第i帧的动态特征参数按下式计算:

$\begin{split} \Delta {{\bar x}_i} =& [\Delta {x_{i + 1}} + \Delta {x_i}]/2 = [({x_{i + 1}} - {x_i}) + ({x_i} - {x_{i - 1}})]/2 {\rm{ = }} \\ &0.5{x_{i + 1}} - 0.5{x_{i - 1}}. \\ \end{split} $

式中: ${x_i} \in {{\bf{R}}^L}$$\vartriangle {\bar x_i} \in {{\bf{R}}^{{L}}}$分别为源说话人第i帧静态谱特征参数与动态谱特征参数,L为每一帧语音特征参数的维度.

源语音和目标语音的区域融合谱特征参数为

$\begin{aligned} {{X}} &= {[{x_1},\Delta {\bar x_1},{x_2},\Delta {\bar x_2},\cdots,{x_N},\Delta {\bar x_N}]^{\rm T}}{\text{,}}\\ {{Y}} &= {[{y_1},\Delta {\bar y_1},{y_2},\Delta {\bar y_2},\cdots{y_N},\Delta {\bar y_N}]^{\rm T}}. \end{aligned}$

本文通过构建区域融合谱特征参数转换矩阵M,实现静态谱特征参数到含有动态谱特征信息的区域融合谱特征参数的转换. 即: ${{X}} = {{Mx}}$${{Y}} = {{My}}$. 以源语音为例, ${{X}} = {{Mx}}$展开后可写为

$\begin{aligned}&{{X}} = \left[ {\begin{array}{*{20}{c}} {{x_1}} \\ {\Delta {{\bar x}_1}} \\ {{x_2}} \\ {\Delta {{\bar x}_2}} \\ \vdots \\ {{x_N}} \\ {\Delta {{\bar x}_N}} \end{array}} \right]{\rm{ }} = {\rm{ }}{{M}} \cdot \left[ {\begin{array}{*{20}{c}} {{x_1}} \\ {{x_2}} \\ {{x_3}} \\ {} \\ \vdots \\ {} \\ {{x_N}} \end{array}} \right]{\rm{ = }}\\&\left[ {\begin{array}{*{20}{c}} 1&0&0&0& \cdots&0 & 0 &0 \\ 0&{0.5}&0&0& \cdots&0 & 0 &0 \\ 0&1&0&0& \cdots&0 & 0&0 \\ { - 0.5}&0&{0.5}&0& \cdots&0 & 0&0 \\ 0&0&1&0& \cdots&0& 0 &0 \\ \vdots & \vdots & \vdots & \vdots &{}& \vdots & \vdots & \vdots \\ 0& 0 & 0 &0 & \cdots &{ - 0.5}&0&{0.5} \\ 0&0 & 0 & 0 & \cdots& 0&0&1 \\ 0& 0 &0 & 0 & \cdots &0 &{ - 0.5}&0 \end{array}} \right]{\left[ {\begin{array}{*{20}{c}} {{x_1}} \\ {{x_2}} \\ {{x_3}} \\ {} \\ {} \\ \vdots \\ {} \\ {} \\ {{x_N}} \end{array}} \right]_.}\end{aligned}$

式中:M$2{{LN}} \times {{LN}}$维矩阵,x${{LN}} \times 1$维矩阵,X$2{{LN}} \times 1$维矩阵,N为语音的总帧数.

区域融合谱特征参数虽然也是在谱特征参数基础上增加维度而得到,但相比于传统直接扩展谱特征的方法来说,其维度增长在一定限度内. 同时,由于该方法充分利用了语音相邻帧间的差分,能够捕捉到谱特征间动态变化的细节信息,很好地解决了转换语音谱包络不连续的问题.

2.2. 误差修正网络

图5所示,误差修正网络Err-corr NN是一个具有4层网络结构的后处理网络. 该网络的目的在于将转换后的谱特征映射为残差特征,从而得到转换语音谱特征的细节特征,使最终获得的谱包络更加贴近目标语音的谱包络. 网络输入为转换后的谱特征 ${{{y}}_{{\rm{con}}}}$,目标为残差特征r,残差特征由下式计算:

图 5

图 5   补偿转换语音细节谱特征的误差修正网络

Fig.5   Error correction network used to compensate detailed spectral features of converted speech


${{r}} = {{y}} - {{{y}}_{{\rm{con}}}}.$

式中:y为目标语音谱特征.

利用最小均误差反传算法训练该网络,最小化误差 $\varepsilon {\rm{ = ||}}{{r}} - {{{r}}'}{\rm{|}}{{\rm{|}}^2}$. 经误差修正网络映射后输出的残差特征 ${{{r}}'}$由下式计算:

${{{r}}'} = \tilde f \left\{{{W}}_{st}^{'(3)}f \left[{{W}}_{st}^{'(2)}f({{W}}_{st}^{'(1)}{{{y}}_{{\rm{con}}}}) \right] \right\}.$

式中: $\tilde f (\omega ){\rm{ = }}\omega $$f(\omega ){\rm{ = tanh\;(}}\omega )$${{W}}_{{\rm{st}}}^{'(1)}$${{W}}_{{\rm{st}}}^{'(2)}$${{W}}_{{\rm{st}}}^{'(3)}$分别为网络的第一、第二和第三层权重矩阵.

2.3. 改进深度信念网络谱特征转换算法实现方法

针对传统DBN算法在语音转换中存在的问题,提出一种基于改进深度信念网络的谱特征转换算法的实现方法,具体流程如图6所示.

图 6

图 6   基于改进DBN的语音转换算法流程图

Fig.6   Voice conversion algorithm flow chart based on improved DBN


在预训练阶段,首先对源语音和目标语音进行分帧、加窗、预加重等预处理. 通过线性预测分析得到源语音和目标语音的谱包络,将源语音和目标语音每一帧的静态谱特征参数进行动态时间规整. 然后,利用区域融合谱特征转换矩阵M,将静态谱特征参数转换为区域融合谱特征参数.

由于动态特征信息的引入,训练模型的特征维度增加,模型参数随之增加,利用DBN进行无监督预训练所得到的语音高阶谱特征不稳定. 在训练时,仅进行传统DBN转换算法中有监督的微调操作,模型训练容易出现不稳定的情况,难以收敛,使得转换后语音的谱包络很难充分接近目标语音谱包络. 因此,引入后处理误差修正网络Err-corr NN,将转换后的谱特征映射为残差特征,完善网络架构,并使最终转换后的谱包络更贴近目标语音谱包络.

本文算法实现步骤如下.

1)使用源说话人二值化的区域融合谱特征 ${\sigma _\theta }({{X}})$训练DBNs网络,得到高阶特征 ${{{h}}_{\rm{s}}}$.

2)类似地,使用目标说话人二值化的区域融合谱特征 ${\sigma _\theta }({{Y}})$训练DBNt网络,得到高阶特征 ${{{h}}_{\rm{t}}}$.

3)由平行高阶特征 ${{{h}}_{\rm{s}}}$${{{h}}_{\rm{t}}}$,训练NNst网络,得到高阶空间中谱特征参数的非线性映射关系,网络输出为 ${{h}}_{\rm{t}}'$.

4)利用最小均方误差反传算法对DBNs、NNst以及逆DBNt所有层的参数进行微调,得到3个训练好的神经网络DBNs、DBNt和NNst.

5)将源说话人二值化后的区域融合谱特征参数 ${\sigma _\theta }({{X}})$依次输入DBNs、NNst、逆DBNt网络进行计算,得到输出Y,然后利用 $\sigma _\theta ^{{\rm{ - }}1}( \cdot )$去二值化,得到 ${{{Y}}_{{\rm{con}}}}$. 再由式(9)得到转换后的仅含静态特征的谱特征参数 ${{ y}_{{\rm{con}}}}$

$\begin{aligned} {{{y}}_{{\rm{con}}}} =& {{{M}}^ + } \cdot \sigma _\theta ^{{\rm{ - }}1}({{{Y}}_{{\rm{con}}}}{\rm{)}} = \\ &{({{{M}}^{\rm T}}{{M}})^{ - 1}}{{{M}}^{\rm T}} \cdot \sigma _\theta ^{{\rm{ - }}1}({{{Y}}_{{\rm{con}}}}). \\ \end{aligned} $

6)利用 ${{{y}}_{{\rm{con}}}}$和残差特征参数r,训练误差修正网络Err-corr NN. 将 ${{{y}}_{{\rm{con}}}}$输入训练好的Err-corr NN网络,得到残差特征 ${{{r}}'}$,利用下式得到转换后用于合成语音的谱特征参数 ${{y}}_{{\rm{con}}}'$

${{y}}_{{\rm{con}}}' = {{{y}}_{{\rm{con}}}} + {{{r}}'}.$

3. 实验结果及分析

3.1. 语料库描述及模型参数设置

本实验采用中国科学院自动化研究所的汉语语料库. 选择两男(M1和M2)、两女(F1和F2),共4个专业说话人的120句相同文本的语音,并对这涵盖400个语音音节的120句语音进行对齐. 本文选用22阶的线谱对参数LSP[11]作为谱特征参数,采用由2个RBM堆叠的深度信念网络架构. 其中,DBNs与DBNt结点数取为[22-66-16],采用CD算法由一步Gibbs采样训练,学习速率为0.05,动量为0.9,迭代次数为50次,训练样本的批次为10. 对于NNst网络而言,则使用2个含有双隐含层的网络架构,NNst网络的结点数分别为[16LL-32NL-32NL-16LL],其中LL代表“线性的”输出函数,NL代表“正切的”输出函数,误差修正网络Err-corr NN同样为双隐含层结构,其结点数分别为[22LL-44NL-44NL-22LL].

3.2. 基于谱失真的客观评价

基于谱失真的评价准则是一种被广泛使用的客观评价方法,该方法通过采用IS谱距离来作为谱失真(spectral distance, SD)测度的度量值,其计算方法[21]如下式所示:

${{D}} ={{\displaystyle\sum\limits_{n = 1}^N {{d_n}({{y}}_{{\rm{con}}}',{{y}})} }}\bigg/{{\displaystyle\sum\limits_{n = 1}^N {{d_n}({{x}},{{y}})} }} \times 100{\text{%}} .$

式中: ${d_n}({{y}}_{{\rm{con}}}',{{y}})$为第n对转换后语音帧与目标语音帧特征参数之间的IS谱距离; ${d_n}({{x}},{{y}})$为第n对源语音帧与目标语音帧特征参数之间的IS谱距离;D为平均谱失真度,是转换后语音和目标语音的谱距离与源语音和目标语音的谱距离之间的比值,比值越小,说明转换模型性能越优异.

通过改变训练语音的帧数来比较3种方法在相同性别与不同性别间转换的谱失真度变化情况. 在100句训练语音中分别选取15、25、40、60、80、100句语音作为6组训练数据,对应的帧数分别约为2 000、4 000、6 000、10 000、12 000和16 000帧,且同一组中4对说话人所选的训练语音相同. 本文分析比较4种谱特征转换模型:DBN、EDBN、NDBN和NEDBN. 其中,DBN为传统转换模型,EDBN是在传统DBN转换模型基础上加入Err-corr网络,NDBN是在传统DBN转换模型的基础上引入区域融合特征参数,NEDBN是在传统DBN转换模型的基础上同时引入区域融合特征与Err-corr网络. 如图7所示为6组不同训练数据下20句测试语音(约3 500 帧)的平均谱失真度.

图 7

图 7   不同谱特征转换模型下平均谱失真对比图

Fig.7   Comparison of average spectral distortion in different spectral feature conversion models


随着训练语音帧数的增加,转换语音的平均谱失真呈下降趋势,且下降趋势趋于平缓. 由实验结果可知,不同性别说话人间转换语音的谱失真测度整体低于50%,同性别间转换语音的谱失真测度整体高于50%. 这是由于谱失真度指标是一个相对指标,当源语音和目标语音特征参数间的谱距离较小时,谱失真度的值就会较大.

由于同性别说话人之间语音谱距离本身较小,相比不同性别之间,转换后语音谱失真更大. 不同性别间转换时,EDBN算法谱失真较NDBN算法小;同性别间转换时,NDBN算法谱失真较EDBN算法小. 不论是同性间还是异性间转换,EDBN算法与NDBN算法的谱失真都小于传统DBN算法,NEDBN算法的谱失真则具有最低的谱失真度值. 实验结果表明了本文算法的有效性.

在模型训练时长方面,由于区域融合特征参数的引入,语音中每一帧特征参数的维度变为原来的2倍,模型参数成倍增长. 因此,训练模型所需的时长随着谱特征维数的增加而线性增加,NDBN与NEDBN转换模型的训练时长是另外2种转换模型DBN与EDBN训练时长的2倍. 在语音转换效率方面,当转换模型训练好后,4种转换模型的转换效率基本相同,均具有毫秒级响应.

3.3. 基于MOS意见分和ABX测试的主观评价方法

MOS(mean opinion score, MOS)[22]和ABX[21]是2种主观评测方法. S用来对转换语音的音质进行评价,计算方法如下式所示:

${{S}} = \frac{{\rm{1}}}{{{{U}} \times {{V}}}}\sum\limits_{i = 1}^{{U}} {\sum\limits_{j = 1}^{{V}} {{{{s}}_{ij}}} } .$

式中: ${{{s}}_{ij}}$为第i个人对第j段语音的打分. 分值从1分到5分,5分最好,1分最差. U为参与测试人员的数量,V为总共需要测试的语音数目.

A用来对转换语音的相似度进行评价,让评测人判断转换语音和目标语音的相似度,计算方法如下式所示:

${{A}} = \frac{{\rm{1}}}{{{{U}} \times {{V}}}}\sum\limits_{i = 1}^{{U}} {\sum\limits_{j = 1}^{{V}} {{\theta _{ij}}} } \times 100{\text{%}} .$

式中: ${\theta _{ij}}$为0或者1,取1表示转换后语音更加像目标说话人的语音;取0表示转换后语音更加像源说话人的语音.

表1所示为传统DBN、NDBN、EDBN与NEDBN算法在训练语音帧数为4 000、10 000和16 000帧模型下的MOS值与ABX值. 从主观评价指标MOS和ABX可以看出,NEDBN方法转换后的语音清晰度、自然度与可理解度都较传统DBN方法好,尤其是在同性别间的转换,ABX值达到了80%以上,MOS值接近3.0分. 在模型相同的条件下,随着训练语音帧数的增加,得到的转换效果越好. 在听觉上,“喳喳”的噪声明显较少,听觉效果有较大的提升.

表 1   4种不同转换算法的MOS值与ABX值对比

Tab.1  Comparison of MOS and ABX values by four different conversion algorithms

转换
算法
帧数/
103
MOS ABX
F-M F-F M-F M-M F-M F-F M-F M-M
DBN 4 2.5 2.2 2.5 2.3 86.2 74.8 86.5 76.2
10 2.7 2.4 2.7 2.5 88.4 75.2 88.9 78.4
16 2.8 2.5 2.9 2.7 90.1 76.4 91.2 79.6
NDBN 4 2.5 2.4 2.6 2.4 87.5 75.3 88.1 79.1
10 2.8 2.6 2.8 2.6 91.1 76.1 91.6 80.4
16 2.8 2.6 2.9 2.8 91.5 77.2 92.8 82.1
EDBN 4 2.6 2.3 2.8 2.3 88.4 75.1 89.1 77.8
10 2.9 2.5 2.9 2.5 92.5 75.8 92.9 79.1
16 2.9 2.5 3.0 2.8 92.8 76.9 93.1 81.7
NEDBN 4 2.7 2.7 2.9 2.5 89.5 80.0 90.3 81.7
10 2.9 2.9 2.9 2.7 92.6 81.2 92.9 82.3
16 3.0 2.7 3.1 2.8 93.5 82.1 94.5 83.5

新窗口打开| 下载CSV


3.4. 实际语音转换效果对比

图8所示为文本“从奴隶到将军的时候”的源语音、目标语音、DBN转换语音以及NEDBN转换语音的波形对比图. 图中,R为语音波形的幅度,t为时间. 可以看出,由NEDBN算法转换出的语音的时域波形连续性与细节丰富性较传统DBN算法更好. 同时,使用NEDBN算法转换出的语音听上去更接近于目标语音.

图 8

图 8   源语音、目标语音与转换语音的波形对比图

Fig.8   Waveform comparison of source speech, target speech and converted speech


4. 结 语

本文针对传统DBN方法存在的语音谱包络的失真与不连续问题,提出了一种改进的语音转换建模方法. 实验结果表明,提出的NEDBN方法在控制特征维度不致过大的情况下,有效改善了转换语音帧间不连续的问题;同时,相比于其他方法,NEDBN方法在可训练平行语音数不多的情况下,能够使转换后语音谱包络与目标语音谱包络之间谱失真相对更小,语音的清晰度和可理解度在听觉上也相对更高.

提出的方法在一定程度上缓解了语音谱包络的不连续性问题,降低了谱失真,但转换出的语音仍带有部分杂音. 因此,后续研究将聚焦于进一步减小杂音,使得转换语音更加清晰、自然.

参考文献

ERRO D, ALONSO A, SERRANO L

Interpretable parametric voice conversion functions based on Gaussian Mixture Models and constrained transformations

[J]. Computer Speech and Language, 2014, 30 (1): 3- 15

[本文引用: 1]

DOI H, TODA T, NAKAMURA K, et al

Alaryngeal speech enhancement based on one-to-many eigenvoice conversion

[J]. IEEE/ACM Transactions on Audio, Speech, and Language Processing, 2014, 22 (1): 172- 183

DOI:10.1109/TASLP.2013.2286917      [本文引用: 1]

TODA T, NAKAGIRI M, SHIKANO K

Statistical voice conversion techniques for body-conducted unvoiced speech enhancement

[J]. IEEE Transactions on Audio, Speech, and Language Processing, 2012, 20 (9): 2505- 2517

DOI:10.1109/TASL.2012.2205241      [本文引用: 1]

DENG L, ACERO A, JIANG L, et al. High-performance robust speech recognition using stereo training data [C] // IEEE International Conference on Acoustics, Speech, and Signal Processing. Las Vegas: IEEE, 2001: 301-304.

[本文引用: 1]

KUNIKOSHI A, QIAN L, MINEMATSU N, et al. Speech generation from hand gestures based on space mapping [C] // Tenth Annual Conference of the International Speech Communication Association. England: INTERSPEECH, 2009: 308-311.

[本文引用: 1]

MIZUNO H, ABE M

Voice conversion algorithm based on piecewise linear conversion rules of formant frequency and spectral tilt

[J]. IEEE Transactions on Audio, Speech, and Language Processing, 2013, 1 (6): 469- 472

[本文引用: 1]

ABE M, NAKAMURA S, et al. Voice conversion through vector quantization [C] // IEEE International Conference on Acoustics, Speech, and Signal Processing. Las Vegas: IEEE, 1988: 71-76.

[本文引用: 1]

YAMAGISHI J, KOBAYASHI T, NAKANO Y, et al

Analysis of speaker adaptation algorithm

[J]. IEEE Transactions on Audio, Speech, and Language Processing, 2009, 17 (1): 66- 83

DOI:10.1109/TASL.2008.2006647      [本文引用: 1]

SARUWATARI T H, SHIKANO K. Voice conversion algorithm based on Gaussian Mixture Model with dynamic frequency warping of STRAIGHT spectrum [C] // Proceedings of IEEE International Conference on Acoust, Speech, Signal Processing. Las Vegas: IEEE, 2001: 841-844.

[本文引用: 1]

沈惠玲, 万永菁

一种基于预测谱偏移的自适应高斯混合模型在语音转换中的应用

[J]. 华东理工大学学报:工学版, 2017, 43 (4): 546- 552

[本文引用: 1]

SHEN Hui-ling, WAN Yong-jing

An adaptive Gaussian Mixed Model based on predictive spectral shift and its application in voice conversion

[J]. Journal of East China University of Science and Technology: Engineering Science, 2017, 43 (4): 546- 552

[本文引用: 1]

左国玉, 刘文举, 阮晓钢

基于径向基神经网络的声音转换

[J]. 中文信息学, 2004, 18 (1): 78- 84

DOI:10.3969/j.issn.1003-0077.2004.01.012      [本文引用: 2]

ZUO Guo-yu, LIU Wen-ju, RUAN Xiao-gang

Voice conversion by GA-based RBF neural network

[J]. Journal of Chinese Information Processing, 2004, 18 (1): 78- 84

DOI:10.3969/j.issn.1003-0077.2004.01.012      [本文引用: 2]

NARENDRANATH M, MURTHY H A, RAJENDRAN S, et al

Transformation of formants for voice conversion using artificial neural networks

[J]. Speech Communication, 1995, 16 (2): 207- 216

王民, 黄斐, 刘利, 等

采用深度信念网络的语音转换方法

[J]. 计算机工程与应用, 2016, 52 (15): 168- 171

DOI:10.3778/j.issn.1002-8331.1409-0383      [本文引用: 1]

WANG Ming, HUANG Fei, LIU Li, et al

Voice conversion using deep belief networks

[J]. Computer Engineering and Applications, 2016, 52 (15): 168- 171

DOI:10.3778/j.issn.1002-8331.1409-0383      [本文引用: 1]

叶伟, 俞一彪. 超帧特征空间下基于深度置信网络的语音转换[D]. 苏州: 苏州大学, 2016.

[本文引用: 1]

YE Wei, YU Yi-biao. Voice conversion using deep belief network in super frame feature space[D]. Soochow: Soochow University, 2016.

[本文引用: 1]

宋知用. Matlab在语音信号分析与合成中的应用: 第1版 [M]. 北京: 北京航空航天大学出版社, 2013: 2-16, 62-66, 161-162.

[本文引用: 1]

吕士楠, 初敏, 许洁萍, 等. 汉语语音合成: 原理和技术[M]. 北京: 科学出版社, 2012.

[本文引用: 1]

SMOLENSKY P. Information processing in dynamical systems: foundations of harmony theory [D]. Cambridge, MA, USA, 1986, 1(6): 194-281.

[本文引用: 1]

周志华. 机器学习[M]. 北京: 清华大学出版社, 2013: 111-115.

[本文引用: 1]

HINTON G

Training products of experts by minimizing contrastive divergence

[J]. Neural Computation, 2002, 12 (14): 1711- 1800

[本文引用: 1]

NAKASHIKA T, TAKASHIMA R, TAKIGUCH T, et al. Voice conversion in high-order eigen space using deep belief nets [C] // Interspeech. Lyon: INTERSPEECH, 2013: 369-372.

[本文引用: 1]

GHORBANDOOST M, SAYADIYAN A, AHANGAR M, et al.

Voice conversion based on feature combination with limited training data

[J]. Speech Communication, 2015, 67 (3): 115- 117

[本文引用: 2]

ERRO D, MORENO A, BONAFONTE A

Voice conversion based on weighted frequency warping

[J]. IEEE Transactions on Audio, Speech, and Language Processing, 2010, 18 (5): 922- 931

DOI:10.1109/TASL.2009.2038663      [本文引用: 1]

/