浙江大学学报(工学版), 2020, 54(6): 1170-1176 doi: 10.3785/j.issn.1008-973X.2020.06.014

计算机技术

后验概率图与补白模型二次融合的关键词识别

陈太波,, 张翠芳,

Keyword recognition based on twice fusion of Posteriorgram and filler model

CHEN Tai-bo,, ZHANG Cui-fang,

通讯作者: 张翠芳,女,教授. orcid.org/0000-0003-2067-7708. E-mail: cfzhang_scce@swjtu.cn

收稿日期: 2019-05-15  

Received: 2019-05-15  

作者简介 About authors

陈太波(1995—),男,硕士生,从事语音识别研究.orcid.org/0000-0002-6646-3302.E-mail:booookchen@outlook.com , E-mail:booookchen@outlook.com

摘要

使用全连接神经网络结合Softmax分类器对汉语的408个音节建立音节分类器,利用等长处理后的特征向量训练Softmax分类器,将Softmax分类器输出概率作为后验概率图,与隐马尔科夫补白模型(HMM/Filler)进行第一次融合,得到子后验概率图隐马尔科夫模型(Posteriorgram-HMM). 针对关键词训练样本较少的问题,将标注样本进行强制切分,得到HMM每个状态上的训练数据. 将隐马尔科夫最大后验概率基线模型(HMM-MAP)与Posteriorgram-HMM进行第二次融合,提出最大后验概率图隐马尔科夫模型(Posteriorgram-HMM-MAP). 在数据集上训练模型后,使用测试数据对其进行测试. 结果表明:Posteriorgram-HMM-MAP的综合识别率相比Posteriorgram-HMM提升了3.55%,相比HMM/Filler提升了10.29%.

关键词: 关键词识别 ; 隐马尔可夫模型(HMM) ; 补白模型 ; Softmax分类器 ; 后验概率图 ; 最大后验概率(MAP)

Abstract

A fully-connected neural network, combined with Softmax classifier, was used to build a syllable classifier for 408 syllables in Chinese based on hidden Markov filler model (HMM/Filler). With the equal-length processing of the input feature vector of network, the output probability of the Softmax classifier was used as a Posteriorgram, to make first fusion with HMM/Filler model for the Posteriorgram hidden Markov model (Posteriorgram-HMM). Aiming at the problem of less keyword training samples, the Force-Align was used to obtain the training data for each state of HMM. Make second fusion of Maximum a posteriori estimation HMM (HMM-MAP) with Posteriorgram-HMM, and the Posteriorgram hidden Markov model (Posteriorgram-HMM-MAP) was obtained. After being trained on data set, the model was tested with test data. Results show that the comprehensive accuracy of the Posteriorgram-HMM-MAP was increased by 3.55% compared with Posteriorgram-HMM, and 10.29% higher than HMM/Filler.

Keywords: keyword recognition ; hidden Markov model (HMM) ; filler model ; Softmax classifier ; Posteriorgram ; maximum a posteriori estimation (MAP)

PDF (894KB) 元数据 多维度评价 相关文章 导出 EndNote| Ris| Bibtex  收藏本文

本文引用格式

陈太波, 张翠芳. 后验概率图与补白模型二次融合的关键词识别. 浙江大学学报(工学版)[J], 2020, 54(6): 1170-1176 doi:10.3785/j.issn.1008-973X.2020.06.014

CHEN Tai-bo, ZHANG Cui-fang. Keyword recognition based on twice fusion of Posteriorgram and filler model. Journal of Zhejiang University(Engineering Science)[J], 2020, 54(6): 1170-1176 doi:10.3785/j.issn.1008-973X.2020.06.014

关键词识别(keyword recognition,KWR)[1]是一种连续语音数据流中的关键词语音信号识别技术,可以在公共安全等领域发挥重要作用. 关键词识别有2个技术难点:1)连续语音数据的语义分割,即语音中的词汇分割;2)对于关键词和非关键词的区分识别.

关键词识别技术发展至今方法层出,技术的难度和复杂度也在不断增加. 初期有基于模板匹配的动态时间规整(dynamic time warping,DTW)[2],该方法的明显缺陷是对于语句的语义分割能力差. 相比简单的模板匹配,汪鹏等[3]给出了基于统计模型的隐马尔可夫模型(hidden Markov model,HMM)的模式识别方法. HMM是一种迭代训练模型,这样的迭代训练可以使建立的识别模型对训练数据集具有很强的适应性; 而且,HMM是一种状态数可调的模型,对动态特性的语音数据可以实现有效建模. 改进的关键词识别模型所基于的隐马尔科夫补白模型(HMM/Filler)[4]在语音识别领域应用广泛,是一种针对关键词识别建立的混合结构模型,混合模型对需要进行识别的关键词建立HMM,对其他非关键词使用Filler模型,同时建立trigram语言模型[5]来确定音节组成的关键词. HMM-MAP在HMM基础上通过最大后验概率(maximum a posteriori estimation,MAP)改进而来,可以在每个HMM状态上进行后验概率估计,从而提升HMM的识别精度. 孙彦楠等[6]提出了基于神经网络的关键词识别方法. 神经网络的可训练性很强,但网络的神经元是固定的,因此神经网络模型对不同音节的关键词处理不佳. 近些年,深度学习循环神经网络(recurrent neural network,RNN)[7]在语音识别方面的效果令人惊叹,但由于RNN模型参数量较大,其对硬件要求过高.

本研究以统计模型HMM/Filler为基础,将神经网络Softmax分类器构建的后验概率图与HMM/Filler进行第一次融合得到Posteriorgram-HMM. 将Posteriorgram-HMM与HMM-MAP进行第二次融合,得到Posteriorgram-HMM-MAP.

1. 后验概率图隐马尔科夫融合模型

通过构建和训练神经网络Softmax分类器,使其输出音节的后验概率图模型,并将所得模型融合到HMM/Filler中,得到后验概率图隐马尔科夫模型(Posteriorgram-HMM),Softmax分类器使HMM/Filler对音节具有分类的能力. Softmax分类器输出的后验概率所构成的后验概率图(Posteriorgram),与HMM的声学模型概率共同作用于模型解码.

1.1. 前端处理与多特征提取

Posteriorgram-HMM使用基于双门限法的语音活动检测(voice activity detection,VAD)[8]对语音数据进行简化,以减少计算量并提升识别效率. 为增强对语音信号的表征,使用多特征数据,选取39维梅尔倒谱系数(Mel-frequency cepstral coefficients,MFCC)特征[9]和4维Pitch特征[10]来丰富语音特征,采用倒谱均值方差归一化(cepstrum mean variance normalization,CMVN)来消除信道差异,以减少噪声. HMM的训练使用原始提取的特征即可,但神经网络的训练需要对原始特征进行预处理,以满足其对数据输入格式的要求.

1.2. 特征矢量等长分段

由于神经网络的输入固定,训练需要固定长度的特征数据矢量,但是关键词的语音数据是不定长度的. 因此,使用文献[11]中的音节分割方法将关键词的特征矢量进行等长处理. 效仿HMM的三输入状态,将43维特征矢量按0.25 ∶ 0.50 ∶ 0.25进行分段,这样的划分可以保证首部与尾部有足够的缓冲并使中间部分保留充足的特征信息. 将划分成后的3段特征矢量进行纵向相接(即在维度上进行叠加),43维特征矢量就变成了原来的3倍(129维),此时横向上特征数据等长,音节的等长分段如图1所示. 神经网络的输入节点数与特征的维度对应,因此神经网络输入层含有129个神经元;而音节的种类对应输入节点数,因此输出层共含有408个神经元.

图 1

图 1   音节等长分段示意图

Fig.1   Diagram of syllable equal segmentation


1.3. 评价标准与实验数据

使用识别率作为模型的评价标准,设模型对所有关键词正确识别数为NS,所有关键词的标注总数为NM,则模型综合识别率φ的计算公式为

$\varphi {\kern 1pt} {\kern 1pt} {\rm{ = }}\frac{{N_{\rm{S}}}}{{N_{\rm{M}}}} \times 100{\text{% }}. $

设模型对某个关键词的正确识别数为 NT,此关键词的标注数量为 NP,则模型对此关键词的识别率ψ的计算公式为

$\psi {\kern 1pt} {\kern 1pt} {\rm{ = }}\frac{{{N_{\rm{T}}}}}{{{N_{\rm{P}}}}} \times 100{\text{% }}\;{\rm{.}}$

综合识别率为判断模型对所有关键词表现的指标,关键词识别率则是判断模型对单个关键词表现的指标. 本研究使用清华大学中文语音数据集THCHS-30完成关键词识别模型的训练和测试,首先挑选部分词汇作为模型设定的关键词. 训练集包含2 409个已标注的关键词,测试集包含587个已标注关键词. 实验选取的关键词列表如表1所示,其中,Ntrain为关键词训练样本数,Ntest为关键词测试样本数.

表 1   实验选取的关键词列表

Tab.1  List of keywords selected in experiment

编号 关键词 音节 Ntrain Ntest
kw_1 爱国 ai guo 51 12
kw_2 爱情 ai qing 42 11
kw_3 安全 an quan 30 8
kw_4 八十 ba shi 62 14
kw_5 白天 bai tian 56 17
kw_6 彬彬有礼 bin bin you li 18 4
kw_7 采访 cai fang 70 21
kw_8 藏起来 cang qi lai 46 10
kw_9 差别 cha bie 67 19
kw_10 长江 chang jiang 85 24
kw_11 成功 cheng gong 97 29
kw_12 吃饭 chi fan 175 49
kw_13 大多数 da duo shu 95 24
kw_14 大夫 dai fu 39 10
kw_15 大海 dai hai 134 31
kw_16 单词 dan ci 63 14
kw_17 返回 fan hui 98 19
kw_18 犯罪分子 fan zui fen zi 55 14
kw_19 父母亲 fu mu qin 93 32
kw_20 改变 gai bian 183 46
kw_21 科学 ke xue 86 18
kw_22 老师 lao shi 112 26
kw_23 乱七八糟 luan qi ba zao 63 17
kw_24 每天 mei tian 152 30
kw_25 平均 ping jun 161 30
kw_26 四川省 si chuan sheng 43 9
kw_27 兴趣 xing qu 76 11
kw_28 眼睛 yan jing 62 15
kw_29 找不到 zhao bu dao 95 23

新窗口打开| 下载CSV


1.4. Softmax分类器与HMM/Filler融合

神经网络结合Softmax[12]是一种解决多分类问题的方式. Softmax函数表达式为

$ \sigma {({ z})_j} = \frac{{\exp\; \left( {{{ z}_j}} \right)}}{{\displaystyle\sum\nolimits_{k = 1}^K {\exp\; \left( {{{ z}_k}} \right)} }};\;\; {\rm{ }}j{\rm{ }} = 1,2, \cdots ,K\;\;{\rm{.}} $

式中:z为一个样本的特征向量,j为类别,K为类别总数, $\sigma ({ z})$为经过Softmax函数之后的输出向量。因此得到这个样本向量z属于第j类的条件概率 $P({{y}} = j|{ z})$.

针对汉语中的408个音节建立Softmax分类器,神经网络结合Softmax分类器的模型结构如图2所示. 图中,输入神经元个数I =129,2个隐含层H1H2各包含200个神经元,原始输出层O含有408个输出,经过Softmax层分类后得到最终在每类音节上的概率大小,记为Pc1~Pc408.

图 2

图 2   408个音节的Softmax分类器模型示意图

Fig.2   Diagram of Softmax classifier model for 408 syllables


使用Sigmoid函数作为全连接神经网络激活函数,目标函数为所有输出节点的误差平方:

${E_{}} = \frac{1}{2}{\sum\limits_{i \in [1,\;408]} {({O_i} - O_i^{{\rm{GT}}})} ^2}\;.$

式中: $ {O}_{i} $为输出层的输出, $ {O}_{i}^{{\rm{G}}{\rm{T}}} $为标注的值. 该网络使用随机梯度下降算法[13]对目标函数进行优化.

将Softmax分类器输出的条件概率的最大值作为后验概率Pmax,与HMM中的声学模型概率Pacou_1共同作用于Viterbi解码[14]. 通过概率融合的方式将后验概率和声学模型概率进行融合,得到融合模型的最终解码概率Pdeco_1. 概率融合公式如下.

${P_{{\rm{deco\_1}}}} = \frac{{{P_{{\rm{acou\_1}}}} + \lambda \cdot {P_{{\rm{max}}}}}}{{1 + \lambda }}\;.{\kern 1pt} $

式中:Pdeco_1就是作用于Posteriorgram-HMM融合模型的解码概率,λ为调整Softmax分类器对融合解码作用程度的融合参数.

Posteriorgram-HMM框图如图3所示. Posteriorgram-HMM训练时依次调整λ的值为 −0.9,−0.8,···,0.9,得到 λ对应的 Posteriorgram-HMM综合识别率,使用Matlab绘图工具进行曲线拟合,得到拟合曲线如 图4所示. 可知,当融合参数λ=0.3时,Posteriorgram-HMM的识别效果最佳.

图 3

图 3   Posteriorgram-HMM结构框图

Fig.3   Basic block diagram of Posteriorgram-HMM


图 4

图 4   融合参数 λ 对综合识别率影响的拟合曲线

Fig.4   Fitting curve for effect of fusion parameter λ on comprehensive recognition rate


2. 最大后验概率图隐马尔科夫模型

关键词识别的语音标注样本是语音数据流中的关键词数据,而这些关键词数据在连续的语音数据中是有限的,因此,HMM/Filler的训练数据较少。训练数据的不足会导致模型的欠拟合,从而影响模型的识别率.

Gauvain等[15]针对模型训练数据不足的问题提出了一种由最大后验概率(Maximum a posteriori estimation,MAP)改进的HMM,即HMM-MAP. HMM-MAP相对于HMM/Filler的不同就是,在构建HMM时使用MAP来代替先前使用的极大似然估计(maximum likelihood estimate,MLE),而对于非关键词模型依然使用Filler模型. 在实际模型训练中,由于每个关键词的音节长度不同,即HMM的先验结构未知,采用MAP处理的部分只能是关键词HMM每个状态上的高斯混合模型(Gaussian mixture model,GMM)[16]分布,而对于HMM中的起始概率和转移概率则继续采用极大似然估计. 在对GMM进行MAP过程时,由于数据库中只对每个关键词样本进行了标注,需要使用强制切分(force align,FA)调整标注与语音数据的位置,将标注对齐到样本的每个状态上,得到每个状态上的训练样本. 之后,对状态上的GMM先验分布进行估计. 在训练高斯混合模型时,首先训练得到一个混合度很高的通用背景模型(universal background model,UBM),然后根据每个状态上的训练样本数据来选择最近的前N个高斯模型,组成一个高斯混合模型,作为该状态上的先验分布.

已知每个状态上的GMM的训练数据和先验分布,使用MAP算法估计GMM参数的计算公式如下:

${\hat \omega _i} = [\alpha _i {n_i}/T + (1 - \alpha _i ){\omega _i}]{\kern 1pt} {\kern 1pt} \gamma \;,$

${\hat \mu _i} = \alpha _i{E_i}(x) + (1 - \alpha _i){\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\mu _i}\;,$

$\hat \sigma _i^2 = \alpha _i{E_i}({x^2}) + (1 - \alpha _i^v)(\alpha _i^2 + \mu _i^2){\kern 1pt} {\kern 1pt} - \mu _i^2\;,$

$p(i|{x_t}) = \frac{{{\omega _i}{N_i}({x_t})}}{{\displaystyle\sum\nolimits_{j = 1}^M {{\omega _j}{N_j}({x_t})} }}{\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} ,{\kern 1pt} $

${n_i} = \sum\limits_{t = 1}^T {p(i|{x_t})} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} ,{\kern 1pt} $

${E_i}(x){\rm{ = }}\frac{1}{{{n_i}}}\sum\limits_{t = 1}^T {p(i|{x_t})} , $

${E_i}({x^2}){\rm{ = }}\frac{1}{{{n_i}}}\sum\limits_{t = 1}^T {p(i|{x_t})} {\kern 1pt} x_t^2{\kern 1pt} {\kern 1pt} .{\kern 1pt} $

式中:xt为一个训练样本,i为训练样本上的一个状态,ωi为此状态上的样本波长,Nixt)为样本xti状态出现的条件概率, M为训练样本总数,m为训练样本序号,T为样本周期,αi为估值参数,γ为关键词声纹参数.

参考式(4)~(6)中GMM的参数估计方法,HMM-MAP使用HMM状态标注对HMM中的参数进行先验估计,得到HMM-MAP. HMM-MAP训练流程如图5所示.

图 5

图 5   HMM-MAP的训练流程

Fig.5   Training process of HMM-MAP


将HMM-MAP与第一次融合后的Posteriorgram-HMM进行第二次融合,得到Posteriorgram-HMM-MAP. 第二次融合使用的2个基线模型都具有独立进行关键词识别的能力,为协调2个模型的融合程度,引入参数β作为融合参数来调整2个模型对于融合解码的作用程度,所提出的概率融合公式为

${P_{{\rm{deco\_2}}}} = (1 - \beta ){P_{{\rm{deco\_1}}}} + \beta \cdot {P_{{\rm{acou\_2}}}}\;.$

式中:Pacou_2为HMM-MAP中模型输出的声学模型的解码概率,Pdeco_2为Posteriorgram-HMM-MAP的融合解码概率.

设定β的值分别为0,0.1,…,0.9,其他模型参数不变,得到β对应的 Posteriorgram-HMM-MAP综合识别率,使用Matlab绘图工具进行曲线拟合,得到拟合曲线如图6所示. 可知,在β从0增加到0.4这个过程中,即当HMM-MAP的作用程度开始提升时,模型的识别率开始上升,这样的双基线模型的识别率相较于单基线模型有所提升;但是当β从0.4增加到0.9时,Posteriorgram-HMM-MAP的识别率开始大幅下降,这是因为Posteriorgram-HMM的作用程度下降,模型由HMM-MAP主导,而HMM-MAP没有与Softmax音节分类器融合,故模型识别率开始下降. 综上,Posteriorgram-HMM-MAP在融合参数β为0.4时达到最佳,Posteriorgram-HMM-MAP框图如图7所示.

图 6

图 6   融合参数 β 对综合识别率影响的拟合曲线

Fig.6   Fitting curve for effect of fusion parameter β on comprehensive recognition rate


图 7

图 7   Posteriorgram-HMM-MAP框图

Fig.7   Block diagram of Posteriorgram-HMM-MAP


3. 实验分析

首先对Posteriorgram-HMM进行训练,设定Filler模型的高斯混合度为512,HMM中每个状态的高斯数为8,一次融合参数λ=0.3,二次融合参数β=0.4,使用THCHS-30训练集进行训练;然后使用训练模型对测试集进行关键词识别,得到的Posteriorgram-HMM和Posteriorgram-HMM-MAP的关键词识别率如表2所示.

表 2   不同模型的关键词识别率对比

Tab.2  Comparison of keyword recognition rates of different models

编号 Posteriorgram-HMM Posteriorgram-HMM-MAP
NT ψ /% NT ψ /%
kw_1 9 84.31 11 91.67
kw_2 8 78.57 10 90.90
kw_3 6 75.00 6 75.00
kw_4 12 85.71 12 85.71
kw_5 14 82.14 15 88.24
kw_6 4 100.00 4 100.00
kw_7 18 85.71 18 85.71
kw_8 9 90.00 10 100.00
kw_9 15 78.95 15 78.95
kw_10 20 83.33 22 91.67
kw_11 23 79.31 24 82.76
kw_12 44 89.79 42 85.71
kw_13 20 84.21 21 87.50
kw_14 8 80.00 10 100.00
kw_15 28 90.30 28 90.32
kw_16 11 78.57 13 92.86
kw_17 15 78.95 16 84.21
kw_18 12 90.90 13 92.86
kw_19 26 81.25 29 90.62
kw_20 43 94.54 41 89.13
kw_21 14 77.78 16 88.89
kw_22 22 84.62 23 88.46
kw_23 14 82.35 16 94.12
kw_24 26 86.67 25 83.33
kw_25 25 83.33 25 83.33
kw_26 8 90.69 9 100.00
kw_27 9 81.81 9 81.81
kw_28 12 80.00 13 86.67
kw_29 19 82.61 20 86.96

新窗口打开| 下载CSV


1)Posteriorgram-HMM-MAP的综合识别率达87.88%,Posteriorgram-HMM的综合识别率达84.33%,而HMM/Filler的综合识别率为77.59%. 根据模型综合识别率的对比,二次融合得到的Posteriorgram-HMM-MAP在训练数据较少的情况下具有很好的识别效果,Posteriorgram-HMM在与Softmax音节分类器融合后,其识别效果优于HMM/Filler.

2)表2中训练样本较少的关键词(如:kw_1、kw_2、kw_3、kw_14)在训练时由于加入了HMM-MAP增强训练,相较于一次融合模型,对这些关键词的识别率均提升了2%~10%.

4. 结 语

本文提出了一种由神经网络Softmax分类器输出的后验概率图和HMM-MAP二次融合HMM/Filler的Posteriorgram-HMM-MAP关键词识别模型,实验结果表明:当一次融合参数λ=0.3且二次融合参数β=0.4时,Posteriorgram-HMM-MAP的识别效果最佳,模型综合识别率可达87.88%,相比一次融合的Posteriorgram-HMM提升了3.55%,相比HMM/Filler提升了10.29%.

本文所提出的改进方法对基于统计模型的关键词识别具有一定借鉴价值. 由于模型对Softmax分类器和HMM的训练是分开的,训练过程较为繁琐,今后的识别模型改进可使用其他分类器来提升训练速度和识别率.

参考文献

孙成立. 语音关键词识别技术的研究[D]. 北京: 北京邮电大学, 2008.

[本文引用: 1]

SUN Cheng-li. A study of speech keyword recognition technology [D]. Beijing: Beijing University of Posts and Telecommunications, 2008.

[本文引用: 1]

侯靖勇, 谢磊, 杨鹏, 等

基于DTW的语音关键词检出

[J]. 清华大学学报: 自然科学版, 2017, 57 (1): 18- 23

[本文引用: 1]

HOU Jing-yong, XlE Lei, YANG Peng, et al

Spoken term detection based on DTW

[J]. Journal of Tsinghua University: Science and Technology, 2017, 57 (1): 18- 23

[本文引用: 1]

汪鹏, 刘加, 刘润生

基于离散HMM的非特定人关键词提取语音识别系统

[J]. 吉林大学学报: 理学版, 2003, 41 (3): 347- 351

[本文引用: 1]

WANG Peng, LIU Jia, LIU Run-sheng

Discrete HMM based speaker independent keyword spotting speech recognition system

[J]. Journal of Jilin University: Science Edition, 2003, 41 (3): 347- 351

[本文引用: 1]

TOSELLI A H, VIDAL E. Fast HMM-Filler approach for key word spotting in handwritten documents [C] // Proceedings of 2013 12th International Conference on IEEE. NewYork: IEEE, 2013: 341-358.

[本文引用: 1]

LIN C Y, HOVY E. Automatic evaluation of summaries using n-gram co-occurrence statistics [C] // Conference of the North American Chapter of the Association for Computational Linguistics on Human Language Technology-volume. Association for Computational Linguistics, 2003.

[本文引用: 1]

孙彦楠, 夏秀渝

基于深度神经网络的关键词识别系统

[J]. 计算机系统应用, 2018, 27 (5): 41- 48

[本文引用: 1]

SUN Yan-nan, XIA Xiu-yu

Keyword recognition system based on deep neural network

[J]. Computer Systems and Applications, 2018, 27 (5): 41- 48

[本文引用: 1]

GRAVES A, MOHAMED A, HINTON G. Speech recognition with deep recurrent neural networks [C] // 2013 IEEE International Conference on Acoustics, Speech and Signal Processing. Vancouver: IEEE, 2013: 6645-6649.

[本文引用: 1]

王满洪, 张二华, 王明合

基于双门限算法的端点检测改进研究

[J]. 计算机与数字工程, 2017, 45 (11): 2223- 2228

DOI:10.3969/j.issn.1672-9722.2017.11.030      [本文引用: 1]

WANG Man-hong, ZHANG Er-hua, WANG Ming-he

Research and improvement on endpoint detection based on dual-threshold algorithm

[J]. Computer and Digital Engineering, 2017, 45 (11): 2223- 2228

DOI:10.3969/j.issn.1672-9722.2017.11.030      [本文引用: 1]

邵明强, 徐志京

基于改进MFCC特征的语音识别算法

[J]. 微型机与应用, 2017, 21 (1): 52- 54

[本文引用: 1]

SHAO Ming-qiang, XU Zhi-jing

A speech recognition algorithm based on improved MFCC

[J]. Microcomputer and Its Applications, 2017, 21 (1): 52- 54

[本文引用: 1]

SHAHNAWAZUDDIN S, SINHA R, PRADHAN G

Pitch-normalized acoustic features for robust children ’s speech recognition

[J]. IEEE Signal Processing Letters, 2017, 24 (8): 1128- 1132

DOI:10.1109/LSP.2017.2705085      [本文引用: 1]

花静. 基于HMM/SVM混合架构的连续语音识别模型的研究[D]. 哈尔滨: 哈尔滨工业大学, 2006.

[本文引用: 1]

HUA Jing. Research on continuous speech recognition based on a hybrid HMM/SVM framework[D]. Harbin: Harbin Institute of Technology, 2006.

[本文引用: 1]

JIANG M, LIANG Y, FENG X, et al

Text classification based on deep belief network and softmax regression

[J]. Neural Computing and Applications, 2016, (7): 1- 10

[本文引用: 1]

NEYSHABUR B, SALAKHUTDINOV R R, SREBRO N. Path-SGD: path-normalized optimization in deep neural networks [C] // Advances in Neural Information Processing Systems 28. Montreal: [s.n.], 2015: 2422-2430.

[本文引用: 1]

陈洁群

基于Viterbi改进算法的汉语数码语音识别模型

[J]. 微型机与应用, 2017, 36 (14): 11- 13

[本文引用: 1]

CHEN Jie-qun

The research on improved Viterbi algorithm for Chinese digital speech recognition system

[J]. Microcomputer and its Applications, 2017, 36 (14): 11- 13

[本文引用: 1]

GAUVAIN J L, LEE C H

Maximum a posteriori estimation for multivariate gaussian mixture observations of Markov chains

[J]. IEEE Transactions on Speech and Audio Processing, 1994, 2 (2): 291- 298

DOI:10.1109/89.279278      [本文引用: 1]

NAKAGAWA S, ZHANG W, TAKAHASHI M. Text-independent speaker recognition by combining speaker-specific GMM with speaker adapted syllable-based HMM [C] // 2004 IEEE International Conference on Acoustics, Speech, and Signal Processing. Montreal: IEEE, 2004, 1: 1-81.

[本文引用: 1]

/