基于深度学习的录音文本分类方法

doi:10.3785/j.issn.1008-973X.2020.07.003

基于深度学习的录音文本分类方法

张彦楠^,, 黄小红, 马严^,, 丛群

Method with recording text classification based on deep learning

ZHANG Yan-nan^,, HUANG Xiao-hong, MA Yan^,, CONG Qun

通讯作者: 马严，男，教授. orcid.org/0000-0001-8065-591X. E-mail： mayan@bupt.edu.cn

收稿日期: 2019-07-30

Received: 2019-07-30

作者简介 About authors

张彦楠（1995—），女，硕士生，从事网络空间安全研究.orcid.org/0000-0003-2462-1760.E-mail：knightzyn@163.com , E-mail：knightzyn@163.com

摘要

为了提高具有关联工单数据的录音文本的分类精确率，根据录音文本及关联数据的特点，设计基于深度学习的录音文本分类方法. 针对录音文本，通过双向词嵌入语言模型（ELMo）获得录音文本及工单信息的向量化表示，基于获取的词向量，利用卷积神经网络（CNN）挖掘句子局部特征；使用CNN分别挖掘工单标题和工单的描述信息，将CNN输出的特征进行加权拼接后，输入双向门限循环单元（GRU），捕捉句子上下文语义特征；引入注意力机制，对GRU隐藏层的输出状态赋予不同的权重. 实验结果表明，与已有算法相比，该分类方法的收敛速度快，具有更高的准确率.

关键词： 词向量 ; 卷积神经网络（CNN） ; 双向门限循环单元 ; 注意力 ; 文本分类

Abstract

A classification method based on deep learning was designed according to the characteristics of recording text and correlation data in order to improve the classification precision of the recording text with associated work order data. The embedding of the recording text and work order information was obtained through the bidirectional word embedding language model (ELMo). Local features of the sentence were mined by using convolutional neural networks (CNN) based on the word embedding. Title and description information of the work order were separately mined by using CNN. Features extracted by CNN were concatenated with a weighting factor. Then weighted features were entered into bidirectional gated recurrent unit (GRU) in order to capture the semantic features of the context. The attention mechanism was introduced to assign different weights to the output state of the GRU hidden layer. The experimental results show that the classification method has faster convergence rate and higher accuracy compared with the existing algorithms.

Keywords： word vector ; convolutional neural networks (CNN) ; bidirectional gated recurrent unit ; attention ; text classification

PDF (1048KB) 元数据多维度评价相关文章导出 EndNote| Ris| Bibtex 收藏本文

本文引用格式

张彦楠, 黄小红, 马严, 丛群. 基于深度学习的录音文本分类方法. 浙江大学学报(工学版)[J], 2020, 54(7): 1264-1271 doi:10.3785/j.issn.1008-973X.2020.07.003

ZHANG Yan-nan, HUANG Xiao-hong, MA Yan, CONG Qun. Method with recording text classification based on deep learning. Journal of Zhejiang University(Engineering Science)[J], 2020, 54(7): 1264-1271 doi:10.3785/j.issn.1008-973X.2020.07.003

随着语音识别与人工智能技术的发展与进步^[1]，录音数据可以被转化为文本并进行信息提取. 对录音文本分类可以获取录音的主题信息^[2]，方便后续对不同类目有针对性地进行命名实体识别、语义角色标注及情感分析^[3]等自然语言处理任务.

录音对话的语音文本通常为短文本，特征向量稀疏，包含语音识别错误和口语化表达^[4]，且问答型的对话上下文语境依赖性强. 简单的词频加权方法^[5]提取的特征稀疏，缺失了语义级别特征的学习和抽象，文本特征表达能力很弱. 针对语音识别后的文本分类问题，Ezzat等^[6]研究不同特征选取方法和传统机器学习方法对呼叫中心录音文本情感分类的效果，但均需要人工特征提取过程.

深度学习免去了人工特征提取耗费的成本^[7]. 自动特征提取首先需要将文本表示为计算机可以理解的形式. Mikolov等^[8]提出2种神经网络语言模型：连续词袋模型（continuous bag-of-words model，CBOW）和Skip-Gram，但这2种模型无法对多义词进行建模. Matthew等^[9]提出的ELMo模型使用长短期记忆网络（long short-term memory，LSTM）根据上下文动态调整词向量，解决了多义词建模问题.

针对深度学习文本分类问题，Kim^[10]提出将卷积神经网络（CNN）应用于文本分类任务，CNN的卷积和池化操作善于捕捉局部特征. 针对包含自然语言处理的序列问题，循环神经网络（recurrent neural network，RNN）具有短期记忆^[11]，可以捕捉文本上下文特征. 对于RNN存在的梯度消失和梯度爆炸问题，LSTM^[12]引入门控结构可以处理长序列数据，GRU^[12]是LSTM网络的一种变体，结构简单且效果更好，Attention机制根据单词携带信息的重要程度赋予不同的权重进行特征提取，Liang等^[13]提出利用GRU对文档进行多标签情感分类的GRU+Attention模型. Lyu等^[14]研究TextCNN、GRU、Attention等深度学习算法以不同方式组合在中文专利文献分类问题上的表现效果. Wang^[15]提出限制RNN信息流的距离以加强局部信息提取能力的DRNN模型. 这些深度学习模型根据自身特点，适用于不同场景.

本文根据录音文本的特点，提出应用于录音文本的分类方法. 分类模型首先将录音文本通过ELMo模型训练得到词向量，CNN和BiGRU网络基于词向量分别在句子级别和文档级别捕捉局部特征和上下文特征. 本文方法与其他分类方法的区别在于加入录音关联的工单信息同时作为文本分类特征信息，依据增加的输入数据在分类模型中添加CNN结构，同时引入权重系数对表征能力强的工单信息和录音文本首句的局部特征赋予较高权重，通过多次模型训练比较分类效果，确定权重系数. 增加的关联工单信息可以在一定程度上弥补语料错误对分类结果的影响. 混合分类模型使用Adam算法，基于训练数据迭代地更新神经网络权重进行参数优化；使用Dropout正则化方法在隐藏层随机丢弃神经元避免过拟合，通过以上方法使模型快速收敛并获得较高的准确率. 通过在高校信息网络中心呼叫中心录音文本数据上，使用多种分类模型进行对比实验，精确率和召回率评价指标证明了使用的混合模型在录音文本分类问题上的有效性.

1. 基于深度学习的录音文本分类方法

录音转文字的过程中会引入一些转化错误，且录音对话文本具有口语化表达、用语结构灵活、包含简称与缩写、特征稀疏、上下文依赖性强等特点. 在录音文本数据集上作初步统计，去除通话开始坐席人员的问候语后，90%的文本首句与本次通话主题直接相关，且通常包含相应类别中出现频率较高的关键词. 录音文本的关联工单信息通常是录音内容的概括，包含录音的主题及关键词信息. 针对录音文本数据的以上特点，提出的分类方法通过CNN分别挖掘录音文本和工单信息的局部特征，对局部特征进行有权重的拼接，工单相关的信息与录音首句的特征权重较高，其他语句的权重较低. 将拼接后的特征向量输入GRU神经网络进行上下文语义特征的提取，通过上述改进设计的混合神经网络模型对录音文本进行分类，强调关键语句可以对录音转文本过程中引入语料错误、录音文本特征稀疏、主题不清晰等问题可能造成的分类错误进行一定程度的纠正，提高分类准确率.

提出的录音文本分类模型包含6个部分，各部分的逻辑关系如图1所示.

图 1

新窗口打开| 下载原图ZIP| 生成PPT

图 1 录音文本分类模型示意图

Fig.1 Schematic diagram of classification model of recording text

1）输入层：录音文本、工单标题、工单描述经预处理后输入到模型中.

2）Embedding层：使用ELMo双向语言模型将输入层的文本转换为低维向量形式.

3）句子级别CNN层：多个CNN神经网络分别根据Embedding层的输出，对录音文本的句子以及工单标题和工单描述进行局部特征提取.

4）BiGRU层：CNN输出的局部特征加权拼接后，使用双向GRU神经网络进行上下文特征提取.

5）Attention层：对隐藏层提取的信息赋予权重，突出关键信息.

6）输出层：经Attention-BiGRU神经网络得到的特征向量通过Softmax分类器，得出最终的分类结果.

1.1. 输入层

录音文本进入输入层之前，须进行预处理.

1）去掉互动式语音应答（interactive voice response，IVR）提示文本以及通话文本开头坐席人员的问候语.

2）使用中文分词组件jieba，对录音文本进行分词. jieba提供了3种分词模式，其中精确模式试图将句子最精确地切分，适用于文本分析.

3）使用哈尔滨工业大学停用词表^[16]，并补充一部分通话音频中频繁出现的无意义词句，通过查表过滤和剔除停用词.

1.2. 嵌入层

常用的词嵌入方法Word2Vec训练得到的是静态词向量，无法根据上下文语境发生变化. 静态词向量无法解决一词多义的问题. ELMo通过深度双向LSTM语言模型动态更新词向量^[9]，获取所有层的内部表征. 如图2所示为ELMo结构图，E₁，E₂， $\cdots $，E_N为前一隐层输出的词向量，T₁，T₂， $\cdots $，T_N为经过一层双向LSTM后得到的词向量.

图 2

新窗口打开| 下载原图ZIP| 生成PPT

图 2 ELMo模型结构图

Fig.2 ELMo model structure diagram

双向模型的公式^[9]如下：

(1) $\begin{split} & \sum\limits_{k = 1}^N {(\log_2\; p(t_k|t_1,...,t_{k - 1};\varTheta _{\rm{x}},\overrightarrow \varTheta {\rm{LSTM}},\varTheta _{\rm{s}})} + \\ & \log_2\; p(t_k|t_{k + 1},...,t_N;\varTheta _{\rm{x}},\overleftarrow \varTheta {\rm{LSTM}},\varTheta _{\rm{s}})). \end{split} $

式中： $(t_1,t_2,\cdots,t_N)$表示输入一个含N个token的序列， $\overrightarrow \varTheta {\rm{LSTM}}$和 $\overleftarrow \varTheta {\rm{LSTM}}$分别为正、反向的LSTM网络参数， $\varTheta_{\rm{x}}$和 $\varTheta _{\rm{s}}$为2个网络共享的映射层参数和Softmax层参数.

每个token $\mathop t\nolimits_k $在 $L$层的双向语言模型表示^[9]为

(2) $ \begin{split} \mathop R\nolimits_k = & \left\{ {\mathop x\nolimits_k^{{\rm{LM}}} ,\mathop {\overrightarrow h }\nolimits_{k,j}^{\rm{LM}} ,\mathop {\overleftarrow h }\nolimits_{k,j}^{\rm{LM}} |j = 1,\cdots,L} \right\} = \\ & \left\{ {\mathop h\nolimits_{k,j}^{\rm{LM}} |j = 0,\cdots,L} \right\}. \end{split} $

式中： $\mathop x\nolimits_k^{{\rm{LM}}} $ 为 $\mathop t\nolimits_k $ 的词向量； $\mathop h\nolimits_{k,j}^{{\rm{LM}}} (j = 1,\cdots,L)$ 为token在第 $j$ 层LSTM网络中任意位置 $k$ 的表示，对于每个token， $L$层的双向LSTM模型共得到 $2L + 1$个表征.

$\mathop t\nolimits_k $的EMLo表示方式为

(3) $ \mathop {{\rm{EMLo}}}\nolimits_k^{{\rm{task}}} = E(\mathop R\nolimits_k ;\mathop \varTheta \nolimits^{{\rm{task}}} ) = \mathop \gamma \nolimits^{{\rm{task}}} \sum\limits_{j = 0}^L {\mathop s\nolimits_j^{{\rm{task}}} \mathop h\nolimits_{k,j}^{{\rm{LM}}} }. $

$\mathop {\rm{s}}\nolimits_j^{{\rm{task}}} $是Softmax的标准化权重，每层的输出向量与权重向量相乘，通过 $\mathop \gamma \nolimits^{{\rm{task}}} $缩放系数调整ELMo向量，ELMo使用神经网络所有层输出值的线性组合来表示词向量. 将工单标题、工单描述和录音文本经ELMo模型训练，得到全部语料文本的Embedding，作为后续分类模型的输入.

1.3. 句子级别CNN

CNN是一种局部连接的深层前馈神经网络，善于捕捉文本局部特征. 针对特征向量稀疏的录音文本，可以有效提取关键词信息. CNN卷积核权值共享和池化操作可以显著降低网络复杂度，减少训练耗时. 卷积神经网路的隐含层分为卷积层、池化层和全连接层3层. 卷积层通过卷积核移动并进行卷积操作提取局部特征；池化层对输入的特征进行采样拼接，形成高层特征向量；全连接层将所有的局部特征结合，形成样本全局特征.

本文模型中提取录音文本特征的CNN数量，须满足大多数文本包含的句子数目小于等于该值. 若CNN数量远大于大部分文本包含的句子数，则许多CNN输入的是无意义的空值；若CNN数量远小于大部分文本包含的句子数，则许多文本的后半部分信息将被截断丢弃，导致一定程度的语义缺失. 设定阈值为 $\alpha $，count (text)为所有录音数据数目， $N$为CNN的个数， ${\rm{count}}\;({\rm{text}}_{{\rm{length}}(t) \leqslant N})$为录音文本句子数≤N的文本数目，则N满足

(4) $\alpha {\rm{count}}\;({\rm{text}}) \leqslant {\rm{count}}\;({\rm{text}}_{{\rm{length}}(t) \leqslant N}).$

设定 $\alpha $=0.8，计算得到 $N$=20，当录音文本的句子数目小于CNN数目时，对录音文本作相应填充；当句子数目大于CNN的数目时，对文本作截断处理. 每个CNN网络对句子进行局部特征提取. 为了提高模型的泛化性能，加入Dropout层. Dropout在前向传播和反向传播训练模型的过程中，在神经网络的隐藏层中以一定概率随机丢弃部分神经元，相当于给数据增加噪声，避免在训练数据量不够多时出现过拟合现象. 如图3所示为句子级别CNN模型结构图. 图中， $\mathop w\nolimits_{\mathop {l_n}}^i $为第 $n$句子中的第 $i$个单词， $l_n$为第 $n$个句子的长度.

图 3

新窗口打开| 下载原图ZIP| 生成PPT

图 3 句子级别CNN模型结构图

Fig.3 Sentence level CNN model structure

通常产生录音数据的场景具有类似通话记录和工单等相关联的其他文本信息. 这些文本可以给录音文本的分类提供关键词信息，在分类模型中加入对关联文本信息的特征提取，可以提高分类模型的准确率. 本文实验选取高校信息网络中心的呼叫中心录音数据及关联工单的部分信息作为关联信息输入：1）工单标题是该通话内容主题；2）工单的问题描述通常包含分类关键词；3）工单所属分类作为样本的类别.

工单标题Embedding作为CNN1的输入，工单描述Embedding作为CNN2的输入，录音文本每个句子的Embedding依次作为CNN3，CNN4， $\cdots $，CNN22的输入. 由于工单标题、描述和录音文本首句对分类任务的贡献较大，CNN1、CNN2和CNN3输出的特征进行拼接时给予较高的权重，其余句子特征赋予相同的权重.

(5) $\begin{split} x_{{\rm{GRU}}} = & \gamma {\rm{(}}y_{{\rm{CNN1}}} + y_{{\rm{CNN2}}} + y_{{\rm{CNN3}}}{\rm{)}} + \\ & {\rm{(}}1 - \gamma )(y_{{\rm{CNN4}}} + \cdots + y_{{\rm{CNN22}}}). \end{split} $

式中： $x_{{\rm{GRU}}}$为BiGRU网络的输入， $\gamma $为工单标题及工单描述和录音文本首句经CNN网络特征提取后进行特征拼接时的权重， $(1 - \gamma )$为给录音文本剩余句子的特征赋予的权重. $\gamma $是一个可调节参数，通过多次实验，根据分类模型输出及评估标准最终确定取值. 如图4所示为对CNN提取后的特征进行加权拼接的示意图.

图 4

新窗口打开| 下载原图ZIP| 生成PPT

图 4 CNN特征加权拼接示意图

Fig.4 CNN feature weighted concatenate schematic diagram

1.4. BiGRU

RNN在处理包括录音文本在内的序列数据时可以体现长距离依赖信息，RNN层与层之间的神经元间建立了连接，当前时刻的状态可以影响下一时刻的状态，因此可以捕捉到数据的前后相关性. GRU在RNN的基础上设计了门控结构，让信息选择性地在隐藏层传递，记忆重要信息的同时解决长序列训练过程中出现的梯度消失和梯度爆炸问题. GRU有重置门和更新门2个门控结构，参数少且收敛速度快. GRU中状态之间的传输是从前向后的单向传播过程，只能利用当前输入和之前的上下文信息；BiGRU既能够获得从前向后的依赖信息，也可以获得反向的依赖信息，提取到的特征信息更丰富. 如图5所示为GRU结构图. 图中， $\sigma $为Sigmoid函数，将权重设置为0~1.0，tanh激活函数将数据映射到−1.0~1.0.

图 5

新窗口打开| 下载原图ZIP| 生成PPT

图 5 GRU结构图

Fig.5 GRU structure diagram

GRU神经网络的神经元更新方式如下.

(6) ${{z}}_t = \sigma\;({{W}}_z [{{h}}_{t - 1},{{x}}_t]),$

(7) ${{r}}_t = \sigma \;({{W}}_r [{{h}}_{t - 1},{{x}}_t]),$

(8) ${{h}} = {\rm{tanh}}\;({{W}} [{{r}}_t \odot {{h}}_{t - 1},{{x}}_t]),$

(9) ${{h}}_t = ({\bf{1}} - {{z}}_t) \odot {{h}}_{{{t}} - 1} + {{z}}_t \odot {{h}}.$

式中：w_r、w_z、w为权重短阵，根据神经网络的训练过程更新取值；h为当前时刻的候选隐藏状态；⊙表示元素相乘.

通过上一个神经元的输出 ${{h}}_{t - 1}$和当前节点的输入 ${{x}}_t$，获取2个门控状态. ${{r}}_t$控制重置的门控，用于控制前一时刻隐层单元 ${{h}}_{t - 1}$对当前词 ${{x}}_t$的影响， ${{z}}_t$控制更新的门控，当前词 ${{x}}_t$要保留的信息越多 ${{z}}_t$越大，对上一个神经元保留的信息越少.

1.5. Attention机制

Attention机制借助人脑处理过载信息时的注意力机制，使得神经网络处理大量输入信息时聚焦于关键信息. 针对录音文本，Attention机制通过对隐藏层的输出赋予不同的权重，可以增强关键词信息对分类结果的影响，同时避免通过使用全连接网络或增加神经网络深度的方法来提高模型捕捉长距离上下文依赖信息的能力，缓解模型复杂度与表达能力之间的矛盾. Attention机制使得模型更加关注于重要的局部信息，提高神经网络处理信息的能力使得模型作出更加准确的判断. 引入Attention机制的模型结构如图6所示.

图 6

新窗口打开| 下载原图ZIP| 生成PPT

图 6 Attention模型结构图

Fig.6 Attention model structure diagram

Attention机制的计算公式^[13]如下.

(10) ${{e}}_i = {{w}}_i {\rm{tanh}}\;({{W}}_i{{h}}_i + {{b}}_i),$

(11) $\alpha_{ij} = \frac{{\exp\;e_{ij}}}{{\sum\limits_{k = 1}^{T_{\rm{x}}} {\exp\;{e}_{ik}} }},$

(12) ${{c}}_i = \sum\limits_{j = 1}^{T_{\rm{x}}} {\alpha_{ij}{{h}}_i} .$

式中：i表示时刻，j表示序列中的第j个元素，T_x为序列的长度， $e_i$为第 $i$时刻隐层状态向量 ${{h}}_i$所决定的注意力概率分布值， ${{w}}_i$和 ${{W}}_i$为第 $i$时刻不同阶段的权重系数矩阵， ${{b}}_i$为第 $i$时刻相应的偏移量， $\alpha _{ij}$为 ${{h}}_i$的权重， ${{c}}_i$为输入对应的语义编码.

1.6. 输出层

BiGRU网络的输出经过以Softmax作为激活函数的全连接层完成维度变换，将高维的语义特征变换为低维的模型定义的类别数目，完成分类结果的输出.

Softmax用于多分类场景下预测每个类出现的概率，选择具有最高概率的类别作为最后的分类结果输出. Softmax公式为

(13) $s(Z)_j = \frac{{\mathop {\rm{e}}\nolimits^{\mathop z\nolimits_j } }}{{\sum\nolimits_{k = 1}^K {\mathop {\rm{e}}\nolimits^{\mathop z\nolimits_k } } }}.$

式中： $j \in \{ 1,\cdots,K\} $.

卷积神经网络的时间复杂度为

(14) ${\rm{Time}}\sim O\left(\sum\limits_{l = 1}^D {M_l^2} K_l^2 {C_{l - 1}} {C_l}\right).$

式中： $D$为神经网络具有的卷积层数； $K$为卷积核边长； $M$为特征图的边长； $l$为网络的第 $l$个卷积层； ${C_{l - 1}}$为第 $l - 1$层的输出通道数， ${C_l}$为第 $l$层的输出通道数，输出通道数即为该层卷积核个数. $K$、 $M$、 ${C_{l - 1}}$、 ${C_l}$均与超参数有关，仅 $D$的取值与模型结构有关，本文分类模型的卷积神经网络部分只包含一层卷积层，此后经过一层GRU网络. CNN与GRU按顺序依次处理，因此整个模型的时间复杂度为CNN和GRU复杂度之和，与单独的CNN模型或GRU模型相比，复杂度的数量级没有增加.

2. 实验结果与分析

2.1. 实验数据

本文的实验数据来源为某高校信息网络中心2017.6.1到2019.10.31的通话录音、通话记录及报修工单. 剔除没有转接到人工坐席的无效录音、时长过短不包含所需业务信息的录音，根据工单标签信息，选取来电次数最多的6类业务的相关数据作为实验数据集. 这6类业务分别为网络故障报修、校园卡业务咨询、信息门户咨询、邮箱业务咨询、云盘业务咨询和正版软件使用，共68 208条音频及对应工单，实验数据集的分布情况如表1所示.

表 1 录音文本分类方法实验数据分布表

Tab.1 Experimental data distribution table of recording text classification method

类别	训练集数	验证集数
网络故障报修	14 138	1 414
校园卡业务咨询	12 092	1 209
信息门户咨询	10 578	1 058
邮箱业务咨询	9 130	913
云盘业务咨询	8 259	826
正版软件使用	7 810	781

新窗口打开| 下载CSV

2.2. 模型超参数及优化算法

该实验主要针对ELMo进行词向量训练时的维度、CNN卷积核尺寸、CNN卷积核数目、模型迭代轮次Epoch、一次训练选取的样本数Batch Size和Dropout随机失活率，在一定取值范围内对模型进行训练和结果比较. 如表2所示为本文设计的录音分类模型参数实验范围以及权衡模型训练耗时与分类表现效果的最终取值.

表 2 录音文本分类模型神经网络参数取值表

Tab.2 Neural network parameter value table of recorded text classification model

模型参数	参数取值	参数实验值
词向量维度	200	100，200，300
CNN卷积核尺寸	3	3，4，5
CNN卷积核数量	128	64，128，256
Epoch	25	10，15，20，25，30
Batch Size	128	64，128，256
随机失活率	0.5	0.4，0.5，0.6

新窗口打开| 下载CSV

该实验使用Adam优化算法更新模型参数，随机梯度下降算法（stochastic gradient descent，SGD）以单一的学习率更新所有的权重，学习过程比较缓慢，且初始学习率选择不恰当时会出现严重振荡. Adam 通过计算梯度的一阶矩估计和二阶矩估计，为不同的参数设计独立的自适应性学习率，解决了稀疏梯度和噪声问题，且超参数具有很好的解释性，实现简单，计算高效.

2.3. 权重系数确定与实验结果

由于工单的标题、描述和录音文本首句对录音内容的表征能力最强， $\gamma $从0.5开始取值， $\gamma $的取值为 $0.5 \leqslant \gamma < 1$，在该范围内以0.1的步长增大 $\gamma $.

在机器学习领域内，可以使用混淆矩阵评价分类模型的表现效果，如表3所示. 矩阵的每一行表示样本的真实情况，每一列表示模型预测的样本情况.

表 3 混淆矩阵

Tab.3 Confusion matrix

真实类别	模型预测为正类	模型预测为负类
正类	TP	FN
负类	FP	TN

新窗口打开| 下载CSV

评价指标采用精确率和召回率. 精确率为

(15) $P = \frac{\rm{TP}}{\rm{TP + FP}}.$

召回率为

(16) $R = \frac{\rm{TP}}{\rm{TP + FN}}.$

精确率衡量被分类模型划分到某个类别中的文本中真实类别属于该类的比例，精确率越高说明分类器分类越准确. 召回率衡量实际属于某个类别的所有文本中被正确划分到该类别的比例，召回率越高，说明分类器在该类上漏掉的文本越少.

如表4所示为精确率、召回率与权重系数的关系. 实验结果表明，当 $\gamma $取为0.7时，分类效果最好，精确率可达95.32%，召回率可达90.50%. 当 $\gamma $取为0.6和0.8时，精确率和召回率都有一定程度的降低；当 $\gamma $取为0.9时，分类效果最差. 由此验证了引入 $\gamma $对录音文本分类的有效性，表明过分关注关键语句的局部特征不能取得最好的表现效果，上下文语义特征在分类任务中具有不可忽视的贡献.

表 4 精确率、召回率与权重系数的关系

Tab.4 Precision，recall and weighting factor table

$\gamma $	P	R
0.5	0.909 7	0.840 2
0.6	0.933 8	0.873 5
0.7	0.953 2	0.905 0
0.8	0.921 5	0.852 6
0.9	0.893 2	0.822 0

新窗口打开| 下载CSV

2.4. 对比实验

将提出的文本分类模型与以下分类模型在相同的录音文本数据上完成分类任务，将精确率和召回率作为评价指标，验证该模型的有效性. 在对比实验中，文本模型的 $\gamma $取0.7.

1）Kim^[10]提出的采用CNN进行文本分类.

2）任勉等^[17]提出的BiLSTM文本情感分类模型.

3）Tang等^[18]提出的句子级别CNN和文档级别BiLSTM混合模型.

4）张国豪等^[19]提出的采用CNN和BiGRU的时间序列分类模型BiGRU-FCN.

5）杨东等^[20]提出的Attention-based C-GRU文本分类模型，该模型结合CNN与GRU并引入Attention机制.

如表5所示为文本分类方法对比实验的精确率与召回率结果. 可知，提出的混合神经网络分类模型与其他模型相比，精确率和召回率都有提升. 分析实验数据及实验结果可得，不同类别的录音文本在高校信息网络中心业务场景下具有较强的相关性. 如校园卡和邮箱的查询、申请等功能可以通过登录信息门户进行相关操作完成；一部分网络无法连接的原因是网络欠费，此时通话内容可能会出现校园卡充值相关的内容，因此单独使用CNN的效果劣于该方法的原因是缺少上下文语义信息. 引入GRU模型的分类效果比单纯的CNN好，比该方法差，因为高校信息网络中心的服务内容具有一定的专业性，专业术语、固定搭配出现较频繁，此时对于局部特征的捕捉可以进一步提高分类方法表现效果. 本文为关键语句的CNN输出引入权重系数后比使用简单特征拼接的方法分类效果好. 引入Attention机制的模型会根据重要程度赋予隐藏层输出不同的权重，关键词对于分类结果的影响进一步提高.

表 5 文本分类方法的对比实验结果统计表

Tab.5 Comparison experiment result statistics table of text classification method

模型	P	R
CNN	0.734 4	0.749 5
BiLSTM	0.873 2	0.762 3
CNN+BiLSTM	0.900 1	0.873 8
BiGRU-FCN	0.914 3	0.870 2
Attention-based C-GRU	0.933 9	0.884 0
本文模型	0.953 2	0.905 0

新窗口打开| 下载CSV

3. 结　语

为了充分提取录音数据及关联信息中的有效信息并免去特征工程的繁杂，本文提出基于深度学习的文本分类方法. 该方法将录音转写后的文本通过ELMo模型进行预训练得到动态词向量，基于词向量使用CNN在录音文本的句子级别提取局部特征. 为了提高分类准确率，将录音文本关联的工单信息经CNN进行特征提取，将CNN提取后的特征根据对分类任务的贡献程度不同进行有权重的拼接，关联附属信息能够在一定程度上弥补音频转写引入的语料错误对分类效果的影响；使用引入Attention机制的BiGRU提取上下文语义特征，根据不同位置输入的重要程度对隐藏层输出进行有权重的加和. 混合分类模型使用Adam算法进行参数优化，使用Dropout正则化方法避免过拟合. 通过对比实验证明，该方法在录音文本分类问题上具有较好的表现效果.

参考文献

原文顺序

文献年度倒序

文中引用次数倒序

被引期刊影响因子

[1]

GAO J, GALLEY M, LI L

Neural approaches to conversational AI

[J]. Foundations and Trends® in Information Retrieval, 2019, 13 (2/3): 127- 298