基于深度学习的录音文本分类方法
Method with recording text classification based on deep learning
通讯作者:
收稿日期: 2019-07-30
Received: 2019-07-30
作者简介 About authors
张彦楠(1995—),女,硕士生,从事网络空间安全研究.orcid.org/0000-0003-2462-1760.E-mail:
为了提高具有关联工单数据的录音文本的分类精确率,根据录音文本及关联数据的特点,设计基于深度学习的录音文本分类方法. 针对录音文本,通过双向词嵌入语言模型(ELMo)获得录音文本及工单信息的向量化表示,基于获取的词向量,利用卷积神经网络(CNN)挖掘句子局部特征;使用CNN分别挖掘工单标题和工单的描述信息,将CNN输出的特征进行加权拼接后,输入双向门限循环单元(GRU),捕捉句子上下文语义特征;引入注意力机制,对GRU隐藏层的输出状态赋予不同的权重. 实验结果表明,与已有算法相比,该分类方法的收敛速度快,具有更高的准确率.
关键词:
A classification method based on deep learning was designed according to the characteristics of recording text and correlation data in order to improve the classification precision of the recording text with associated work order data. The embedding of the recording text and work order information was obtained through the bidirectional word embedding language model (ELMo). Local features of the sentence were mined by using convolutional neural networks (CNN) based on the word embedding. Title and description information of the work order were separately mined by using CNN. Features extracted by CNN were concatenated with a weighting factor. Then weighted features were entered into bidirectional gated recurrent unit (GRU) in order to capture the semantic features of the context. The attention mechanism was introduced to assign different weights to the output state of the GRU hidden layer. The experimental results show that the classification method has faster convergence rate and higher accuracy compared with the existing algorithms.
Keywords:
本文引用格式
张彦楠, 黄小红, 马严, 丛群.
ZHANG Yan-nan, HUANG Xiao-hong, MA Yan, CONG Qun.
针对深度学习文本分类问题,Kim[10]提出将卷积神经网络(CNN)应用于文本分类任务,CNN的卷积和池化操作善于捕捉局部特征. 针对包含自然语言处理的序列问题,循环神经网络(recurrent neural network,RNN)具有短期记忆[11],可以捕捉文本上下文特征. 对于RNN存在的梯度消失和梯度爆炸问题,LSTM[12]引入门控结构可以处理长序列数据,GRU[12]是LSTM网络的一种变体,结构简单且效果更好,Attention机制根据单词携带信息的重要程度赋予不同的权重进行特征提取,Liang等[13]提出利用GRU对文档进行多标签情感分类的GRU+Attention模型. Lyu等[14]研究TextCNN、GRU、Attention等深度学习算法以不同方式组合在中文专利文献分类问题上的表现效果. Wang[15]提出限制RNN信息流的距离以加强局部信息提取能力的DRNN模型. 这些深度学习模型根据自身特点,适用于不同场景.
本文根据录音文本的特点,提出应用于录音文本的分类方法. 分类模型首先将录音文本通过ELMo模型训练得到词向量,CNN和BiGRU网络基于词向量分别在句子级别和文档级别捕捉局部特征和上下文特征. 本文方法与其他分类方法的区别在于加入录音关联的工单信息同时作为文本分类特征信息,依据增加的输入数据在分类模型中添加CNN结构,同时引入权重系数对表征能力强的工单信息和录音文本首句的局部特征赋予较高权重,通过多次模型训练比较分类效果,确定权重系数. 增加的关联工单信息可以在一定程度上弥补语料错误对分类结果的影响. 混合分类模型使用Adam算法,基于训练数据迭代地更新神经网络权重进行参数优化;使用Dropout正则化方法在隐藏层随机丢弃神经元避免过拟合,通过以上方法使模型快速收敛并获得较高的准确率. 通过在高校信息网络中心呼叫中心录音文本数据上,使用多种分类模型进行对比实验,精确率和召回率评价指标证明了使用的混合模型在录音文本分类问题上的有效性.
1. 基于深度学习的录音文本分类方法
录音转文字的过程中会引入一些转化错误,且录音对话文本具有口语化表达、用语结构灵活、包含简称与缩写、特征稀疏、上下文依赖性强等特点. 在录音文本数据集上作初步统计,去除通话开始坐席人员的问候语后,90%的文本首句与本次通话主题直接相关,且通常包含相应类别中出现频率较高的关键词. 录音文本的关联工单信息通常是录音内容的概括,包含录音的主题及关键词信息. 针对录音文本数据的以上特点,提出的分类方法通过CNN分别挖掘录音文本和工单信息的局部特征,对局部特征进行有权重的拼接,工单相关的信息与录音首句的特征权重较高,其他语句的权重较低. 将拼接后的特征向量输入GRU神经网络进行上下文语义特征的提取,通过上述改进设计的混合神经网络模型对录音文本进行分类,强调关键语句可以对录音转文本过程中引入语料错误、录音文本特征稀疏、主题不清晰等问题可能造成的分类错误进行一定程度的纠正,提高分类准确率.
提出的录音文本分类模型包含6个部分,各部分的逻辑关系如图1所示.
图 1
图 1 录音文本分类模型示意图
Fig.1 Schematic diagram of classification model of recording text
1)输入层:录音文本、工单标题、工单描述经预处理后输入到模型中.
2)Embedding层:使用ELMo双向语言模型将输入层的文本转换为低维向量形式.
3)句子级别CNN层:多个CNN神经网络分别根据Embedding层的输出,对录音文本的句子以及工单标题和工单描述进行局部特征提取.
4)BiGRU层:CNN输出的局部特征加权拼接后,使用双向GRU神经网络进行上下文特征提取.
5)Attention层:对隐藏层提取的信息赋予权重,突出关键信息.
6)输出层:经Attention-BiGRU神经网络得到的特征向量通过Softmax分类器,得出最终的分类结果.
1.1. 输入层
录音文本进入输入层之前,须进行预处理.
1)去掉互动式语音应答(interactive voice response,IVR)提示文本以及通话文本开头坐席人员的问候语.
2)使用中文分词组件jieba,对录音文本进行分词. jieba提供了3种分词模式,其中精确模式试图将句子最精确地切分,适用于文本分析.
3)使用哈尔滨工业大学停用词表[16],并补充一部分通话音频中频繁出现的无意义词句,通过查表过滤和剔除停用词.
1.2. 嵌入层
图 2
双向模型的公式[9]如下:
式中:
每个token
式中:
1.3. 句子级别CNN
CNN是一种局部连接的深层前馈神经网络,善于捕捉文本局部特征. 针对特征向量稀疏的录音文本,可以有效提取关键词信息. CNN卷积核权值共享和池化操作可以显著降低网络复杂度,减少训练耗时. 卷积神经网路的隐含层分为卷积层、池化层和全连接层3层. 卷积层通过卷积核移动并进行卷积操作提取局部特征;池化层对输入的特征进行采样拼接,形成高层特征向量;全连接层将所有的局部特征结合,形成样本全局特征.
本文模型中提取录音文本特征的CNN数量,须满足大多数文本包含的句子数目小于等于该值. 若CNN数量远大于大部分文本包含的句子数,则许多CNN输入的是无意义的空值;若CNN数量远小于大部分文本包含的句子数,则许多文本的后半部分信息将被截断丢弃,导致一定程度的语义缺失. 设定阈值为
设定
图 3
通常产生录音数据的场景具有类似通话记录和工单等相关联的其他文本信息. 这些文本可以给录音文本的分类提供关键词信息,在分类模型中加入对关联文本信息的特征提取,可以提高分类模型的准确率. 本文实验选取高校信息网络中心的呼叫中心录音数据及关联工单的部分信息作为关联信息输入:1)工单标题是该通话内容主题;2)工单的问题描述通常包含分类关键词;3)工单所属分类作为样本的类别.
工单标题Embedding作为CNN1的输入,工单描述Embedding作为CNN2的输入,录音文本每个句子的Embedding依次作为CNN3,CNN4,
式中:
图 4
1.4. BiGRU
RNN在处理包括录音文本在内的序列数据时可以体现长距离依赖信息,RNN层与层之间的神经元间建立了连接,当前时刻的状态可以影响下一时刻的状态,因此可以捕捉到数据的前后相关性. GRU在RNN的基础上设计了门控结构,让信息选择性地在隐藏层传递,记忆重要信息的同时解决长序列训练过程中出现的梯度消失和梯度爆炸问题. GRU有重置门和更新门2个门控结构,参数少且收敛速度快. GRU中状态之间的传输是从前向后的单向传播过程,只能利用当前输入和之前的上下文信息;BiGRU既能够获得从前向后的依赖信息,也可以获得反向的依赖信息,提取到的特征信息更丰富. 如图5所示为GRU结构图. 图中,
图 5
GRU神经网络的神经元更新方式如下.
式中:wr、wz、w为权重短阵,根据神经网络的训练过程更新取值;h为当前时刻的候选隐藏状态;⊙表示元素相乘.
通过上一个神经元的输出
1.5. Attention机制
Attention机制借助人脑处理过载信息时的注意力机制,使得神经网络处理大量输入信息时聚焦于关键信息. 针对录音文本,Attention机制通过对隐藏层的输出赋予不同的权重,可以增强关键词信息对分类结果的影响,同时避免通过使用全连接网络或增加神经网络深度的方法来提高模型捕捉长距离上下文依赖信息的能力,缓解模型复杂度与表达能力之间的矛盾. Attention机制使得模型更加关注于重要的局部信息,提高神经网络处理信息的能力使得模型作出更加准确的判断. 引入Attention机制的模型结构如图6所示.
图 6
Attention机制的计算公式[13]如下.
式中:i表示时刻,j表示序列中的第j个元素,Tx为序列的长度,
1.6. 输出层
BiGRU网络的输出经过以Softmax作为激活函数的全连接层完成维度变换,将高维的语义特征变换为低维的模型定义的类别数目,完成分类结果的输出.
Softmax用于多分类场景下预测每个类出现的概率,选择具有最高概率的类别作为最后的分类结果输出. Softmax公式为
式中:
卷积神经网络的时间复杂度为
式中:
2. 实验结果与分析
2.1. 实验数据
本文的实验数据来源为某高校信息网络中心2017.6.1到2019.10.31的通话录音、通话记录及报修工单. 剔除没有转接到人工坐席的无效录音、时长过短不包含所需业务信息的录音,根据工单标签信息,选取来电次数最多的6类业务的相关数据作为实验数据集. 这6类业务分别为网络故障报修、校园卡业务咨询、信息门户咨询、邮箱业务咨询、云盘业务咨询和正版软件使用,共68 208条音频及对应工单,实验数据集的分布情况如表1所示.
表 1 录音文本分类方法实验数据分布表
Tab.1
类别 | 训练集数 | 验证集数 |
网络故障报修 | 14 138 | 1 414 |
校园卡业务咨询 | 12 092 | 1 209 |
信息门户咨询 | 10 578 | 1 058 |
邮箱业务咨询 | 9 130 | 913 |
云盘业务咨询 | 8 259 | 826 |
正版软件使用 | 7 810 | 781 |
2.2. 模型超参数及优化算法
该实验主要针对ELMo进行词向量训练时的维度、CNN卷积核尺寸、CNN卷积核数目、模型迭代轮次Epoch、一次训练选取的样本数Batch Size和Dropout随机失活率,在一定取值范围内对模型进行训练和结果比较. 如表2所示为本文设计的录音分类模型参数实验范围以及权衡模型训练耗时与分类表现效果的最终取值.
表 2 录音文本分类模型神经网络参数取值表
Tab.2
模型参数 | 参数取值 | 参数实验值 |
词向量维度 | 200 | 100,200,300 |
CNN卷积核尺寸 | 3 | 3,4,5 |
CNN卷积核数量 | 128 | 64,128,256 |
Epoch | 25 | 10,15,20,25,30 |
Batch Size | 128 | 64,128,256 |
随机失活率 | 0.5 | 0.4,0.5,0.6 |
该实验使用Adam优化算法更新模型参数,随机梯度下降算法(stochastic gradient descent,SGD)以单一的学习率更新所有的权重,学习过程比较缓慢,且初始学习率选择不恰当时会出现严重振荡. Adam 通过计算梯度的一阶矩估计和二阶矩估计,为不同的参数设计独立的自适应性学习率,解决了稀疏梯度和噪声问题,且超参数具有很好的解释性,实现简单,计算高效.
2.3. 权重系数确定与实验结果
由于工单的标题、描述和录音文本首句对录音内容的表征能力最强,
在机器学习领域内,可以使用混淆矩阵评价分类模型的表现效果,如表3所示. 矩阵的每一行表示样本的真实情况,每一列表示模型预测的样本情况.
评价指标采用精确率和召回率. 精确率为
召回率为
精确率衡量被分类模型划分到某个类别中的文本中真实类别属于该类的比例,精确率越高说明分类器分类越准确. 召回率衡量实际属于某个类别的所有文本中被正确划分到该类别的比例,召回率越高,说明分类器在该类上漏掉的文本越少.
如表4所示为精确率、召回率与权重系数的关系. 实验结果表明,当
表 4 精确率、召回率与权重系数的关系
Tab.4
| P | R |
0.5 | 0.909 7 | 0.840 2 |
0.6 | 0.933 8 | 0.873 5 |
0.7 | 0.953 2 | 0.905 0 |
0.8 | 0.921 5 | 0.852 6 |
0.9 | 0.893 2 | 0.822 0 |
2.4. 对比实验
将提出的文本分类模型与以下分类模型在相同的录音文本数据上完成分类任务,将精确率和召回率作为评价指标,验证该模型的有效性. 在对比实验中,文本模型的
1)Kim[10]提出的采用CNN进行文本分类.
2)任勉等[17]提出的BiLSTM文本情感分类模型.
3)Tang等[18]提出的句子级别CNN和文档级别BiLSTM混合模型.
4)张国豪等[19]提出的采用CNN和BiGRU的时间序列分类模型BiGRU-FCN.
5)杨东等[20]提出的Attention-based C-GRU文本分类模型,该模型结合CNN与GRU并引入Attention机制.
如表5所示为文本分类方法对比实验的精确率与召回率结果. 可知,提出的混合神经网络分类模型与其他模型相比,精确率和召回率都有提升. 分析实验数据及实验结果可得,不同类别的录音文本在高校信息网络中心业务场景下具有较强的相关性. 如校园卡和邮箱的查询、申请等功能可以通过登录信息门户进行相关操作完成;一部分网络无法连接的原因是网络欠费,此时通话内容可能会出现校园卡充值相关的内容,因此单独使用CNN的效果劣于该方法的原因是缺少上下文语义信息. 引入GRU模型的分类效果比单纯的CNN好,比该方法差,因为高校信息网络中心的服务内容具有一定的专业性,专业术语、固定搭配出现较频繁,此时对于局部特征的捕捉可以进一步提高分类方法表现效果. 本文为关键语句的CNN输出引入权重系数后比使用简单特征拼接的方法分类效果好. 引入Attention机制的模型会根据重要程度赋予隐藏层输出不同的权重,关键词对于分类结果的影响进一步提高.
表 5 文本分类方法的对比实验结果统计表
Tab.5
模型 | P | R |
CNN | 0.734 4 | 0.749 5 |
BiLSTM | 0.873 2 | 0.762 3 |
CNN+BiLSTM | 0.900 1 | 0.873 8 |
BiGRU-FCN | 0.914 3 | 0.870 2 |
Attention-based C-GRU | 0.933 9 | 0.884 0 |
本文模型 | 0.953 2 | 0.905 0 |
3. 结 语
为了充分提取录音数据及关联信息中的有效信息并免去特征工程的繁杂,本文提出基于深度学习的文本分类方法. 该方法将录音转写后的文本通过ELMo模型进行预训练得到动态词向量,基于词向量使用CNN在录音文本的句子级别提取局部特征. 为了提高分类准确率,将录音文本关联的工单信息经CNN进行特征提取,将CNN提取后的特征根据对分类任务的贡献程度不同进行有权重的拼接,关联附属信息能够在一定程度上弥补音频转写引入的语料错误对分类效果的影响;使用引入Attention机制的BiGRU提取上下文语义特征,根据不同位置输入的重要程度对隐藏层输出进行有权重的加和. 混合分类模型使用Adam算法进行参数优化,使用Dropout正则化方法避免过拟合. 通过对比实验证明,该方法在录音文本分类问题上具有较好的表现效果.
参考文献
Neural approaches to conversational AI
[J].
Sentiment analysis of call centre audio conversations using text classification
[J].
基于双向LSTM模型的文本情感分类
[J].
Sentiment analysis of text based on bi-directional long short-term memory model
[J].
采用CNN和Bidirectional GRU的时间序列分类研究
[J].DOI:10.3778/j.issn.1673-9418.1812059 [本文引用: 1]
Research on time series classification using CNN and bidirectional GRU
[J].DOI:10.3778/j.issn.1673-9418.1812059 [本文引用: 1]
基于Attention-based C-GRU神经网络的文本分类
[J].DOI:10.3969/j.issn.1006-2475.2018.02.020 [本文引用: 1]
An Attention-based C-GRU neural network for text classification
[J].DOI:10.3969/j.issn.1006-2475.2018.02.020 [本文引用: 1]
/
〈 |
|
〉 |
