基于密集连接网络和多维特征融合的文本匹配模型
Text matching model based on dense connection networkand multi-dimensional feature fusion
通讯作者:
收稿日期: 2021-03-22
基金资助: |
|
Received: 2021-03-22
Fund supported: | 广西科技重大专项(AA20302001);桂林市科学研究与技术开发技术课题(20190412) |
作者简介 About authors
陈岳林(1963—),男,教授,从事自然语言处理,图像识别与处理研究.orcid.org/0000-0002-8377-3986.E-mail:
针对文本匹配过程中存在语义损失和句子对间信息交互不充分的问题,提出基于密集连接网络和多维特征融合的文本匹配方法. 模型的编码端使用BiLSTM网络对句子进行编码,获取句子的上下文语义特征;密集连接网络将最底层的词嵌入特征和最高层的密集模块特征连接,丰富句子的语义特征;基于注意力机制单词级的信息交互,将句子对间的相似性特征、差异性特征和关键性特征进行多维特征融合,使模型捕获更多句子对间的语义关系. 在4个基准数据集上对模型进行评估,与其他强基准模型相比,所提模型的文本匹配准确率显著提升,准确率分别提高0.3%、0.3%、0.6%和1.81%. 在释义识别Quora数据集上的有效性验证实验结果表明,所提方法对句子语义相似度具有精准的匹配效果.
关键词:
A text matching method was proposed based on the dense connection network and the multi-dimensional feature fusion, aiming at the problems of the semantic loss and insufficient information on the interaction for sentence pairs in the text matching process. The BiLSTM network was used to encode the sentence in order to obtain the semantic features of the sentence in the encoding end of the model. The word embedding feature at the bottom and the dense module feature at the top were connected by the dense connection network, and the semantic features of sentences were enriched. The similarity features, the difference features and the key features of sentence pairs were fused with multi-dimensional features based on the information interaction of word-level for attention mechanism, and large amounts of the semantic relationships between sentence pairs were captured by the model. The model evaluation was performed on four benchmark datasets. Compared with other strong benchmark models, the text matching accuracy of the proposed model was significantly improved by 0.3%, 0.3%, 0.6% and 1.81%, respectively. The validity verification experiment on the Quora dataset of paraphrase recognition showed that the proposed method had an accurate matching effect on the semantic similarity of sentences.
Keywords:
本文引用格式
陈岳林, 田文靖, 蔡晓东, 郑淑婷.
CHEN Yue-lin, TIAN Wen-jing, CAI Xiao-dong, ZHENG Shu-ting.
随着计算机技术和网络技术的发展,人们学习新知识的速度在不断加快,怎么才能精确地根据信息用户特定的需求将相关信息准确地查找出来呢?在这一背景下,文本匹配成为计算机科学中的热门研究领域,信息检索正是文本匹配的步骤之一.
文本匹配最流行的方法是基于深度神经网络,神经网络的语义相似度匹配模型因强大的学习句子表示能力被广泛应用[6-7]. 目前句子匹配任务主要有2种框架:基于句子编码的框架和基于注意力机制[8]的框架. 第1种框架通过使用2个句子语义向量提出1个简单的匹配模型[9-10],忽略2个句子间的语义特征交互. 第2种框架引入注意力机制对2个句子间的单词级交互进行建模,融合句子间信息特征,提高了匹配准确性[11-12]. 虽然深层次的网络模型[13]优于浅层的模型,表明深层次网络能学习更多的语义特征,但是网络加深易使网络梯度消失,因此Yang等[14]提出RE2模型,使用增强型残差网络连接加深网络深度,有效地解决了梯度消失问题,模型性能得到提升. 虽然RE2模型使用增强型残差连接加深了网络深度,但是RE2模型使用求和的方式连接,各个残差块输出特征与原始特征的连接不紧密,容易造成特征损失. 另外,基于注意力机制的框架,引用注意力机制进行单词级的信息交互,使得模型只捕获句子对间单词级的语义信息,没有捕获更多句子对间整体的语义特征。比如句子对间的相似性语义特征、差异性语义特征和关键性语义特征.
为了解决特征损失和句子对间交互不充分的问题,本研究提出基于密集连接网络和多维特征融合的文本匹配模型(text matching model based on dense connection network and multi-dimensional feature fusion, DCN-MDFF). 受DenseNet卷积网络的启发[15],提出密集连接网络,将多个密集网络模块特征输出和原始特征(词嵌入特征)融合,使最底层到最高层的特征紧密连接,丰富句子的语义特征. 采用基于注意力机制的多维特征融合方式,丰富句子对间的信息交互,使模型能捕获更多句子对间的语义关系.
1. DCN-MDFF
图 1
1.1. 密集连接网络
为了解决句子特征损失,提出密集连接网络. 与传统的残差网络使用求和残差连接方式不同,密集连接网络是将多个模块特征输出与原始特征(词嵌入特征)紧密连接,最大程度保留多个模块的特征与原始特征融合,丰富句子的语义特征. 对于长度为
式中:[;]为向量的拼接操作,
密集网络连接可以将最底层的词嵌入特征和最高层的密集连接网络模块特征紧密连接,丰富句子的语义特征.
1.2. 基于注意力机制的多维特征融合
最早捕获句子对间语义信息的方法是基于注意力机制,与其他不使用基于注意力机制的模型相比,效果得到一定提升,且不依赖词序信息. 但基于注意力机制只能捕获到句子对间单词级的语义信息,本研究在基于注意力机制单词级交互基础上融合多种句子对间的交互方式,使得模型能够捕获到更多句子对间的语义信息.
注意力层采用Parikh等[19]提出的方法,设句子对
式中:
输出向量
在基于注意力机制对句子对间的单词级信息交互上,再进行句子对间多维特征融合,使模型能捕获更多句子对间语义关系,在 RE2模型[14]丰富对齐方式中,添加融合了句子对间的关键性特征,计算公式为
式中:
1.3. 预测层网络
在预测层以各种方式聚合句子
式中:
式中:
2. 实验结果与分析
2.1. 实验数据集
如表1所示,将本研究提出的语义相似度匹配模型在3类具有挑战性的句子匹配任务数据集上进行评估3类数据集分别为 1)用于自然语言推理的SNLI和SciTail,2)用于释义识别的Quora问题对,3)蚂蚁金融中文数据集.
表 1 不同数据集的大小和示例
Tab.1
数据集 | 分类 | 数量 | 例句 | 标签 |
SNLI | train | 549367 | p: a man playing an electric guitar on stage. q: a man playing guitar on stage. | 蕴涵、中立、矛盾 |
dev | 9842 | |||
test | 9824 | |||
SciTail | train | 23596 | p: He grabs at the wheel to turn the car. q: The turning driveshaft causes the wheels of the car to turn. | 蕴涵、中立 |
dev | 1304 | |||
test | 2126 | |||
Quora | train | 384348 | p: What is the best way of living life? q: What is the best way to live a life? | 释义、未释义 |
dev | 10000 | |||
test | 10000 | |||
蚂蚁金融 | train | 92500 | p: 蚂蚁借呗多长时间可以审核通过? q: 借呗申请多久可以审核通过? | 是、否 |
dev | 4000 | |||
test | 4000 |
SNLI [2]是57 000个人工标注的句子对的数据集,用于自然语言推理任务. 2个句子间的关系包括蕴涵(entailment)、矛盾(contradict)和中立(neutral)3种关系.
SciTail [3](science entailment)是根据科学问题和答案构建的分类数据集. 由于科学事实不能相互矛盾,因此该数据集只包含2种类型的标签:蕴涵和中立. 值得注意的是,前提和相应的假设对于蕴涵和中立句子对都有很高的词汇相似性,这使得任务特别困难.
Quora [8]是用于释义识别的数据集,指示2个问题是否互为释义,由Quora网站收集的40万个问题对组成.
蚂蚁金融是由10万对组成的中文数据集,根据句子对表述的意思是否相似,将标签分为是(true)和否(false). 蚂蚁金融和英文数据集SciTail类似,句子对中存在很高的词汇相似性,另外,当句子对中存在错别字、同义词、词序变换等问题时,相似度匹配任务特别困难.
2.2. 实验参数设置
模型使用Pytorch深度学习框架搭建,并在Nvidia 2080Ti GPUs显卡上训练模型. 句子序列长度不受限制,单个批次中的所有序列都被填充到批次最大值. 对于英文数据集,使用已经预训练好的840B-300d Glove词向量对词嵌入进行初始化. 对于中文数据集先使用Jieba对文本进行分词,再用Glove模型对蚂蚁金融中文语料进行训练得到词向量矩阵,之后对词嵌入进行初始化. 模型使用Dropout[20]策略抑制过拟合现象,dropout = 0.25. 使用Adam (adaptive moment estimation)[21]优化器进行模型优化,其中
2.3. 实验结果
2.3.1. 自然语言推理实验结果
图 2
图 2 SNLI数据集上不同模型的匹配准确率对比结果
Fig.2 Comparison results of matching accuracy with different models on SNLI dataset
在自然语言推理数据集SNLI和SciTail数据中进行实验,与其他方法对比,可知本研究提出的方法的有效性. 在自然语言推理关系过程中,密集网络对句子特征的充分提取和多维特征融合,更有利句子对的关系推理.
图 3
图 3 SciTail数据集上不同模型的匹配准确率对比结果
Fig.3 Comparison results of matching accuracy with different models on SciTail dataset
2.3.2. 释义识别实验结果
图 4
图 4 Quora数据集上不同模型的匹配准确率对比结果
Fig.4 Comparison results of matching accuracy with different models on Quora dataset
2.3.3. 蚂蚁金融实验结果
如图5所示为在蚂蚁金融数据集上的对比结果。图中,星号表示只是引用已有的模型在实验数据集上进行实验,Shingling模型是基于重叠算法捕获句子对的语义信息,Siamese-LSTM模型提出双向的注意力机制捕获句子对的语义信息,BERT使用开源的中文预训练模型再进行微调、测试. 可以看出,本研究提出的方法测试准确率为85.45%,明显高于其他模型. 在中文蚂蚁金融数据集中,存在很高的词汇相似性,以及错别字、同义词、词序变换等问题,对比结果表明,本研究提出的方法能对句子进行充分的特征提取. 另外,基于注意力机制的多维特征融合能捕获句子对间更多的语义信息. 因此实验效果得到显著的提升.
图 5
图 5 蚂蚁金融数据集上不同模型的匹配准确率对比结果
Fig.5 Comparison results of matching accuracy with different models on ant financial data set
2.4. 实验分析
2.4.1. 消融研究
本研究对Quora数据集进行消融实验,以验证本研究提出的密集型连接网络和多维特征融合的有效性. 1) 验证提出的密集型连接网络的有效性,使用传统的求和方式
如表2所示为消融实验的结果。可以看出,使用密集型连接方式相比较于残差求和连接方式和增强型连接方式具有更好的效果。还可以看出在多维特征融合方式中,关键特征融合和差异性特征融合对于语义相似度匹配任务性能影响较小,相似性特征融合对于匹配任务性能影响最大.
表 2 Quora数据集上消融实验结果
Tab.2
模型 | Acc/% | 模型 | Acc/% | |
KFF | 89.6 | SRC | 89.3 | |
DF | 89.5 | ARC | 89.4 | |
SimiF | 89.2 | DCN-MDFF | 90.0 | |
SF | 89.2 | − | − |
2.4.2. 模型的鲁棒性分析
为了验证本研究提出的方法是否对不同的结构超参数的变化具有鲁棒性,设置2种方式的鲁棒性研究:1)编码层的网络层数设置为2,密集连接网络模块数从1到5递增;2)密集连接网络模块数设置为2,编码层的网络层数从1到5递增. 在SNLI、Quora、Scitail和蚂蚁金融4个数据集的验证集上进行鲁棒性研究.
如图6所示为在各个验证集上的鲁棒性实验性能对比. 图中,L为编码端的层数,B为密集连接网络模块数。可以得出,随着编码端网络和密集连接网络的加深,模型的性能提升,但是对于某些数据集当网络加深到一定程度时,模型的性能不会出现特别大的提升,例如Quora数据集,在编码端的2~5层,模型的性能只是微小的变化,随着密集网络的加深到第5个模块时,模型的性能会出现微小下降. 对于SciTail和SNLI数据集,随着编码端网络和密集连接网络的加深,模型的性能得到显著的提升. 在SciTail 数据集上,编码层网络的加深实验效果有较大的波动. 在SciTail 数据中,前提和相应的假设对于蕴涵和中立句子对都有很高的词汇相似性,这使得任务特别困难. 随着网络的加深,模型的特征提取能力越强,能提取出更多高度相似词汇语义特征,效果也会越好. 对于中文数据集蚂蚁金融,当编码端网络层数为3时,模型的性能最好. 当编码层数一定时,可以看出较少的密集网络模块数实验效果比较差,随着密集网络模块数的增加,模型的性能也会提升. 这是由于随着密集网络模块数的增加,句子的特征提取和句子对间的交互次数也增加,句子的特征提取和句子对间的信息交互越充分,模型的性能越好.
图 6
图 6 在各个验证集上的鲁棒性实验性能对比
Fig.6 Robustness experimental performance comparison on each verification set
3. 结 语
本研究提出基于密集连接网络和多维特征融合的语义相似度文本匹配模型,将模型在4个基准数据集上进行评估,结果表明密集连接方式优于传统的求和残差网络和增强型求和网络,该模型适用于相关领域应用. 本研究提出的是孪生网络模型应用于文本匹配任务,相比较于预训练模型方法,模型训练时间较长. 在特征提取方面,所提模型不如强大的预训练模型. 随着文本匹配应用越来越广泛,下一步研究工作计划将主要围绕以下两点展开:1)使用更强大特征提取器,比如BERT、RoBERT预训练模型作为文本特征提取器;2)对于不同任务的数据匮乏,结合小样本学习(few-shot learning)做文本匹配,降低数据成本同时保证模型的性能.
参考文献
面向自然语言推理的基于截断高斯距离的自注意力机制
[J].DOI:10.11896/jsjkx.190600149 [本文引用: 1]
Truncated Gaussian distance-based self-attention mechanism for natural language inference
[J].DOI:10.11896/jsjkx.190600149 [本文引用: 1]
LSTM recurrent networks learn simple context-free and context-sensitive languages
[J].DOI:10.1109/72.963769 [本文引用: 1]
Natural language processing (almost) from scratch
[J].
Dropout: a simple way to prevent neural networks from overfitting
[J].
/
〈 |
|
〉 |
