基于密集连接网络和多维特征融合的文本匹配模型

doi:10.3785/j.issn.1008-973X.2021.12.015

基于密集连接网络和多维特征融合的文本匹配模型

陈岳林^,, 田文靖, 蔡晓东^,, 郑淑婷

1. 桂林电子科技大学机电工程学院，广西桂林 541004

2. 桂林电子科技大学信息与通信学院，广西桂林 541004

Text matching model based on dense connection networkand multi-dimensional feature fusion

CHEN Yue-lin^,, TIAN Wen-jing, CAI Xiao-dong^,, ZHENG Shu-ting

1. School of Mechanical and Electrical Engineering, Guilin University of Electronic Technology, Guilin 541004, China

2. School of Information and Communication, Guilin University of Electronic Technology, Guilin 541004, China

通讯作者: 蔡晓东，男，研究员，博导. orcid.org/0000-0001-8505-1007. E-mail: caixiaodong@guet.edu.cn

收稿日期: 2021-03-22

基金资助:

广西科技重大专项（AA20302001）；桂林市科学研究与技术开发技术课题（20190412）

Received: 2021-03-22

Fund supported:

广西科技重大专项（AA20302001）；桂林市科学研究与技术开发技术课题（20190412）

作者简介 About authors

陈岳林（1963—），男，教授，从事自然语言处理，图像识别与处理研究.orcid.org/0000-0002-8377-3986.E-mail:370883566@qq.com , E-mail：370883566@qq.com

摘要

针对文本匹配过程中存在语义损失和句子对间信息交互不充分的问题，提出基于密集连接网络和多维特征融合的文本匹配方法. 模型的编码端使用BiLSTM网络对句子进行编码，获取句子的上下文语义特征；密集连接网络将最底层的词嵌入特征和最高层的密集模块特征连接，丰富句子的语义特征；基于注意力机制单词级的信息交互，将句子对间的相似性特征、差异性特征和关键性特征进行多维特征融合，使模型捕获更多句子对间的语义关系. 在4个基准数据集上对模型进行评估，与其他强基准模型相比，所提模型的文本匹配准确率显著提升，准确率分别提高0.3%、0.3%、0.6%和1.81%. 在释义识别Quora数据集上的有效性验证实验结果表明，所提方法对句子语义相似度具有精准的匹配效果.

关键词： 语义损失 ; 信息交互 ; BiLSTM网络 ; 密集连接网络 ; 注意力机制 ; 多维特征融合

Abstract

A text matching method was proposed based on the dense connection network and the multi-dimensional feature fusion, aiming at the problems of the semantic loss and insufficient information on the interaction for sentence pairs in the text matching process. The BiLSTM network was used to encode the sentence in order to obtain the semantic features of the sentence in the encoding end of the model. The word embedding feature at the bottom and the dense module feature at the top were connected by the dense connection network, and the semantic features of sentences were enriched. The similarity features, the difference features and the key features of sentence pairs were fused with multi-dimensional features based on the information interaction of word-level for attention mechanism, and large amounts of the semantic relationships between sentence pairs were captured by the model. The model evaluation was performed on four benchmark datasets. Compared with other strong benchmark models, the text matching accuracy of the proposed model was significantly improved by 0.3%, 0.3%, 0.6% and 1.81%, respectively. The validity verification experiment on the Quora dataset of paraphrase recognition showed that the proposed method had an accurate matching effect on the semantic similarity of sentences.

Keywords： semantic loss ; information interaction ; BiLSTM network ; dense connection network ; attention mechanism ; multi-dimensional feature fusion

PDF (894KB) 元数据多维度评价相关文章导出 EndNote| Ris| Bibtex 收藏本文

本文引用格式

陈岳林, 田文靖, 蔡晓东, 郑淑婷. 基于密集连接网络和多维特征融合的文本匹配模型. 浙江大学学报(工学版)[J], 2021, 55(12): 2352-2358 doi:10.3785/j.issn.1008-973X.2021.12.015

CHEN Yue-lin, TIAN Wen-jing, CAI Xiao-dong, ZHENG Shu-ting. Text matching model based on dense connection networkand multi-dimensional feature fusion. Journal of Zhejiang University(Engineering Science)[J], 2021, 55(12): 2352-2358 doi:10.3785/j.issn.1008-973X.2021.12.015

随着计算机技术和网络技术的发展，人们学习新知识的速度在不断加快，怎么才能精确地根据信息用户特定的需求将相关信息准确地查找出来呢？在这一背景下，文本匹配成为计算机科学中的热门研究领域，信息检索正是文本匹配的步骤之一.

文本匹配是自然语言处理中重要的研究领域. 在文本匹配任务中，模型将2个文本序列作为输入，并预测两者的语义关系. 文本匹配可以广泛应用于各种各样的任务，例如自然语言推理、判断是否可由前提推断出假设^[1-3]、在释义识别中确定2个句子是否表达相同的含义^[4]、答案选择^[5]和信息检索等等. 这些应用可以看作是文本相似度匹配问题的特定形式，文本匹配的核心问题就是对2个句子的相关性进行建模.

文本匹配最流行的方法是基于深度神经网络，神经网络的语义相似度匹配模型因强大的学习句子表示能力被广泛应用^[6-7]. 目前句子匹配任务主要有2种框架：基于句子编码的框架和基于注意力机制^[8]的框架. 第1种框架通过使用2个句子语义向量提出1个简单的匹配模型^[9-10]，忽略2个句子间的语义特征交互. 第2种框架引入注意力机制对2个句子间的单词级交互进行建模，融合句子间信息特征，提高了匹配准确性^[11-12]. 虽然深层次的网络模型^[13]优于浅层的模型，表明深层次网络能学习更多的语义特征，但是网络加深易使网络梯度消失，因此Yang等^[14]提出RE2模型，使用增强型残差网络连接加深网络深度，有效地解决了梯度消失问题，模型性能得到提升. 虽然RE2模型使用增强型残差连接加深了网络深度，但是RE2模型使用求和的方式连接，各个残差块输出特征与原始特征的连接不紧密，容易造成特征损失. 另外，基于注意力机制的框架，引用注意力机制进行单词级的信息交互，使得模型只捕获句子对间单词级的语义信息，没有捕获更多句子对间整体的语义特征。比如句子对间的相似性语义特征、差异性语义特征和关键性语义特征.

为了解决特征损失和句子对间交互不充分的问题，本研究提出基于密集连接网络和多维特征融合的文本匹配模型(text matching model based on dense connection network and multi-dimensional feature fusion, DCN-MDFF). 受DenseNet卷积网络的启发^[15]，提出密集连接网络，将多个密集网络模块特征输出和原始特征（词嵌入特征）融合，使最底层到最高层的特征紧密连接，丰富句子的语义特征. 采用基于注意力机制的多维特征融合方式，丰富句子对间的信息交互，使模型能捕获更多句子对间的语义关系.

1. DCN-MDFF

如图1所示为DCN-MDFF的框架结构. 图中，p、q为文本输入序列，BiLSTM为双向的长短期记忆网络（Bi-directional long-short term memory）^[16]， $ {y}_{{\rm{pred}}} $为最终的预测输出. 2个文本序列在预测层之前会被以相同方式处理，该框架为孪生网络结构.

图 1

新窗口打开| 下载原图ZIP| 生成PPT

图 1 DCN-MDFF框架结构图

Fig.1 DCN-MDFF model frame structure diagram

在DCN-MDFF中，文本序列中的词首先经过词嵌入层得到句子的词嵌入向量，再经过BiLSTM编码层进行编码，获得文本序列的上下文语义特征. 语义特征经过融合层输出再经过池化层进行池化操作，最后经过预测层对2个文本序列进行预测输出. 在DCN-MDFF模型中，融合层融合注意力层的输入和输出. 密集连接网络模块通过密集连接网络方式连接，融合层的输出为该模块的最终输出，在词嵌入层中本文使用预训练词嵌入模型Glove^[17]，编码端部分使用BiLSTM，池化层使用最大池化操作^[18]. 对于模型的训练，通过优化交叉熵损失来训练分类任务中的模型.

1.1. 密集连接网络

为了解决句子特征损失，提出密集连接网络. 与传统的残差网络使用求和残差连接方式不同，密集连接网络是将多个模块特征输出与原始特征（词嵌入特征）紧密连接，最大程度保留多个模块的特征与原始特征融合，丰富句子的语义特征. 对于长度为 $ l $的文本序列，将第 $ n $个模块的输入和输出分别表示为 ${{{\boldsymbol{x}}}}^{\left(n\right)}=\left[{{{\boldsymbol{x}}}}_{1}^{\left(n\right)},{{{\boldsymbol{x}}}}_{2}^{\left(n\right)}, \cdot \cdot \cdot ,{{{\boldsymbol{x}}}}_{l}^{\left(n\right)}\right]$， ${{{\boldsymbol{o}}}}^{\left(n\right)}=\left[{{{\boldsymbol{o}}}}_{1}^{\left(n\right)}, $ $ {{{\boldsymbol{o}}}}_{2}^{\left(n\right)},\cdot \cdot \cdot ,{{{\boldsymbol{o}}}}_{l}^{\left(n\right)}\right]$. 其中 ${{{\boldsymbol{x}}}}^{\left(1\right)}$为词嵌入层的输出. ${{{\boldsymbol{x}}}}^{\left(n\right)}$（ $n \geqslant 2$）由词嵌入的输出 ${{{\boldsymbol{x}}}}^{\left(1\right)}$和前2个模块的输出特征融合：

(1) $ {{{\boldsymbol{x}}}}_{i}^{\left(n\right)}=\left[{{{\boldsymbol{x}}}}_{i}^{\left(1\right)};{{{\boldsymbol{o}}}}_{i}^{\left(n-1\right)};{{{\boldsymbol{o}}}}_{i}^{\left(n-2\right)}\right] \text{，} $

(2) $ {\overrightarrow {{\boldsymbol{h}}_{i}^{l}}}=\text{BiLSTM}\left({{{\boldsymbol{x}}}}_{i}^{\left(n\right)},{\overrightarrow{{\boldsymbol{h}}_{i-1}^{l}}}\right) \text{，} $

(3) $ {\overleftarrow{{{{\boldsymbol{h}}}}_{i}^{l}}}=\text{BiLSTM}\left({{{\boldsymbol{x}}}}_{i}^{\left(n\right)},{\overleftarrow{{\boldsymbol{h}}_{i+1}^{l}}}\right) \text{，} $

(4) $ {{{\boldsymbol{h}}}}_{i}^{l}=\left[{\overrightarrow{{{\boldsymbol{h}}}_{i}^{l}}};{\overleftarrow{{{\boldsymbol{h}}}_{i}^{l}}}\right] . $

式中：[;]为向量的拼接操作， ${\overrightarrow{{{\boldsymbol{h}}}_{i}^{l}}}$为BiLSTM前向隐藏层向量， ${\overleftarrow{{{\boldsymbol{h}}}_{i}^{l}}}$为BiLSTM反向隐藏层向量. 最终句子的上下文隐藏向量 ${{{\boldsymbol{h}}}}_{i}^{l}$通过前向隐藏层向量 ${\overrightarrow{{{\boldsymbol{h}}}_{i}^{l}}}$和反向隐藏层向量 ${\overleftarrow{{{\boldsymbol{h}}}_{i}^{l}}}$进行拼接.

密集网络连接可以将最底层的词嵌入特征和最高层的密集连接网络模块特征紧密连接，丰富句子的语义特征.

1.2. 基于注意力机制的多维特征融合

最早捕获句子对间语义信息的方法是基于注意力机制，与其他不使用基于注意力机制的模型相比，效果得到一定提升，且不依赖词序信息. 但基于注意力机制只能捕获到句子对间单词级的语义信息，本研究在基于注意力机制单词级交互基础上融合多种句子对间的交互方式，使得模型能够捕获到更多句子对间的语义信息.

注意力层采用Parikh等^[19]提出的方法，设句子对 $ q $、 $ p $的长度分别为 $ {l}_{q} $、 $ {l}_{p} $，则2个句子的输入分别表示为 ${{\boldsymbol{q}}}=\left[{{{\boldsymbol{q}}}}_{1},{{{\boldsymbol{q}}}}_{2},\cdot \cdot \cdot ,{{{\boldsymbol{q}}}}_{{l}_{q}}\right]$， ${{\boldsymbol{p}}}=\left[{{{\boldsymbol{p}}}}_{1},{{{\boldsymbol{p}}}}_{2},\cdot \cdot \cdot ,{{{\boldsymbol{p}}}}_{{l}_{p}}\right]$. 用 ${{{\boldsymbol{q}}}}_{i}$、 ${{{\boldsymbol{p}}}}_{j}$分别表示句子对 $ q $、 $ p $的第 $ i $、 $ j $个词， ${{{\boldsymbol{q}}}}_{i}$、 ${{{\boldsymbol{p}}}}_{j}$间的相似性得分 ${{{e}}}_{ij}$为投影向量的点积：

(5) $ {{{e}}}_{ij}=F({{{\boldsymbol{q}}}}_{i}{)}^{{\rm{T}}}F({{{\boldsymbol{p}}}}_{j}). $

式中： $ F $为单层的前馈神经网络。

输出向量 ${{{\boldsymbol{q}}}}_{i}^{\text{′}}$、 ${{{\boldsymbol{p}}}}_{j}^{\text{′}}$通过另一序列表示的加权求和计算. 求和通过当前位置与另一序列中相应位置的相似度得分加权，即从句子 $ p $中寻找与句子 $ q $最相似的部分，基于注意力的词级交互也叫作对齐过程（soft-attention alignment），计算公式为

(6) $ {{{\boldsymbol{q}}}}_{i}^{\text{′}}={\sum }_{j=1}^{{l}_{p}}\frac{\text{exp}\;\left({{{e}}}_{ij}\right)}{{\sum }_{k=1}^{{l}_{p}}\text{exp}\;\left({{{e}}}_{ik}\right)}{{{\boldsymbol{p}}}}_{j} \text{，} $

(7) $ {{{\boldsymbol{p}}}}_{j}^{\text{′}}={\sum }_{i=1}^{{l}_{q}}\frac{\text{exp}\;\left({{{e}}}_{ij}\right)}{{\sum }_{k=1}^{{l}_{q}}\text{exp}\;\left({{{e}}}_{kj}\right)}{{{\boldsymbol{q}}}}_{i} . $

在基于注意力机制对句子对间的单词级信息交互上，再进行句子对间多维特征融合，使模型能捕获更多句子对间语义关系，在 RE2模型^[14]丰富对齐方式中，添加融合了句子对间的关键性特征，计算公式为

(8) $ {{{\boldsymbol{\alpha }}}}_{i}^{1}={G}_{1}([{{{\boldsymbol{q}}}}_{i};{{{\boldsymbol{q}}}}_{i}^{{\text{′}}}]) \text{，} $

(9) $ {{{\boldsymbol{\alpha}} }}_{i}^{2}={G}_{2}([{{{\boldsymbol{q}}}}_{i};{{{\boldsymbol{q}}}}_{i}\odot (\sigma ({{{\boldsymbol{q}}}}_{i}^{\text{′}}\left)\right)\left]\right) \text{，} $

(10) $ {{{\boldsymbol{\alpha}} }}_{i}^{3}={G}_{3}([{{{\boldsymbol{q}}}}_{i};{{{\boldsymbol{q}}}}_{i}-{{{\boldsymbol{q}}}}_{i}^{\text{′}}]) \text{，} $

(11) $ {{{\boldsymbol{\alpha}} }}_{i}^{4}={G}_{4}([{{{\boldsymbol{q}}}}_{i};{{\rm{cos}}}\;({{{\boldsymbol{q}}}}_{i},{{{\boldsymbol{q}}}}_{i}^{\text{′}})\left]\right) \text{，} $

(12) $ {{{\boldsymbol{\alpha}} }}_{i}=G([{{{\boldsymbol{\alpha}} }}_{i}^{1};{{{\boldsymbol{\alpha}} }}_{i}^{2};{{{\boldsymbol{\alpha}} }}_{i}^{3};{{{\boldsymbol{\alpha}} }}_{i}^{4})] . $

式中： $ {G}_{1} $、 $ {G}_{2} $、 $ {G}_{3} $、 $ {G}_{4} $和 $ G $为具有独立参数的单层前馈网络，减法运算突显句子对的差异性特征，余弦计算比较句子对的相似性特征. $ \sigma $为sigmoid激活函数， $ \odot $为点积运算，式（9）突出句子对间的关键性特征. 句子 $ p $的融合计算公式与句子 $ q $类似.

1.3. 预测层网络

在预测层以各种方式聚合句子 $ p $、 $ q $的特征表示，并通过多层的前馈神经网络输出^[20]，公式为

(13) $ {{{\boldsymbol{y}}}}_{\text{out}}=H([{{{\boldsymbol{v}}}}_{1};{{{\boldsymbol{v}}}}_{2};{{{\boldsymbol{v}}}}_{1}+{{{\boldsymbol{v}}}}_{2};{{{\boldsymbol{v}}}}_{1}-{{{\boldsymbol{v}}}}_{2};{{{\boldsymbol{v}}}}_{1}\circ {{{\boldsymbol{v}}}}_{2}]) . $

式中： $ H $为具有ReLU激活的多层前馈神经网络， ${{{\boldsymbol{v}}}}_{1}$、 ${{{\boldsymbol{v}}}}_{2}$为池化层输出，+、−、和 $ \circ $为逐元素执行运算符，输出经过线性 $ {\rm{softmax}} $层得到每个类别的概率分布：

(14) $ {y}_{{\rm{pred}}}=\mathit{{\rm{softmax}}}\;({{\boldsymbol{W}}}{{{\boldsymbol{y}}}}_{{\rm{out}}}+{{\boldsymbol{b}}}) . $

式中： ${{\boldsymbol{W}}}_{{{{\boldsymbol{y}}}}_{{\rm{out}}}}$为权重， ${{\boldsymbol{b}}}$为偏置参数.

2. 实验结果与分析

2.1. 实验数据集

如表1所示，将本研究提出的语义相似度匹配模型在3类具有挑战性的句子匹配任务数据集上进行评估3类数据集分别为 1）用于自然语言推理的SNLI和SciTail，2）用于释义识别的Quora问题对，3）蚂蚁金融中文数据集.

表 1 不同数据集的大小和示例

Tab.1 Size and examples of different data sets

数据集	分类	数量	例句	标签
SNLI	train	549367	p: a man playing an electric guitar on stage. q: a man playing guitar on stage.	蕴涵、中立、矛盾
	dev	9842
	test	9824
SciTail	train	23596	p: He grabs at the wheel to turn the car. q: The turning driveshaft causes the wheels of the car to turn.	蕴涵、中立
	dev	1304
	test	2126
Quora	train	384348	p: What is the best way of living life? q: What is the best way to live a life?	释义、未释义
	dev	10000
	test	10000
蚂蚁金融	train	92500	p: 蚂蚁借呗多长时间可以审核通过？ q: 借呗申请多久可以审核通过？	是、否
	dev	4000
	test	4000

新窗口打开| 下载CSV

SNLI ^[2]是57 000个人工标注的句子对的数据集，用于自然语言推理任务. 2个句子间的关系包括蕴涵（entailment）、矛盾（contradict）和中立（neutral）3种关系.

SciTail ^[3]（science entailment）是根据科学问题和答案构建的分类数据集. 由于科学事实不能相互矛盾，因此该数据集只包含2种类型的标签：蕴涵和中立. 值得注意的是，前提和相应的假设对于蕴涵和中立句子对都有很高的词汇相似性，这使得任务特别困难.

Quora ^[8]是用于释义识别的数据集，指示2个问题是否互为释义，由Quora网站收集的40万个问题对组成.

蚂蚁金融是由10万对组成的中文数据集，根据句子对表述的意思是否相似，将标签分为是(true)和否(false). 蚂蚁金融和英文数据集SciTail类似，句子对中存在很高的词汇相似性，另外，当句子对中存在错别字、同义词、词序变换等问题时，相似度匹配任务特别困难.

2.2. 实验参数设置

模型使用Pytorch深度学习框架搭建，并在Nvidia 2080Ti GPUs显卡上训练模型. 句子序列长度不受限制，单个批次中的所有序列都被填充到批次最大值. 对于英文数据集，使用已经预训练好的840B-300d Glove词向量对词嵌入进行初始化. 对于中文数据集先使用Jieba对文本进行分词，再用Glove模型对蚂蚁金融中文语料进行训练得到词向量矩阵，之后对词嵌入进行初始化. 模型使用Dropout^[20]策略抑制过拟合现象，dropout = 0.25. 使用Adam (adaptive moment estimation)^[21]优化器进行模型优化，其中 $ {\;\beta }_{1}=0.9 $， $ {\;\beta }_{2}=0.997 $和ϵ $ϵ={10}^{-9}$. 学习率使用线性预热的指数衰减，初始学习率从0.0001调整为0.003 0. 词嵌入层维度embedding_dim = 300，编码层enc_layers = 3，隐藏层为256，batch_size = 128，密集模块数为3.

2.3. 实验结果

2.3.1. 自然语言推理实验结果

在SNLI数据集上，对比本研究提出的模型与其他模型的匹配准确率Acc。SAN^[22]是基于距离的自我注意力网络. BiMPM^[8]采用基于注意力的框架执行单词级语义匹配. AFDMN^[7]采用多层叠交叉注意和自注意层的融合深度匹配网络. ESIM+ELMo^[23]使用语言模型中的其他上下文单词表示作为外部知识特征. RE2采用丰富的对齐特征网络. 如图2所示为SNLI数据集的准确率对比结果，本研究提出的方法与其他模型相比较，性能明显优于这些强基线，在测试集上准确率为89.2%.

图 2

新窗口打开| 下载原图ZIP| 生成PPT

图 2 SNLI数据集上不同模型的匹配准确率对比结果

Fig.2 Comparison results of matching accuracy with different models on SNLI dataset

如图3所示为SciTail数据集的对比结果，DGEM是基于图表的注意力模型，使用语言句法结构来提高匹配性能. CAFE^[24]通过将对齐向量压缩成标量值特征，改进了以前的比较方法. OSOA-DFN^[25]通过每个注意力层都面向另个句子的原始语义表示，从固定的匹配目标中获取相关信息. 在SciTail数据集上，本研究提出的模型优于其他强基线模型，在测试集上准确率为87.0%. 表明本研究提出的模型有能力在具有挑战性的SciTail数据集上完成语义匹配任务.

在自然语言推理数据集SNLI和SciTail数据中进行实验，与其他方法对比，可知本研究提出的方法的有效性. 在自然语言推理关系过程中，密集网络对句子特征的充分提取和多维特征融合，更有利句子对的关系推理.

图 3

新窗口打开| 下载原图ZIP| 生成PPT

图 3 SciTail数据集上不同模型的匹配准确率对比结果

Fig.3 Comparison results of matching accuracy with different models on SciTail dataset

2.3.2. 释义识别实验结果

本研究提出的方法在Quora数据集上与其他模型进行匹配准确率对比，结果如图4所示. BiMPM 采用基于注意力的框架，执行单词级语义匹配. CSRAN^[26]通过引入新的双向对齐机制，通过融合不同层次的序列，学习句子的相似性. RE2使用丰富的对齐特征，提高语义匹配性能. Match-Graph^[27]为基于图注意力网络的文本匹配方法. 在Quora数据集上，本研究提出的方法测试准确率为90.0%，表明本研究提出的模型对于释义识别任务是有效的. 在Quora数据集中，识别2个句子是否表达相同的含义，本研究提出的方法优于其他方法，主要在于句子特征提取充分，以及语义关系的多角度捕获.

图 4

新窗口打开| 下载原图ZIP| 生成PPT

图 4 Quora数据集上不同模型的匹配准确率对比结果

Fig.4 Comparison results of matching accuracy with different models on Quora dataset

2.3.3. 蚂蚁金融实验结果

如图5所示为在蚂蚁金融数据集上的对比结果。图中，星号表示只是引用已有的模型在实验数据集上进行实验，Shingling模型是基于重叠算法捕获句子对的语义信息，Siamese-LSTM模型提出双向的注意力机制捕获句子对的语义信息，BERT使用开源的中文预训练模型再进行微调、测试. 可以看出，本研究提出的方法测试准确率为85.45%，明显高于其他模型. 在中文蚂蚁金融数据集中，存在很高的词汇相似性，以及错别字、同义词、词序变换等问题，对比结果表明，本研究提出的方法能对句子进行充分的特征提取. 另外，基于注意力机制的多维特征融合能捕获句子对间更多的语义信息. 因此实验效果得到显著的提升.

图 5

新窗口打开| 下载原图ZIP| 生成PPT

图 5 蚂蚁金融数据集上不同模型的匹配准确率对比结果

Fig.5 Comparison results of matching accuracy with different models on ant financial data set

2.4. 实验分析

2.4.1. 消融研究

本研究对Quora数据集进行消融实验，以验证本研究提出的密集型连接网络和多维特征融合的有效性. 1) 验证提出的密集型连接网络的有效性，使用传统的求和方式 ${{\boldsymbol{x}}}_{i}^{n}={{\boldsymbol{o}}}_{i}^{(n-1)}+ $ $ {{\boldsymbol{o}}}_{i}^{(n-2)}$残差网络(summation residual connection, SRC)和增强型求和方式 ${{\boldsymbol{x}}}_{i}^{\left(n\right)}=[{{\boldsymbol{x}}}_{i}^{\left(1\right)};{{\boldsymbol{o}}}_{i}^{(n-1)}+ {{\boldsymbol{o}}}_{i}^{(n-2)}$]连接网络(augmented residual connection, ARC)替代密集型连接网络。2) 验证多维特征融合方式的有效性，使用简单融合(simple fusion, SF)方式替换多维特征融合方式。3) 逐个消融验证各个多维特征融合方式的有效性：关键特征融合（key feature fusion, KFF）方式、差异性特征融合(differential fusion, DF)方式、相似性特征融合(similarity fusion, SimiF)方式.

如表2所示为消融实验的结果。可以看出，使用密集型连接方式相比较于残差求和连接方式和增强型连接方式具有更好的效果。还可以看出在多维特征融合方式中，关键特征融合和差异性特征融合对于语义相似度匹配任务性能影响较小，相似性特征融合对于匹配任务性能影响最大.

表 2 Quora数据集上消融实验结果

Tab.2 Results of ablation experiments on Quora dataset

模型	Acc/%	模型	Acc/%
KFF	89.6	SRC	89.3
DF	89.5	ARC	89.4
SimiF	89.2	DCN-MDFF	90.0
SF	89.2	−	−

新窗口打开| 下载CSV

2.4.2. 模型的鲁棒性分析

为了验证本研究提出的方法是否对不同的结构超参数的变化具有鲁棒性，设置2种方式的鲁棒性研究：1）编码层的网络层数设置为2，密集连接网络模块数从1到5递增；2）密集连接网络模块数设置为2，编码层的网络层数从1到5递增. 在SNLI、Quora、Scitail和蚂蚁金融4个数据集的验证集上进行鲁棒性研究.

如图6所示为在各个验证集上的鲁棒性实验性能对比. 图中，L为编码端的层数，B为密集连接网络模块数。可以得出，随着编码端网络和密集连接网络的加深，模型的性能提升，但是对于某些数据集当网络加深到一定程度时，模型的性能不会出现特别大的提升，例如Quora数据集，在编码端的2~5层，模型的性能只是微小的变化，随着密集网络的加深到第5个模块时，模型的性能会出现微小下降. 对于SciTail和SNLI数据集，随着编码端网络和密集连接网络的加深，模型的性能得到显著的提升. 在SciTail 数据集上，编码层网络的加深实验效果有较大的波动. 在SciTail 数据中，前提和相应的假设对于蕴涵和中立句子对都有很高的词汇相似性，这使得任务特别困难. 随着网络的加深，模型的特征提取能力越强，能提取出更多高度相似词汇语义特征，效果也会越好. 对于中文数据集蚂蚁金融，当编码端网络层数为3时，模型的性能最好. 当编码层数一定时，可以看出较少的密集网络模块数实验效果比较差，随着密集网络模块数的增加，模型的性能也会提升. 这是由于随着密集网络模块数的增加，句子的特征提取和句子对间的交互次数也增加，句子的特征提取和句子对间的信息交互越充分，模型的性能越好.

图 6

新窗口打开| 下载原图ZIP| 生成PPT

图 6 在各个验证集上的鲁棒性实验性能对比

Fig.6 Robustness experimental performance comparison on each verification set

3. 结　语

本研究提出基于密集连接网络和多维特征融合的语义相似度文本匹配模型，将模型在4个基准数据集上进行评估，结果表明密集连接方式优于传统的求和残差网络和增强型求和网络，该模型适用于相关领域应用. 本研究提出的是孪生网络模型应用于文本匹配任务，相比较于预训练模型方法，模型训练时间较长. 在特征提取方面，所提模型不如强大的预训练模型. 随着文本匹配应用越来越广泛，下一步研究工作计划将主要围绕以下两点展开：1）使用更强大特征提取器，比如BERT、RoBERT预训练模型作为文本特征提取器；2）对于不同任务的数据匮乏，结合小样本学习(few-shot learning)做文本匹配，降低数据成本同时保证模型的性能.

参考文献

原文顺序

文献年度倒序

文中引用次数倒序

被引期刊影响因子

[1]

张鹏飞, 李冠宇, 贾彩燕

面向自然语言推理的基于截断高斯距离的自注意力机制

[J]. 计算机科学, 2020, 47 (4): 178- 183

DOI:10.11896/jsjkx.190600149 [本文引用: 1]

ZHANG Peng-fei, LI Guan-yu, JIA Cai-yan

Truncated Gaussian distance-based self-attention mechanism for natural language inference

[J]. Computer Science, 2020, 47 (4): 178- 183

DOI:10.11896/jsjkx.190600149 [本文引用: 1]

[2]

BOWMAN S R, ANGEL G, POTTS C, et al. A large annotated corpus for learning natural language inference [C]// 2015 Conference on Empirical Methods in Natural Language Processing. Lisbon: EMNLP, 2015: 632–642.