基于异质图卷积神经网络的论点对抽取模型
Heterogeneous graph convolutional neural network for argument pair extraction
通讯作者:
收稿日期: 2023-07-3
基金资助: |
|
Received: 2023-07-3
Fund supported: | 国家自然科学基金资助项目(62141201);重庆市自然科学基金资助项目(CSTB2022NSCQ-MSX1672);重庆市教育委员会科学技术研究计划资助项目(KJZD-M202201102);重庆理工大学研究生教育高质量发展行动计划资助项目(gzlcx20233230). |
作者简介 About authors
刘议丹(1999—),男,硕士生,从事论辩挖掘的研究.orcid.org/0009-0005-1101-8294.E-mail:
针对论点对抽取任务中存在着评审段和反驳段之间交互信息难以捕获以及忽略了对句子间的相对位置信息进行建模问题, 提出基于异质图卷积神经网络的论点对抽取模型. 该模型在评审段和反驳段中构建异质图,定义2种不同类型的节点及4种不同类型的边,通过关系图卷积神经网络来更新图中节点的表示. 提出位置感知的句子对生成器,利用旋转位置编码来建模评审段和反驳段句子间的相对位置信息. 在RR-passage和RR-submission-v2数据集上进行实验,实验结果表明,提出模型的性能均优于所有的基线模型. 这表明通过构建异质图区分不同的节点类型和边的类型,设计位置感知的句子对生成器,能够提升论点对抽取模型的效果.
关键词:
An argument pair extraction model based on heterogeneous graph convolutional neural network was proposed aiming at the issue of difficulty in capturing interactive information between review passage and rebuttal passage and neglecting to model relative positional information between sentences. Heterogeneous graphs were constructed within the review passage and rebuttal passage. Two types of nodes and four types of edges were defined. The relational graph convolutional neural network was utilized to update the representations of nodes within the graph. A position-aware sentence pair generator was introduced, and rotary position embedding was employed to model the relative positional information between sentences in review passage and rebuttal passage. Experimental evaluations on the RR-passage and RR-submission-v2 datasets demonstrate that the proposed model outperforms all baseline models. The performance of the argument pair extraction model can be enhanced by constructing heterogeneous graphs to distinguish between different types of nodes and edges and designing a position-aware sentence pair generator.
Keywords:
本文引用格式
刘议丹, 朱小飞, 尹雅博.
LIU Yidan, ZHU Xiaofei, YIN Yabo.
Cheng等[6]将论点对抽取任务分解为序列标注任务和句子对分类任务,通过多任务学习框架来同时优化这2个子任务. 由于仅采用多任务学习的方式没有充分利用2个段落的独特特征以及段落之间句子的交互信息. Cheng等[7]提出注意力引导的多层多交叉模型,隐式建模2个段落句子间的关系,将句子对分类任务视为表格填充任务,采用2D-GRU来更新表格的表示. Bao等[8]提出相互指导的框架,通过评审段识别出的论点来指导反驳段论点的识别,反之也可以通过反驳段识别出的论点来指导评审段论点的识别. Bao等[9]认为之前的工作建模的都是句子级别的交互,忽略了对论点级别交互的建模,提出具有两阶段的机器阅读理解(machine reading comprehension, MRC)框架.
尽管上述论点对抽取算法取得了一定的效果,但任务存在以下2个问题. 1)没有充分建模评审段和反驳段句子之间的交互信息. 2)忽略了对评审段及反驳段内句子的相对位置进行建模. 为了解决上述2个问题,本文提出基于异质图卷积神经网络的论点对抽取模型(heterogeneous graph convolutional neural network for argument pair extraction,HGCN-APE). 在评审段和反驳段中构建异质图,定义2种不同类型的节点、4种不同类型的边,通过关系图卷积神经网络来更新节点的表示. 除此之外,设计位置感知句子对生成器,建模评审段和反驳段内句子的相对位置信息.
总的来说,本文的贡献主要可以分为以下几个方面.
(1) 针对以往基于图的论点对抽取工作,难以充分建模评审段和反驳段句子间的交互关系问题,构建异质图,定义2种不同类型的节点及4种不同类型的边,区分段落内和段落间句子的交互信息.
(2) 考虑到评审段和反驳段论点先后顺序有联系,设计位置感知的句子对生成器,采用旋转位置编码来建模段落内和段落间句子的相对位置信息.
(3) 在RR-passage和RR-sumbmission-v2数据集上的实验结果表明,本文提出的模型优于所有的基线模型. 为了促进论辩挖掘中论点对抽取的研究,将代码进行开源:
1. 相关工作
1.1. 论辩挖掘
论辩挖掘的目的是从具有辩论性的文本中自动提取出论点[5],近年来受到了越来越多的学者关注. 它在现实生活中有着广泛的应用,如司法庭审[10]、AI辩论[11]、写作助手[12]等. 目前对论辩挖掘的研究主要可以分为2个方面:独白式论辩和对话式论辩. 以往的工作大多集中在独白式论辩的研究,而相比于独白式论辩,在现实生活中对话式论辩更常见. Ji等[13]基于在线辩论平台的数据构建数据集,提出交互式论点对识别任务. Yuan等[14]提出使用外部知识来增强交互式论点对识别,在上下文中对实体和路径进行编码,以获得实体的嵌入和路径表示. Shi等[15]提出对比学习框架,去除文档中与论点识别不相关的信息. Cheng等[6]在同行评审的反驳中提取论点对抽取任务,将论点对抽取分解为序列标注和句子匹配任务,通过多任务学习框架同时优化这2个子任务. Cheng等[7]提出注意力引导的多层多交叉模型,隐式建模2个段落句子之间的关系. Bao等[8]提出互指导框架,构建句间关系图,显示建模2个段落句子之间的关系. Bao等[9]将论点对抽取视为两阶段阅读理解任务,将识别出的论点作为问题,在另一个段落中查询与之匹配的论点对.
1.2. 图神经网络
2. 模型简介
2.1. 问题定义
给定评审段落
图 1
2.2. 句子编码器
式中:
对句子中每个词的表示进行加权求和,得到最终句子的表示. 这样做的目的是充分利用句子中每个单词的语义信息:
式中:
为了提升模式的泛化能力,引入Dropout[23]策略,随机丢弃网络中部分神经元间的连边:
通过上述步骤,可以得到评审段落和反驳段落中每个句子的表示:
为了捕获每个段落句子之间的上下文信息,将评审段和反驳段中所有句子的表示输入到BiLSTM[24]中,把前项和后项的表示拼接在一起,得到上下文感知的句子的表示:
式中:
2.3. 异质图卷积层
在得到评审段落和反驳段落中所有句子的表示后,为了建模段落内部和段落之间句子的复杂关系,构建异质图,如图2所示.
图 2
2.3.1. 异质图构建
如图3所示,在构建的异质图中,包含了2种类型的节点,分别是评审段落中的句子节点和反驳段落中的句子节点以及4种不同类型的边.
图 3
图 3
HGCN-APE超参数
Fig.3
Effect of HGCN-APE hyper-parameter
评审-评审边. 评审-评审边用于建模评审段内部句子之间的关系,评审段中相邻2个句子之间有连边.
反驳-反驳边. 反驳-反驳边用于建模反驳段内部句子之间的关系,反驳段中相邻2个句子之间有连边.
评审-反驳边. 评审-反驳边用于建模评审反驳段可能属于同一个论点对句子之间的关系,用评审节点的表示来增强反驳节点的表示. 参考Bao等[8]的工作,利用NLTK对评审段和反驳段中的每个句子进行分词处理,并去除停用词,只有当去除停用词的2个句子之间的共现词数量大于2时,才会有连边.
反驳-评审边. 反驳-评审边的目的是用反驳段节点的表示去增强评审段节点的表示.
2.3.2. 异质图聚合
在构建好异质图后,使用句子编码器得到的评审段落中每个句子的表示以及反驳段落中每个句子的表示,分别初始化图中评审节点的表示和反驳节点的表示.
使用关系图卷积网络(relational graph convolutional network, RGCN)[18]来更新节点的表示:
式中:
2.4. 位置感知句子对生成器
在论文投稿过程中,当审稿人给出评审意见后,作者会针对审稿人提出的意见进行回复. 事实上,作者会按照审稿人提出评审意见的顺序进行回复,然而以往的工作忽略对相对位置信息的建模.
采用旋转位置编码(rotary position embedding, RoPE)[25],建模评审段和反驳段内句子间的相对位置关系:
式中:
将评审段和反驳段中两两句子的表示拼接在一起,构成
式中:
BiLSTM层和异质图卷积层可堆叠多层来更新表格的表示,不同层之间采用残差连接,并进行层归一化:
式中:
2.5. 预测层
2.5.1. 论点预测
给定评审段的句子序列
具体来说,以评审段的句子序列为例(反驳段的预测类似),计算观测序列和标签序列之间的得分:
式中:
计算给定
CRF的损失函数可以定义为
通过同样的步骤,可以得到反驳段论点识别的损失
2.5.2. 句子对预测
句子对预测的目的是判断评审段和反驳段中两两句子是否属于同一个论点对,是二分类问题. 通过多层感知机(multi-layer perceptron, MLP),得到句子对概率分布:
式中:Tij为评审段中第i个句子和反驳段中第j个句子在表格中的表示,Pij为这两个句子属于同一个论点对的概率. 使用交叉熵损失,计算预测值与真实值的偏差:
式中:
2.6. 模型优化及预测
模型最终的损失函数包含2个部分:论点预测和句子对预测. 采用多任务学习的方式同时优化这2个损失,最终的损失函数定义为
式中:
式中:
3. 实验分析
3.1. 实验设置
3.1.1. 数据集和评估指标
采用论点对抽取广泛应用的评审-反驳数据集(review-rebuttal, RR)[6]来评估模型的性能,该数据集收集了ICLR上的4 764篇评审反驳对. 它包含2个版本:RR-Passage和RR-Submission-v2. 每一个版本按照8∶1∶1的比例,划分为训练集、验证集和测试集. 在RR-Passage中,同一篇文章的论点对均包含在训练集、验证集或者测试集中的一个;在RR-Submission-v2中,同一篇文章的论点对可能同时分布在训练集、验证集和测试集中. 数据集的统计结果如表1所示,表中,Nvb为评审反驳对数,Ntr为训练集数,Ndev为验证集数,Nt为测试集数,Nf为句子总数,Na为论点总数,Ns为论点句子总数。
表 1 论点对抽取数据集统计
Tab.1
评审反驳 | 评审 | 反驳 | |||||||||
Nvb | Ntr | Ndev | Nt | Nf | Na | Ns | Nf | Na | Ns | ||
4764 | 3811 | 476 | 477 | 99 800 | 23 200 | 58 500 | 94 900 | 17 700 | 67 500 |
在论点预测、句子对预测、论点对预测上的评估指标均采用精确率P(precision)、召回率R(recall)和F1.
3.1.2. 基线模型
为了验证提出模型的有效性,与以下的基线模型进行比较.
1) MT-H-LSTM-CRF[6]. MT-H-LSTM-CRF将论点对抽取任务分解为序列标注任务和句子对预测任务,通过多任务学习框架来同时优化这2个子任务.
2) MLMC[7]. MLMC提出多层多交叉编码器模型来充分建模2个段落句子之间的关系,将句子对预测视为表格填充问题,引入注意力损失来更好地预测论点对.
3) MGF[8]. MGF是互指导框架,包含评审指导和反驳指导. 先识别出评审段中的论点,再将该论点拼接到反驳段中,找出与之匹配的论点,反之亦然.
3.2. 实验简介
HGCA-APE模型基于Pytorch实现,使用BERT-Base-Uncased作为基准模型,在训练过程中冻结它们的参数. 采用AdamW[28]优化器优化模型,使用余弦退火策略在每个轮次后调整学习率. 训练轮数设置为25,批处理大小设置为1. 在2个数据集上的超参数
为了验证提出模型的有效性,在2个基准数据集RR-submission-v2和RR-passage上进行实现,与一系列的基线模型进行比较.
表 2 HGCN-APE在RR-passage和RR-submission-v2数据集上的性能对比
Tab.2
数据集 | 模型 | 论点预测 | 句子对预测 | 论点对预测 | ||||||||
P/% | R/% | F1/% | P/% | R/% | F1/% | P/% | R/% | F1/% | ||||
RR-submission-v2 | MT-H-LSTM-CRF | 70.74 | 69.46 | 70.09 | 52.05 | 46.74 | 49.25 | 27.24 | 26.00 | 26.61 | ||
MLMC | 69.53 | 73.27 | 71.35 | 60.01 | 46.82 | 52.60 | 37.15 | 29.38 | 32.81 | |||
MGF | 70.40 | 71.87 | 71.13 | — | — | — | 34.23 | 34.57 | 34.40 | |||
MRC-APE-Bert | 73.36 | 68.35 | 70.77 | — | — | — | 42.26 | 34.06 | 37.72 | |||
HGCN-APE | 71.86 | 71.80 | 71.83 | 66.12 | 59.40 | 62.58 | 42.70 | 36.05 | 39.09 | |||
RR-passage | MT-H-LSTM-CRF | 71.85 | 71.01 | 71.43 | 54.28 | 43.24 | 48.13 | 30.08 | 29.55 | 29.81 | ||
MLMC | 66.79 | 72.17 | 69.37 | 62.49 | 42.33 | 50.53 | 40.27 | 29.53 | 34.07 | |||
MGF | 73.62 | 70.88 | 72.22 | — | — | — | 38.03 | 35.68 | 36.82 | |||
MRC-APE-Bert | 66.81 | 69.84 | 68.29 | — | — | — | 34.70 | 35.53 | 35.51 | |||
HGCN-APE | 72.50 | 71.61 | 72.05 | 67.68 | 59.25 | 63.18 | 45.76 | 38.32 | 41.71 |
本文模型在论点预测性能方面不如MGF,在句子对预测子任务上的性能均优于其他基线模型. 一个可能的原因是通过共现词构建的异质图,能够很好地建模潜在属于同一个论点对句子之间的关系,也可能引入噪音,即有连边的2个句子可能不属于同一个论点对,这会影响模型在论点预测子任务上的性能.
3.3. 消融实验
为了探究构建的异质图及位置感知句子对生成器的有效性,移除模型的某一部分进行消融实验.
w/o v2v表示去掉异质图中的评审-评审边,即图中不再建模评审段内句子之间的关系.
w/o b2b表示去掉异质图中的反驳-反驳边,即图中不再建模反驳段内句子之间的关系.
w/o v2b表示去掉评审-反驳边,即反驳段中的句子将不再建模评审段句子的信息.
w/o b2v表示去掉反驳-评审边,即评审段不再建模反驳段句子的信息.
w/o pos表示去掉评审段和反驳段句子的相对位置信息.
如表3所示为去掉模型中某一模块后,在RR-Passage数据集论点对抽取上的性能. 可以看出,去掉任意一个模块,模型的性能均有所降低,证明了模型的有效性. 具体来说,在异质图中,去掉评审-反驳边和反驳-评审边模型的性能,比去掉评审-评审边及反驳-反驳边下降的性能更多,进一步表明在论点对抽取任务中,难点在于建模2个段落句子之间的关系. 在去掉位置编码之后,模型性能有所下降,说明有必要建模句子之间的相对位置.
表 3 HGCN-APE在RR-passage数据集上的消融实验
Tab.3
模型 | 论点对预测 | ||
P/% | R/% | F1/% | |
HGCN-APE | 45.76 | 38.32 | 41.71 |
w/o v2v | 44.36 | 38.26 | 41.09 |
w/o b2b | 44.69 | 37.63 | 40.86 |
w/o v2b | 41.58 | 35.63 | 38.38 |
w/o b2v | 42.68 | 32.84 | 37.12 |
w/o pos | 44.56 | 37.68 | 40.83 |
3.4. 参数敏感性实验
超参数
为了探究不同堆叠层数
表 4
HGCN-APE超参数
Tab.4
数据集 | L | P/% | R/% | F1/% |
RR-passage | 1 | 33.47 | 25.94 | 29.23 |
2 | 44.03 | 35.11 | 39.02 | |
3 | 45.76 | 38.32 | 41.71 | |
4 | 43.77 | 39.74 | 41.66 | |
5 | 44.49 | 38.11 | 41.05 | |
RR-submission-v2 | 1 | 33.47 | 25.94 | 29.23 |
2 | 40.47 | 32.50 | 36.05 | |
3 | 42.70 | 36.05 | 39.09 | |
4 | 42.02 | 35.68 | 38.59 | |
5 | 40.98 | 34.15 | 37.25 |
3.5. 学习曲线实验
如图4所示为模型在训练过程中的收敛情况. 随着训练轮数N的增加,模型在2个数据集上的
图 4
图 4 HGCN-APE在RR-passage和RR-submission-v2数据集上的损失和性能对比
Fig.4 Comparison of loss and performance of HGCN-APE on RR-passage and RR-submission-v2 dataset
3.6. 案例研究实验
为了更加直观地查看HGCN-APE模型在论点预测和论点对预测上的预测结果,在RR-submission-v2数据集的测试集上随机挑选3条数据进行展示,结果数据如表5所示.
表 5 HGCN-APE案例研究
Tab.5
样本 | 真实评审段论点 | 预测评审段论点 | 真实反驳段论点 | 预测反驳段论点 | 真实论点对 | 预测论点对 |
1 | 8-9 | 8-9 | 1-7 | 1-7 | (8-9)-(1-7) | (6-7)-(1-7) |
10-15 | 10-15 | 8-13 | 8-13 | (10-15)-(8-13) | (10-15)-(8-13) | |
— | 6-7 | — | — | — | — | |
2 | 10-11 | 10-11 | 1-8 | 1-8 | (10-11)-(1-8) | (10-11)-(1-8) |
12-12 | 12-12 | 9-11 | 9-11 | (12-12)-(9-11) | (12-12)-(9-11) | |
16-17 | 17-17 | — | — | (16-17)-(1-8) | (17-17)-(1-8) | |
3 | 6-10 | 6-10 | 1-11 | 1-11 | (6-10)-(1-11) | (6-10)-(1-11) |
12-13 | 12-13 | 14-18 | 14-18 | (12-13)-(14-18) | (12-13)-(14-18) | |
14-15 | 14-15 | 21-24 | 21-24 | (14-15)-(21-24) | (14-15)-(21-24) |
从表5可以看出,在第1条样本中,HGCN-APE错误地将评审段中的第6、7句话识别为论点,这导致在论点对预测过程中,错误地将评审段中的6、7句话与反驳段中的第1~7句话识别为一个论点对. 在第2条样本中,HGCN-APE将第17句话识别为论点,实际上第16、17句话是一个完整的论点,这表明HGCN-APE存在论点边界难以识别的问题,主要体现在2个方面:1)当一个论点包含多个句子时,只将部分句子识别成论点;2)多个连续的论点被识别为一个论点. 第3条样本完全预测正确.
4. 结 语
本文提出基于异质图卷积神经网络的论点对抽取模型,定义2种不同类型的节点、4种不同类型的边,能够有效地建模评审段落和反驳段落内部句子之间的关系、段落之间潜在属于同一个论点对句子之间的关系. 设计位置感知的句子对生成器,捕获段落内句子间的相对位置. 实验结果表明,本文提出的模型优于现有的基线模型. 由于目前主要建模的是评审段落和反驳段落句子之间的交互,模型在论点预测上不能取得最好的效果,接下来将探究如何更好地建模论点级的交互.
参考文献
计算论辩技术: 迈向智能人类辩手之路
[J].DOI:10.3969/j.issn.1000-0968.2023.05.013 [本文引用: 2]
Computational argumentation techniques: toward the path of intelligent human debaters
[J].DOI:10.3969/j.issn.1000-0968.2023.05.013 [本文引用: 2]
Dropout: a simple way to prevent neural networks from overfitting
[J].
Long short-term memory
[J].DOI:10.1162/neco.1997.9.8.1735 [本文引用: 1]
/
〈 |
|
〉 |
