基于异质图卷积神经网络的论点对抽取模型

doi:10.3785/j.issn.1008-973X.2024.05.003

基于异质图卷积神经网络的论点对抽取模型

刘议丹^,, 朱小飞^,, 尹雅博

重庆理工大学计算机科学与工程学院，重庆 400054

Heterogeneous graph convolutional neural network for argument pair extraction

LIU Yidan^,, ZHU Xiaofei^,, YIN Yabo

College of Computer Science and Engineering, Chongqing University of Technology, Chongqing 400054, China

通讯作者: 朱小飞，男，教授. orcid.org/0000-0001-8239-7176. E-mail: zxf@cqut.edu.cn

收稿日期: 2023-07-3

基金资助:

国家自然科学基金资助项目（62141201）；重庆市自然科学基金资助项目 (CSTB2022NSCQ-MSX1672)；重庆市教育委员会科学技术研究计划资助项目(KJZD-M202201102)；重庆理工大学研究生教育高质量发展行动计划资助项目(gzlcx20233230).

Received: 2023-07-3

Fund supported:

国家自然科学基金资助项目（62141201）；重庆市自然科学基金资助项目(CSTB2022NSCQ-MSX1672)；重庆市教育委员会科学技术研究计划资助项目(KJZD-M202201102)；重庆理工大学研究生教育高质量发展行动计划资助项目(gzlcx20233230).

作者简介 About authors

刘议丹（1999—），男，硕士生，从事论辩挖掘的研究.orcid.org/0009-0005-1101-8294.E-mail：lyd@stu.cqut.edu.cn , E-mail：lyd@stu.cqut.edu.cn

摘要

针对论点对抽取任务中存在着评审段和反驳段之间交互信息难以捕获以及忽略了对句子间的相对位置信息进行建模问题, 提出基于异质图卷积神经网络的论点对抽取模型. 该模型在评审段和反驳段中构建异质图，定义2种不同类型的节点及4种不同类型的边，通过关系图卷积神经网络来更新图中节点的表示. 提出位置感知的句子对生成器，利用旋转位置编码来建模评审段和反驳段句子间的相对位置信息. 在RR-passage和RR-submission-v2数据集上进行实验，实验结果表明，提出模型的性能均优于所有的基线模型. 这表明通过构建异质图区分不同的节点类型和边的类型，设计位置感知的句子对生成器，能够提升论点对抽取模型的效果.

关键词： 论辩挖掘 ; 论点对抽取 ; 图神经网络 ; 旋转位置编码 ; 自然语言处理

Abstract

An argument pair extraction model based on heterogeneous graph convolutional neural network was proposed aiming at the issue of difficulty in capturing interactive information between review passage and rebuttal passage and neglecting to model relative positional information between sentences. Heterogeneous graphs were constructed within the review passage and rebuttal passage. Two types of nodes and four types of edges were defined. The relational graph convolutional neural network was utilized to update the representations of nodes within the graph. A position-aware sentence pair generator was introduced, and rotary position embedding was employed to model the relative positional information between sentences in review passage and rebuttal passage. Experimental evaluations on the RR-passage and RR-submission-v2 datasets demonstrate that the proposed model outperforms all baseline models. The performance of the argument pair extraction model can be enhanced by constructing heterogeneous graphs to distinguish between different types of nodes and edges and designing a position-aware sentence pair generator.

Keywords： argument mining ; argument pair extraction ; graph neural network ; rotary position embedding ; natural language processing

PDF (850KB) 元数据多维度评价相关文章导出 EndNote| Ris| Bibtex 收藏本文

本文引用格式

刘议丹, 朱小飞, 尹雅博. 基于异质图卷积神经网络的论点对抽取模型. 浙江大学学报(工学版)[J], 2024, 58(5): 900-907 doi:10.3785/j.issn.1008-973X.2024.05.003

LIU Yidan, ZHU Xiaofei, YIN Yabo. Heterogeneous graph convolutional neural network for argument pair extraction. Journal of Zhejiang University(Engineering Science)[J], 2024, 58(5): 900-907 doi:10.3785/j.issn.1008-973X.2024.05.003

论点对抽取(argument pair extraction, APE)属于对话式论辩，目的是为了从2个相关的文章中抽取出交互式的论点对，是论辩挖掘中的新兴任务^[1-5]. Cheng等^[6]首次在同行评审和反驳中提出论点对抽取任务，因为同行评审和反驳中包含丰富的论点. 它主要包含以下2个步骤：1) 从评审段和反驳段中识别出论点；2) 判断2个论点是否属于同一个论点对.

Cheng等^[6]将论点对抽取任务分解为序列标注任务和句子对分类任务，通过多任务学习框架来同时优化这2个子任务. 由于仅采用多任务学习的方式没有充分利用2个段落的独特特征以及段落之间句子的交互信息. Cheng等^[7]提出注意力引导的多层多交叉模型，隐式建模2个段落句子间的关系，将句子对分类任务视为表格填充任务，采用2D-GRU来更新表格的表示. Bao等^[8]提出相互指导的框架，通过评审段识别出的论点来指导反驳段论点的识别，反之也可以通过反驳段识别出的论点来指导评审段论点的识别. Bao等^[9]认为之前的工作建模的都是句子级别的交互，忽略了对论点级别交互的建模，提出具有两阶段的机器阅读理解(machine reading comprehension, MRC)框架.

尽管上述论点对抽取算法取得了一定的效果，但任务存在以下2个问题. 1）没有充分建模评审段和反驳段句子之间的交互信息. 2）忽略了对评审段及反驳段内句子的相对位置进行建模. 为了解决上述2个问题，本文提出基于异质图卷积神经网络的论点对抽取模型(heterogeneous graph convolutional neural network for argument pair extraction，HGCN-APE). 在评审段和反驳段中构建异质图，定义2种不同类型的节点、4种不同类型的边，通过关系图卷积神经网络来更新节点的表示. 除此之外，设计位置感知句子对生成器，建模评审段和反驳段内句子的相对位置信息.

总的来说，本文的贡献主要可以分为以下几个方面.

(1) 针对以往基于图的论点对抽取工作，难以充分建模评审段和反驳段句子间的交互关系问题，构建异质图，定义2种不同类型的节点及4种不同类型的边，区分段落内和段落间句子的交互信息.

(2) 考虑到评审段和反驳段论点先后顺序有联系，设计位置感知的句子对生成器，采用旋转位置编码来建模段落内和段落间句子的相对位置信息.

(3) 在RR-passage和RR-sumbmission-v2数据集上的实验结果表明，本文提出的模型优于所有的基线模型. 为了促进论辩挖掘中论点对抽取的研究，将代码进行开源：https://github.com/ElevateSpirit/HGCN-APE.

1. 相关工作

1.1. 论辩挖掘

论辩挖掘的目的是从具有辩论性的文本中自动提取出论点^[5]，近年来受到了越来越多的学者关注. 它在现实生活中有着广泛的应用，如司法庭审^[10]、AI辩论^[11]、写作助手^[12]等. 目前对论辩挖掘的研究主要可以分为2个方面：独白式论辩和对话式论辩. 以往的工作大多集中在独白式论辩的研究，而相比于独白式论辩，在现实生活中对话式论辩更常见. Ji等^[13]基于在线辩论平台的数据构建数据集，提出交互式论点对识别任务. Yuan等^[14]提出使用外部知识来增强交互式论点对识别，在上下文中对实体和路径进行编码，以获得实体的嵌入和路径表示. Shi等^[15]提出对比学习框架，去除文档中与论点识别不相关的信息. Cheng等^[6]在同行评审的反驳中提取论点对抽取任务，将论点对抽取分解为序列标注和句子匹配任务，通过多任务学习框架同时优化这2个子任务. Cheng等^[7]提出注意力引导的多层多交叉模型，隐式建模2个段落句子之间的关系. Bao等^[8]提出互指导框架，构建句间关系图，显示建模2个段落句子之间的关系. Bao等^[9]将论点对抽取视为两阶段阅读理解任务，将识别出的论点作为问题，在另一个段落中查询与之匹配的论点对.

1.2. 图神经网络

图神经网络（graph neural network，GNN）包括图卷积网络（graph convolutional network，GCN）^[16]、图注意力网络（graph attention network，GAT）^[17]、关系图卷积网络（relational graph convolutional network，RGCN）^[18]等，得益于其强大的表示能力，在许多自然语言处理(NLP)任务中表现出优异的性能. Wang等^[19]将关系图卷积网络应用于方面情感分析中. Hu等^[20]提出基于异构图神经网络的方法，用于半监督短文本分类.

最近，图神经网络已经应用到了论点对抽取领域. Yuan等^[14]提出利用外部知识来提升论点对抽取的效果，在在线论坛数据集上构建论证知识图. Bao等^[8]在评审反驳段落中构建句间关系图，通过图卷积网络更新节点的表示. 与以往基于图的论点对抽取工作不同，本文构建的图是异质的，定义了不同节点的类型及边的类型，通过关系图卷积神经网络建模句子之间的复杂关系.

2. 模型简介

2.1. 问题定义

给定评审段落$ V = \{ {v_1},{v_2}, \cdots ,{v_m}\} $和反驳段落$B = \{ {b_1},{b_2}, \cdots ,{b_n}\} $，其中$m$和$n$分别表示评审段中有$m$个句子，反驳段中有$n$个句子. 在每个段落中，可以将句子划分为论点和非论点，评审段落中的论点${A^{\mathrm{v}}} = \left\{ {a_1^{\mathrm{v}},a_2^{\mathrm{v}}, \cdots ,a_{{l_{\mathrm{v}}}}^{\mathrm{v}}} \right\}$，反驳段落中的论点${A^{\mathrm{b}}} = \left\{ {a_1^{\mathrm{b}},a_2^{\mathrm{b}}, \cdots ,a_{{l_{\mathrm{b}}}}^{\mathrm{b}}} \right\}$，其中${l_{\mathrm{v}}}$和${l_{\mathrm{b}}}$分别表示评审段中有${l_{\mathrm{v}}}$个论点，反驳段落中有${l_{\mathrm{b}}}$个论点. 论点对抽取的目的是从评审段落和反驳段落中匹配讨论同一个话题的论点$P = \left\{ {{p_1},{p_2}, \cdots ,{p_{{l_{\mathrm{p}}}}}} \right\}$，其中${l_{\mathrm{p}}}$为评审反驳段中论点对的个数. 提出的HGCN-APE模型架构如图1所示.

图 1

新窗口打开| 下载原图ZIP| 生成PPT

图 1 HGCN-APE模型架构

Fig.1 Model architecture of HGCN-APE

2.2. 句子编码器

对于评审段落中或者反驳段落中的每一个句子${s_i} = \left\{ {{w_1},{w_2}, \cdots ,{w_{|{s_i}|}}} \right\}$，其中$\left| {{s_i}} \right|$为句子中单词的个数，在每个句子的开头和结尾分别拼接上2个特殊的字符[CLS]和[SEP]，将拼接后的句子输入到预训练好的Transformer^[21]编码器BERT^[22]中，得到句子中每个词的表示:

(1)$ {{\boldsymbol{H}}^{{{s}_{{i}}}}}{{ = }}\left[ {{\boldsymbol{h}}_{{0}}^{{{{s}}_{{i}}}}{\boldsymbol{,h}}_{{1}}^{{{{s}}_{{i}}}}{\boldsymbol{,}} \cdots ,{\boldsymbol{h}}_{{{|}}{{{s}}_{{i}}}{{|+1}}}^{{{{s}}_{{i}}}}} \right]^{\mathrm{T}}{{ = }}{\mathrm{BERT}}\left( {{s_i}} \right). $

式中：$ {{\boldsymbol{H}}^{{{{s}}_{{i}}}}} \in {\bf{R}}^{\left( {|{s_i}|+2} \right) xd} $，其中$d$为隐藏层的维度.

对句子中每个词的表示进行加权求和，得到最终句子的表示. 这样做的目的是充分利用句子中每个单词的语义信息：

(2)$ {{{\boldsymbol{\alpha}}}} = \;{\mathrm{softmax}}\left( {{\boldsymbol{H}}^{{{{s}}_{{i}}}}}{{\boldsymbol{W}}{\boldsymbol{+b}}} \right), $

(3)$ \mathop {{{\boldsymbol{h}}^{{{{s}}_{{i}}}}}}\limits^ \sim = \sum\limits_{j = 1}^{|{s_i}|} {{\alpha _j}} {\boldsymbol{h}}_{{j}}^{{{{s}}_{{j}}}}. $

式中：$ {{{\boldsymbol{\alpha}} }} \in {\bf{R}}^{|{s_i}|} $，${{\boldsymbol{h}}^{{{{s}}_{{i}}}} \in {\bf{R}}^d}$为第${s_i}$个句子的表示，${\boldsymbol{W}}$和${\boldsymbol{b}}$为可训练的参数.

为了提升模式的泛化能力，引入Dropout^[23]策略，随机丢弃网络中部分神经元间的连边:

(4)$ {{\boldsymbol{h}}^{{{{s}}_{{i}}}}} = {\mathrm{Dropout}}\left( { {\mathop {{{\boldsymbol{h}}^{{{{s}}_{{i}}}}}}\limits^ \sim}}\right) . $

通过上述步骤，可以得到评审段落和反驳段落中每个句子的表示：$ {{\boldsymbol{H}}^{{{\mathrm{v}}}}} = \left[ {{\boldsymbol{h}}_{{1}}^{{{\mathrm{v}}}},{\boldsymbol{h}}_{{2}}^{{{\mathrm{v}}}}, \cdots ,{\boldsymbol{h}}_{{m}}^{{{\mathrm{v}}}}} \right]{\mathrm{^T}} $，${{\boldsymbol{H}}^{\boldsymbol{{\mathrm{b}}}}} = \left[{{\boldsymbol{h}}_{{1}}^{{{\mathrm{b}}}},{\boldsymbol{h}}_{{2}}^{{{\mathrm{b}}}}, \cdots, {\boldsymbol{h}}_{{n}}^{{{\mathrm{b}}}}} \right]^{\mathrm{T}}$.

为了捕获每个段落句子之间的上下文信息，将评审段和反驳段中所有句子的表示输入到BiLSTM^[24]中，把前项和后项的表示拼接在一起，得到上下文感知的句子的表示：

(5)$ {{\boldsymbol{C}}^{\mathrm{v}}} = \left[ {{\boldsymbol{c}}_{{1}}^{\boldsymbol{{\mathrm{v}}}},{\boldsymbol{c}}_{{2}}^{\boldsymbol{{\mathrm{v}}}}, \cdots ,{\boldsymbol{c}}_{{m}}^{{{\mathrm{v}}}}} \right]^{\mathrm{T}} = {\mathrm{BiLSTM}}\left( {{{\boldsymbol{H}}^{\boldsymbol{{\mathrm{v}}}}}} \right), $

(6)$ {{\boldsymbol{C}}^{\boldsymbol{{\mathrm{b}}}}} = \left[ {{\boldsymbol{c}}_{{1}}^{{{\mathrm{b}}}},{\boldsymbol{c}}_{{2}}^{{{\mathrm{b}}}}, \cdots ,{\boldsymbol{c}}_{{n}}^{{{\mathrm{b}}}}} \right]^{\mathrm{T}} = {\mathrm{BiLSTM}}\left( {{{\boldsymbol{H}}^{\boldsymbol{{\mathrm{b}}}}}} \right). $

式中：$ {{\boldsymbol{C}}^{\boldsymbol{{\mathrm{v}}}}} \in {\bf{R}}^{m \times 2d} $，${{\boldsymbol{C}}^{\boldsymbol{{\mathrm{b}}}}} \in {\bf{R}}^{n \times 2d}$.

2.3. 异质图卷积层

在得到评审段落和反驳段落中所有句子的表示后，为了建模段落内部和段落之间句子的复杂关系，构建异质图，如图2所示.

图 2

新窗口打开| 下载原图ZIP| 生成PPT

图 2 HGCN-APE异质图构建

Fig.2 Heterogeneous graph construction of HGCN-APE

2.3.1. 异质图构建

如图3所示，在构建的异质图中，包含了2种类型的节点，分别是评审段落中的句子节点和反驳段落中的句子节点以及4种不同类型的边.

图 3

新窗口打开| 下载原图ZIP| 生成PPT

图 3 HGCN-APE超参数$\lambda $的影响

Fig.3 Effect of HGCN-APE hyper-parameter$ \lambda $

评审-评审边. 评审-评审边用于建模评审段内部句子之间的关系，评审段中相邻2个句子之间有连边.

反驳-反驳边. 反驳-反驳边用于建模反驳段内部句子之间的关系，反驳段中相邻2个句子之间有连边.

评审-反驳边. 评审-反驳边用于建模评审反驳段可能属于同一个论点对句子之间的关系，用评审节点的表示来增强反驳节点的表示. 参考Bao等^[8]的工作，利用NLTK对评审段和反驳段中的每个句子进行分词处理，并去除停用词，只有当去除停用词的2个句子之间的共现词数量大于2时，才会有连边.

反驳-评审边. 反驳-评审边的目的是用反驳段节点的表示去增强评审段节点的表示.

2.3.2. 异质图聚合

在构建好异质图后，使用句子编码器得到的评审段落中每个句子的表示以及反驳段落中每个句子的表示，分别初始化图中评审节点的表示和反驳节点的表示.

(7)$ {{\boldsymbol{G}}^{{{\boldsymbol{{{v}}}}_{\boldsymbol{0}}}}} = {{\boldsymbol{C}}^{\boldsymbol{{\mathrm{v}}}}} = [{\boldsymbol{c}}_{{1}}^{\boldsymbol{{\mathrm{v}}}},{\boldsymbol{c}}_{{2}}^{\boldsymbol{{\mathrm{v}}}}, \cdots ,{\boldsymbol{c}}_{{m}}^{\boldsymbol{{\mathrm{v}}}}]^{\mathrm{T}} , $

(8)$ {{\boldsymbol{G}}^{{{\boldsymbol{{{b}}}}_0}}} = {{\boldsymbol{C}}^{{{\mathrm{b}}}}} = [{\boldsymbol{c}}_{{1}}^{\boldsymbol{{\mathrm{b}}}},{\boldsymbol{c}}_{{2}}^{\boldsymbol{{\mathrm{b}}}}, \cdots ,{\boldsymbol{c}}_{{n}}^{\boldsymbol{{\mathrm{b}}}}]^{\mathrm{T}} , $

(9)$ {{\boldsymbol{G}}^0} = [ {\boldsymbol{g}}_{{1}}^0,{\boldsymbol{g}}_2^0, \cdots ,{\boldsymbol{g}}_{{{m+n}}}^0]^{\mathrm{T}} . $

使用关系图卷积网络(relational graph convolutional network, RGCN)^[18]来更新节点的表示:

(10)$ {\boldsymbol{g}}_{{i}}^{} = \sigma \left( {\sum\limits_{r \in {R}} {\sum\limits_{j \in {N}_i^r}^{} {\frac{1}{{|{N}_i^r|}}{\boldsymbol{W}}_{{r}}^{}{\boldsymbol{g}}_j^0} } +{\boldsymbol{W}}_{{0}}^{}{\boldsymbol{g}}_i^0} \right). $

式中：$\sigma $为激活函数，${R}$为定义的所有关系类型，${N}_i^r$为节点$i$在关系$r$下的所有邻居集合，${{\boldsymbol{W}}_{{r}}}$和${{\boldsymbol{W}}_{{0}}}$均为可训练的参数. 最终得到更新后的评审段落中句子的表示${{\boldsymbol{G}}^{{{\mathrm{v}}}}} = \left[ {{\boldsymbol{g}}_{{1}}^{\boldsymbol{{\mathrm{v}}}},{\boldsymbol{g}}_{{2}}^{\boldsymbol{{\mathrm{v}}}}, \cdots, {\boldsymbol{g}}_{{m}}^{\boldsymbol{{\mathrm{v}}}}} \right]^{\mathrm{T}}\in {\bf{R}}^{m \times 2d}$以及反驳段落中句子的表示${{\boldsymbol{G}}^{{{\mathrm{b}}}}} = \left[ {{\boldsymbol{g}}_{{1}}^{{{\mathrm{b}}}},{\boldsymbol{g}}_{{2}}^{{{{{\mathrm{b}}}}}}, \cdots, {\boldsymbol{g}}_{{n}}^{{{\mathrm{b}}}}} \right] \in {\bf{R}}^{n \times 2d}$.

2.4. 位置感知句子对生成器

在论文投稿过程中，当审稿人给出评审意见后，作者会针对审稿人提出的意见进行回复. 事实上，作者会按照审稿人提出评审意见的顺序进行回复，然而以往的工作忽略对相对位置信息的建模.

采用旋转位置编码(rotary position embedding, RoPE)^[25]，建模评审段和反驳段内句子间的相对位置关系：

(11)$ {{\bf{PE}}^{{{\mathrm{v}}}}} = {\mathrm{RoPE}}\left( {{{\boldsymbol{G}}^{{{\mathrm{v}}}}}} \right), $

(12)$ {{\bf{PE}}^{{{\mathrm{b}}}}} = {\mathrm{RoPE}}\left( {{{\boldsymbol{G}}^{{{\mathrm{b}}}}}} \right). $

式中：$ {{{\bf{PE}}^{\rm{v}}}} \in {\bf{R}}^{m \times 2d} $，${{\bf{PE}}^{{{\mathrm{b}}}}} \in {\bf{R}}^{n \times 2d}$分别为融合相对位置编码的评审段句子的表示和反驳段句子的表示.

将评审段和反驳段中两两句子的表示拼接在一起，构成$m \times n$的表格，用于句子对预测：

(13)$ {{\boldsymbol{T}}_{ij}} = {{\mathrm{Re}}} {\mathrm{LU}}\left( {{{\boldsymbol{W}}^{{{\mathrm{p}}}}}\left[ {{\boldsymbol{{\mathrm{PE}}}}_i^{\mathrm{v}};{\boldsymbol{{\mathrm{PE}}}}_j^{\mathrm{b}}} \right]^{\mathrm{T}}+{{{{{{\boldsymbol{b}}}}}}^{{{\mathrm{p}}}}}} \right). $

式中：${\boldsymbol{T}} \in {\bf{R}}^{m \times n \times d}$为表格的表示，${{\boldsymbol{W}}^{{{\mathrm{p}}}}} \in {\bf{R}}^{d \times 4d}$，${{\boldsymbol{b}}^{{{\mathrm{p}}}}} \in {\bf{R}}^d$为可训练的参数，$\left[ ; \right]$表示拼接操作.

BiLSTM层和异质图卷积层可堆叠多层来更新表格的表示，不同层之间采用残差连接，并进行层归一化：

(14)$ {{\boldsymbol{G}}^{{{{v}}_{{l}}}}} = {\mathrm{LayerNorm}}\left( {{{\boldsymbol{G}}^{{{{v}}_{{l}}}}}+{{\boldsymbol{G}}^{{{{v}}_{{{l - 1}}}}}}} \right), $

(15)$ {{\boldsymbol{G}}^{{{{b}}_{{l}}}}} = {\mathrm{LayerNorm}}\left( {{{\boldsymbol{G}}^{{{{b}}_{{l}}}}}+{{\boldsymbol{G}}^{{{{b}}_{{{l - 1}}}}}}} \right), $

(16)$ {{\boldsymbol{T}}^{{l}}} = {\mathrm{LayerNorm}}\left( {{{\boldsymbol{T}}^{{l}}}+{{\boldsymbol{T}}^{{{l - 1}}}}} \right). $

式中：$l$为堆叠的层数，${\mathrm{LayerNorm}}\left( * \right)$表示层归一化.

2.5. 预测层

2.5.1. 论点预测

给定评审段的句子序列$V = \left\{ {{v_1},{v_2}, \cdots ,{v_m}} \right\}$和反驳段中的句子序列$B = \left\{ {b_1},{b_2}, \cdots , {b_n} \right\}$以及它们对应的标签 ${Y^{\mathrm{v}}} = \left\{ {y_1^{\mathrm{v}},y_2^{\mathrm{v}}, \cdots ,y_m^{\mathrm{v}}} \right\}$，${Y^{\mathrm{b}}} = \left\{ {y_1^{\mathrm{b}},y_2^{\mathrm{b}}, \cdots ,y_n^{\mathrm{b}}} \right\}$，论点预测的目的是给每一个句子分配一个标签，是序列标注问题，通过条件随机场(conditional random field, CRF)^[26]来实现.

具体来说，以评审段的句子序列为例(反驳段的预测类似)，计算观测序列和标签序列之间的得分：

(17)$ {\mathrm{score}}\;(V,{Y^{\mathrm{v}}}) = \sum\limits_{i = 0}^m {{A_{y_i^{\mathrm{v}}:y_{i+1}^{\mathrm{v}}}}} +\sum\limits_{i = 1}^m {F\left( {V,y_i^{\mathrm{v}}} \right)} . $

式中：${A_{y_i^{\mathrm{v}}:y_{i+1}^{\mathrm{v}}}}$为标签$y_i^{\mathrm{v}}$到$y_{i+1}^{\mathrm{v}}$的状态转移分数，$F\left( {V,y_i^{\mathrm{v}}} \right)$为通过神经网络得到的发射分数.

计算给定$V$下标签${Y^{\mathrm{v}}}$的条件概率：

(18)$ P\left( {{Y^{\mathrm{v}}}|V} \right) = \frac{{\exp \left( {{\mathrm{score}}\left( {V,{Y^{\mathrm{v}}}} \right)} \right)}}{{\displaystyle \sum\limits_{i = 0}^{m+1} {\exp \left( {{\mathrm{score}}\left( {V,y_i^{\mathrm{v}}} \right)} \right)} }}. $

CRF的损失函数可以定义为

(19)$ {{L}^{\mathrm{v}}} = - \ln P\left( {{Y^{\mathrm{v}}}|V} \right). $

通过同样的步骤，可以得到反驳段论点识别的损失${{L}^{\mathrm{b}}}$. 论点预测的损失函数由2部分组成，分别是评审段的论点预测损失${{L}^{\mathrm{v}}}$和反驳段的论点预测损失${{L}^{\mathrm{b}}}$，

(20)$ {{L}_{{\mathrm{am}}}} = {{L}^{\mathrm{v}}}+{{L}^{\mathrm{b}}}. $

2.5.2. 句子对预测

句子对预测的目的是判断评审段和反驳段中两两句子是否属于同一个论点对，是二分类问题. 通过多层感知机(multi-layer perceptron, MLP)，得到句子对概率分布：

(21)$ {P_{ij}} = {\mathrm{MLP}}\left( {{T_{ij}}} \right). $

式中：T_ij为评审段中第i个句子和反驳段中第j个句子在表格中的表示，P_ij为这两个句子属于同一个论点对的概率. 使用交叉熵损失，计算预测值与真实值的偏差：

(22)${{L}_{{\mathrm{pair}}}} = \frac{1}{{m n}}\sum\limits_{i = 1}^m \sum\limits_{j = 1}^n - \left[{y_{ij}} \ln {{P_{ij}}} +\left( {1 - {y_{ij}}} \right)\right.\left.\ln \left( {1 - {P_{ij}}} \right)\right] .$

式中：${y_{ij}} \in \left\{ {0,1} \right\}$为句子对的真实标签，0表示2个句子不属于同一个论点对，1表示2个句子属于同一个论点对.

2.6. 模型优化及预测

模型最终的损失函数包含2个部分：论点预测和句子对预测. 采用多任务学习的方式同时优化这2个损失，最终的损失函数定义为

(23)$ {L} = \lambda {{L}_{{\mathrm{am}}}}+\left( {1 - \lambda } \right) {{L}_{{\text{pair}}}}. $

式中：$\lambda $为超参数，用于调节2个子任务损失的权重.

参照Cheng等^[6-7]的工作，最终论点对的预测由2个子任务的结果组合而来. 具体来说，只有当识别出的评审段论点$\left( {{v_{{i_{\mathrm{1}}}}}, \cdots ,{v_{i_n}}} \right)$和反驳段论点$ \left( {{b_{{j_1}}}, \cdots ,{b_{{j_n}}}} \right) $满足如下条件时，这2个论点才属于同一个论点对.

(24)$ \frac{{\displaystyle \sum\nolimits_{i = {i_1}}^{{i_n}} {\displaystyle \sum\nolimits_{j = {j_1}}^{{j_n}} {{I}\left( {{P_{ij}}} \right)} } }}{{\left( {{j_n} - {j_1}+1} \right)\left( {{i_n} - {i_1}+1} \right)}} \geqslant 0.5. $

式中：${I}$为指示函数.

3. 实验分析

3.1. 实验设置

3.1.1. 数据集和评估指标

采用论点对抽取广泛应用的评审-反驳数据集(review-rebuttal, RR)^[6]来评估模型的性能，该数据集收集了ICLR上的4 764篇评审反驳对. 它包含2个版本：RR-Passage和RR-Submission-v2. 每一个版本按照8∶1∶1的比例，划分为训练集、验证集和测试集. 在RR-Passage中，同一篇文章的论点对均包含在训练集、验证集或者测试集中的一个；在RR-Submission-v2中，同一篇文章的论点对可能同时分布在训练集、验证集和测试集中. 数据集的统计结果如表1所示，表中，N_vb为评审反驳对数，N_tr为训练集数，N_dev为验证集数，N_t为测试集数，N_f为句子总数，N_a为论点总数，N_s为论点句子总数。

表 1 论点对抽取数据集统计

Tab.1 Statistics of argument pair extraction dataset

评审反驳				评审			反驳
N_vb	N_tr	N_dev	N_t	N_f	N_a	N_s	N_f	N_a	N_s
4764	3811	476	477	99 800	23 200	58 500	94 900	17 700	67 500

新窗口打开| 下载CSV

在论点预测、句子对预测、论点对预测上的评估指标均采用精确率P（precision）、召回率R（recall）和F₁.

3.1.2. 基线模型

为了验证提出模型的有效性，与以下的基线模型进行比较.

1) MT-H-LSTM-CRF^[6]. MT-H-LSTM-CRF将论点对抽取任务分解为序列标注任务和句子对预测任务，通过多任务学习框架来同时优化这2个子任务.

2) MLMC^[7]. MLMC提出多层多交叉编码器模型来充分建模2个段落句子之间的关系，将句子对预测视为表格填充问题，引入注意力损失来更好地预测论点对.

3) MGF^[8]. MGF是互指导框架，包含评审指导和反驳指导. 先识别出评审段中的论点，再将该论点拼接到反驳段中，找出与之匹配的论点，反之亦然.

4) MRC-APE-Bert^[9]. MRC-APE-Bert将论点对抽取任务视为两阶段阅读理解任务：第1阶段先识别出评审段和反驳段中的所有论点，第2阶段将每个识别的论点作为查询，在另一个段落中找与之匹配的论点. 由于MRC-APE^[9]使用Longformer^[27]对句子进行编码，为了公平比较，本文采用其Bert版模型作为基线.

3.2. 实验简介

HGCA-APE模型基于Pytorch实现，使用BERT-Base-Uncased作为基准模型，在训练过程中冻结它们的参数. 采用AdamW^[28]优化器优化模型，使用余弦退火策略在每个轮次后调整学习率. 训练轮数设置为25，批处理大小设置为1. 在2个数据集上的超参数$\lambda $均设置为0.5，堆叠层数$L$设置为3，图卷积的层数设置为1，丢弃率设置为0.5. 所有的实验均用不同的随机种子运行5次，最终结果为5次实验的平均值.

为了验证提出模型的有效性，在2个基准数据集RR-submission-v2和RR-passage上进行实现，与一系列的基线模型进行比较.

如表2所示为模型在论点对抽取及2个子任务上的结果. 表中，“—”表示这些基线模型没有将论点对抽取任务视为序列标注和句子对预测任务，最好的结果用加粗表示，次优的结果加“_”. 从表2可以看出，本文模型在2个基准数据集上的结果均达到了最优的结果，在RR-submission-v2数据集上提升了3.63%，在RR-passage数据集上提升了13.28%.

表 2 HGCN-APE在RR-passage和RR-submission-v2数据集上的性能对比

Tab.2 Comparison of performance of HGCN-APE on RR-passage and RR-submission-v2 dataset

数据集	模型	论点预测			句子对预测			论点对预测
数据集	模型	P/%	R/%	F₁/%	P/%	R/%	F₁/%	P/%	R/%	F₁/%
RR-submission-v2	MT-H-LSTM-CRF	70.74	69.46	70.09	52.05	46.74	49.25	27.24	26.00	26.61
	MLMC	69.53	73.27	71.35	60.01	46.82	52.60	37.15	29.38	32.81
	MGF	70.40	71.87	71.13	—	—	—	34.23	34.57	34.40
	MRC-APE-Bert	73.36	68.35	70.77	—	—	—	42.26	34.06	37.72
	HGCN-APE	71.86	71.80	71.83	66.12	59.40	62.58	42.70	36.05	39.09
RR-passage	MT-H-LSTM-CRF	71.85	71.01	71.43	54.28	43.24	48.13	30.08	29.55	29.81
	MLMC	66.79	72.17	69.37	62.49	42.33	50.53	40.27	29.53	34.07
	MGF	73.62	70.88	72.22	—	—	—	38.03	35.68	36.82
	MRC-APE-Bert	66.81	69.84	68.29	—	—	—	34.70	35.53	35.51
	HGCN-APE	72.50	71.61	72.05	67.68	59.25	63.18	45.76	38.32	41.71

新窗口打开| 下载CSV

本文模型在论点预测性能方面不如MGF，在句子对预测子任务上的性能均优于其他基线模型. 一个可能的原因是通过共现词构建的异质图，能够很好地建模潜在属于同一个论点对句子之间的关系，也可能引入噪音，即有连边的2个句子可能不属于同一个论点对，这会影响模型在论点预测子任务上的性能.

3.3. 消融实验

为了探究构建的异质图及位置感知句子对生成器的有效性，移除模型的某一部分进行消融实验.

w/o v2v表示去掉异质图中的评审-评审边，即图中不再建模评审段内句子之间的关系.

w/o b2b表示去掉异质图中的反驳-反驳边，即图中不再建模反驳段内句子之间的关系.

w/o v2b表示去掉评审-反驳边，即反驳段中的句子将不再建模评审段句子的信息.

w/o b2v表示去掉反驳-评审边，即评审段不再建模反驳段句子的信息.

w/o pos表示去掉评审段和反驳段句子的相对位置信息.

如表3所示为去掉模型中某一模块后，在RR-Passage数据集论点对抽取上的性能. 可以看出，去掉任意一个模块，模型的性能均有所降低，证明了模型的有效性. 具体来说，在异质图中，去掉评审-反驳边和反驳-评审边模型的性能，比去掉评审-评审边及反驳-反驳边下降的性能更多，进一步表明在论点对抽取任务中，难点在于建模2个段落句子之间的关系. 在去掉位置编码之后，模型性能有所下降，说明有必要建模句子之间的相对位置.

表 3 HGCN-APE在RR-passage数据集上的消融实验

Tab.3 Ablation study of HGCN-APE on RR-passage dataset

模型	论点对预测
模型	P/%	R/%	F₁/%
HGCN-APE	45.76	38.32	41.71
w/o v2v	44.36	38.26	41.09
w/o b2b	44.69	37.63	40.86
w/o v2b	41.58	35.63	38.38
w/o b2v	42.68	32.84	37.12
w/o pos	44.56	37.68	40.83

新窗口打开| 下载CSV

3.4. 参数敏感性实验

超参数$\lambda $控制2个子任务权重的大小，如图3所示为不同$\lambda $对模型性能的影响，随着$\lambda $的增大，论点预测子任务的权重越来越大，句子对预测的任务的权重越来越小. 当$\lambda $= 0.5时，2个子任务的权重一样，同时模型在2个数据集上的性能均达到最佳，这说明论点预测和句子对预测在论点对抽取中是同等重要的.

为了探究不同堆叠层数$L$对模型性能的影响，将$L$设置为1~5，步长为1，在2个数据集上验证不同$L$对模型性能的影响，实验结果如表4所示.可以看出，随着$L$的增大，模型在论点对抽取任务上的性能不断提升，当$L = 3$时模型在2个数据集上的效果最佳，之后模型的性能不断降低. 这是因为当$L$过小时，模型不能捕获句子之间的复杂关系；当$L$过大时，模型可能引入更多的噪音，导致性能降低.

表 4 HGCN-APE超参数$L$的影响

Tab.4 Effect of HGCN-APE hyper-parameter $L$

数据集	L	P/%	R/%	F₁/%
RR-passage	1	33.47	25.94	29.23
	2	44.03	35.11	39.02
	3	45.76	38.32	41.71
	4	43.77	39.74	41.66
	5	44.49	38.11	41.05
RR-submission-v2	1	33.47	25.94	29.23
	2	40.47	32.50	36.05
	3	42.70	36.05	39.09
	4	42.02	35.68	38.59
	5	40.98	34.15	37.25

新窗口打开| 下载CSV

3.5. 学习曲线实验

如图4所示为模型在训练过程中的收敛情况. 随着训练轮数N的增加，模型在2个数据集上的${F_1}$随着增大，损失不断减少. 当训练轮数达到20的时候，${F_1}$到达峰值，之后随着训练轮数的增大，${F_1}$在峰值上下抖动. 尽管20轮之后，损失不断降低，但是没有带来性能的提升，可能是因为模型在验证集上过拟合了.

图 4

新窗口打开| 下载原图ZIP| 生成PPT

图 4 HGCN-APE在RR-passage和RR-submission-v2数据集上的损失和性能对比

Fig.4 Comparison of loss and performance of HGCN-APE on RR-passage and RR-submission-v2 dataset

3.6. 案例研究实验

为了更加直观地查看HGCN-APE模型在论点预测和论点对预测上的预测结果，在RR-submission-v2数据集的测试集上随机挑选3条数据进行展示，结果数据如表5所示.

表 5 HGCN-APE案例研究

Tab.5 Case study of HGCN-APE

样本	真实评审段论点	预测评审段论点	真实反驳段论点	预测反驳段论点	真实论点对	预测论点对
1	8-9	8-9	1-7	1-7	(8-9)-(1-7)	(6-7)-(1-7)
	10-15	10-15	8-13	8-13	(10-15)-(8-13)	(10-15)-(8-13)
	—	6-7	—	—	—	—
2	10-11	10-11	1-8	1-8	(10-11)-(1-8)	(10-11)-(1-8)
	12-12	12-12	9-11	9-11	(12-12)-(9-11)	(12-12)-(9-11)
	16-17	17-17	—	—	(16-17)-(1-8)	(17-17)-(1-8)
3	6-10	6-10	1-11	1-11	(6-10)-(1-11)	(6-10)-(1-11)
	12-13	12-13	14-18	14-18	(12-13)-(14-18)	(12-13)-(14-18)
	14-15	14-15	21-24	21-24	(14-15)-(21-24)	(14-15)-(21-24)

新窗口打开| 下载CSV

从表5可以看出，在第1条样本中，HGCN-APE错误地将评审段中的第6、7句话识别为论点，这导致在论点对预测过程中，错误地将评审段中的6、7句话与反驳段中的第1~7句话识别为一个论点对. 在第2条样本中，HGCN-APE将第17句话识别为论点，实际上第16、17句话是一个完整的论点，这表明HGCN-APE存在论点边界难以识别的问题，主要体现在2个方面：1）当一个论点包含多个句子时，只将部分句子识别成论点；2）多个连续的论点被识别为一个论点. 第3条样本完全预测正确.

4. 结　语

本文提出基于异质图卷积神经网络的论点对抽取模型，定义2种不同类型的节点、4种不同类型的边，能够有效地建模评审段落和反驳段落内部句子之间的关系、段落之间潜在属于同一个论点对句子之间的关系. 设计位置感知的句子对生成器，捕获段落内句子间的相对位置. 实验结果表明，本文提出的模型优于现有的基线模型. 由于目前主要建模的是评审段落和反驳段落句子之间的交互，模型在论点预测上不能取得最好的效果，接下来将探究如何更好地建模论点级的交互.

参考文献

原文顺序

文献年度倒序

文中引用次数倒序

被引期刊影响因子

[1]

EGER S, DAXENBERGER J, GUREVYCH I. Neural end-to-end learning for computational argumentation mining [C]// Proceedings of the 55th Annual Meeting of the Association for Computational Linguistics. Vancouver: ACL, 2017: 11-22.