浙江大学学报(工学版), 2024, 58(9): 1790-1800 doi: 10.3785/j.issn.1008-973X.2024.09.004

计算机与控制工程

基于对比学习的零样本对象谣言检测

陈珂,, 张文浩

1. 广东石油化工学院 计算机学院,广东 茂名 525000

2. 广东石油化工学院 电子信息工程学院,广东 茂名 525000

Zero-shot object rumor detection based on contrastive learning

CHEN Ke,, ZHANG Wenhao

1. School of Computer, Guangdong University of Petrochemical Technology, Maoming 525000, China

2. School of Electronic and Information Engineering, Guangdong University of Petrochemical Technology, Maoming 525000, China

收稿日期: 2023-05-20  

基金资助: 国家自然科学基金资助项目(61172145);广东省自然科学基金资助项目(2018A030307032);广东省普通高校重点科研平台和项目(2020ZDZX3038).

Received: 2023-05-20  

Fund supported: 国家自然科学基金资助项目(61172145);广东省自然科学基金资助项目(2018A030307032);广东省普通高校重点科研平台和项目(2020ZDZX3038).

作者简介 About authors

陈珂(1964—2024),男,教授,从事机器学习与数据挖掘、自然语言处理研究.orcid.org/0000-0002-9341-9526 , E-mail:chenke2001@163.com

摘要

现有的谣言检测模型通常依赖大规模人工标注的谣言数据集,标注成本高且谣言特征来源于已被辟谣的谣言. 为了提高模型对未知谣言的检测能力,提出面向不同对象的谣言检测方法. 基于零样本学习,将谣言数据集按照不同的对象划分为样本与内容互不重叠的多个数据集,从而实现零样本对象谣言检测任务;为了表征对象之间的关系构建通义掩码特征,从而设计区分通义掩码特征的代理任务;为了减少数据增强带来的噪声,引入面向对象的信息辅助文本作为特征,并将其与原语义向量进行线性变换. 在此基础上,提出面向零样本对象谣言检测的基于代理任务的分层对比学习模型(ZPTHCL),可以通过迁移学习进行谣言检测. 在一个基于对象的零样本谣言数据集和Ma-Weibo、Weibo20、Twitter15、Twitter16这4个公开数据集上进行实验,结果表明所提出的对比学习零样本对象谣言检测模型性能更优.

关键词: 谣言检测 ; 零样本学习 ; 迁移学习 ; 代理任务 ; 对比学习

Abstract

Existing rumor detection models often rely on large-scale manually annotated rumor datasets, which are costly and limited in their ability to detect unknown rumors due to the reliance on features derived from debunked rumors. To address this limitation, an approach for rumor detection targeted at different objects was proposed. Leveraging the zero-shot learning, the rumor dataset was divided into multiple datasets with non-overlapping samples and contents based on different objects, enabling the zero-shot object-oriented rumor detection task. Correspondingly, a universal mask feature was constructed to represent the relationship between objects, and a proxy task was designed to differentiate the universal mask feature. Additionally, object-oriented information-assisted text was introduced to reduce noise caused by data augmentation and was linearly transformed with the original vector semantics. Then, a proxy task-based hierarchical contrastive learning model (ZPTHCL) was presented for zero-shot object-oriented rumor detection, which leveraged transfer learning for rumor detection. Finally, experiments were conducted on a zero-shot rumor dataset based on objects and four publicly available datasets, Ma-Weibo, Weibo20, Twitter15 and Twitter16, demonstrating superior performance of the proposed contrastive learning zero-shot object-oriented rumor detection model.

Keywords: rumor detection ; zero-shot learning ; transfer learning ; proxy task ; contrastive learning

PDF (931KB) 元数据 多维度评价 相关文章 导出 EndNote| Ris| Bibtex  收藏本文

本文引用格式

陈珂, 张文浩. 基于对比学习的零样本对象谣言检测. 浙江大学学报(工学版)[J], 2024, 58(9): 1790-1800 doi:10.3785/j.issn.1008-973X.2024.09.004

CHEN Ke, ZHANG Wenhao. Zero-shot object rumor detection based on contrastive learning. Journal of Zhejiang University(Engineering Science)[J], 2024, 58(9): 1790-1800 doi:10.3785/j.issn.1008-973X.2024.09.004

随着Web2.0时代的发展,社交媒体成为了谣言传播的主要媒介. 在谣言传播的过程[1]中,旧谣言具有生命周期,因此有可能会再次出现在公众面前[2],此时针对已知信息进行训练的传统谣言检测模型可以有效应对这种情况. 然而除了旧谣言以外,未知的谣言也不能忽视. 实际上,由于公众对未知的信息更为敏感,未知的谣言更容易造成社会轰动和经济损失. 因此,在兼顾对旧谣言检测的基础上,着重针对未知谣言的检测是面向现实场景的关键任务. 不过,依赖大规模人工标注数据的模型存在以下2方面的局限性:首先,大规模人工标记数据集的成本较高;其次,模型容易依赖已知数据中的对象相关信息来做出分类,因此在现实场景中,针对未知对象的谣言检测更为困难.

零样本学习是机器学习当中的一种问题设置,属于迁移学习的特例,最早由Larochelle等[3]在2008年提出. 零样本学习的方法会将研究的重点聚焦在如何令样本和标签处于同一个语义空间当中,如文献[4]使用精确语义分析 (explicit semantic analysis,ESA) 表示. 同时,这种方法也可以被扩展到多语言的迁移学习中[5-7],而在此基础上可通过表示学习的方法来进一步增强语义的表达,如生成对抗网络(generative adversarial networks,GAN)[8]、变分自编码器(variational autoencoder,VAE)[9]和对比学习等. 其中,对比学习可以在只有少量标注数据和大量的未标注数据的情况下,显著提高模型的性能.

对比学习是一种自监督学习的范式,可以通过设计代理任务和对比损失函数,使同类样本的语义表示在向量空间中彼此聚拢,而令非同类样本的语义表示在向量空间中互相疏离,便可以令模型学习到更好的语义表示,从而增强模型的稳健性. 近年来,对比学习在计算机视觉领域已经取得了较大的成功,例如SimCLR[10]、MoCo[11],但在自然语言处理领域还面临着一些挑战,比如如何对文本进行有效的数据增强、如何设计合适的代理任务和对比损失函数. Liang等[12]将立场特征分为无关于立场与特定于立场类别,并提出分层对比学习框架PT-HCL. 该对比学习框架在零样本或少样本场景中,能让模型有效地利用可迁移的立场特征来表示未知目标的立场. 但是,在数据增强当中容易引入不必要的噪声,从而容易导致模型学习到质量不佳的表征.

本研究工作的主要贡献可以概括为3个方面:1) 为缓解谣言检测中模型的训练需要大量人工标注的问题提供初步的新思路,提出将谣言检测数据集按不同对象划分,让模型基于已知对象的数据集进行迁移学习,再推断未知对象的数据集,以检验模型的泛化能力. 2) 针对PT-HCL加入对象信息辅助文本作为辅助特征,来解决PT-HCL在数据增强过程中所带来的噪声问题. 3) 提出使用数据增强当中所生成的通义掩码样本对训练集进行扩充,以增强模型对训练集中通义掩码特征的学习.

1. 相关工作

1.1. 谣言检测

在现有针对谣言检测的研究中,将谣言检测视作为一个文本分类的任务,而将所要检测样本的标签类型分为谣言标签和非谣言标签. 谣言检测的任务可以用传统的机器学习方法解决,如Vicario等[13]考虑用户行为的特征,或Meel等[14]同时考虑社交媒体的言论及其底下的评论,将评论作为重要辅助信息;Wang等[15]利用源帖子、评论的语义特征和情感特征,将它们输入到两层门控循环单元网络 (gated recurrent units,GRU) ;Kumar等[16]应用基于树结构的LSTM模型再结合图卷积网络(graph convolutional network,GCN)提取特征,采用多任务学习并在树中向上传播有用的立场信号,以便在根节点进行谣言分类. Bian等[17]将GCN扩展为Bi-directional GCN(Bi-GCN)探索广泛的结构谣言检测的分散性;Zhang等[18]按时间顺序编码回复一个LSTM组件;Riedel等[19]从新闻内容和对应评论的余弦相似性中获益,同时设置相似度的阈值以过滤那些不相关的评论;Lu等[20]将用户画像放入GCAN中提取传播特征. Rao等[21]基于模型融合的策略,采用2个level-grained attention masked BERT (LGAM-BERT) 模型作为基础编码器,将评论作为重要的辅助特征,并掩盖了源帖和评论帖之间在较低层的注意力. Chen[22]等考虑用户的多个不同视图,并采用注意力网络来将更全面的信息进行整合. Xu等[23]将源帖子和相关评论拼合成一个长文本,并将其重新分割成更适于BERT的短文本,再将这些短文本分别输入到BERT中得到各短文本的表征向量,最后将所有的表征向量输入到基于 LSTM 网络或Transformer层的分类器中.

1.2. 基于对象的零样本谣言检测

为了缓解谣言检测中模型训练需要大量人工标注、缺乏未知对象检测的问题,有必要使用迁移学习去增强模型的泛化能力. 现有与基于对象的零样本谣言检测相关的研究主要有以下4个方向.

1) 零样本文本分类. Pushp等[24]提出该任务,并构思了3种深度学习模型. 零样本文本分类为零样本对象谣言检测的任务提供了相应的解决方案,但上述模型在进行零样本对象谣言检测任务时,未能表现出相应的稳健性. 这是由于模型对上下文的理解能力较差,且不能较好地学习不同对象中的谣言特征. 因此,零样本文本分类能够缓解零样本对象谣言检测的问题,但现有方法在对象谣言数据集当中的表现总体欠佳.

2) 少样本谣言检测. 目前主要由陆恒杨等[25]进行研究. 研究最初源于2019年新冠疫情的突发,当时互联网上可用数据有限,相关研究面临较大的挑战,因此,陆恒杨等[25]提出采用基于元学习的深度神经网络进行新冠疫情相关的谣言检测任务. 不过,当此方法用于零样本对象谣言检测时,由于模型本身较依赖训练集与这个话题之间的强假设相关性,其在对象数据集上并不能表现出较好的检测水平.

3)跨领域谣言检测. 主要通过调整已经针对特定目标训练的分类器,使其能够有效适应并推广到相关的新目标上. Zhou等[26]提出基于多任务和领域适应的多模态网络,结合文本、图像和社交上下文信息进行谣言检测. 该模型使用多任务学习提高模型的泛化能力,并使用领域适应方法缓解源领域和目标领域之间的分布差异. Ran等[27]提出端到端的无监督跨领域谣言检测模型,利用对比学习和交叉注意力机制来实现跨领域特征对齐和原型对齐. 然而,跨领域的谣言检测通常是去学习如何通过设置特定的训练目标,再使其生成特定领域的谣言特征来适应相关的未知测试. 与跨目标谣言检测不同的是,零样本对象谣言检测旨在自动检测未知对象的谣言样例.

4)零样本谣言检测. 让模型学习源数据中的相关信息和特征,再迁移应用至不同语言和领域中的谣言检测. Lin等[5]提出零样本响应感知的提示学习框架RPL-*来尝试解决这个问题. 然而不同领域中的对象各有不同,从而容易导致同一类领域中不同对象的2个实例容易受到源信息的干扰. 与零样本谣言检测不同的是,零样本对象谣言检测会将实例的颗粒度细化至对象级别.

2. 问题定义

$ P = \{ {p_1},{p_2},{p_3},{p_i},\cdots ,{p_m}\} $为包含所有对象的数据集. 其中,$ {p}_{i} $为第i个事件的消息集,m为数据集$ P $中样本的个数. 设SPP内的一个句子.

$ {P_k} = \{ {p_1},{p_2},\cdots ,{p_w}\} $为特定对象的数据集. 其中,k为某个特定对象的名称,w为数据集$ {P}_{k} $中样本的个数. 设$ {P}_{\mathrm{O}}=P\cap \neg {P}_{k} $,表示不包含k对象,而包含其他全部对象在内的数据集. 设SK$ {P}_{k} $内的一个句子,SO$ {P}_{\mathrm{O}} $内的一个句子.

根据文献[28],可以将社交媒体上的信息分为2类:谣言(T)和非谣言(F). 基于此分类,可以将谣言检测任务描述为学习一个函数$ {F}{ }:{ }{F}\left({{p}}_{i}\right)\to {{y}}_{i} $,其中,yi为标签值,$ {{y}}_{i}\in \left\{\mathrm{0,1}\right\} $,标签值为0表示为谣言,标签值为1表示为非谣言.

3. ZPTHCL模型

本研究提出谣言检测模型:面向零样本对象谣言检测的基于代理任务的分层对比学习模型 (zero-shot object rumor detection using proxy task-based hierarchical contrastive learning,ZPTHCL). 如图1所示为ZPTHCL模型的整体框架. 主要分为5个模块:1)通过代理任务进行数据增强;2)训练数据的编码;3)对象信息辅助文本的编码;4)特征的线性变换;5)模型训练与推断. 模块1)主要用于完成对比学习中的代理任务,包含2个步骤:从每条样本中选择多个对象相关词并进行遮盖;使用过拟合模型对被遮盖样本进行预测,得到用于代理任务的正负样本对. 模块2)、3)分别对训练数据和对象信息辅助文本进行语义表示,在得到2个不同的表征向量后,在模块4)中对上述向量进行融合. 再在模块5)中将所得到的向量输入至全连接层中,并在训练的过程中结合交叉熵损失函数与对比损失函数来指导模型参数的更新,最后使用训练完成的模型对样本进行推理.

图 1

图 1   ZPTHCL的模型结构

Fig.1   Overall framework of ZPTHCL model


须注意的是,零样本对象谣言检测的任务是将PO中已知对象的句子集训练为一个模型,可以推广至Pk当中,以此来检测含有未知对象的句子. (注意,各个不同的对象数据集当中没有相似的句子. )

3.1. 通过代理任务进行数据增强

首先,假设最终模型在推理实例时,会依赖实例中是否包含与对象相关的词语来判断实例是否为谣言. 然而,当模型面对未知对象的实例时,由于实例中很少或者没有包含与对象相关词语的信息,从而导致模型性能不稳定. 基于这一假设,进行以下操作:先使用训练集训练一个过拟合模型,再使用该模型对遮掩示例进行预测. 如果模型对该实例的标签预测成功,则认为实例与对象相关词语无关,从而可以说明该实例具有通义掩码特征. 反之,则不具有通义掩码特征. 通过以上方法,将具有通义掩码特征的实例作为样本在代理任务中生成的正样本,而将不具有通义掩码特征的实例作为样本在代理任务中生成的负样本.

对数据集进行数据增强,具体操作的过程如图2所示. 经数据增强处理后的样本被划分为2类:通义掩码样本和非通义掩码样本. 通义掩码样本特指在对象相关词被遮盖的情况下,过拟合的BERT模型仍旧能够正确预测出样本的真实标签. 相对应的,非通义掩码样本则涵盖了数据集中除了上述通义掩码样本之外的所有其他样本.

图 2

图 2   数据增强过程

Fig.2   Data augmentation process


将区分通义掩码特征的任务设计为代理任务,为了在训练集当中找到具有通义掩码特征的样本,首先须利用训练集将模型$ \mathrm{{\rm M}} $训练至过拟合,训练精度接近100%. 其中,根据谣言数据集中源语言的不同,设置使用的预训练为BERT-base-uncase[29]或BERT-base-chinese[29]作为谣言检测模型$ {\rm M} $,它采用“ $ \left[\mathrm{C}\mathrm{L}\mathrm{S}\right]{{\boldsymbol{S}}}_{P}\left[\mathrm{S}\mathrm{E}\mathrm{P}\right] $”作为输入. 使用$ \left[\mathrm{C}\mathrm{L}\mathrm{S}\right] $所映射的向量来表示谣言检测的输入实例.

使用隐含狄利克雷分布(LDA)[30]针对每一个对象训练集对应的对象进行相关词的选择. 具体来说,每个对象的文档可以用主题Ti来表示,每个对象包含有$ {{W}}_{g}=\{{{W}}_{1},{{W}}_{2},\cdots ,{{W}}_{f}\} $,共包含f个对象相关词,其中f为人工所设置的超参数. 使用特殊的标记[MASK]来遮盖对象训练集中每个训练样本的主题相关词$ {W}_{g} $. 使用如图3中所示的主题相关词可以得到如图4所示的掩码示例.

图 3

图 3   主题相关词示例

Fig.3   Example of topic-related words


图 4

图 4   掩码样本示例

Fig.4   Masked sample example


最后,将经隐含狄利克雷分布所获得的掩码训练集输入进过拟合的谣言检测模型$ {\rm M} $当中,以预测每个掩码样本的谣言标签. 如果预测的标签是正确的,意味着它的谣言表达不依赖于单一的对象,说明其具有通义掩码特征. 因此,为满足这个条件的样本附加一个“通义掩码”的增强标签$ {A}_{1} $;若不满足这个条件,则给样本附加“非通义掩码”的增强标签$ {A}_{0} $. 此时,经过数据增强后的已知对象训练集可以表示为 $ {D}_{{\mathrm{s}}}={\left\{\right({{\boldsymbol{S}}}_{{O}}^{n},{y}_{i}^{n},{A}_{i}^{n}\left)\right\}}_{n=1}^{m} $m为数据集中样本的个数.

3.2. 训练数据的编码

结合上文,使用$ {{\boldsymbol{S}}}_O $表示经数据增强后的已知对象训练集$ {D}_{{\mathrm{s}}} $中的一个句子样例,将所有已知对象训练集中的句子集合样本表示为$ {S}_{{O}}^{m-w}=\{{{\boldsymbol{S}}}_{{O}}^{1},{{\boldsymbol{S}}}_{{O}}^{2},\cdots , {{\boldsymbol{S}}}_{{O}}^{n}\} $,其中包含n个句子. 根据源谣言数据集中语言的不同,使用BERT-base-uncase[29]或BERT-base-chinese[29]作为训练数据的编码器. 它采用“$ \left[\mathrm{C}\mathrm{L}\mathrm{S}\right] {{\boldsymbol{S}}}_{{{{O}}}}\left[\mathrm{S}\mathrm{E}\mathrm{P}\right] $” 作为输入并以[CLS]的语义向量作为输出得到$ \boldsymbol{H} $1. 再将$ \boldsymbol{H} $1中[CLS]分词的语义向量输入至ReLU激活函数得到$ \boldsymbol{h} $1,其维度为$ {d}_{{\mathrm{m}}} $,表示为$ {\boldsymbol{h}}_{1}\in {{{\bf{R}}}}^{{d}_{{\mathrm{m}}}} $、则对每个样本的输出表达式如下:

$\boldsymbol{H}_1=\operatorname{BERT}\;\left([\mathrm{CLS}] {S}_{ O}[\mathrm{SEP}] \right), $

$\boldsymbol{h}_1=\operatorname{ReLU}\;\left(\boldsymbol{H}_1^{[{\mathrm{C L S}}]}\right). $

3.3. 对象信息辅助文本的编码

为了解决PT-HCL在数据增强过程中所带来的噪音问题,加入对象信息辅助文本作为辅助特征,所对应的文本内容示例如图5所示. 将对象信息辅助文本表示为$ {{\boldsymbol{S}}}_{{O}}^{\mathrm{A}} $.

图 5

图 5   各个对象所对应的信息辅助文本

Fig.5   Information auxiliary text corresponding to each object


根据源谣言数据集中语言的不同,使用BERT-base-uncase[29]或BERT-base-chinese[29]作为对象信息辅助文本的编码器,它采用“$ \left[\mathrm{C}\mathrm{L}\mathrm{S}\right]{\boldsymbol{S}}_{{O}}^{\mathrm{A}}\left[\mathrm{S}\mathrm{E}\mathrm{P}\right] $” 作为输入并以[CLS]的语义向量作为输出得到$ \boldsymbol{H} $2. 再将$ \boldsymbol{H} $1中[CLS]分词的语义向量输入至ReLU激活函数得到$ \boldsymbol{h}_2 $,其维度为$ {d}_{{\mathrm{m}}} $,表示为$ {\boldsymbol{h}}_{2}\in {\mathbf{R}}^{{d}_{{\mathrm{m}}}} $. 则对每个所属对象的样本相应输出如下:

$\boldsymbol{H}_2=\mathrm{BERT}\;\left([\mathrm{CLS}] {\boldsymbol{S}}_{{O}}^{\mathrm{A}}[\mathrm{SEP}]\right), $

$ \boldsymbol{h}_2=\operatorname{ReLU}\;\left(\boldsymbol{H}_2^{[{\mathrm{C L S}}]}\right). $

3.4. 特征的线性变换

为了尽可能地利用对象信息辅助文本来消除掩码所带来的噪声,将$ {\boldsymbol{h}}_{1} $$ {\boldsymbol{h}}_{2} $进行线性变换的一般表示形式为

$ \boldsymbol{h}_3=\operatorname{Leaky} \operatorname{ReLU}\;\left(\alpha \boldsymbol{h}_1+\beta \boldsymbol{h}_2\right). $

式中:$ \alpha $$ \beta $表示2个不同的超参数;LeakyReLu中所需要调节的negative_slope为一个超参数,用于控制当值小于0时的负斜率. 可以基于αβ的初始值,通过梯度下降的方式来寻找这2个参数的最合适值.

3.5. 模型的训练与推断

使用由Liang等[12]提出的分层对比学习损失函数$ {{{\boldsymbol{L}}}}_{\mathrm{c}\mathrm{l}} $,通过设置较小的温度系数对谣言的通义掩码特征和非通义掩码特征进行对比表示,再在此基础之上,通过设置较大的温度系数对谣言标签进行对比学习. 首先,对小批次定义为$ {B}={\left\{{\boldsymbol{h}}_{i}\right\}}_{i=1}^{{N}_{{\mathrm{b}}}} $,其中,$ {N}_{{\mathrm{b}}} $为小批次的大小. 将小批量$ {B} $的语义向量输入至Softmax函数中:

$ \hat{{{\boldsymbol{y}}}}_i=\text { Softmax }\left(\boldsymbol{W} * \boldsymbol{h}_3+\boldsymbol{b}\right). $

式中:$ {\widehat{\boldsymbol{y}}}_{i} $为各个谣言标签的概率分布,$ \boldsymbol{W} $b均为可学习的参数,它们的维度与h3一致.

基于所预测的各谣言标签概率,对$ {\widehat{\boldsymbol{y}}}_{i} $$ {{y}}_{i} $间的分布使用交叉熵损失再结合分层对比学习损失$ {\boldsymbol{L}}_{\mathrm{c}\mathrm{l}} $来训练分类器:

$ {{\boldsymbol{L}}_{{\mathrm{class}}}} = - \sum _{i = 1}^{{N_{\mathrm{b}}}}y_i\log_2 \hat {\boldsymbol{y}}_i. $

通过联合优化有监督的谣言检测损失$ {\boldsymbol{L}}_{\mathrm{c}\mathrm{l}\mathrm{a}\mathrm{s}\mathrm{s}} $和代理任务$ {\boldsymbol{L}}_{\mathrm{c}\mathrm{l}} $来训练模型. 总损失L由3个损失相加而得:

$ \boldsymbol{L}=W_{11} \boldsymbol{L}_{\text {class }}+W_{12} \boldsymbol{L}_{\mathrm{c} 1}+{\boldsymbol{\lambda}}\|\boldsymbol{\varTheta}\|^2. $

式中:$ {W}_{\mathrm{l}1} $$ {W}_{\mathrm{l}2} $为可调节的超参数,$ \boldsymbol{\varTheta } $为模型所有可训练的参数,$ {\boldsymbol{\lambda}} $$ {\mathrm{L}}_{2} $正则化系数向量.

使用$ {{\boldsymbol{S}}}_{k}^{0} $来表示未知的对象测试集中的一个句子样例,将所有已知对象训练集中的句子集合样本表示为$ {{S}}_{K}=\{{\boldsymbol{S}}_{K}^{1},{\boldsymbol{S}}_{K}^{2},\cdots ,{\boldsymbol{S}}_{K}^{{w}}\} $. 按照同样的操作将其按照式(1)的格式输入至BERT编码器中,获得语义向量表示$ {{\boldsymbol{h}}}_{1} $(式(2)). 再将测试集所对应的对象信息辅助文本,按照式(3)的格式输入至BERT编码器中,获得语义向量表示$ {\boldsymbol{h}}_{2} $(式(4)). 再进行如式(5)所示的线性变换得到$ {\boldsymbol{h}}_{3} $. 再将$ {\boldsymbol{h}}_{3} $输入至已训练好的ZPTHCL模型当中,使用式(6)得到模型对测试集中各个样本的预测概率. 最后通过$ \mathrm{a}\mathrm{r}\mathrm{g}\mathrm{m}\mathrm{a}\mathrm{x} $函数来得到模型对各个样本谣言标签的预测:

$ {\bf{output}} = \arg\max\; ({\hat {\boldsymbol{y}}}). $

4. 实验分析

4.1. 实验数据

在5个真实数据集上评估所提方法的有效性,包括Ma-Weibo[31]、Weibo20[21]、Twitter15[32]、Twitter16[32]和基于Ma-Weibo的零样本对象谣言数据集Zeo-Weibo. 这5个数据集中都包含2个标签类别,分别为谣言和非谣言. 具体的统计信息如表12所示. 表中,N为数据集中数据量. 其中,如表2所示展示了基于Ma-Weibo的零样本对象谣言数据集Zeo-Weibo,其针对零样本学习任务,包含面向7个不同对象的言论,分别为中国、刘翔、北京、地震、日本、死亡和美国. Zeo-Weibo共包含1440条数据,谣言占721条,非谣言占719条. 在对Zeo-Weibo进行实验时,仅将1个对象的数据作为测试集,而剩余的6个作为训练集和验证集,以此对所有的7个对象进行相同的实验操作.

表 1   4个谣言检测数据集的数据统计

Tab.1  Data statistics of four rumor detection data sets

数据集N
言论非谣言谣言
Ma-Weibo466423512313
Weibo20606830343034
Twitter15742370372
Twitter16412205207

新窗口打开| 下载CSV


表 2   零样本对象谣言数据集Zeo-Weibo统计

Tab.2  Statistics of zero-shot object rumor data set Zeo-Weibo

数据集N
言论非谣言谣言
中国507247260
刘翔1386969
北京924646
地震1788989
日本884939
死亡308150158
美国1297158

新窗口打开| 下载CSV


4.2. 评价指标及基准模型

为了验证所提出的模型的性能,将其与一些现有先进方法进行比较. 这些方法可以分为5类,分别为基于机器学习和常见神经网络模型的方法、基于图结构的方法、基于Transformer的方法、基于模型融合的方法和基于对比学习的方法.

1)基于机器学习和常见神经网络模型的方法.

SVM-TS[31]:利用内容、用户和传播模式等特征,并且考虑这些特征在谣言传播过程中的变化,通过时间序列建模技术捕捉这些特征的动态特性,再使用支持向量机的方法来进行谣言检测.

CNN[33]:使用卷积神经网络来挖掘文本的语义特征.

BiLSTM[34]:使用具有衰减因子的多损失层次BiLSTM模型.

CNN-BiLSTM[35]:使用Glove作为词嵌入,并将CNN与BiLSTM相结合来提取上下文信息的特征.

Arc1[22]:通过将句子的语义表示进行维度取均后,再与句子标签的语义表示进行拼接.

Arc2[22]:基于LSTM模型,以时间步的方式输入句子的语义表示. 最后再将网络的最后一个隐藏状态与句子标签的语义表示进行拼接.

Arc3[22]:基于LSTM模型,以时间步的方式输入句子的语义表示并与句子标签的语义表示进行拼接,再使用最后一个隐藏层训练一个分类器来进行预测.

2)基于图结构的方法.

Ma-RvNN[36]:构造传播树以表示帖子的扩散,并基于树结构的递归神经网络模型以提取特征.

GCNN[37]:使用联合图合并所有推文的传播结构以减轻稀疏性再使用网络嵌入学习联合图中节点的表示.

Bi-GCN[17]:不仅考虑传播树的深度扩散,同时还考虑谣言检测中的分布结构.

UMLARD[22]:考虑用户的多个不同视图,并采用注意力网络将更全面的信息进行整合.

3)基于Transformer的方法.

BERT[29]:由Google开发的一种预训练模型,可视作多层双向的Transformer编码器,可以根据输入文本的上下文来理解文本中的含义,并能在微调后应用于下游任务当中.

RoBERTa[38]:在BERT的研究基础上,对预训练的策略进行优化. 只使用MLM(masked language model)的自监督学习方法,而不采用预测下一句(next sentence prediction,NSP)的方法.

Longformer[39]:使用随序列长度线性缩放的注意力机制,解决Transformer无法处理长序列的问题.

PLAN[40]:基于推文级别的自注意力网络,在Transformer中使用多头注意机制对推文之间的长距离交互进行建模.

ToBERT[23]:将源帖子和相关评论拼合成一个长文本,并将其重新分割成更适于BERT的短文本,再将这些短文本分别输入到BERT中得到各短文本的表征向量,最后将所有的表征向量输入到基于 LSTM 网络或Transformer层的分类器中.

4)基于模型融合的方法.

Wu-Stacking[41]:结合传播学构建了更适合谣言识别的特征集,并将多个基础分类器的预测结果作为新的特征输入到一个元分类器中.

Bagging-BERT(2)[42]:通过对训练数据进行有放回的随机抽样,生成多个子数据集,然后在每个子数据集上训练一个模型,最后对所有模型的预测结果进行投票或平均的方法,来降低模型方差并提供更稳健的预测.

Geng-Ensemble[43]:使用3个基于RNN的学习器,为不同的词分配权重,最后通过多数表决来输出结果.

STANKER[21]:使用2个层级注意力掩码BERT模型作为编码器,利用对言论的评论作为辅助特征,并在低层次的注意力机制中屏蔽了微博内容和评论之间的共同注意力,再将2个LGAM-BERT模型的预测结果作为新的特征输入到一个元分类器.

5)基于对比学习的方法.

PT-HCL[1]:提出存在一种可迁移的特征类型,并设计了一个分层对比学习框架,能够帮助模型在零样本和少样本场景下的表现,利用该可迁移特征可以更好地检测标签.

ZPTHCL:在PT-HCL框架的基础之上,使用代理任务当中所生成的通义掩码样本对数据集进行扩充,增强通义掩码特征的表达,并且引入对象信息辅助文本,以解决数据增强过程中所带来的噪音问题.

4.3. 实现细节和评价指标

本研究所有实验的机器配置以及环境如下:处理器为AMD Ryzen7 4800H,内存为8 G,显卡为 NVIDIA GeForce RTX 2060,操作系统为Ubuntu 20.04 LTS,所有的代码主要通过Python(3.10)和Pytorch(2.0.0)实现.

所提模型中的参数由Adam优化器进行更新,学习率初始化为2×10−5,根据源谣言数据集中语言的不同,使用BERT-base-uncase[29]、BERT-base-chinese[29]或BERT-base-multilingual-cased[29]作为训练数据的编码器. 超参数$ \alpha $$ \beta $均设置为0.5. PT-HCL当中所涉及的3个温度系数采取PTHCL的默认值,分别为0.07、0.07、0.14.

模型SVM-TS[31]、Ma-RvNN[36]、GCNN[37]、Bi-GCN[17]、BERT[29]、RoBERTa[38]、Longformer[39]、PLAN[40]、Wu-Stacking[41]、Bagging-BERT(2)[42]、Geng-Ensemble[43]和STANKER[21]在Ma-Weibo[31]、Weibo20[21]、Twitter15[32]、Twitter16[32]这4个数据集的分数表现使用对应各模型在STANKER[21]实验所得到的数据.

模型CNN[33]、BiLSTM[34]、CNN-BiLSTM[35]、Arc1[22]、Arc2[22]、Arc3[22]在Zeo-Weibo数据集当中进行对比实验. 由于源语言为中文,故选用统一的中文预训练词向量[44]. 变换10次随机种子并对所得分数取均值来作为实验结果.

对于Ma-Weibo[31]、Weibo20[21]、Twitter15[32]、Twitter16[32]采用与以往谣言检测任务相同的评估指标[20],分别为F1分数、召回率R、精准率P和准确度A. 而对于零样本对象谣言数据集Zeo-Weibo而言,由于任务的特殊性,除了使用上述评估指标外,还将它们各自在不同对象数据集所得的均值作为额外的评估指标,表示为Avg-F1、Avg-R、Avg-P、Avg-A,以衡量模型在多个未知对象的谣言数据集中的指标表现. 同时,F1、RPA在同一个对象数据集所得的均值作为一个额外的评估指标,表示为Avg-Odataset. 将Avg-F1、Avg-R、Avg-P、Avg-A,进行一个相加取均值的计算,所得的数值称为SCO,主要以此指标来评估模型在数据集Zeo-Weibo中的性能表现.

为了评估本研究所提出的模型的语言泛化能力,将所提模型使用中文数据集Ma-Weibo与英文数据集Twitter15分别进行2次交叉验证,并且采用与RPL-*[6]相同的指标进行模型语言泛化能力的评估,分别为:准确度A、谣言F1分数(R-F1)、非谣言F1分数(NR-F1)和Macro-F1分数.

为了验证模型是否可以缓解谣言检测模型训练需要大量人工标注的问题,在数据集Ma-Weibo[31]、Weibo20[21]、Twitter15[32]和Twitter16[32]中分别设置5%、10%、15%、20%的少量实例占比用于模型训练,再利用已训练好的模型对其余大量的实例进行标注. 使用F1分数、召回率、精准率、准确度作为评估指标,以展示模型在数据缺乏标签的情况下的性能.

4.4. 实验结果分析

表3所示为本研究模型与对比模型在Ma-Weibo[31]、Weibo20[21]、Twitter15[32]、Twitter16[32]4个数据集当中的性能表现. 表中,加粗的数值为最优的表现分数,“—”表示模型原文中并没有在对应数据集上进行实验. 根据对比可知,所提出的模型在这4个数据集当中的表现最优.

表 3   不同方法在4个谣言检测数据集上的准确度

Tab.3  Accuracy of different methods on four rumor detection data sets %

方法A
Ma-WeiboWeibo20Twitter15Twitter16
基于机器学
习的方法
SVM-TS[33]88.4689.3273.8576.46
基于图结
构的方法
Ma-RvNN[38]94.8194.3193.9292.68
GCNN[37]95.1093.3187.2192.14
Bi-GCN[17]96.1291.1295.9695.15
UMLARD[22]92.8085.7090.10
基于Transformer
的方法
BERT[29]93.0396.2196.6793.20
RoBERTa[38]96.0396.1193.5693.69
Longformer[37]90.8495.6190.5790.78
PLAN[38]92.2692.5692.1394.23
ToBERT[23]98.12
基于模型融
合的方法
Wu-Stacking[41]93.4893.5292.8692.86
Bagging-BERT(2)[40]96.6796.6896.5096.50
Geng-Ensemble[43]95.6095.6795.1295.12
STANKER[21]97.4597.4697.1797.17
基于对比学
习的方法
ZPTHCL
(本研究)
98.9798.8698.8998.89

新窗口打开| 下载CSV


表4所示为所提模型与常用神经网络模型在Zeo-Weibo当中的性能. 表中,w/o cl、w/o au、w/o text分别表示不使用分层对比损失函数、不加入通义掩码样本、不使用对象信息辅助文本. 可以看出,在Avg-F1、Avg-R、Avg-P、Avg-A、SCO上,ZPTHCL在多个对象数据集中,均要优于所引论文中的模型.

表 4   不同方法在Zeo-Weibo数据集上的实验结果

Tab.4  Results of different methods on Zeo-Weibo object rumor detection dataset %

方法Avg-F1Avg-RAvg-PAvg-ASCO
CNN[33]68.8276.4371.7182.9774.98
BiLSTM[34]70.6872.0270.6676.5972.48
CNN-BiLSTM[35]64.0166.5862.8475.8867.32
Arc1[22]79.6480.2679.7381.5880.30
Arc2[22]76.2977.9976.9782.3978.41
Arc3[22]74.7777.3376.4082.0277.63
BERT[29]85.2487.0983.9085.3985.40
PT-HCL[12]85.3585.0986.3984.8885.43
ZPTHCL
(本研究)
87.5887.2588.2487.1387.55

新窗口打开| 下载CSV


表5所示为所提模型通过对中文数据集Ma-Weibo[31]的学习,将所习得的知识迁移至英文数据集Twitter16[32]的语言泛化能力. 如表6所示为所提模型通过对英文数据集Twitter16[32]的学习,将所习得的知识迁移至中文数据集Ma-Weibo[31]的语言泛化能力. 可以看出,所提模型相较PT-HCL[1]以及其他消融模型具有更强的语言泛化能力,但总体的性能表现还有一定的优化空间,可设计更好的对象辅助文本来对模型性能进行进一步的优化.

表 5   由中文训练集至英文测试集上的谣言检测结果

Tab.5  Rumor detection results from Chinese training dataset to English test dataset %

方法AMac-F1R-F1NR-F1
PT-HCL[12]49.8848.3957.1439.64
ZPTHCL(本研究)56.5153.6041.9765.23
w/o cl51.3550.0842.1158.05
w/o au53.8153.1847.7858.59
w/o text54.0553.8756.8150.92

新窗口打开| 下载CSV


表 6   由英文训练集至中文测试集上的谣言检测结果

Tab.6  Rumor detection results from English training dataset to Chinese test dataset %

方法AMac-F1R-F1NR-F1
PT-HCL[12]50.2048.3338.5258.15
ZPTHCL(本研究)54.6050.6836.7764.59
w/o cl51.4051.3353.1849.48
w/o au52.8052.1157.8646.36
w/o text48.6048.2552.5044.01

新窗口打开| 下载CSV


表7所示为所提模型在数据缺乏标签的情况下的性能. 表中,ρ为数据集数据利用率. 在训练数据利用率为5%,即训练数据只有Ma-Weibo数据集总样本的5%时,模型对其余数据的标注准确度便已达到了94.70%;当训练数据只有Ma-Weibo数据集总样本的10%、15%、20%时,模型对其余数据的标注准确度分别达到了96.74%、97.53%和98.33%. 设置相同的方法,也在数据集Weibo20、Twitter15和Twitter16上进行实验,同样可以达到较好的效果. 故此处实验验证了本研究所提模型可以在较大程度上缓解谣言检测模型训练需要大量人工标注的问题.

表 7   ZPTHCL模型在4个谣言检测数据集上缺乏标签的情况下的准确度

Tab.7  Accuracy of ZPTHCL model in absence of labels on four rumor detection datasets %

ρ/%A
Ma-WeiboWeibo20Twitter15Twitter16
594.7092.0085.7574.20
1096.7493.7891.7288.45
1597.5394.1496.6194.84
2098.3395.3197.5696.07

新窗口打开| 下载CSV


4.5. 消融实验

为了证明模型各个模块的必要性和有效性,进行一系列的消融实验,主要包括以下3个部分:

1) w/o cl. 主要用于验证对比学习在零样本场景下的有效性.

2) w/o au. 主要用于验证往训练集中加入通义掩码样本可否提升模型的泛化能力.

3) w/o text. 主要用于验证对象信息辅助文本缓解数据增强中噪声干扰问题的有效性.

表8所示为消融实验结果,使用Avg-Odataset和SCO指标进行对比评估,根据图表中的实验结果,结论如下. 1) 当不使用分层对比损失函数时,SCO下降了2.31个百分点. 结果表明,PTHCL的对比损失函数能够在零样本对象谣言检测场景下,让模型有效地利用可迁移的通义掩码特征来检测未知对象的谣言,从而得到未知对象样本更优的表示. 2) 当不加入通义掩码样本时,SCO下降了2.76个百分点. 通义掩码特征是面向未知对象所要学习的重要特征表示,通义掩码样本对训练集的扩充可以增强模型对通义掩码特征的表示学习,并且提高训练数据的利用率,减少过拟合的现象. 3) 当不使用对象信息辅助文本时,SCO下降了1.43个百分点. 由于所设计的代理任务较依赖主题模型所选择的对象相关词,而主题模型所选择的对象相关词并不一定都能满足代理任务在假设上的使用条件. 引入对象信息辅助文本能够对抗数据增强过程中产生的噪声.

表 8   在7个对象数据集上的消融实验结果

Tab.8  Ablation experimental results on seven object datasets %

方法A
北京地震刘翔美国日本死亡中国
w/o cl86.3681.6778.1793.5482.4492.3482.18
w/o au85.5682.3477.4392.9679.0091.7084.51
w/o text86.3286.0175.9094.2283.5293.5383.32
ZPTHCL(本研究)86.7187.6479.0594.9284.9393.6795.90

新窗口打开| 下载CSV


5. 结 语

基于零样本学习的思想提出了零样本对象谣言检测,为应对目前主流模型依赖于大规模人工标注谣言数据的问题提供了初步的新思路. 提出基于对比学习的方法,帮助模型通过迁移学习来进行谣言检测. 实验结果表明,相对已有模型,所提模型在一个基于对象的谣言数据集和Ma-Weibo、Weibo20、Twitter15、Twitter16这4个公开的数据集上取得了更佳的性能,证明了所提模型的可行性和有效性.

不过,在代理任务的流程当中,LDA所选择进行遮盖的相关词并不一定在语义上具有足够的相关性,从而可能导致模型在理解文本意义上出现偏差,最终降低模型在实际应用中的性能和可靠性. 另外,由于对象信息辅助文本需要人为设置,并不能确定此处文本内容的最优设置. 针对此限制,可以结合多种谣言的特征信息,探寻对象信息辅助文本的自动设置并进一步提高谣言检测的性能. 在未来的研究中,将在2个方面继续深入研究:1)优化或探索针对于谣言特征更好的代理任务;2)结合多种信息来进一步提高谣言检测的性能,如多模态信息、传播结构信息、用户信息、外部知识信息等.

参考文献

KANTAR M. Social Media Trends [R]. London: Kantar Media, 2019.

[本文引用: 3]

KAPFERER J. Rumeurs-Le plus vieux média du monde [M]// Pari: Editions du Seuil, 1987: 31−33.

[本文引用: 1]

LAROCHELLE H, ERHAN D, BENGIO Y. Zero-data learning of new tasks [C]// Proceedings of the 23rd AAAI Conference on Artificial Intelligence . Chicago: AAAI Press, 2008: 646−651 .

[本文引用: 1]

CHANG M W, RATINOV L, ROTH D, et al. Importance of semantic representation: dataless classification [C]// Proceedings of the 23rd AAAI Conference on Artificial Intelligence. Chicago: AAAI Press, 2008: 830−835.

[本文引用: 1]

LIN H, YI P, MA J, et al. Zero-shot rumor detection with propagation structure via prompt learning [C]// Proceedings of the AAAI Conference on Artificial Intelligence . Washington: AAAI Press, 2023: 5213−5221.

[本文引用: 2]

SONG Y, UPADHYAY S, PENG H, et al

Toward any-language zero-shot topic classification of textual documents

[J]. Artificial Intelligence, 2019, 274 (C): 133- 150

[本文引用: 1]

SONG Y, UPADHYAY S, PENG H, et al. Cross-lingual dataless classification for many languages [C]// Proceedings of the 25th International Joint Conference on Artificial Intelligence . New York: AAAI Press, 2016: 2901−2907.

[本文引用: 1]

GOODFELLOW I, POUGET-ABADIE J, MIRZA M, et al

Generative adversarial networks

[J]. Communications of the ACM, 2020, 63 (11): 139- 44

DOI:10.1145/3422622      [本文引用: 1]

KINGMA D P, WELLING M. Auto-encoding variational bayes [C]// Proceedings of the International Conference on Learning Representations . Ithaca: ArXiv, 2014: 14−16.

[本文引用: 1]

CHEN T, KORNBLITH S, NOROUZI M, et al. A simple framework for contrastive learning of visual representations [C]// Proceedings of the International Conference on Machine Learning . [s. l. ]: PMLR, 2020: 1597−1607.

[本文引用: 1]

HE K, FAN H, WU Y, et al. Momentum contrast for unsupervised visual representation learning [C]// Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition . Seattle: IEEE, 2020: 9726−9735.

[本文引用: 1]

LIANG B, CHEN Z X, GUI L, et al. Zero-shot stance detection via contrastive learning [C]// Proceedings of the ACM Web Conference. Lyon: ACM, 2022: 2738−2747.

[本文引用: 5]

VICARIO M D, QUATTROCIOCCHI W, SCALA A, et al

Polarization and fake news: early warning of potential misinformation targets

[J]. ACM Transactions on the Web, 2019, 13 (2): 1- 22

[本文引用: 1]

MEEL P, VISHWAKARMA D K

Fake news, rumor, information pollution in social media and web: a contemporary survey of state-of-the-arts, challenges and opportunities

[J]. Expert Systems with Applications, 2020, 153 (1): 112986

[本文引用: 1]

WANG Z, GUO Y

Rumor events detection enhanced by encoding sentimental information into time series division and word representations

[J]. Neurocomputing, 2020, 397 (2): 224- 243

[本文引用: 1]

KUMAR S, CARLEY K M. Tree LSTMs with convolution units to predict stance and rumor veracity in social media conversations [C]// Proceedings of the 57th annual meeting of the association for computational linguistics . Florence: ACL, 2019: 5047−5058.

[本文引用: 1]

BIAN T, XIAO X, XU T, et al. Rumor detection on social media with bi-directional graph convolutional networks [C]// Proceedings of the AAAI Conference on Artificial Intelligence . New York: AAAI Press, 2020: 546−556.

[本文引用: 4]

ZHANG Q, LIPANI A, LIANG S, et al. Reply-aided detection of misinformation via bayesian deep learning [C]// Proceedings of the World Wide Web Conference . San Francisco: ACM, 2019: 2333−2343.

[本文引用: 1]

RIEDEL B, AUGENSTEIN I, SPITHOURAKIS G P, et al. A simple but tough-to-beat baseline for the fake news challenge stance detection task [EB/OL]. (2018−05−21). https://doi.org/10.48550/arXiv.1707.03264.

[本文引用: 1]

LU Y J, LI C T. GCAN: graph-aware co-attention networks for explainable fake news detection on social media [C]// Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics . [s. l. ]: ACL, 2020: 505−514.

[本文引用: 2]

RAO D, MIAO X, JIANG Z, et al. STANKER: stacking network based on level-grained attention-masked BERT for rumor detection on social media [C]// Proceedings of the 2021 Conference on Empirical Methods in Natural Language Processing . Online and Punta Cana: ACL, 2021: 3347−3363.

[本文引用: 10]

CHEN X, ZHOU F, TRAJCEVSKI G, et al

Multi-view learning with distinguishable feature fusion for rumor detection

[J]. Knowledge-Based Systems, 2022, 240 (8): 108085

[本文引用: 12]

XU Y, GUO J, QIU W, et al. "Comments matter and the more the better!": improving rumor detection with user comments [C]// International Conference on Trust, Security and Privacy in Computing and Communications . Wuhan: IEEE, 2022: 383−390.

[本文引用: 3]

PUSHP P K, SRIVASTAVA M M. Train once, test anywhere: zero-shot learning for text classification [EB/OL]. (2017−12−23). https://doi.org/10.48550/arXiv.1 712.05972.

[本文引用: 1]

陆恒杨, 范晨悠, 吴小俊. 面向网络社交媒体的少样本新 冠谣言检测 [J]. 中文信息学报, 2022, 36(1): 135−144.

[本文引用: 2]

LU Hengyang, FAN Chenyou, WU Xiaojun. Few-shot COVID-19 rumor detection for online social media [J]. Journal of Chinese Information Processing . 2022, 36(1): 135−144.

[本文引用: 2]

ZHOU H, MA T, RONG H, et al

MDMN: multi-task and domain adaptation based multi-modal network for early rumor detection

[J]. Expert Systems with Applications, 2022, 195 (3): 116517

[本文引用: 1]

RAN H, JIA C. Unsupervised cross-domain rumor detection with contrastive learning and cross-attention [C]// Proceedings of the AAAI Conference on Artificial Intelligence . Washington: AAAI Press, 2023: 13510−13518.

[本文引用: 1]

MA J, GAO W, MITRA P, et al. Detecting rumors from microblogs with recurrent neural networks [C]// Proceedings of the 25th International Joint Conference on Artificial Intelligence . New York: AAAI Press, 2016: 3818−3824.

[本文引用: 1]

DEVLIN J, CHANG M, LEE K, et al. BERT: pre-training of deep bidirectional transformers for language understanding [C]// Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics . Minneapolis: ACL, 2019: 4171−4186.

[本文引用: 13]

BLEI D M, NG A Y, JORDAN M I

Latent dirichlet allocation

[J]. Journal of Machine Learning Research, 2003, 3 (1): 993- 1022

[本文引用: 1]

MA J, GAO W, WEI Z, et al. Detect rumors using time series of social context information on microblogging websites [C]// Proceedings of the 24th ACM International on Conference on Information and Knowledge Management . Melbourne : ACM , 2015: 1751−1754.

[本文引用: 9]

MA J, GAO W, WONG K F. Detect rumors in microblog posts using propagation structure via kernel learning [C]// Proceedings of the 55th Annual Meeting of the Association for Computational Linguistics . Vancouver: ACL, 2017: 708−717.

[本文引用: 12]

LIU Z, WEI Z, ZHANG R

Rumor detection based on convolutional neural network

[J]. Journal of Computer Applications, 2017, 37 (11): 3053

[本文引用: 4]

SUJANA Y, LI J, KAO H Y. Rumor detection on twitter using multiloss hierarchical bilstm with an attenuation factor [C]// Asian Chapter of the Association for Computational Linguistics . [s. l. ]: ACL, 2020: 18−26.

[本文引用: 3]

RANI N, DAS P, BHARDWAJ A K. A hybrid deep learning model based on CNN-BiLSTM for rumor detection [C]// Proceedings of the 2021 6th International Conference on Communication and Electronics Systems . Coimbatre: IEEE, 2021: 1423−1427.

[本文引用: 3]

MA J, GAO W, JOTY S, et al

An attention-based rumor detection model with tree-structured recursive neural networks

[J]. ACM Transactions on Intelligent Systems and Technology, 2020, 11 (4): 1- 28

[本文引用: 2]

TU K, CHEN C, HOU C, et al

Rumor2vec: a rumor detection framework with joint text and propagation structure representation learning

[J]. Information Sciences, 2021, 560 (1): 137- 151

[本文引用: 4]

LIU Y, OTT M, GOYAL N, et al. Roberta: a robustly optimized Bert pretraining approach [C]// Proceedings of the 20th Chinese National Conference on Computational Linguistics . Huhhot: Chinese Information Processing Society of China, 2021: 1218−1227.

[本文引用: 5]

BELTAGY I, PETERS M E, COHAN A. Longformer: the long-document transformer [EB/OL]. [2020-12-02]. https://doi.org/10.48550/arXiv.2004.05150.

[本文引用: 2]

KHOO L M S, CHIEU H L, QIAN Z, et al. Interpretable rumor detection in microblogs by attending to user interactions [C]// Proceedings of the AAAI Conference on Artificial Intelligence . California: AAAI Press, 2020: 8783-8790.

[本文引用: 3]

WU Y, ZENG Y, YANG J, et al

Weibo rumor recognition based on communication and stacking ensemble learning

[J]. Discrete Dynamics in Nature and Society, 2020, 2020: 1- 12

[本文引用: 3]

RISCH J, KRESTEL R. Bagging bert models for robust aggression identification [C]// Proceedings of the Second Workshop on Trolling, Aggression and Cyberbullying . Marseille: ELRA, 2020: 55−61.

[本文引用: 2]

GENG Y, LIN Z, FU P, et al. Rumor detection on social media: a multi-view model using self-attention mechanism [C]// Proceedings of the Computational Science-ICCS 2019: 19th International Conference . Faro: Springer-Verlag, 2019: 339−352.

[本文引用: 3]

LI S, ZHAO Z, HU R, et al. Analogical reasoning on chinese morphological and semantic relations [C]// Proceedings of the 56th Annual Meeting of the Association for Computational Linguistics . Melbourne: ACL, 2018: 138−143.

[本文引用: 1]

/