浙江大学学报(工学版), 2024, 58(10): 2040-2052 doi: 10.3785/j.issn.1008-973X.2024.10.007

计算机与控制工程

基于广度-深度采样和图卷积网络的谣言检测方法

王友卫,, 王炜琦, 凤丽洲, 朱建明, 李洋

1. 中央财经大学 信息学院,北京 100081

2. 天津财经大学 统计学院,天津 300222

Rumor detection method based on breadth-depth sampling and graph convolutional networks

WANG Youwei,, WANG Weiqi, FENG Lizhou, ZHU Jianming, LI Yang

1. School of Information, Central University of Finance and Economics, Beijing 100081, China

2. School of Statistics, Tianjin University of Finance and Economics, Tianjin 300222, China

收稿日期: 2023-08-4  

基金资助: 国家自然科学基金资助项目(61906220);国家社科基金资助项目(18CTJ008);教育部人文社科资助项目(19YJCZH178);中央财经大学新兴交叉学科建设项目;内蒙古纪检监察大数据实验室2020-2021年度开放课题资助项目(IMDBD202002, IMDBD202004).

Received: 2023-08-4  

Fund supported: 国家自然科学基金资助项目(61906220);国家社科基金资助项目(18CTJ008);教育部人文社科资助项目(19YJCZH178);中央财经大学新兴交叉学科建设项目;内蒙古纪检监察大数据实验室2020-2021年度开放课题资助项目(IMDBD202002,IMDBD202004).

作者简介 About authors

王友卫(1987—),男,副教授,博士,从事机器学习、数据挖掘研究.orcid.org/0000-0002-3925-3422.E-mail:ywwang15@126.com , E-mail:ywwang15@126.com

摘要

现有谣言检测方法存在早期数据丢失、特征利用不充分问题,为此提出新的检测方法. 为了充分挖掘事件的早期传播特征,提出广度采样方法并构建与事件对应的传播序列,利用Transformer挖掘长距离评论间的语义相关性并构建事件的传播序列特征. 为了有效挖掘事件的传播结构特征,提出基于路径长度的深度采样方法,构建事件对应的信息传播子图和信息聚合子图,利用图卷积网络在挖掘图结构特征方面的优势,获得与事件对应的传播结构特征. 将事件对应的传播序列特征表示与传播结构特征表示进行拼接,得到事件对应的最终特征表示. 在公开数据集Weibo2016和CED上开展所提方法的有效性验证实验. 结果表明,所提方法普遍优于现有典型方法. 与基线方法相比,所提方法的准确率和F1值均有显著提升,所提方法在谣言检测领域的有效性得到验证.

关键词: 谣言检测 ; 图卷积网络 ; 广度采样 ; 深度采样 ; 注意力机制

Abstract

A new detection method was proposed to resolve the problems of early data loss and insufficient feature utilization in the field of rumor detection. In order to fully extract early propagation features of events, a breadth sampling method was proposed, and propagation sequences corresponding to events were constructed. A Transformer was utilized to explore semantic correlations between long-distance comments and to construct propagation sequence features for events. In order to effectively uncover the structural features of event propagation, a depth sampling method based on path length was proposed, and information propagation subgraphs and information aggregation subgraphs corresponding to events were constructed. The advantage of graph convolutional networks in exploring graph structural features was leveraged to obtain the propagation structure features corresponding to events. Feature representation of the propagation sequence and propagation structure for events were concatenated to obtain the ultimate feature representation. Validation experiments for the proposed method were conducted on two public datasets (Weibo2016 and CED). Results show that the proposed method is generally superior to existing typical methods. Compared to baseline methods, the proposed method has significant improvements in accuracy and F1 score, validating the effectiveness of the method in the field of rumor detection.

Keywords: rumor detection ; graph convolutional network ; breadth sampling ; depth sampling ; attention mechanism

PDF (1652KB) 元数据 多维度评价 相关文章 导出 EndNote| Ris| Bibtex  收藏本文

本文引用格式

王友卫, 王炜琦, 凤丽洲, 朱建明, 李洋. 基于广度-深度采样和图卷积网络的谣言检测方法. 浙江大学学报(工学版)[J], 2024, 58(10): 2040-2052 doi:10.3785/j.issn.1008-973X.2024.10.007

WANG Youwei, WANG Weiqi, FENG Lizhou, ZHU Jianming, LI Yang. Rumor detection method based on breadth-depth sampling and graph convolutional networks. Journal of Zhejiang University(Engineering Science)[J], 2024, 58(10): 2040-2052 doi:10.3785/j.issn.1008-973X.2024.10.007

谣言是指未经证实的且在公众中广泛传播的信息. 谣言会误导公众舆论,可能在短时间内快速传播,极有可能引起民众恐慌. 高效、准确、及时地识别谣言能够有效减少谣言的社会危害,对维护网络安全秩序、构建稳定和谐网络环境具有重要现实意义.

早期学者训练支持向量机(support vector machine, SVM)、决策树(decision tree, DT)[15]、随机森林(random forest, RF)[6]等传统机器学习方法进行谣言识别[5,711]. Castillo等[5]使用情感词典提取文本中的情感词,构建了包括平均情感分数在内的15个指标;Wu等[12]利用特征工程提取基于文本、用户和传播的有效特征应用于多个机器学习方法,取得了较好效果. Vedova等[13]考虑与谣言信息进行交互的用户,充分利用文本和用户环境特征进行谣言检测. 以上方法的性能过多依赖人为构建的特征工程,该过程费时费力并对专业知识要求较高,难以获得谣言事件的特征表示,因此模型精度还有很大的提升空间.

深度学习在自然语言处理领域中有较好的应用效果. Ma等[11]提出基于循环神经网络(recurrent neural network, RNN)的谣言检测方法,该方法在Twitter和微博数据集上的应用效果较好,在谣言早期检测方面的表现良好. Yu等[10]根据时间将评论划分为不同类型,使用Doc2vec技术对相关文本编码,使用卷积神经网络(convolutional neural networks, CNN)获得事件特征表达. 递归循环神经网络(recursive neural network, RvNN)[14]、基于树的长短期记忆网络(long short-term memory, LSTM)[15]和基于线性和非线性传播领域的谣言检测(rumor detection with field of linear and non-linear propagation,RDLNP)方法[16]均证实,谣言与非谣言在社交媒体上的传播方式不同. 谣言在传播结构上具有更远、更深、更广的特征[17],当某个帖子否认谣言时,往往会引发其他用户的支持或肯定回复,以证实这一否认;相反,否认非谣言往往会在其子节点引发质疑或否认. 为了更深入研究传播结构在谣言检测过程中的作用,Bian等[18]基于图卷积网络(graph convolutional network, GCN)提出Bi-GCN方法并应用于谣言检测领域,该方法将谣言传播结构表示为有向图,从自顶向下(top-down)和自底向上(bottom-up)2个方向提取谣言事件的深度传播信息和广度散播信息;Huang等[19-23]均在Bi-GCN的基础上分别通过引入异质图、门控机制、数据增强和对比学习、跨语言对抗对比学习框架和基于高斯分布的不确定性结构重建方法实现谣言检测并均取得较好的谣言检测效果. 上述方法均利用随机删除用户节点、节点连边的方式进行子图采样,极易造成数据信息损失. 传统基于传播结构的方法没有充分考虑不同分支下节点之间的信息交互,无法捕获长距离评论信息之间的关系. Khoo等[24]提出将谣言事件传播树结构抽象为时间序列,利用自注意力网络模拟任意一对用户之间的信息交互,实现了长距离用户评论间的消息传递. 该类方法忽略了谣言事件传播过程中的全局结构关系,因此无法有效获得事件的深层次特征表达.

现有谣言检测方法仍存在以下问题:1)大多数方法依赖事件传播过程的全部数据,存在数据量大、检测效率低的问题. 在采样过程中大多数方法使用随机方式删除节点,极易造成谣言传播早期过程中的关键信息丢失. 2) 传统的子图采样方法缺少对谣言传播深度的考虑,在采样过程中容易丢失对检测结果具有重要影响的深层结构信息. 3)方法对谣言事件的特征提取不够完整,缺乏序列化特征和结构化特征的有效融合. 本研究提出基于广度-深度采样和图卷积网络的谣言检测方法(breadth-depth sampling and graph convolutional networks, BDS-GCN),针对现有方法通过随机删除节点信息进行采样可能造成的早期数据丢失问题,提出基于传播层次的广度采样方法,将谣言事件传播过程采样为基于层次的传播序列,有效保留谣言事件的早期评论信息;充分考虑深层传播结构蕴含的特征信息,在广度采样的基础上提出基于传播距离的深度采样方法,通过采样事件传播图中的叶子节点构建深层传播结构图,较大程度地获得具有一定传播深度的评论节点信息;利用Transformer模型能够有效融合评论间的语义相关性及GCN能够充分挖掘评论传播结构信息的优势,提高模型针对谣言事件的早期检测能力.

1. 相关理论

1.1. Transformer编码块

图1所示,Transformer模型的编码部分由多个编码块(encoder layer)连接而成,编码块均由2个子层构成,分别为多头注意力层(multihead attention, MHA)和前馈神经网络层(feed forward neural network, FFN). Transformer编码块的核心算法是利用自注意力机制融合多节点信息:

图 1

图 1   Transformer编码块结构图

Fig.1   Transformer encoding block structure diagram


$ \mathrm{A}\mathrm{t}\mathrm{t}\;\left(\boldsymbol{Q},\boldsymbol{K},\boldsymbol{V}\right)=\mathrm{s}\mathrm{o}\mathrm{f}\mathrm{t}\mathrm{m}\mathrm{a}\mathrm{x}\left({\boldsymbol{Q}{\boldsymbol{K}}^{\mathrm{T}}}/{\sqrt{{d}_{{\mathrm{k}}}}}\right)\boldsymbol{V} , $

$ \boldsymbol{Q}=\boldsymbol{X}{\boldsymbol{W}}^{{\mathrm{Q}}}, $

$ \boldsymbol{K}=\boldsymbol{X}{\boldsymbol{W}}^{{\mathrm{K}}} , $

$ \boldsymbol{V}=\boldsymbol{X}{\boldsymbol{W}}^{{\mathrm{V}}} . $

式中:Att为自注意力函数,$ \boldsymbol{X}\in {\mathbf{R}}^{n\times d} $为输入矩阵,$ \boldsymbol{Q}\in {\mathbf{R}}^{n\times {d}_{{\mathrm{q}}}}、 $$ \boldsymbol{K}\in {\mathbf{R}}^{n\times {d}_{{\mathrm{k}}}}、$$ \boldsymbol{V}\in {\mathbf{R}}^{n\times {d}_{{\mathrm{v}}}} $分别为查询、键、值矩阵,由输入矩阵$ \boldsymbol{X} $与权重矩阵$ {\boldsymbol{W}}^{{\mathrm{Q}}}\mathrm{、} {\boldsymbol{W}}^{{\mathrm{K}}}\mathrm{、}{\boldsymbol{W}}^{{\mathrm{V}}} $点积得到,n为输入特征数,d${d}_{\mathrm{q}}={d}_{\mathrm{k}} $${d}_{\mathrm{v}} $分别为对应的特征维度. 通常令$ {\boldsymbol{W}}^{{\mathrm{Q}}}={\boldsymbol{W}}^{{\mathrm{K}}}={\boldsymbol{W}}^{{\mathrm{V}}}=\boldsymbol{I} $,即$ \boldsymbol{Q}=\boldsymbol{K}=\boldsymbol{V}=\boldsymbol{X} $,其中$ \boldsymbol{I} $为单位矩阵.

1.2. 图卷积网络

图神经网络(graph neural network, GNN)是针对网状结构数据提出的新型神经网络模型,GCN是GNN的一种[25],该算法将待处理数据表征为网状结构,利用“消息传递”机制定义聚合函数对网络中的每个节点进行卷积操作,通过汇聚相邻区域内的特征信息来更新中心节点的信息[26],进而获取节点最终特征表示. 给定图结构$ G= < V,E > $,其中$ V $为图结构中节点集合,$ E $为图结构中边集合,定义$ \boldsymbol{A}\in {\mathbf{R}}^{n\times n} $为图结构的邻接矩阵,$ n $为节点数量;当节点$ i $与节点$ j $相邻时,即$ {e}_{ij}\in E $$ \boldsymbol{A} $中第$ i $行第$ j $列对应的元素为1,此时任意一层的图卷积过程表示为

$ {\boldsymbol{H}}_{l+1}=\sigma \left(\widehat{\boldsymbol{A}}{\boldsymbol{H}}_{l}{\boldsymbol{W}}_{l}\right) , $

$ \widehat{\boldsymbol{A}}={\tilde{\boldsymbol{D}}}^{-\frac{1}{2}}\tilde{\boldsymbol{A}}{\tilde{\boldsymbol{D}}}^{-\frac{1}{2}} , $

$ \tilde{\boldsymbol{A}}\text=\boldsymbol{A}\text+\boldsymbol{I} . $

式中:$ {\boldsymbol{W}}_{l}\in {\mathbf{R}}^{{v}_{l-1}\times {v}_{l}} $为可训练权重矩阵,$ {\boldsymbol{H}}_{l+1}\in {\mathbf{R}}^{n\times {v}_{l+1}} $$ {\boldsymbol{H}}_{l}\in {\mathbf{R}}^{n\times {v}_{l}} $分别为经过第$ l $层和第$ l-1 $层图卷积输出的隐藏层特征矩阵,$ \tilde{\boldsymbol{D}}\in {\mathbf{R}}^{n\times n} $$ \tilde{\boldsymbol{A}} $的度的对角矩阵,$ {\tilde{\boldsymbol{D}}}_{ii}={\displaystyle\sum }_{j}{\tilde{\boldsymbol{A}}}_{ij} $为第$ i $个节点的度,$ \widehat{\boldsymbol{A}} $为归一化邻接矩阵,$ \sigma (\cdot) $为激活函数.

2. 模型介绍

2.1. 问题定义

以微博事件为研究对象,进行如下问题定义.

定义 1 微博事件集. 定义$ C=\{{c}_{1},{c}_{2},\cdots ,{c}_{m}\} $为微博谣言数据集,其中$ {c}_{i}(1\leqslant i\leqslant m) $为第$ i $个微博事件,$ m $为数据集中微博事件的个数.

定义 2 微博事件. 定义$ {c}_{i} = \left\{{r}_{i},{w}_{1}^{i},{w}_{2}^{i},\cdots ,{w}_{{n}_{i}-1}^{i}\right\} $;其中$ {r}_{i} $表示为$ {w}_{0}^{i} $,指微博事件中的源微博信息;$ {w}_{j}^{i}(1\leqslant j\leqslant {n}_{i}-1) $为第$ i $个微博事件下的第$ j $条相关回复(评论或转发)信息,$ {n}_{i}-1 $为第$ i $个微博事件下的回复总数. 下文将源微博及其相关回复统称为帖子.

定义 3 传播图. 定义$ {G}_{i} $为第$ i $个微博事件的传播图结构,$ {G}_{i}= < {V}_{i},{E}_{i} > $为以源微博$ {r}_{i} $为根节点的有向传播图,$ {V}_{i}=\{{r}_{i},{w}_{1}^{i},{w}_{2}^{i},\cdots ,{w}_{{n}_{i}-1}^{i}\} $为图结构中的所有节点集合,$ {E}_{i}=\{{e}_{st}^{i}\mid s,t=0,\cdots ,{n}_{i}-1\} $为图结构中各个节点的连边关系,即第$ i $个微博事件中节点之间的回复关系. 当第$ t $个节点回复了第$ s $个节点,即存在由$ s $指向$ t $的连边,则有$ {e}_{st}^{i}\in {E}_{i} $.图2所示为微博传播示意图.

图 2

图 2   微博传播示意图

Fig.2   Schematic diagram of weibo propagation


定义 4 传播序列. 定义$ {S}_{i} $为可由$ {G}_{i} $提取生成的第$ i $个微博事件的传播序列,$ {S}_{i}=\{({r}_{i},{t}_{0}^{i}),({w}_{1}^{i}, {t}_{1}^{i}), ({w}_{2}^{i},{t}_{2}^{i}),\cdots ,({w}_{{n}_{i}-1}^{i},{t}_{{n}_{i}-1}^{i})\} $,每个回复-时间对$ ({w}_{j}^{i},{t}_{j}^{i}) $$ {G}_{i} $的节点,$ {t}_{j}^{i} $为在第$ i $个微博事件传播序列中第$ j $条相关回复信息$ {w}_{j}^{i} $的发布时间,$ {t}_{0}^{i} $为第$ i $个微博事件源贴的发布时间. 设定传播序列为完全有序,即$ {t}_{0}^{i}\leqslant {t}_{1}^{i}\leqslant \cdots \leqslant {t}_{{n}_{i}-1}^{i} $,若存在$ {t}_{p}^{i}={t}_{q}^{i} $,则传播序列中的节点将按照该节点对应的唯一ID排序.

定义 5 邻接矩阵. 定义第$ i $个微博事件图结构的邻接矩阵$ {\boldsymbol{A}}_{i}=[{a}_{mn}^{i}]\in [\mathrm{0,1}]_{{n}_{i}\times {n}_{i}} $$0\leqslant m,n\leqslant {n}_{i}-1 $. 若第$ s $个节点与第$ t $个节点之间存在回复关系,即当$ {e}_{st}^{i}\in {E}_{i} $时,则$ {a}_{st}^{i}=1 $

$ {a}_{st}^{i}=\left\{ \begin{array}{l}1,\quad {e}_{st}^{i}\in {E}_{i};\\0,\quad 其他.\end{array}\right. $

定义 6 特征矩阵. 定义第$ i $个微博事件的特征矩阵$ {\boldsymbol{X}}_{i}=\left[{\boldsymbol{x}}_{0}^{i},{\boldsymbol{x}}_{1}^{i},\cdots ,{\boldsymbol{x}}_{{n}_{i}-1}^{i}\right] $,其中$ {\boldsymbol{x}}_{0}^{i} $为第$ i $个微博事件中源微博$ {r}_{i} $的特征向量,$ {\boldsymbol{x}}_{j}^{i}(0\leqslant j\leqslant {n}_{i}-1) $为第$ i $个微博事件中第$ j $条相关回复的特征向量.

基于以上定义,将谣言检测任务定义为有监督的二分类任务,即通过训练微博事件集中的数据和标签值学习分类器$ f $,针对待检测事件$ {c}_{i} $$ f $输出$ {c}_{i} $对应的预测标签$ {Y}_{i} $,其中$ {Y}_{i}\in \left\{\mathrm{0,1}\right\} $,0表示非谣言,1表示谣言,即$ f:{c}_{i}\to {Y}_{i} $.

2.2. 方法描述

为了有效提高谣言检测的及时性和准确性,本研究提出BDS-GCN,方法的执行流程如图3所示,包括1) 基于广度采样和Transformer的传播序列特征表示;2) 基于深度采样和GCN的传播结构特征表示;3) 特征融合及模型训练.

图 3

图 3   基于广度-深度采样和图卷积网络的谣言检测方法执行流程图

Fig.3   Executing flowchart of rumor detection method based on breadth-depth sampling and graph convolutional networks


2.3. 基于广度采样和Transformer的传播序列特征表示

为了降低数据量并减少过拟合风险,Bi-GCN[18]、RDEA[21]、EBGCN[27]等方法均采用随机删除边及节点信息的采样方式,此类采样方法存在丢失关键数据、时效性较差等问题. 在某个谣言事件的传播过程中,早期评论数据以及直接与源交互的评论数据中通常包含实现谣言早期识别的关键信息,本研究引入广度采样的概念,通过提取事件浅层节点获取事件对应的早期评论信息,利用Transformer模块充分考虑不同节点的信息交互.

2.3.1. 广度采样策略

如定义3所示,将事件的传播过程视为以源帖为根节点的图结构. $ {G}_{i}= < {V}_{i},{E}_{i} > $为第$ i $个微博事件的传播图结构,广度采样将节点间的父子关系视为层级关系,节点集$ {V}_{i,b}=\{{r}_{i,{b}_{0}}, {w}_{1,{b}_{1}}^{i}, {w}_{2,{b}_{2}}^{i}, \cdots ,{w}_{{n}_{i}-1,{b}_{{n}_{i}-1}}^{i}\} $,其中$ {b}_{k}(0\leqslant k\leqslant {n}_{i}-1) $为第$ k $个节点在传播图$ {G}_{i} $中的第$ {b}_{k} $层,$ {b}_{k}=0 $,表示根节点,$ {b}_{k}=1 $,表示第一层节点,即第一层节点的父节点为根节点. 令W为广度采样层数,则广度采样结果表示为子图:

$ \begin{split} {G}_{B}^{i}=&\left\{ < {V}_{i,W},{E}_{i,W} > |{V}_{i,W}=\left\{{w}_{j,{b}_{k}}^{i}\right\},\right.\\& \Big.{b}_{k}\leqslant W,\; 0\leqslant k\leqslant {n}_{i}-\mathrm{1,\;0}\leqslant j\leqslant {n}_{i}-1\Big\} .\end{split} $

式中:$ {V}_{i,W} $为广度采样节点集,$ {E}_{i,W} $$ {V}_{i,W} $中所有节点的连边集合. 考虑到不同分支下的节点的信息交互,基于广度采样子图$ {G}_{B}^{i} $,将节点按照发布时间顺序排列构成传播序列$ {S}_{i} $,再利用Transformer模块捕获长距离评论信息之间的关系. 如图4所示,以W=1为例说明广度采样过程. 该微博事件源贴为节点A$ t $为各帖子发布时间,广度采样节点集合为图中圆片覆盖的节点:ABCD,之后按照时间顺序将以上4个节点排列构成事件传播序列$ \left\{A\to B\to C\to D\right\} $$ {t}_{A} $<$ {t}_{B} $<$ {t}_{C} $<$ {t}_{D} $.

图 4

图 4   广度采样策略示意图

Fig.4   Schematic diagram of breadth sampling strategy


2.3.2. 基于Transformer的节点信息聚合

在采样得到传播序列后,使用jieba库对提取节点的文本进行分词,使用预训练的词向量[28]作为分词后每个词语的特征向量表示. 一个帖子由一系列分词后的词语组成,表示为$ {P}_{ij}=\{{H}_{ij,0},{H}_{ij,1},\cdots , {H}_{ij,\mid {P}_{ij}|-1}\} $,其中$ {P}_{ij} $为第$ i $个微博事件传播序列中第$ j $个帖子的文本信息;$ \mid {P}_{ij}\mid $$ {P}_{ij} $分词后的词语数量,即帖子长度;$ {H}_{ij,k} $$ {P}_{ij} $中的第$ k(0\leqslant k\leqslant \mid {P}_{ij}\mid -1) $个词语. $ {H}_{ij,k} $对应的词语嵌入表示为$ {h}_{ij,k}\in {\mathbf{R}}^{{d}_{{\mathrm{w}}}} $,其中$ {d}_{{\mathrm{w}}} $为词嵌入向量维度. 对于每个帖子采用最大池化MaxPooling)获取相应的特征表达,$ {\boldsymbol{x}}_{j}^{i} $为第$ i $个微博事件传播序列中第$ j $个帖子的初始化特征,

$ {\boldsymbol{x}}_{j}^{i}=\mathrm{M}\mathrm{a}\mathrm{x}\mathrm{P}\mathrm{o}\mathrm{o}\mathrm{l}\mathrm{i}\mathrm{n}\mathrm{g}\left(\left\{{h}_{ij,1},{h}_{ij,2},\cdots ,{h}_{ij,\mid {P}_{ij}\mid -1}\right\}\right) . $

为了更好地融合各个帖子的交互过程,将传播序列中各个帖子的特征表达$ {\boldsymbol{x}}_{j}^{i} $拼接,得到事件的特征矩阵表示$ {\boldsymbol{X}}_{{i}}=\left[{\boldsymbol{x}}_{0}^{i},{\boldsymbol{x}}_{1}^{i},\cdots ,{\boldsymbol{x}}_{{n}_{i}-1}^{i}\right] $,利用Transformer编码块学习各个评论的语义交互信息. 具体而言,采用多头注意力机制,将原有的单头注意力映射到h个子空间,提高模型关注不同语义空间的能力,计算式为

$ \mathrm{M}\mathrm{H}\mathrm{A}\left({\boldsymbol{Q}}_{{i}},{\boldsymbol{K}}_{{i}},{\boldsymbol{V}}_{{i}}\right)= \mathrm{C}\mathrm{o}\mathrm{n}\mathrm{c}\mathrm{a}\mathrm{t}\left({\mathbf{h}\mathbf{e}\mathbf{a}\mathbf{d}}^{1},\cdots ,{\mathbf{h}\mathbf{e}\mathbf{a}\mathbf{d}}^{h}\right){\boldsymbol{W}}_{{i}}^{O}, $

$ {\mathbf{h}\mathbf{e}\mathbf{a}\mathbf{d}}^{k}=\mathrm{A}\mathrm{t}\mathrm{t}\left({\boldsymbol{Q}}_{{i}}^{k},{\boldsymbol{K}}_{{i}}^{k},{\boldsymbol{V}}_{{i}}^{k}\right) . $

式中:MHA为多头注意力函数,Concat为拼接函数,$ {\boldsymbol{Q}}_{{i}}^{k}={\boldsymbol{X}}_{{i}}{\boldsymbol{W}}_{\boldsymbol{Q}}^{k}\mathrm{、}{\boldsymbol{K}}_{{i}}^{k} $=$ {\boldsymbol{X}}_{{i}}{\boldsymbol{W}}_{\boldsymbol{K}}^{k}\mathrm{、}{\boldsymbol{V}}_{{i}}^{k}={\boldsymbol{X}}_{{i}}{\boldsymbol{W}}_{\boldsymbol{V}}^{k} $分别为第$ i $个微博事件的第$ k(1\leqslant k\leqslant h) $个子空间的查询、键、值矩阵,$ {\boldsymbol{W}}_{\boldsymbol{Q}}^{k}\in {\mathbf{R}}^{d\times {d}_{{\mathrm{q}}}} $$ {\boldsymbol{W}}_{\boldsymbol{K}}^{k}\in {\mathbf{R}}^{d\times {d}_{{\mathrm{k}}}} $$ {\boldsymbol{W}}_{\boldsymbol{V}}^{k}\in {\mathbf{R}}^{d\times {d}_{{\mathrm{v}}}} $$ {\boldsymbol{W}}_{\boldsymbol{i}}^{O}\in {\mathbf{R}}^{dh\times {d}_{{\mathrm{v}}}} $均为可训练的模型权重,$ {d}_{{\mathrm{q}}}={d}_{{\mathrm{k}}}={d}_{{\mathrm{v}}}={d}/{h} $$ {\mathbf{h}\mathbf{e}\mathbf{a}\mathbf{d}}^{k} $为输入序列在设定的第$ k $个子空间中的特征. 为了降低过拟合、增加模型非线性,通过归一化层和前向神经网络层将$ {\boldsymbol{X}}_{i} $转化为$ {\boldsymbol{U}}_{i}=[{\boldsymbol{u}}_{0}^{i},{\boldsymbol{u}}_{1}^{i}, \cdots ,{\boldsymbol{u}}_{{n}_{i}-1}^{i}] $

$ {\boldsymbol{O}}_{{i}}=\mathrm{L}\mathrm{N}\left({\boldsymbol{Q}}_{{i}}+\mathrm{M}\mathrm{H}\mathrm{A}\left({\boldsymbol{Q}}_{{i}},{\boldsymbol{K}}_{{i}},{\boldsymbol{V}}_{{i}}\right)\right) , $

$ \mathrm{F}\mathrm{F}\mathrm{N}\left({\boldsymbol{O}}_{{i}}\right)=\mathrm{m}\mathrm{a}\mathrm{x}({\bf{0}},{\boldsymbol{O}}_{{i}}{\boldsymbol{W}}_{{i}}^{1}+{\boldsymbol{b}}_{1}){\boldsymbol{W}}_{{i}}^{2}+{\boldsymbol{b}}_{2} , $

$ {\boldsymbol{U}}_{i}=\mathrm{L}\mathrm{N}\left({\boldsymbol{O}}_{{i}}+\mathrm{F}\mathrm{F}\mathrm{N}\left({\boldsymbol{O}}_{{i}}\right)\right) . $

式中:LN为归一化层,$ \mathrm{F}\mathrm{F}\mathrm{N} $为前向神经网络层; $ {\boldsymbol{W}}_{{i}}^{1} $$ {\boldsymbol{W}}_{{i}}^{2} $$ {\boldsymbol{b}}_{1} $$ {\boldsymbol{b}}_{2} $均为可训练的参数. 为了区分各个帖子对当前事件表达的贡献,通过软注意力机制加权融合得到第$ i $个微博事件的传播序列特征表示$ {\boldsymbol{v}}^{i} $

${\alpha }_{k}^{i}=\frac{\mathrm{e}\mathrm{x}\mathrm{p}\left({\boldsymbol{a}}^{\mathrm{T}}\mathrm{t}\mathrm{a}\mathrm{n}\mathrm{h}\right({\boldsymbol{W}}_{k}{\boldsymbol{u}}_{k}^{i}\left)\right)}{\displaystyle\sum _{j=0}^{{n}_{i}-1}\mathrm{e}\mathrm{x}\mathrm{p}\left({\boldsymbol{a}}^{\mathrm{T}}\mathrm{t}\mathrm{a}\mathrm{n}\mathrm{h}\right({\boldsymbol{W}}_{k}{\boldsymbol{u}}_{j}^{i}\left)\right)}, $

$ {\boldsymbol{v}}^{i}={\sum }_{k}\left({\alpha }_{k}^{i}{\boldsymbol{u}}_{k}^{i}\right) . $

式中:$\boldsymbol{a}\in {\mathbf{R}}^{d} $${\boldsymbol{W}}_{k}\in {\mathbf{R}}^{d\times d} $分别为可学习的权重向量与权重矩阵,$\mathrm{t}\mathrm{a}\mathrm{n}\mathrm{h}(\cdot) $为激活函数,$ {\alpha }_{k}^{i}\in \mathbf{R} $为第$ k $个帖子对其他帖子的注意力权重.

2.4. 基于深度采样和图卷积网络的传播结构特征表示

考虑到事件的传播结构特征,为了充分挖掘经过一定传播时间、传播深度才能被证实的谣言事件所蕴含的特征信息,本研究在广度采样的基础上提出基于深度采样的结构特征表示模块.

2.4.1. 深度采样策略

为了避免传统随机边采样和随机节点采样方法可能带来的信息丢失,针对事件传播图$ {G}_{i} $,提出深度采样策略. 利用$ {G}_{i} $中传播较远的部分节点构建传播结构子图$ {G}_{D}^{i} $,尽可能保留谣言事件的关键传播结构特征,具体过程如下. 1) 找出$ {G}_{i} $的所有叶子节点集合$ {\mathrm{V}\mathrm{L}\mathrm{F}}_{i}=\{{\mathrm{v}\mathrm{l}\mathrm{f}}_{i1},{\mathrm{v}\mathrm{l}\mathrm{f}}_{i2}, \cdots , {\mathrm{v}\mathrm{l}\mathrm{f}}_{i\left|{\mathrm{V}\mathrm{L}\mathrm{F}}_{i}\right|}\} $,其中$ {\mathrm{v}\mathrm{l}\mathrm{f}}_{ij} $为集合$ {\mathrm{V}\mathrm{L}\mathrm{F}}_{i} $中的第$ j(1\leqslant j\leqslant |{\mathrm{V}\mathrm{L}\mathrm{F}}_{i}\left|\right) $个叶子节点,$ \left|{\mathrm{V}\mathrm{L}\mathrm{F}}_{i}\right| $为集合中叶子结点总数. 2) 利用深度优先搜索算法获得根节点$ {r}_{i} $到任意叶子节点$ {\mathrm{v}\mathrm{l}\mathrm{f}}_{ij}\left(1\leqslant j\leqslant \left|{\mathrm{V}\mathrm{L}\mathrm{F}}_{i}\right|\right) $的有序最短路径集合$ {p}_{ij}=\left\{{r}_{i},{v}_{i1},{v}_{i2},\cdots ,{v}_{ik},{\cdots v}_{il},\cdots ,{\mathrm{v}\mathrm{l}\mathrm{f}}_{ij}\right\} $,对应边集为$ {E}_{ij}^{D}=\left\{{e}_{k,k+1}^{i}\right\}\left(1\leqslant k\leqslant j-1\right) $. $ {l}_{ij}=\left|{p}_{ij}\right| $为集合$ {p}_{ij} $中包含的节点数,定义为$ {p}_{ij} $的路径长度,$ {e}_{k,k+1}^{i} $$ {p}_{ij} $中从节点$ {v}_{ik} $指向节点$ {v}_{ik+1}\mathrm{的} $边. 3) 将叶子结点集$ {\mathrm{V}\mathrm{L}\mathrm{F}}_{i} $对应的所有最短路径按照路径长度进行从小到大排序,得到路径集合$ {\mathrm{P}\mathrm{S}}_{i}=\{{p}_{i1},{p}_{i2}, \cdots , {p}_{ik},\cdots , {p}_{il},\cdots ,{p}_{i\left|{\mathrm{V}\mathrm{L}\mathrm{F}}_{i}\right|}\} $($ {l}_{ik}\leqslant {l}_{il},1\leqslant k < l\leqslant \left|{\mathrm{V}\mathrm{L}\mathrm{F}}_{i}\right| $). 4) 将$ {\mathrm{P}\mathrm{S}}_{i} $中前D%的路径集合表示为$ {L}_{i,D}=\left\{{p}_{ik}\right|1\leqslant k\leqslant \left|{\mathrm{P}\mathrm{S}}_{i}\right|\times D\mathrm{\%}\} $,令$ {V}_{i,D} $$ {E}_{i,D} $分别为$ {L}_{i,D} $中所包含的节点集合和边集合,则深度采样结果表示为子图:

$ {G}_{D}^{i}= < {V}_{i,D},{E}_{i,D} > . $

针对图4,若给定D=50,此时依据所提深度采样策略得到的路径集合为$ {L}_{i,D}=\{\left\{A\to D\to F\to H\right\}, \left\{A\to D\to F\to I\right\}\} $,采样得到信息传播子图$ {G}_{D}^{i} $. 事件传播图相连节点间除了包含由评论回复操作构成的显式传播关系外,还包含由信息聚合操作构成的隐式传播关系[17]. 在事件传播图$ {G}_{i} $对应的信息传播子图$ {G}_{D}^{i} $的基础上,构建与子图$ {G}_{D}^{i} $节点相同但连边方向相反的信息聚合子图$ {G}_{A}^{i}= < {V}_{i,A},{E}_{i,A} > $,其中$ {V}_{i,A}={V}_{i,{D}},{E}_{ij}^{A}=\left\{{e}_{k+1,k}^{i}\right\} $,信息聚合子图对应的路径集合表示为$ {L}_{i,A}=\{\{H\to F\to D \to A\}, \{I\to F\to D\to A\}\} $.图5所示,信息传播子图和信息聚合子图区别在于它们获得特征信息的方向不同. 具体而言,信息传播子图中每个节点的表示由自身节点及其被转发(评论)节点对应的语义内容决定;在信息聚合子图中,每个节点的表示除了与自身语义内容相关外,还与转发(评论)该节点的节点语义内容相关. 综合利用信息传播关系和信息聚合关系能够有效融合当前节点的上下层节点对该节点的影响,提高该节点表示的准确性.

图 5

图 5   深度采样策略示意图

Fig.5   Schematic diagram of depth sampling strategy


2.4.2. 基于图卷积网络的结构特征获取

将传播子图$ {G}_{D}^{i} $对应的邻接矩阵表示为$ {\boldsymbol{A}}^{\mathrm{{'}}} $,则信息聚合子图$ {G}_{A}^{i} $对应的邻接矩阵为$ {\boldsymbol{A}}_{{\mathrm{A}}}^{i}={{\boldsymbol{A}}^{\mathrm{{'}}\mathrm{T }}} $. 假定节点集$ {V}_{i,D} $对应的特征矩阵为$ \boldsymbol{X} $,将GCN分别应用于$ {G}_{D}^{i} $${G}_{A}^{i} $,分别获取第k个GCN层对应的特征表示:

$ {\left({\boldsymbol{H}}_{D}^{i}\right)}_{k}=\sigma \left({\widehat{\boldsymbol{A}}}_{D}^{i}{\left({\boldsymbol{H}}_{D}^{i}\right)}_{k-1}{\left({\boldsymbol{W}}_{D}^{i}\right)}_{k-1}\right) , $

$ {\left({\boldsymbol{H}}_{A}^{i}\right)}_{k}=\sigma \left({\widehat{\boldsymbol{A}}}_{A}^{i}{\left({\boldsymbol{H}}_{A}^{i}\right)}_{k-1}{\left({\boldsymbol{W}}_{A}^{i}\right)}_{k-1}\right) . $

$ k=1 $时,$ {\left({\boldsymbol{H}}_{D}^{i}\right)}_{0} $$ {\left({\boldsymbol{H}}_{A}^{i}\right)}_{0}=\boldsymbol{X} $分别为信息传播子图和信息汇聚子图的初始化输入矩阵;$ {\left({\boldsymbol{H}}_{D}^{i}\right)}_{k}\in {\mathbf{R}}^{n\times {v}_{k}} $$ {\left({\boldsymbol{H}}_{A}^{i}\right)}_{k}\in {\mathbf{R}}^{n\times {v}_{k}} $分别为$ \boldsymbol{X} $在图$ {G}_{D}^{i} $和图$ {G}_{A}^{i} $上对应的第k个GCN层输出向量;$ {\widehat{\boldsymbol{A}}}_{D}^{i}\in {\mathbf{R}}^{n\times n} $$ {\widehat{\boldsymbol{A}}}_{A}^{i}\in {\mathbf{R}}^{n\times n} $分别为由$ {\boldsymbol{A}}^{\mathrm{{'}}} $$ {{\boldsymbol{A}}^{\mathrm{{'}}\mathrm{T}}} $计算得到的归一化邻接矩阵;$ n $为节点数;$ {v}_{k} $为第k个GCN层对应的向量维度;$ {\left({\boldsymbol{W}}_{D}^{i}\right)}_{k-1}\in {\mathbf{R}}^{{v}_{k-1}\times {v}_{k}} $$ {\left({\boldsymbol{W}}_{A}^{i}\right)}_{k-1}\in {\mathbf{R}}^{{v}_{k-1}\times {v}_{k}} $分别为第k个GCN层对应的可训练权重矩阵. 在社交媒体中大规模扩散事件的源帖子通常含有丰富的语义信息和传递信息[29],为此在式(19)、式(20)的基础上,利用图中根节点(源贴节点)对当前节点进行语义增强,即将每个节点在第k个GCN层对应的状态向量与第$ k-1 $层中根节点对应的状态向量进行拼接以更新当前节点的状态表示:

$ {\left({\tilde{\boldsymbol{H}}}_{D}^{i}\right)}_{k}=\mathrm{C}\mathrm{o}\mathrm{n}\mathrm{c}\mathrm{a}\mathrm{t}\;\left({\left({\boldsymbol{H}}_{D}^{i}\right)}_{k},{\left({\boldsymbol{H}}_{D}^{i}\right)}_{k-1}^{{\mathrm{root}}}\right) , $

$ {\left({\tilde{\boldsymbol{H}}}_{A}^{i}\right)}_{k}=\mathrm{C}\mathrm{o}\mathrm{n}\mathrm{c}\mathrm{a}\mathrm{t}\;\left({\left({\boldsymbol{H}}_{A}^{i}\right)}_{k},{\left({\boldsymbol{H}}_{A}^{i}\right)}_{k-1}^{{\mathrm{root}}}\right) . $

式中:${\left({\tilde{\boldsymbol{H}}}_{D}^{i}\right)}_{k} \in {\mathbf{R}}^{n\times {(v}_{k} + {v}_{k - 1})} $${\left({\tilde{\boldsymbol{H}}}_{A}^{i}\right)}_{k} \in {\mathbf{R}}^{n\times {(v}_{k} + {v}_{k - 1})} $${\left({\boldsymbol{H}}_{D}^{i}\right)}_{k-1}^{\mathrm{r}\mathrm{o}\mathrm{o}\mathrm{t}} $${\left({\boldsymbol{H}}_{A}^{i}\right)}_{k-1}^{\mathrm{r}\mathrm{o}\mathrm{o}\mathrm{t}} $分别为${G}_{D}^{i} $${G}_{A}^{i} $在第$k-1 $层中根节点对应的状态向量,$ {\left({\boldsymbol{H}}_{A}^{i}\right)}_{0}^{{\mathrm{root}}}={\left({\boldsymbol{H}}_{D}^{i}\right)}_{0}^{{\mathrm{root}}}= {\boldsymbol{X}}^{{\mathrm{root}}}=\boldsymbol{X} $,分别用$ {\left({\tilde{\boldsymbol{H}}}_{D}^{i}\right)}_{k} $$ {\left({\tilde{\boldsymbol{H}}}_{A}^{i}\right)}_{k} $计算$ \boldsymbol{X} $在图$ {G}_{D}^{i} $和图$ {G}_{A}^{i} $上第k+1个GCN层对应的根节点增强向量:

$ {\left({\boldsymbol{H}}_{D}^{i}\right)}_{k+1}=\sigma \left({\widehat{\boldsymbol{A}}}_{D}^{i}{\left({\tilde{\boldsymbol{H}}}_{D}^{i}\right)}_{k}{\left({\boldsymbol{W}}_{D}^{i}\right)}_{k}\right) , $

$ {\left({\boldsymbol{H}}_{A}^{i}\right)}_{k+1}=\sigma \left({\widehat{\boldsymbol{A}}}_{A}^{i}{\left({\tilde{\boldsymbol{H}}}_{A}^{i}\right)}_{k}{\left({\boldsymbol{W}}_{A}^{i}\right)}_{k}\right) . $

给定图卷积网络层数L,利用平均池化操作,分别获得信息传播子图和信息聚合子图对应的图级向量表达$ {\boldsymbol{s}}_{D}^{i} $$ {\boldsymbol{s}}_{A}^{i} $

$ {\boldsymbol{s}}_{D}^{i}=\mathrm{mean}\left({\left({\boldsymbol{H}}_{D}^{i}\right)}_{L}\right) , $

$ {\boldsymbol{s}}_{A}^{i}=\mathrm{m}\mathrm{e}\mathrm{a}\mathrm{n}\left({\left({\boldsymbol{H}}_{A}^{i}\right)}_{L}\right) . $

拼接2个向量,得到基于深度采样和GCN的传播结构特征表示:

$ {\boldsymbol{s}}^{i}=\mathrm{C}\mathrm{o}\mathrm{n}\mathrm{c}\mathrm{a}\mathrm{t}\left({\boldsymbol{s}}_{D}^{i},{\boldsymbol{s}}_{A}^{i}\right) . $

2.5. 特征融合及模型训练

拼接$ {\boldsymbol{v}}^{i} $$ {\boldsymbol{s}}^{i} $,得到第$ i $个微博事件最终的特征表示:

$ {\boldsymbol{r}}^{i}=\mathrm{C}\mathrm{o}\mathrm{n}\mathrm{c}\mathrm{a}\mathrm{t}\left({\boldsymbol{s}}^{i},{\boldsymbol{v}}^{i}\right) . $

通过全连接层和$ \mathrm{s}\mathrm{o}\mathrm{f}\mathrm{t}\mathrm{m}\mathrm{a}\mathrm{x} $函数计算得到第$ i $个微博事件的标签预测结果:

$ {\boldsymbol{z}}^{i}=\mathrm{F}\mathrm{C}\left({\boldsymbol{r}}^{i}\right)={\boldsymbol{W}}^{{\mathrm{T}} }{\boldsymbol{r}}^{i}+\boldsymbol{b} , $

$ {\widehat{\boldsymbol{y}}}_{i}=\mathrm{s}\mathrm{o}\mathrm{f}\mathrm{t}\mathrm{m}\mathrm{a}\mathrm{x}\left({\boldsymbol{z}}^{i}\right) . $

式中:$ \mathrm{F}\mathrm{C}(\cdot) $为全连接层,${\widehat{\boldsymbol{y}}}_{i}\in {\mathbf{R}}^{K} $为模型预测标签属于每个类别的概率向量,输出向量维度为分类类别数K$ \boldsymbol{W} $$ \boldsymbol{b} $均为可训练参数. 在模型训练过程中,利用Adam优化器[30]优化更新模型参数. 将交叉熵函数作为所提方法的分类损失,计算预测结果与真实标签之间的差距:

$ L\left({\boldsymbol{y}}_{i},{\widehat{\boldsymbol{y}}}_{i}\right)=-\sum _{k=0}^{K-1}{y}_{i,k}{\mathrm{lb}}\;{\widehat{y}}_{i,k}+\lambda {||\boldsymbol{\varTheta }||}_{2}^{2}. $

式中:$ \boldsymbol{\varTheta } $为模型参数;${||\cdot||}_{2}^{2} $为对模型中参数采用${L}_{2} $正则化;$ {y}_{i,k} $${\widehat{y}}_{i,k} $分别为第i个微博事件${c}_{i} $的真实标签和预测值;如果${c}_{i} $属于类别k,则${y}_{i,k} $的值为1;否,则为0.

3. 实验结果与分析

3.1. 数据集及预处理

软件环境为Python3.7+Pytorch1.9.0+cuda10.0,CPU为Intel Xeon Gold5218,内存为64G,显卡为NVIDIA GeForce RTX 2080Ti. 为了验证所提方法的有效性,在2个真实公开的数据集Weibo2016[11]和CED[31]上进行实验. 这2个数据集均来源于新浪微博管理中心平台发布的不实信息统计,数据集的参数如表1所示.

表 1   2个公开数据集的参数

Tab.1  Parameters of two public datasets

数据集帖子总数非谣言帖子数谣言帖子数用户数事件平均层数事件平均帖子数事件平均传播时长/h
Weibo20164 6642 3512 3132 746 8182.85431.271 811.4
CED3 38718491 5381 067 4101.73377.7411.34

新窗口打开| 下载CSV


为了提高数据文本质量,降低噪声干扰,对源贴和评论文本进行数据预处理,具体步骤如下. 1)文本数据中常出现如超链接、用户名的对谣言检测没有实际意义的信息,通过正则表达式将超链接替换为“URL”,将“@”后的用户名替换为空字符;2)去除文本中非文本表情符号、特殊符号以及停用词等噪声数据,保留“!”“?”符号. 使用5折交叉验证评定测试方法效果,采用Adam优化器对模型进行优化. 设置隐藏层向量维度为300,丢弃率为0.3,学习率为0.001,权值衰减为0.0001,迭代次数Epoch=200.

3.2. 评估指标及基线模型介绍

谣言检测方法的性能评价指标包括:准确率Acc和F1值,计算式分别为

$ {\mathrm{Acc}}=\frac{{\mathrm{TN+TP}}}{{\mathrm{TN+FN+FP+TP}}}; $

$ P=\frac{{\mathrm{TP}}}{{\mathrm{FP+TP}}} , $

$ R=\frac{{\mathrm{TP}}}{{\mathrm{FN+TP}}} , $

$ {F}_{1}=\frac{P\times R}{P+R} . $

式中:TP为实际与预测结果均为谣言的事件数量;FP为实际为非谣言预测结果为谣言的事件数量;TN为实际与预测结果均为非谣言的事件数量,FN为实际为谣言预测结果为非谣言的事件数量. 选取谣言检测领域典型的9种方法与所提方法进行对比. 不同方法对应的实验参数设置如表2所示. 1)DTR由Zhao等[4]提出,通过基于决策树算法的搜索排序结果识别谣言. 2)DTC由Castillo等[5]提出,利用丰富的手工设计特征和数据统计信息建模谣言事件. 3)SVM-TS由Ma等[2]提出,基于线性支持向量机方法将社会情景内容建模为固定时间区间的时间序列. 4)GRU由Ma等[11]提出,利用GRU循环神经网络将用户评论按顺序建模为时间序列,以学习谣言序列特征表示,完成谣言检测任务. 5)RvNN由Ma等[14]提出,实现基于树传播结构的递归神经网络,验证了传播结构在谣言检测中的重要性. 6)PLAN由Khoo等[24]提出,将分层注意力方法应用于谣言检测,通过自注意力机制建模谣言事件中的信息交互. 7)Bi-GCN由Bian等[18]提出,在准确率上优于SVM-TS、RvNN方法. 8)RDEA由He等[21]提出,引入3种事件增强策略来缓解数据标注困难的问题. 9)EBGCN由Wei等[27]提出,在Bi-GCN的基础上采用贝叶斯思想建模节点间连边权重. 10)ACLR-BiGCN由Lin等[22]提出,在Bi-GCN的基础构建对抗对比学习框架,使用对抗攻击增强低资源数据的多样性. 11)UPSR由Wei等[23]提出,通过多个高斯分布改进原始确定性节点表示,构建了新的基于双图的传播结构重建模型.

表 2   各基线方法的参数设置

Tab.2  Parameter settings for each baseline model

方法参数设置
DTR所选特征包括信息来源可信度、身份、多样性、地址,语言态度、传播特征等,使用信息增益选择特征
DTC所选特征包括消息内容、用户、主题、传播等,使用向前搜索选择特征
SVM-TS所选特征包括用户信息、内容、传播等,核函数为径向基函数(radial basis function,RBF)
GRU词汇表大小为5000,GRU层数为2,学习率为0.5
RvNN词汇表大小为5000,词嵌入向量维数为100
PLAN隐藏层向量维数为300,学习率为0.01,批处理大小为16
Bi-GCN隐藏层向量维数为64,丢弃率为0.5,边丢弃率为0.5,Epoch=200,早停次数为10
RDEA隐藏层向量维数为64,节点掩蔽率为0.2,边丢弃率为0.5
EBGCN隐藏层向量维数为64,学习率为0.0002,隐藏层向量维数为200
ACLR-BiGCN隐藏层向量维数为512,图卷积层数为2,学习率为0.0001,边丢弃率为0.2,批处理大小为64
UPSR隐藏层向量维数为64,学习率为0.001,Epoch=200

新窗口打开| 下载CSV


3.3. 参数取值分析

在广度采样策略和深度采样策略中,采样层数$ W $和采样比例$ D $的取值较大程度上影响采样结果中事件的传播广度和深度,本研究将在不同数据集上验证WD取值的影响. 定义数据量N与传播周期T:对于某个特定事件,数据量为该事件采样后输入模型的帖子数占原始数据总帖子数的比例;传播周期为该事件采样后输入模型的所有帖子与源贴发布的时间差的平均值.

为了提高谣言早期检测的时效性,定义事件集平均传播深度的向上取整取值为采样层数的上界. CED数据集的事件平均传播深度为1.73,选取$ W=1、2 $作为采样层数候选值;Weibo2016的事件平均传播深度为2.85,选取$ W=1、2、3 $作为采样层数候选值. 为了确定最优的深度采样比例,设定$ D=0.3、0.5、0.7 $,通过网格搜索算法结合实验确定$ W $D的最优取值. 在给定不同采样层数和不同采样比例的情况下,所提方法在Weibo2016和CED数据集上的性能表现分别如表3表4所示. 由表可知,当采样层数固定时,随着采样比例增大,采样数据量逐渐增加,传播周期变长,方法针对谣言的检测能力逐步提升. 在Weibo2016数据集上,当W=1时,D=0.3对应的分类准确率为0.938,D=0.5对应的准确率为0.944;说明所提方法能为谣言检测提供额外的结构特征信息,继而有效提高谣言识别的准确性. 进一步发现,当采样比例D固定时,采样层数的增加对采样数据量和传播周期影响较大,方法对应的分类性能也有所提升. 表3中,当W=2、D=0.3时,分类准确率较W=1、D=0.3时的有所提升,原因可能是深度采样对应的结果样本数较少,增加采样层数能够有效地提高所得样本集规模. 当D=0.7、W=2时,分类准确率相较于D=0.7、W=1时的下降超过0.01. 究其原因,虽然采样层数的增加能够起到丰富数据内容的作用,但当深度采样D取值较大时,增加采样层数将引入较多的冗余样本,继而影响谣言识别的准确性. 为了在保证方法分类精度的前提下降低采样集规模的影响,后续实验均设置W=1、D=0.5.

表 3   Weibo2016数据集的参数分析结果

Tab.3  Parameter analysis results of Weibo2016 dataset

WDN/%TAccF1
10.34547.910.9380.937
0.55250.320.9440.943
0.77256.300.9490.949
20.35853.930.9430.943
0.56558.760.9520.950
0.78476.300.9310.929
30.36664.270.9330.934
0.57789.440.9410.939
0.79499.230.9220.918

新窗口打开| 下载CSV


表 4   CED数据集的参数分析结果

Tab.4  Parameter analysis results of CED dataset

WDN/%TAccF1
10.3445.640.9220.923
0.5546.190.9280.928
0.7828.760.9320.929
20.3626.260.9230.918
0.5718.540.9300.932
0.7969.280.9140.916

新窗口打开| 下载CSV


3.4. 与基线方法的对比实验

为了验证所提方法在英文数据集上的表现,增加英文谣言数据集Twitter-COVID19[22],所提方法和不同基线方法在3个数据集上的实验结果如表5所示. 表中,每个评价指标的最优值用粗体表示,次优指标用下划线表示. 由表可知,在基于传统机器学习的谣言检测方法中,SVM-TS比DTC和DTR优势明显,主要原因是SVM-TS加入时间特征,能够有效捕获传播序列特征对于谣言识别的影响. 相较于基于传统机器学习的方法,基于深度学习的方法在检测性能上整体表现更好,原因是基于深度学习的方法能够利用复杂的网络结构学习到区分谣言事件和非谣言事件的深层特征信息. 在基于深度学习的谣言识别方法中,PLAN和RvNN的检测效果明显优于GRU,原因是GRU仅依赖事件的时间和文本特征,忽略了帖子间的回复-转发关系的影响,导致模型无法捕捉到关键的传播路径和关联信息;PLAN在基于传播序列的方法中表现最好,主要原因是该方法能够建模长距离帖子间的交互信息,从而获得事件完整表达. 进一步发现,基于事件传播结构的方法对应结果普遍优于基于传播序列的方法. 与Bi-GCN相比,RDEA通过引入对比学习思想,提升了谣言检测性能,方法准确率在Weibo2016数据集上与Bi-GCN相近但在CED数据集上比Bi-GCN高出0.016. 在Twitter-COVID19中,所提方法的准确率为0.682,略低于ACLR-BiGCN,高于绝大多数基线模型. 主要原因在于Twitter-COVID19数据集的数据规模较小,导致所提方法难以从中充分学习到事件的传播结构信息, ACLR-BiGCN利用丰富的源数据(Weibo2016)训练模型,通过监督对比学习获得源数据和目标数据(Twitter-COVID19)之间的通用知识,能够在数据资源较少的情况下实现谣言检测.

表 5   不同谣言检测方法在3种数据集上的实验结果

Tab.5  Experimental results of different rumor detection methods in three datasets

方法类别方法名称Weibo2016CEDTwitter-COVID19
AccF1AccF1AccF1
基于传统机器学习DTR0.7320.7330.6720.6680.3770.329
DTC0.8310.8250.7400.7410.4920.426
SVM-TS0.8570.8590.7460.7560.5100.498
基于事件传播序列GRU0.8980.8990.8610.8640.4980.401
RvNN0.9080.9080.8920.8910.5400.391
PLAN0.9320.9360.9160.9130.5730.432
基于事件传播结构Bi-GCN0.9270.9280.8940.8980.6160.415
RDEA0.9210.9210.9100.9160.6380.504
EBGCN0.9370.9350.8800.8790.5890.563
ACLR-BiGCN0.9240.9220.8980.9030.7650.686
UPSR0.9340.9280.8960.8950.6020.587
BDS-GCN0.9440.9430.9280.9280.6820.674

新窗口打开| 下载CSV


3.5. 消融实验

基于BDS-GCN提出以下5种变体方法:1)BDS-GCN-B:移除基于广度采样和Transformer的传播序列特征表示方法,仅提取事件的传播结构特征信息;2)BDS-GCN-D:移除基于深度采样和GCN的传播结构特征表示方法,仅提取事件的传播序列特征信息;3)BDS-GCN-DP:移除基于深度采样和GCN的传播结构特征表示方法中的信息传播模块,仅提取事件的传播序列特征信息和信息聚合信息;4)BDS-GCN-DA:移除基于深度采样和GCN的传播结构特征表示方法中的信息聚合模块,仅提取事件的传播序列特征信息和信息传播信息;5)BDS-GCN-ATT:移除基于广度采样和Transformer的传播序列特征表示方法中的注意力模块,仅使用最大池化获得最终特征向量. 如图6所示为5种变体方法和BDS-GCN在Weibo2016和CED数据集上的实验结果. 由图可知,在Weibo2016数据集中,相比BDS-GCN,BDS-GCN-ATT的准确率下降超过0.02,说明注意力机制能够使模型关注微博事件中的关键评论信息,继而提升谣言识别的准确性. 在CED数据集中,注意力机制作用并不明显,原因可能是CED数据集中存在较多的空转发节点,即用户只进行转发,没有评论任何内容,导致注意力机制在该数据集上无法很好地捕捉到关键信息. 进一步发现,BDS-GCN-D相较于BDS-GCN在2个数据集上的准确率均下降0.01左右,说明在事件传播结构中信息能够为谣言识别提供重要依据;BDS-GCN-DP和BDS-GCN-DA的实验结果均优于BDS-GCN-D,说明本研究使用的信息传播子图和信息聚合子图均蕴含对于谣言识别有用的特征信息. 在CED数据集上,BDS-GCN-B的准确率较BDS-GCN的下降超过0.026,可能是基于广度采样和Transformer的传播序列特征表示方法能够从长距离用户交互中提取有用的上下文语义信息,提升了事件表示的准确性. 不难发现,BDS-GCN在所有数据集上均获得了最高实验结果,验证了传播序列特征和传播结构特征在提高谣言识别准确性方面的有效性.

图 6

图 6   谣言检测方法在2个数据集上的模块消融实验结果

Fig.6   Modular ablation experimental results of rumor detection method in two datasets


3.6. 迭代次数取值的影响分析

将BDS-GCN与基线方法中表现较好且与所提方法结构相近的4个方法EBGCN、RDEA、PLAN及Bi-GCN进行对比,在Weibo2016和CED数据集上分别统计各方法性能指标随训练轮次变化的情况,结果如图7图8所示. 由图可知,EBGCN、RDEA、PLAN、Bi-GCN及BDS-GCN在Weibo2016数据集上的最优Epoch分别为16、14、16、12及8,在CED数据集上的最优Epoch分别为10、16、12、10及6. 当Epoch较小时,BDS-GCN的性能稍低于其他方法,主要原因是在训练初期注意力机制权重学习不充分,须经过一定的训练迭代来逐渐调整权重. 随着Epoch的增加,BDS-GCN的性能指标明显高于其他方法的,例如,在Weibo2016数据集上,当Epoch=8时,RDEA的Acc=0.909,BDS-GCN的Acc=0.943,高于次优方法. BDS-GCN具有较高的收敛速度,主要原因是BDS-GCN采用广度与深度结合的采样方式,广度采样能够充分提取事件发布早期的评论信息,使得模型能够更全面地捕捉到传播序列中的上下文语义特征;深度采样能在事件传播过程中获取较深层次的节点信息,使得模型能够有效获得事件的复杂传播结构特征.

图 7

图 7   Weibo2016数据集上不同谣言检测方法的性能指标对比

Fig.7   Performance indicators comparision of different rumor detection methods in Weibo2016 dataset


图 8

图 8   CED数据集上不同谣言检测方法的性能指标对比

Fig.8   Performance indicators comparision of different rumor detection methods in CED dataset


3.7. 谣言早期检测实验

为了验证所提方法针对谣言事件的早期检测效果,设置自源帖发布以来的一系列检测截止时间td,数据集中的每个事件只将截止时间之前发布的帖子作为数据集,选取在Weibo2016和CED数据集上表现最好的4个基线方法(PLAN、Bi-GCN、RDEA、EBGCN)与所提方法进行对比,结果分别如图9图10所示. 由图可知,各个方法的检测性能都随着截止时间的增加而提高,但从整体上来看EBGCN在2个数据集上的早期检测结果均明显低于其他方法,主要原因是在早期检测中大多评论直接回复源节点且集中在较浅层次,使EBGCN无法有效利用边间不确定性来加强事件表达. 进一步发现,Bi-GCN、RDEA利用图卷积网络聚合节点信息,整体性能表现相似,由于RDEA在Bi-GCN的基础上采用数据增强策略,整体性能优于Bi-GCN. BDS-GCN在谣言事件发布初期对应的检测精度明显高于其他方法,例如:在截止时间为5 min时,BDS-GCN在Weibo2016和CED数据集上的准确率分别为0.923和0.899,比该情况下的次优值分别高0.381和0.011,究其原因:1) 在谣言传播的早期事件的结构信息较少且不稳定,传播结构的稀疏性削弱了EBGCN、RDEA、Bi-GCN等基于图方法捕获传播结构的能力;2) 传统方法使用随机采样来建立传播子图,会丢失一定数量的早期评论信息,而所提广度采样策略能够在结构信息不足的情况下充分利用微博早期评论内容中蕴含的传播序列信息.

图 9

图 9   Weibo2016数据集上不同方法的谣言事件早期检测结果

Fig.9   Early detection of rumour events by different methods in Weibo2016 dataset


图 10

图 10   CED数据集上不同方法的谣言事件早期检测结果

Fig.10   Early detection of rumour events by different methods in CED dataset


4. 结 语

本研究提出了基于广度-深度采样和图卷积网络的谣言检测方法. 以微博事件为主要研究对象,通过广度采样保留事件早期传播信息;为了融合帖子上下文语义信息并增强各帖子间的交互过程,利用Transformer编码块提取传播序列特征并引入自注意力机制捕获关键信息;通过深度采样挖掘事件深层结构信息,利用GCN融合事件传播关系和聚合关系,提取传播结构特征,引入根节点增强,进一步提高特征表示的准确性;融合语义特征和结构特征,获得微博事件最终表达,通过全连接层输出分类结果. 实验结果表明,所提方法在2个公开数据集上的性能优于现有典型方法,所提方法在谣言检测领域的有效性得到验证. 未来计划在现有采样策略基础上,引入随机采样策略以提高模型的泛化能力;利用如用户历史评论特征、用户属性特征的信息建立用户画像,提高谣言检测的准确性和及时性.

参考文献

MA J, GAO W, WONG K F. Detect rumors in microblog posts using propagation structure via kernel learning [C]// Proceedings of the 55th Annual Meeting of the Association for Computational Linguistics . Vancouver: Association for Computational Linguistics, 2017: 708–717.

[本文引用: 1]

MA J, GAO W, WEI Z, et al. Detect rumors using time series of social context information on microblogging websites [C]// Proceedings of the 24th ACM International on Conference on Information and Knowledge Management . Melbourne: ACM, 2015: 1751–1754.

[本文引用: 1]

YANG F, LIU Y, YU X, et al. Automatic detection of rumor on sina weibo [C]// Proceedings of the ACM SIGKDD Workshop on Mining Data Semantics . Beijing: ACM, 2012: 1–7.

ZHAO Z, RESNICK P, MEI Q. Enquiring minds: early detection of rumors in social media from enquiry posts [C]// Proceedings of the 24th International Conference on World Wide Web . Florence: [s. n.], 2015: 1395–1405.

[本文引用: 1]

CASTILLO C, MENDOZA M, POBLETE B. Information credibility on Twitter [C]// Proceedings of the 20th International Conference on World Wide Web . Hyderabad: ACM, 2011: 675–684.

[本文引用: 4]

REIS J C S, CORREIA A, MURAI F, et al

Supervised learning for fake news detection

[J]. IEEE Intelligent Systems, 2019, 34 (2): 76- 81

DOI:10.1109/MIS.2019.2899143      [本文引用: 1]

YANG R, ZHANG J, GAO X, et al. Simple and effective text matching with richer alignment features [C]// Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics . Florence: Association for Computational Linguistics, 2019: 4699–4709.

[本文引用: 1]

KWON S, CHA M, JUNG K, et al. Prominent features of rumor propagation in online social media [C]// 2013 IEEE 13th International Conference on Data Mining . Dallas: IEEE, 2013: 1103–1108.

LIU X, NOURBAKHSH A, LI Q, et al. Real-time rumor debunking on Twitter [C]// Proceedings of the 24th ACM International on Conference on Information and Knowledge Management . Melbourne: ACM, 2015: 1867–1870.

YU F, LIU Q, WU S, et al. A convolutional approach for misinformation identification [C]// Proceedings of the 26th International Joint Conference on Artificial Intelligence . Melbourne: AAAI Press, 2017: 3901–3907.

[本文引用: 1]

MA J, GAO W, MITRA P, et al. Detecting rumors from microblogs with recurrent neural networks [C]// Proceedings of the 25th International Joint Conference on Artificial Intelligence . New York: AAAI Press, 2016: 3818–3824.

[本文引用: 4]

WU K, YANG S, ZHU K Q. False rumors detection on Sina Weibo by propagation structures [C]// 2015 IEEE 31st International Conference on Data Engineering . Seoul: IEEE, 2015: 651–662.

[本文引用: 1]

VEDOVA M L D, TACCHINI E, MORET S, et al. Automatic online fake news detection combining content and social signals [C]// 2018 22nd Conference of Open Innovations Association (FRUCT) . Jyvaskyla: IEEE, 2018: 272–279.

[本文引用: 1]

MA J, GAO W, WONG K F. Rumor detection on Twitter with tree-structured recursive neural networks [C]// Proceedings of the 56th Annual Meeting of the Association for Computational Linguistics . Melbourne: Association for Computational Linguistics, 2018: 1980–1989.

[本文引用: 2]

KUMAR S, CARLEY K. Tree LSTMs with convolution units to predict stance and rumor veracity in social media conversations [C]// Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics . Florence: Association for Computational Linguistics, 2019: 5047–5058.

[本文引用: 1]

LAO A, SHI C, YANG Y. Rumor detection with field of linear and non-linear propagation [C]// Proceedings of the Web Conference 2021 . Ljubljana: ACM, 2021: 3178–3187.

[本文引用: 1]

VOSOUGHI S, ROY D, ARAL S

The spread of true and false news online

[J]. Science, 2018, 359 (6380): 1146- 1151

DOI:10.1126/science.aap9559      [本文引用: 2]

BIAN T, XIAO X, XU T, et al. Rumor detection on social media with bi-directional graph convolutional networks [C]// Proceedings of the AAAI Conference on Artificial Intelligence . [S. l.]: AAAI Press, 2020, 34(1): 549–556.

[本文引用: 3]

HUANG Q, YU J, WU J, et al. Heterogeneous graph attention networks for early detection of rumors on Twitter [C]// 2020 International Joint Conference on Neural Networks . Glasgow: IEEE, 2020.

[本文引用: 1]

杨延杰, 王莉, 王宇航

融合源信息和门控图神经网络的谣言检测研究

[J]. 计算机研究与发展, 2021, 58 (7): 1412- 1424

YANG Yanjie, WANG Li, WANG Yuhang

Rumor detection based on source information and gating graph neural network

[J]. Journal of Computer Research and Development, 2021, 58 (7): 1412- 1424

HE Z, LI C, ZHOU F, et al. Rumor detection on social media with event augmentations [C]// Proceedings of the 44th International ACM SIGIR Conference on Research and Development in Information Retrieval . [S.l.]: ACM, 2021: 2020–2024.

[本文引用: 2]

LIN H, MA J, CHEN L, et al. Detect rumors in microblog posts for low-resource domains via adversarial contrastive learning [C]// Findings of the Association for Computational Linguistics: NAACL 2022 . Seattle: Association for Computational Linguistics, 2022: 2543–2556.

[本文引用: 2]

WEI L, HU D, ZHOU W, et al. Uncertainty-aware propagation structure reconstruction for fake news detection [C]// Proceedings of the 29th International Conference on Computational Linguistics . Gyeongju: International Committee on Computation Linguistics, 2022: 2759–2768.

[本文引用: 2]

KHOO L M S, CHIEU H L, QIAN Z, et al. Interpretable rumor detection in microblogs by attending to user interactions [C]// Proceedings of the AAAI Conference on Artificial Intelligence . [S. l.]: AAAI Press, 2020: 8783–8790.

[本文引用: 2]

KIPF T N, WELLING M. Semi-supervised classification with graph convolutional networks [EB/OL]. (2017–02–22)[2023–07–19]. https://arxiv.org/pdf/1609.02907.

[本文引用: 1]

NIKOLENTZOS G, TIXIER A, VAZIRGIANNIS M. Message passing attention networks for document understanding [C]// Proceedings of the AAAI Conference on Artificial Intelligence . [S. l.]: AAAI Press, 2020: 8544–8551.

[本文引用: 1]

WEI L, HU D, ZHOU W, et al. Towards propagation uncertainty: edge-enhanced bayesian graph convolutional networks for rumor detection [C]// Proceedings of the 59th Annual Meeting of the Association for Computational Linguistics and the 11th International Joint Conference on Natural Language Processing . [S.l.]: Association for Computational Linguistics, 2021: 3845–3854.

[本文引用: 2]

LI S, ZHAO Z, HU R, et al. Analogical reasoning on Chinese morphological and semantic relations [C]// Proceedings of the 56th Annual Meeting of the Association for Computational Linguistics . Melbourne: Association for Computational Linguistics, 2018: 138–143.

[本文引用: 1]

HUANG Q, ZHOU C, WU J, et al. Deep structure learning for rumor detection on Twitter [C]// 2019 International Joint Conference on Neural Networks . Budapest: IEEE, 2019: 1–8.

[本文引用: 1]

KINGMA D P, BA J. Adam: a method for stochastic optimization [EB/OL]. (2017–01–30)[2023–03–29]. https://arxiv.org/pdf/1412.6980.

[本文引用: 1]

SONG C, YANG C, CHEN H, et al

CED: credible early detection of social media rumors

[J]. IEEE Transactions on Knowledge and Data Engineering, 2021, 33 (8): 3035- 3047

DOI:10.1109/TKDE.2019.2961675      [本文引用: 1]

/