<img src="https://www.zjujournals.com/eng/images/1008-973X/images/logo.png" class="img-responsive">

图 1 Transformer编码块结构图

Fig.1 Transformer encoding block structure diagram

(1)$ \mathrm{A}\mathrm{t}\mathrm{t}\;\left(\boldsymbol{Q},\boldsymbol{K},\boldsymbol{V}\right)=\mathrm{s}\mathrm{o}\mathrm{f}\mathrm{t}\mathrm{m}\mathrm{a}\mathrm{x}\left({\boldsymbol{Q}{\boldsymbol{K}}^{\mathrm{T}}}/{\sqrt{{d}_{{\mathrm{k}}}}}\right)\boldsymbol{V} , $

(2)$ \boldsymbol{Q}=\boldsymbol{X}{\boldsymbol{W}}^{{\mathrm{Q}}}, $

(3)$ \boldsymbol{K}=\boldsymbol{X}{\boldsymbol{W}}^{{\mathrm{K}}} , $

(4)$ \boldsymbol{V}=\boldsymbol{X}{\boldsymbol{W}}^{{\mathrm{V}}} . $

式中：Att为自注意力函数，$ \boldsymbol{X}\in {\mathbf{R}}^{n\times d} $为输入矩阵，$ \boldsymbol{Q}\in {\mathbf{R}}^{n\times {d}_{{\mathrm{q}}}}、 $$ \boldsymbol{K}\in {\mathbf{R}}^{n\times {d}_{{\mathrm{k}}}}、$$ \boldsymbol{V}\in {\mathbf{R}}^{n\times {d}_{{\mathrm{v}}}} $分别为查询、键、值矩阵，由输入矩阵$ \boldsymbol{X} $与权重矩阵$ {\boldsymbol{W}}^{{\mathrm{Q}}}\mathrm{、} {\boldsymbol{W}}^{{\mathrm{K}}}\mathrm{、}{\boldsymbol{W}}^{{\mathrm{V}}} $点积得到，n为输入特征数，d、${d}_{\mathrm{q}}={d}_{\mathrm{k}} $、${d}_{\mathrm{v}} $分别为对应的特征维度. 通常令$ {\boldsymbol{W}}^{{\mathrm{Q}}}={\boldsymbol{W}}^{{\mathrm{K}}}={\boldsymbol{W}}^{{\mathrm{V}}}=\boldsymbol{I} $，即$ \boldsymbol{Q}=\boldsymbol{K}=\boldsymbol{V}=\boldsymbol{X} $，其中$ \boldsymbol{I} $为单位矩阵.

1.2. 图卷积网络

图神经网络(graph neural network, GNN)是针对网状结构数据提出的新型神经网络模型，GCN是GNN的一种^[25]，该算法将待处理数据表征为网状结构，利用“消息传递”机制定义聚合函数对网络中的每个节点进行卷积操作，通过汇聚相邻区域内的特征信息来更新中心节点的信息^[26]，进而获取节点最终特征表示. 给定图结构$ G= < V,E > $，其中$ V $为图结构中节点集合，$ E $为图结构中边集合，定义$ \boldsymbol{A}\in {\mathbf{R}}^{n\times n} $为图结构的邻接矩阵，$ n $为节点数量；当节点$ i $与节点$ j $相邻时，即$ {e}_{ij}\in E $，$ \boldsymbol{A} $中第$ i $行第$ j $列对应的元素为1，此时任意一层的图卷积过程表示为

(5)$ {\boldsymbol{H}}_{l+1}=\sigma \left(\widehat{\boldsymbol{A}}{\boldsymbol{H}}_{l}{\boldsymbol{W}}_{l}\right) , $

(6)$ \widehat{\boldsymbol{A}}={\tilde{\boldsymbol{D}}}^{-\frac{1}{2}}\tilde{\boldsymbol{A}}{\tilde{\boldsymbol{D}}}^{-\frac{1}{2}} , $

(7)$ \tilde{\boldsymbol{A}}\text=\boldsymbol{A}\text+\boldsymbol{I} . $

式中：$ {\boldsymbol{W}}_{l}\in {\mathbf{R}}^{{v}_{l-1}\times {v}_{l}} $为可训练权重矩阵，$ {\boldsymbol{H}}_{l+1}\in {\mathbf{R}}^{n\times {v}_{l+1}} $、$ {\boldsymbol{H}}_{l}\in {\mathbf{R}}^{n\times {v}_{l}} $分别为经过第$ l $层和第$ l-1 $层图卷积输出的隐藏层特征矩阵，$ \tilde{\boldsymbol{D}}\in {\mathbf{R}}^{n\times n} $为$ \tilde{\boldsymbol{A}} $的度的对角矩阵，$ {\tilde{\boldsymbol{D}}}_{ii}={\displaystyle\sum }_{j}{\tilde{\boldsymbol{A}}}_{ij} $为第$ i $个节点的度，$ \widehat{\boldsymbol{A}} $为归一化邻接矩阵，$ \sigma (\cdot) $为激活函数.

2. 模型介绍

2.1. 问题定义

以微博事件为研究对象，进行如下问题定义.

定义 1　微博事件集. 定义$ C=\{{c}_{1},{c}_{2},\cdots ,{c}_{m}\} $为微博谣言数据集，其中$ {c}_{i}(1\leqslant i\leqslant m) $为第$ i $个微博事件，$ m $为数据集中微博事件的个数.

定义 2　微博事件. 定义$ {c}_{i} = \left\{{r}_{i},{w}_{1}^{i},{w}_{2}^{i},\cdots ,{w}_{{n}_{i}-1}^{i}\right\} $；其中$ {r}_{i} $表示为$ {w}_{0}^{i} $，指微博事件中的源微博信息；$ {w}_{j}^{i}(1\leqslant j\leqslant {n}_{i}-1) $为第$ i $个微博事件下的第$ j $条相关回复(评论或转发)信息，$ {n}_{i}-1 $为第$ i $个微博事件下的回复总数. 下文将源微博及其相关回复统称为帖子.

定义 3　传播图. 定义$ {G}_{i} $为第$ i $个微博事件的传播图结构，$ {G}_{i}= < {V}_{i},{E}_{i} > $为以源微博$ {r}_{i} $为根节点的有向传播图，$ {V}_{i}=\{{r}_{i},{w}_{1}^{i},{w}_{2}^{i},\cdots ,{w}_{{n}_{i}-1}^{i}\} $为图结构中的所有节点集合，$ {E}_{i}=\{{e}_{st}^{i}\mid s,t=0,\cdots ,{n}_{i}-1\} $为图结构中各个节点的连边关系，即第$ i $个微博事件中节点之间的回复关系. 当第$ t $个节点回复了第$ s $个节点，即存在由$ s $指向$ t $的连边，则有$ {e}_{st}^{i}\in {E}_{i} $. 如图2所示为微博传播示意图.

图 2

图 2 微博传播示意图

Fig.2 Schematic diagram of weibo propagation

定义 4　传播序列. 定义$ {S}_{i} $为可由$ {G}_{i} $提取生成的第$ i $个微博事件的传播序列，$ {S}_{i}=\{({r}_{i},{t}_{0}^{i}),({w}_{1}^{i}, {t}_{1}^{i}), ({w}_{2}^{i},{t}_{2}^{i}),\cdots ,({w}_{{n}_{i}-1}^{i},{t}_{{n}_{i}-1}^{i})\} $，每个回复-时间对$ ({w}_{j}^{i},{t}_{j}^{i}) $为$ {G}_{i} $的节点，$ {t}_{j}^{i} $为在第$ i $个微博事件传播序列中第$ j $条相关回复信息$ {w}_{j}^{i} $的发布时间，$ {t}_{0}^{i} $为第$ i $个微博事件源贴的发布时间. 设定传播序列为完全有序，即$ {t}_{0}^{i}\leqslant {t}_{1}^{i}\leqslant \cdots \leqslant {t}_{{n}_{i}-1}^{i} $，若存在$ {t}_{p}^{i}={t}_{q}^{i} $，则传播序列中的节点将按照该节点对应的唯一ID排序.

定义 5　邻接矩阵. 定义第$ i $个微博事件图结构的邻接矩阵$ {\boldsymbol{A}}_{i}=[{a}_{mn}^{i}]\in [\mathrm{0,1}]_{{n}_{i}\times {n}_{i}} $；$0\leqslant m,n\leqslant {n}_{i}-1 $. 若第$ s $个节点与第$ t $个节点之间存在回复关系，即当$ {e}_{st}^{i}\in {E}_{i} $时，则$ {a}_{st}^{i}=1 $，

(8)$ {a}_{st}^{i}=\left\{ \begin{array}{l}1,\quad {e}_{st}^{i}\in {E}_{i};\\0,\quad 其他.\end{array}\right. $

定义 6　特征矩阵. 定义第$ i $个微博事件的特征矩阵$ {\boldsymbol{X}}_{i}=\left[{\boldsymbol{x}}_{0}^{i},{\boldsymbol{x}}_{1}^{i},\cdots ,{\boldsymbol{x}}_{{n}_{i}-1}^{i}\right] $，其中$ {\boldsymbol{x}}_{0}^{i} $为第$ i $个微博事件中源微博$ {r}_{i} $的特征向量，$ {\boldsymbol{x}}_{j}^{i}(0\leqslant j\leqslant {n}_{i}-1) $为第$ i $个微博事件中第$ j $条相关回复的特征向量.

基于以上定义，将谣言检测任务定义为有监督的二分类任务，即通过训练微博事件集中的数据和标签值学习分类器$ f $，针对待检测事件$ {c}_{i} $，$ f $输出$ {c}_{i} $对应的预测标签$ {Y}_{i} $，其中$ {Y}_{i}\in \left\{\mathrm{0,1}\right\} $，0表示非谣言，1表示谣言，即$ f:{c}_{i}\to {Y}_{i} $.

2.2. 方法描述

为了有效提高谣言检测的及时性和准确性，本研究提出BDS-GCN，方法的执行流程如图3所示，包括1) 基于广度采样和Transformer的传播序列特征表示；2) 基于深度采样和GCN的传播结构特征表示；3) 特征融合及模型训练.

图 3

图 3 基于广度-深度采样和图卷积网络的谣言检测方法执行流程图

Fig.3 Executing flowchart of rumor detection method based on breadth-depth sampling and graph convolutional networks

2.3. 基于广度采样和Transformer的传播序列特征表示

为了降低数据量并减少过拟合风险，Bi-GCN^[18]、RDEA^[21]、EBGCN^[27]等方法均采用随机删除边及节点信息的采样方式，此类采样方法存在丢失关键数据、时效性较差等问题. 在某个谣言事件的传播过程中，早期评论数据以及直接与源交互的评论数据中通常包含实现谣言早期识别的关键信息，本研究引入广度采样的概念，通过提取事件浅层节点获取事件对应的早期评论信息，利用Transformer模块充分考虑不同节点的信息交互.

2.3.1. 广度采样策略

如定义3所示，将事件的传播过程视为以源帖为根节点的图结构. $ {G}_{i}= < {V}_{i},{E}_{i} > $为第$ i $个微博事件的传播图结构，广度采样将节点间的父子关系视为层级关系，节点集$ {V}_{i,b}=\{{r}_{i,{b}_{0}}, {w}_{1,{b}_{1}}^{i}, {w}_{2,{b}_{2}}^{i}, \cdots ,{w}_{{n}_{i}-1,{b}_{{n}_{i}-1}}^{i}\} $，其中$ {b}_{k}(0\leqslant k\leqslant {n}_{i}-1) $为第$ k $个节点在传播图$ {G}_{i} $中的第$ {b}_{k} $层，$ {b}_{k}=0 $，表示根节点，$ {b}_{k}=1 $，表示第一层节点，即第一层节点的父节点为根节点. 令W为广度采样层数，则广度采样结果表示为子图：

(9)$ \begin{split} {G}_{B}^{i}=&\left\{ < {V}_{i,W},{E}_{i,W} > |{V}_{i,W}=\left\{{w}_{j,{b}_{k}}^{i}\right\},\right.\\& \Big.{b}_{k}\leqslant W,\; 0\leqslant k\leqslant {n}_{i}-\mathrm{1,\;0}\leqslant j\leqslant {n}_{i}-1\Big\} .\end{split} $

式中：$ {V}_{i,W} $为广度采样节点集，$ {E}_{i,W} $为$ {V}_{i,W} $中所有节点的连边集合. 考虑到不同分支下的节点的信息交互，基于广度采样子图$ {G}_{B}^{i} $，将节点按照发布时间顺序排列构成传播序列$ {S}_{i} $，再利用Transformer模块捕获长距离评论信息之间的关系. 如图4所示，以W=1为例说明广度采样过程. 该微博事件源贴为节点A，$ t $为各帖子发布时间，广度采样节点集合为图中圆片覆盖的节点：A、B、C、D，之后按照时间顺序将以上4个节点排列构成事件传播序列$ \left\{A\to B\to C\to D\right\} $，$ {t}_{A} $<$ {t}_{B} $<$ {t}_{C} $<$ {t}_{D} $.

图 4

图 4 广度采样策略示意图

Fig.4 Schematic diagram of breadth sampling strategy

2.3.2. 基于Transformer的节点信息聚合

在采样得到传播序列后，使用jieba库对提取节点的文本进行分词，使用预训练的词向量^[28]作为分词后每个词语的特征向量表示. 一个帖子由一系列分词后的词语组成，表示为$ {P}_{ij}=\{{H}_{ij,0},{H}_{ij,1},\cdots , {H}_{ij,\mid {P}_{ij}|-1}\} $，其中$ {P}_{ij} $为第$ i $个微博事件传播序列中第$ j $个帖子的文本信息；$ \mid {P}_{ij}\mid $为$ {P}_{ij} $分词后的词语数量，即帖子长度；$ {H}_{ij,k} $为$ {P}_{ij} $中的第$ k(0\leqslant k\leqslant \mid {P}_{ij}\mid -1) $个词语. $ {H}_{ij,k} $对应的词语嵌入表示为$ {h}_{ij,k}\in {\mathbf{R}}^{{d}_{{\mathrm{w}}}} $，其中$ {d}_{{\mathrm{w}}} $为词嵌入向量维度. 对于每个帖子采用最大池化MaxPooling)获取相应的特征表达，$ {\boldsymbol{x}}_{j}^{i} $为第$ i $个微博事件传播序列中第$ j $个帖子的初始化特征，

(10)$ {\boldsymbol{x}}_{j}^{i}=\mathrm{M}\mathrm{a}\mathrm{x}\mathrm{P}\mathrm{o}\mathrm{o}\mathrm{l}\mathrm{i}\mathrm{n}\mathrm{g}\left(\left\{{h}_{ij,1},{h}_{ij,2},\cdots ,{h}_{ij,\mid {P}_{ij}\mid -1}\right\}\right) . $

为了更好地融合各个帖子的交互过程，将传播序列中各个帖子的特征表达$ {\boldsymbol{x}}_{j}^{i} $拼接，得到事件的特征矩阵表示$ {\boldsymbol{X}}_{{i}}=\left[{\boldsymbol{x}}_{0}^{i},{\boldsymbol{x}}_{1}^{i},\cdots ,{\boldsymbol{x}}_{{n}_{i}-1}^{i}\right] $，利用Transformer编码块学习各个评论的语义交互信息. 具体而言，采用多头注意力机制，将原有的单头注意力映射到h个子空间，提高模型关注不同语义空间的能力，计算式为

(11)$ \mathrm{M}\mathrm{H}\mathrm{A}\left({\boldsymbol{Q}}_{{i}},{\boldsymbol{K}}_{{i}},{\boldsymbol{V}}_{{i}}\right)= \mathrm{C}\mathrm{o}\mathrm{n}\mathrm{c}\mathrm{a}\mathrm{t}\left({\mathbf{h}\mathbf{e}\mathbf{a}\mathbf{d}}^{1},\cdots ,{\mathbf{h}\mathbf{e}\mathbf{a}\mathbf{d}}^{h}\right){\boldsymbol{W}}_{{i}}^{O}, $

(12)$ {\mathbf{h}\mathbf{e}\mathbf{a}\mathbf{d}}^{k}=\mathrm{A}\mathrm{t}\mathrm{t}\left({\boldsymbol{Q}}_{{i}}^{k},{\boldsymbol{K}}_{{i}}^{k},{\boldsymbol{V}}_{{i}}^{k}\right) . $

式中：MHA为多头注意力函数，Concat为拼接函数，$ {\boldsymbol{Q}}_{{i}}^{k}={\boldsymbol{X}}_{{i}}{\boldsymbol{W}}_{\boldsymbol{Q}}^{k}\mathrm{、}{\boldsymbol{K}}_{{i}}^{k} $=$ {\boldsymbol{X}}_{{i}}{\boldsymbol{W}}_{\boldsymbol{K}}^{k}\mathrm{、}{\boldsymbol{V}}_{{i}}^{k}={\boldsymbol{X}}_{{i}}{\boldsymbol{W}}_{\boldsymbol{V}}^{k} $分别为第$ i $个微博事件的第$ k(1\leqslant k\leqslant h) $个子空间的查询、键、值矩阵，$ {\boldsymbol{W}}_{\boldsymbol{Q}}^{k}\in {\mathbf{R}}^{d\times {d}_{{\mathrm{q}}}} $、$ {\boldsymbol{W}}_{\boldsymbol{K}}^{k}\in {\mathbf{R}}^{d\times {d}_{{\mathrm{k}}}} $、$ {\boldsymbol{W}}_{\boldsymbol{V}}^{k}\in {\mathbf{R}}^{d\times {d}_{{\mathrm{v}}}} $、$ {\boldsymbol{W}}_{\boldsymbol{i}}^{O}\in {\mathbf{R}}^{dh\times {d}_{{\mathrm{v}}}} $均为可训练的模型权重，$ {d}_{{\mathrm{q}}}={d}_{{\mathrm{k}}}={d}_{{\mathrm{v}}}={d}/{h} $，$ {\mathbf{h}\mathbf{e}\mathbf{a}\mathbf{d}}^{k} $为输入序列在设定的第$ k $个子空间中的特征. 为了降低过拟合、增加模型非线性，通过归一化层和前向神经网络层将$ {\boldsymbol{X}}_{i} $转化为$ {\boldsymbol{U}}_{i}=[{\boldsymbol{u}}_{0}^{i},{\boldsymbol{u}}_{1}^{i}, \cdots ,{\boldsymbol{u}}_{{n}_{i}-1}^{i}] $：

(13)$ {\boldsymbol{O}}_{{i}}=\mathrm{L}\mathrm{N}\left({\boldsymbol{Q}}_{{i}}+\mathrm{M}\mathrm{H}\mathrm{A}\left({\boldsymbol{Q}}_{{i}},{\boldsymbol{K}}_{{i}},{\boldsymbol{V}}_{{i}}\right)\right) , $

(14)$ \mathrm{F}\mathrm{F}\mathrm{N}\left({\boldsymbol{O}}_{{i}}\right)=\mathrm{m}\mathrm{a}\mathrm{x}({\bf{0}},{\boldsymbol{O}}_{{i}}{\boldsymbol{W}}_{{i}}^{1}+{\boldsymbol{b}}_{1}){\boldsymbol{W}}_{{i}}^{2}+{\boldsymbol{b}}_{2} , $

(15)$ {\boldsymbol{U}}_{i}=\mathrm{L}\mathrm{N}\left({\boldsymbol{O}}_{{i}}+\mathrm{F}\mathrm{F}\mathrm{N}\left({\boldsymbol{O}}_{{i}}\right)\right) . $

式中：LN为归一化层，$ \mathrm{F}\mathrm{F}\mathrm{N} $为前向神经网络层； $ {\boldsymbol{W}}_{{i}}^{1} $、$ {\boldsymbol{W}}_{{i}}^{2} $、$ {\boldsymbol{b}}_{1} $和$ {\boldsymbol{b}}_{2} $均为可训练的参数. 为了区分各个帖子对当前事件表达的贡献，通过软注意力机制加权融合得到第$ i $个微博事件的传播序列特征表示$ {\boldsymbol{v}}^{i} $：

(16)${\alpha }_{k}^{i}=\frac{\mathrm{e}\mathrm{x}\mathrm{p}\left({\boldsymbol{a}}^{\mathrm{T}}\mathrm{t}\mathrm{a}\mathrm{n}\mathrm{h}\right({\boldsymbol{W}}_{k}{\boldsymbol{u}}_{k}^{i}\left)\right)}{\displaystyle\sum _{j=0}^{{n}_{i}-1}\mathrm{e}\mathrm{x}\mathrm{p}\left({\boldsymbol{a}}^{\mathrm{T}}\mathrm{t}\mathrm{a}\mathrm{n}\mathrm{h}\right({\boldsymbol{W}}_{k}{\boldsymbol{u}}_{j}^{i}\left)\right)}, $

(17)$ {\boldsymbol{v}}^{i}={\sum }_{k}\left({\alpha }_{k}^{i}{\boldsymbol{u}}_{k}^{i}\right) . $

式中：$\boldsymbol{a}\in {\mathbf{R}}^{d} $和${\boldsymbol{W}}_{k}\in {\mathbf{R}}^{d\times d} $分别为可学习的权重向量与权重矩阵，$\mathrm{t}\mathrm{a}\mathrm{n}\mathrm{h}(\cdot) $为激活函数，$ {\alpha }_{k}^{i}\in \mathbf{R} $为第$ k $个帖子对其他帖子的注意力权重.

2.4. 基于深度采样和图卷积网络的传播结构特征表示

考虑到事件的传播结构特征，为了充分挖掘经过一定传播时间、传播深度才能被证实的谣言事件所蕴含的特征信息，本研究在广度采样的基础上提出基于深度采样的结构特征表示模块.

2.4.1. 深度采样策略

为了避免传统随机边采样和随机节点采样方法可能带来的信息丢失，针对事件传播图$ {G}_{i} $，提出深度采样策略. 利用$ {G}_{i} $中传播较远的部分节点构建传播结构子图$ {G}_{D}^{i} $，尽可能保留谣言事件的关键传播结构特征，具体过程如下. 1) 找出$ {G}_{i} $的所有叶子节点集合$ {\mathrm{V}\mathrm{L}\mathrm{F}}_{i}=\{{\mathrm{v}\mathrm{l}\mathrm{f}}_{i1},{\mathrm{v}\mathrm{l}\mathrm{f}}_{i2}, \cdots , {\mathrm{v}\mathrm{l}\mathrm{f}}_{i\left|{\mathrm{V}\mathrm{L}\mathrm{F}}_{i}\right|}\} $，其中$ {\mathrm{v}\mathrm{l}\mathrm{f}}_{ij} $为集合$ {\mathrm{V}\mathrm{L}\mathrm{F}}_{i} $中的第$ j(1\leqslant j\leqslant |{\mathrm{V}\mathrm{L}\mathrm{F}}_{i}\left|\right) $个叶子节点，$ \left|{\mathrm{V}\mathrm{L}\mathrm{F}}_{i}\right| $为集合中叶子结点总数. 2) 利用深度优先搜索算法获得根节点$ {r}_{i} $到任意叶子节点$ {\mathrm{v}\mathrm{l}\mathrm{f}}_{ij}\left(1\leqslant j\leqslant \left|{\mathrm{V}\mathrm{L}\mathrm{F}}_{i}\right|\right) $的有序最短路径集合$ {p}_{ij}=\left\{{r}_{i},{v}_{i1},{v}_{i2},\cdots ,{v}_{ik},{\cdots v}_{il},\cdots ,{\mathrm{v}\mathrm{l}\mathrm{f}}_{ij}\right\} $，对应边集为$ {E}_{ij}^{D}=\left\{{e}_{k,k+1}^{i}\right\}\left(1\leqslant k\leqslant j-1\right) $. $ {l}_{ij}=\left|{p}_{ij}\right| $为集合$ {p}_{ij} $中包含的节点数，定义为$ {p}_{ij} $的路径长度，$ {e}_{k,k+1}^{i} $为$ {p}_{ij} $中从节点$ {v}_{ik} $指向节点$ {v}_{ik+1}\mathrm{的} $边. 3) 将叶子结点集$ {\mathrm{V}\mathrm{L}\mathrm{F}}_{i} $对应的所有最短路径按照路径长度进行从小到大排序，得到路径集合$ {\mathrm{P}\mathrm{S}}_{i}=\{{p}_{i1},{p}_{i2}, \cdots , {p}_{ik},\cdots , {p}_{il},\cdots ,{p}_{i\left|{\mathrm{V}\mathrm{L}\mathrm{F}}_{i}\right|}\} $($ {l}_{ik}\leqslant {l}_{il},1\leqslant k < l\leqslant \left|{\mathrm{V}\mathrm{L}\mathrm{F}}_{i}\right| $). 4) 将$ {\mathrm{P}\mathrm{S}}_{i} $中前D%的路径集合表示为$ {L}_{i,D}=\left\{{p}_{ik}\right|1\leqslant k\leqslant \left|{\mathrm{P}\mathrm{S}}_{i}\right|\times D\mathrm{\%}\} $，令$ {V}_{i,D} $和$ {E}_{i,D} $分别为$ {L}_{i,D} $中所包含的节点集合和边集合，则深度采样结果表示为子图：

(18)$ {G}_{D}^{i}= < {V}_{i,D},{E}_{i,D} > . $

针对图4，若给定D=50，此时依据所提深度采样策略得到的路径集合为$ {L}_{i,D}=\{\left\{A\to D\to F\to H\right\}, \left\{A\to D\to F\to I\right\}\} $，采样得到信息传播子图$ {G}_{D}^{i} $. 事件传播图相连节点间除了包含由评论回复操作构成的显式传播关系外，还包含由信息聚合操作构成的隐式传播关系^[17]. 在事件传播图$ {G}_{i} $对应的信息传播子图$ {G}_{D}^{i} $的基础上，构建与子图$ {G}_{D}^{i} $节点相同但连边方向相反的信息聚合子图$ {G}_{A}^{i}= < {V}_{i,A},{E}_{i,A} > $，其中$ {V}_{i,A}={V}_{i,{D}}，{E}_{ij}^{A}=\left\{{e}_{k+1,k}^{i}\right\} $，信息聚合子图对应的路径集合表示为$ {L}_{i,A}=\{\{H\to F\to D \to A\}, \{I\to F\to D\to A\}\} $. 如图5所示，信息传播子图和信息聚合子图区别在于它们获得特征信息的方向不同. 具体而言，信息传播子图中每个节点的表示由自身节点及其被转发(评论)节点对应的语义内容决定；在信息聚合子图中，每个节点的表示除了与自身语义内容相关外，还与转发(评论)该节点的节点语义内容相关. 综合利用信息传播关系和信息聚合关系能够有效融合当前节点的上下层节点对该节点的影响，提高该节点表示的准确性.

图 5

图 5 深度采样策略示意图

Fig.5 Schematic diagram of depth sampling strategy

2.4.2. 基于图卷积网络的结构特征获取

将传播子图$ {G}_{D}^{i} $对应的邻接矩阵表示为$ {\boldsymbol{A}}^{\mathrm{{'}}} $，则信息聚合子图$ {G}_{A}^{i} $对应的邻接矩阵为$ {\boldsymbol{A}}_{{\mathrm{A}}}^{i}={{\boldsymbol{A}}^{\mathrm{{'}}\mathrm{T }}} $. 假定节点集$ {V}_{i,D} $对应的特征矩阵为$ \boldsymbol{X} $，将GCN分别应用于$ {G}_{D}^{i} $和${G}_{A}^{i} $，分别获取第k个GCN层对应的特征表示：

(19)$ {\left({\boldsymbol{H}}_{D}^{i}\right)}_{k}=\sigma \left({\widehat{\boldsymbol{A}}}_{D}^{i}{\left({\boldsymbol{H}}_{D}^{i}\right)}_{k-1}{\left({\boldsymbol{W}}_{D}^{i}\right)}_{k-1}\right) , $

(20)$ {\left({\boldsymbol{H}}_{A}^{i}\right)}_{k}=\sigma \left({\widehat{\boldsymbol{A}}}_{A}^{i}{\left({\boldsymbol{H}}_{A}^{i}\right)}_{k-1}{\left({\boldsymbol{W}}_{A}^{i}\right)}_{k-1}\right) . $

当$ k=1 $时，$ {\left({\boldsymbol{H}}_{D}^{i}\right)}_{0} $、$ {\left({\boldsymbol{H}}_{A}^{i}\right)}_{0}=\boldsymbol{X} $分别为信息传播子图和信息汇聚子图的初始化输入矩阵；$ {\left({\boldsymbol{H}}_{D}^{i}\right)}_{k}\in {\mathbf{R}}^{n\times {v}_{k}} $、$ {\left({\boldsymbol{H}}_{A}^{i}\right)}_{k}\in {\mathbf{R}}^{n\times {v}_{k}} $分别为$ \boldsymbol{X} $在图$ {G}_{D}^{i} $和图$ {G}_{A}^{i} $上对应的第k个GCN层输出向量；$ {\widehat{\boldsymbol{A}}}_{D}^{i}\in {\mathbf{R}}^{n\times n} $、$ {\widehat{\boldsymbol{A}}}_{A}^{i}\in {\mathbf{R}}^{n\times n} $分别为由$ {\boldsymbol{A}}^{\mathrm{{'}}} $和$ {{\boldsymbol{A}}^{\mathrm{{'}}\mathrm{T}}} $计算得到的归一化邻接矩阵；$ n $为节点数；$ {v}_{k} $为第k个GCN层对应的向量维度；$ {\left({\boldsymbol{W}}_{D}^{i}\right)}_{k-1}\in {\mathbf{R}}^{{v}_{k-1}\times {v}_{k}} $、$ {\left({\boldsymbol{W}}_{A}^{i}\right)}_{k-1}\in {\mathbf{R}}^{{v}_{k-1}\times {v}_{k}} $分别为第k个GCN层对应的可训练权重矩阵. 在社交媒体中大规模扩散事件的源帖子通常含有丰富的语义信息和传递信息^[29]，为此在式(19)、式(20)的基础上，利用图中根节点（源贴节点）对当前节点进行语义增强，即将每个节点在第k个GCN层对应的状态向量与第$ k-1 $层中根节点对应的状态向量进行拼接以更新当前节点的状态表示：

(21)$ {\left({\tilde{\boldsymbol{H}}}_{D}^{i}\right)}_{k}=\mathrm{C}\mathrm{o}\mathrm{n}\mathrm{c}\mathrm{a}\mathrm{t}\;\left({\left({\boldsymbol{H}}_{D}^{i}\right)}_{k},{\left({\boldsymbol{H}}_{D}^{i}\right)}_{k-1}^{{\mathrm{root}}}\right) , $

(22)$ {\left({\tilde{\boldsymbol{H}}}_{A}^{i}\right)}_{k}=\mathrm{C}\mathrm{o}\mathrm{n}\mathrm{c}\mathrm{a}\mathrm{t}\;\left({\left({\boldsymbol{H}}_{A}^{i}\right)}_{k},{\left({\boldsymbol{H}}_{A}^{i}\right)}_{k-1}^{{\mathrm{root}}}\right) . $

式中：${\left({\tilde{\boldsymbol{H}}}_{D}^{i}\right)}_{k} \in {\mathbf{R}}^{n\times {(v}_{k} + {v}_{k - 1})} $、${\left({\tilde{\boldsymbol{H}}}_{A}^{i}\right)}_{k} \in {\mathbf{R}}^{n\times {(v}_{k} + {v}_{k - 1})} $，${\left({\boldsymbol{H}}_{D}^{i}\right)}_{k-1}^{\mathrm{r}\mathrm{o}\mathrm{o}\mathrm{t}} $与${\left({\boldsymbol{H}}_{A}^{i}\right)}_{k-1}^{\mathrm{r}\mathrm{o}\mathrm{o}\mathrm{t}} $分别为${G}_{D}^{i} $和${G}_{A}^{i} $在第$k-1 $层中根节点对应的状态向量，$ {\left({\boldsymbol{H}}_{A}^{i}\right)}_{0}^{{\mathrm{root}}}={\left({\boldsymbol{H}}_{D}^{i}\right)}_{0}^{{\mathrm{root}}}= {\boldsymbol{X}}^{{\mathrm{root}}}=\boldsymbol{X} $，分别用$ {\left({\tilde{\boldsymbol{H}}}_{D}^{i}\right)}_{k} $和$ {\left({\tilde{\boldsymbol{H}}}_{A}^{i}\right)}_{k} $计算$ \boldsymbol{X} $在图$ {G}_{D}^{i} $和图$ {G}_{A}^{i} $上第k+1个GCN层对应的根节点增强向量：

(23)$ {\left({\boldsymbol{H}}_{D}^{i}\right)}_{k+1}=\sigma \left({\widehat{\boldsymbol{A}}}_{D}^{i}{\left({\tilde{\boldsymbol{H}}}_{D}^{i}\right)}_{k}{\left({\boldsymbol{W}}_{D}^{i}\right)}_{k}\right) , $

(24)$ {\left({\boldsymbol{H}}_{A}^{i}\right)}_{k+1}=\sigma \left({\widehat{\boldsymbol{A}}}_{A}^{i}{\left({\tilde{\boldsymbol{H}}}_{A}^{i}\right)}_{k}{\left({\boldsymbol{W}}_{A}^{i}\right)}_{k}\right) . $

给定图卷积网络层数L，利用平均池化操作，分别获得信息传播子图和信息聚合子图对应的图级向量表达$ {\boldsymbol{s}}_{D}^{i} $和$ {\boldsymbol{s}}_{A}^{i} $，

(25)$ {\boldsymbol{s}}_{D}^{i}=\mathrm{mean}\left({\left({\boldsymbol{H}}_{D}^{i}\right)}_{L}\right) , $

(26)$ {\boldsymbol{s}}_{A}^{i}=\mathrm{m}\mathrm{e}\mathrm{a}\mathrm{n}\left({\left({\boldsymbol{H}}_{A}^{i}\right)}_{L}\right) . $

拼接2个向量，得到基于深度采样和GCN的传播结构特征表示：

(27)$ {\boldsymbol{s}}^{i}=\mathrm{C}\mathrm{o}\mathrm{n}\mathrm{c}\mathrm{a}\mathrm{t}\left({\boldsymbol{s}}_{D}^{i},{\boldsymbol{s}}_{A}^{i}\right) . $

2.5. 特征融合及模型训练

拼接$ {\boldsymbol{v}}^{i} $与$ {\boldsymbol{s}}^{i} $，得到第$ i $个微博事件最终的特征表示：

(28)$ {\boldsymbol{r}}^{i}=\mathrm{C}\mathrm{o}\mathrm{n}\mathrm{c}\mathrm{a}\mathrm{t}\left({\boldsymbol{s}}^{i},{\boldsymbol{v}}^{i}\right) . $

通过全连接层和$ \mathrm{s}\mathrm{o}\mathrm{f}\mathrm{t}\mathrm{m}\mathrm{a}\mathrm{x} $函数计算得到第$ i $个微博事件的标签预测结果：

(29)$ {\boldsymbol{z}}^{i}=\mathrm{F}\mathrm{C}\left({\boldsymbol{r}}^{i}\right)={\boldsymbol{W}}^{{\mathrm{T}} }{\boldsymbol{r}}^{i}+\boldsymbol{b} , $

(30)$ {\widehat{\boldsymbol{y}}}_{i}=\mathrm{s}\mathrm{o}\mathrm{f}\mathrm{t}\mathrm{m}\mathrm{a}\mathrm{x}\left({\boldsymbol{z}}^{i}\right) . $

式中：$ \mathrm{F}\mathrm{C}(\cdot) $为全连接层，${\widehat{\boldsymbol{y}}}_{i}\in {\mathbf{R}}^{K} $为模型预测标签属于每个类别的概率向量，输出向量维度为分类类别数K，$ \boldsymbol{W} $、$ \boldsymbol{b} $均为可训练参数. 在模型训练过程中，利用Adam优化器^[30]优化更新模型参数. 将交叉熵函数作为所提方法的分类损失，计算预测结果与真实标签之间的差距：

(31)$ L\left({\boldsymbol{y}}_{i},{\widehat{\boldsymbol{y}}}_{i}\right)=-\sum _{k=0}^{K-1}{y}_{i,k}{\mathrm{lb}}\;{\widehat{y}}_{i,k}+\lambda {||\boldsymbol{\varTheta }||}_{2}^{2}. $

式中：$ \boldsymbol{\varTheta } $为模型参数；${||\cdot||}_{2}^{2} $为对模型中参数采用${L}_{2} $正则化；$ {y}_{i,k} $、${\widehat{y}}_{i,k} $分别为第i个微博事件${c}_{i} $的真实标签和预测值；如果${c}_{i} $属于类别k，则${y}_{i,k} $的值为1；否，则为0.

3. 实验结果与分析

3.1. 数据集及预处理

软件环境为Python3.7+Pytorch1.9.0+cuda10.0，CPU为Intel Xeon Gold5218，内存为64G，显卡为NVIDIA GeForce RTX 2080Ti. 为了验证所提方法的有效性，在2个真实公开的数据集Weibo2016^[11]和CED^[31]上进行实验. 这2个数据集均来源于新浪微博管理中心平台发布的不实信息统计，数据集的参数如表1所示.

表 1 2个公开数据集的参数

Tab.1 Parameters of two public datasets

数据集	帖子总数	非谣言帖子数	谣言帖子数	用户数	事件平均层数	事件平均帖子数	事件平均传播时长/h
Weibo2016	4 664	2 351	2 313	2 746 818	2.85	431.27	1 811.4
CED	3 387	1849	1 538	1 067 410	1.73	377.74	11.34

为了提高数据文本质量，降低噪声干扰，对源贴和评论文本进行数据预处理，具体步骤如下. 1)文本数据中常出现如超链接、用户名的对谣言检测没有实际意义的信息，通过正则表达式将超链接替换为“URL”，将“@”后的用户名替换为空字符；2)去除文本中非文本表情符号、特殊符号以及停用词等噪声数据，保留“！”“?”符号. 使用5折交叉验证评定测试方法效果，采用Adam优化器对模型进行优化. 设置隐藏层向量维度为300，丢弃率为0.3，学习率为0.001，权值衰减为0.0001，迭代次数Epoch=200.

3.2. 评估指标及基线模型介绍

谣言检测方法的性能评价指标包括：准确率Acc和F1值，计算式分别为

(32)$ {\mathrm{Acc}}=\frac{{\mathrm{TN+TP}}}{{\mathrm{TN+FN+FP+TP}}}; $

(33)$ P=\frac{{\mathrm{TP}}}{{\mathrm{FP+TP}}} , $

(34)$ R=\frac{{\mathrm{TP}}}{{\mathrm{FN+TP}}} , $

(35)$ {F}_{1}=\frac{P\times R}{P+R} . $

式中：TP为实际与预测结果均为谣言的事件数量；FP为实际为非谣言预测结果为谣言的事件数量；TN为实际与预测结果均为非谣言的事件数量，FN为实际为谣言预测结果为非谣言的事件数量. 选取谣言检测领域典型的9种方法与所提方法进行对比. 不同方法对应的实验参数设置如表2所示. 1）DTR由Zhao等^[4]提出，通过基于决策树算法的搜索排序结果识别谣言. 2）DTC由Castillo等^[5]提出，利用丰富的手工设计特征和数据统计信息建模谣言事件. 3）SVM-TS由Ma等^[2]提出，基于线性支持向量机方法将社会情景内容建模为固定时间区间的时间序列. 4）GRU由Ma等^[11]提出，利用GRU循环神经网络将用户评论按顺序建模为时间序列，以学习谣言序列特征表示，完成谣言检测任务. 5）RvNN由Ma等^[14]提出，实现基于树传播结构的递归神经网络，验证了传播结构在谣言检测中的重要性. 6）PLAN由Khoo等^[24]提出，将分层注意力方法应用于谣言检测，通过自注意力机制建模谣言事件中的信息交互. 7）Bi-GCN由Bian等^[18]提出，在准确率上优于SVM-TS、RvNN方法. 8）RDEA由He等^[21]提出，引入3种事件增强策略来缓解数据标注困难的问题. 9）EBGCN由Wei等^[27]提出，在Bi-GCN的基础上采用贝叶斯思想建模节点间连边权重. 10）ACLR-BiGCN由Lin等^[22]提出，在Bi-GCN的基础构建对抗对比学习框架，使用对抗攻击增强低资源数据的多样性. 11）UPSR由Wei等^[23]提出，通过多个高斯分布改进原始确定性节点表示，构建了新的基于双图的传播结构重建模型.

表 2 各基线方法的参数设置

Tab.2 Parameter settings for each baseline model

方法	参数设置
DTR	所选特征包括信息来源可信度、身份、多样性、地址，语言态度、传播特征等，使用信息增益选择特征
DTC	所选特征包括消息内容、用户、主题、传播等，使用向前搜索选择特征
SVM-TS	所选特征包括用户信息、内容、传播等，核函数为径向基函数（radial basis function，RBF）
GRU	词汇表大小为5000，GRU层数为2，学习率为0.5
RvNN	词汇表大小为5000，词嵌入向量维数为100
PLAN	隐藏层向量维数为300，学习率为0.01，批处理大小为16
Bi-GCN	隐藏层向量维数为64，丢弃率为0.5，边丢弃率为0.5，Epoch=200，早停次数为10
RDEA	隐藏层向量维数为64，节点掩蔽率为0.2，边丢弃率为0.5
EBGCN	隐藏层向量维数为64，学习率为0.0002，隐藏层向量维数为200
ACLR-BiGCN	隐藏层向量维数为512，图卷积层数为2，学习率为0.0001，边丢弃率为0.2，批处理大小为64
UPSR	隐藏层向量维数为64，学习率为0.001，Epoch=200

3.3. 参数取值分析

在广度采样策略和深度采样策略中，采样层数$ W $和采样比例$ D $的取值较大程度上影响采样结果中事件的传播广度和深度，本研究将在不同数据集上验证W和D取值的影响. 定义数据量N与传播周期T：对于某个特定事件，数据量为该事件采样后输入模型的帖子数占原始数据总帖子数的比例；传播周期为该事件采样后输入模型的所有帖子与源贴发布的时间差的平均值.

为了提高谣言早期检测的时效性，定义事件集平均传播深度的向上取整取值为采样层数的上界. CED数据集的事件平均传播深度为1.73，选取$ W=1、2 $作为采样层数候选值；Weibo2016的事件平均传播深度为2.85，选取$ W=1、2、3 $作为采样层数候选值. 为了确定最优的深度采样比例，设定$ D=0.3、0.5、0.7 $，通过网格搜索算法结合实验确定$ W $和D的最优取值. 在给定不同采样层数和不同采样比例的情况下，所提方法在Weibo2016和CED数据集上的性能表现分别如表3、表4所示. 由表可知，当采样层数固定时，随着采样比例增大，采样数据量逐渐增加，传播周期变长，方法针对谣言的检测能力逐步提升. 在Weibo2016数据集上，当W=1时，D=0.3对应的分类准确率为0.938，D=0.5对应的准确率为0.944；说明所提方法能为谣言检测提供额外的结构特征信息，继而有效提高谣言识别的准确性. 进一步发现，当采样比例D固定时，采样层数的增加对采样数据量和传播周期影响较大，方法对应的分类性能也有所提升. 表3中，当W=2、D=0.3时，分类准确率较W=1、D=0.3时的有所提升，原因可能是深度采样对应的结果样本数较少，增加采样层数能够有效地提高所得样本集规模. 当D=0.7、W=2时，分类准确率相较于D=0.7、W=1时的下降超过0.01. 究其原因，虽然采样层数的增加能够起到丰富数据内容的作用，但当深度采样D取值较大时，增加采样层数将引入较多的冗余样本，继而影响谣言识别的准确性. 为了在保证方法分类精度的前提下降低采样集规模的影响，后续实验均设置W=1、D=0.5.

表 3 Weibo2016数据集的参数分析结果

Tab.3 Parameter analysis results of Weibo2016 dataset

W	D	N/%	T	Acc	F₁
1	0.3	45	47.91	0.938	0.937
	0.5	52	50.32	0.944	0.943
	0.7	72	56.30	0.949	0.949
2	0.3	58	53.93	0.943	0.943
	0.5	65	58.76	0.952	0.950
	0.7	84	76.30	0.931	0.929
3	0.3	66	64.27	0.933	0.934
	0.5	77	89.44	0.941	0.939
	0.7	94	99.23	0.922	0.918

表 4 CED数据集的参数分析结果

Tab.4 Parameter analysis results of CED dataset

W	D	N/%	T	Acc	F₁
1	0.3	44	5.64	0.922	0.923
	0.5	54	6.19	0.928	0.928
	0.7	82	8.76	0.932	0.929
2	0.3	62	6.26	0.923	0.918
	0.5	71	8.54	0.930	0.932
	0.7	96	9.28	0.914	0.916

3.4. 与基线方法的对比实验

为了验证所提方法在英文数据集上的表现，增加英文谣言数据集Twitter-COVID19^[22]，所提方法和不同基线方法在3个数据集上的实验结果如表5所示. 表中，每个评价指标的最优值用粗体表示，次优指标用下划线表示. 由表可知，在基于传统机器学习的谣言检测方法中，SVM-TS比DTC和DTR优势明显，主要原因是SVM-TS加入时间特征，能够有效捕获传播序列特征对于谣言识别的影响. 相较于基于传统机器学习的方法，基于深度学习的方法在检测性能上整体表现更好，原因是基于深度学习的方法能够利用复杂的网络结构学习到区分谣言事件和非谣言事件的深层特征信息. 在基于深度学习的谣言识别方法中，PLAN和RvNN的检测效果明显优于GRU，原因是GRU仅依赖事件的时间和文本特征，忽略了帖子间的回复-转发关系的影响，导致模型无法捕捉到关键的传播路径和关联信息；PLAN在基于传播序列的方法中表现最好，主要原因是该方法能够建模长距离帖子间的交互信息，从而获得事件完整表达. 进一步发现，基于事件传播结构的方法对应结果普遍优于基于传播序列的方法. 与Bi-GCN相比，RDEA通过引入对比学习思想，提升了谣言检测性能，方法准确率在Weibo2016数据集上与Bi-GCN相近但在CED数据集上比Bi-GCN高出0.016. 在Twitter-COVID19中，所提方法的准确率为0.682，略低于ACLR-BiGCN，高于绝大多数基线模型. 主要原因在于Twitter-COVID19数据集的数据规模较小，导致所提方法难以从中充分学习到事件的传播结构信息， ACLR-BiGCN利用丰富的源数据（Weibo2016）训练模型，通过监督对比学习获得源数据和目标数据（Twitter-COVID19）之间的通用知识，能够在数据资源较少的情况下实现谣言检测.

表 5 不同谣言检测方法在3种数据集上的实验结果

Tab.5 Experimental results of different rumor detection methods in three datasets

方法类别	方法名称	Weibo2016		CED		Twitter-COVID19
方法类别	方法名称	Acc	F₁	Acc	F₁	Acc	F₁
基于传统机器学习	DTR	0.732	0.733	0.672	0.668	0.377	0.329
	DTC	0.831	0.825	0.740	0.741	0.492	0.426
	SVM-TS	0.857	0.859	0.746	0.756	0.510	0.498
基于事件传播序列	GRU	0.898	0.899	0.861	0.864	0.498	0.401
	RvNN	0.908	0.908	0.892	0.891	0.540	0.391
	PLAN	0.932	0.936	0.916	0.913	0.573	0.432
基于事件传播结构	Bi-GCN	0.927	0.928	0.894	0.898	0.616	0.415
	RDEA	0.921	0.921	0.910	0.916	0.638	0.504
	EBGCN	0.937	0.935	0.880	0.879	0.589	0.563
	ACLR-BiGCN	0.924	0.922	0.898	0.903	0.765	0.686
	UPSR	0.934	0.928	0.896	0.895	0.602	0.587
	BDS-GCN	0.944	0.943	0.928	0.928	0.682	0.674

3.5. 消融实验

基于BDS-GCN提出以下5种变体方法：1）BDS-GCN-B：移除基于广度采样和Transformer的传播序列特征表示方法，仅提取事件的传播结构特征信息；2）BDS-GCN-D：移除基于深度采样和GCN的传播结构特征表示方法，仅提取事件的传播序列特征信息；3）BDS-GCN-DP：移除基于深度采样和GCN的传播结构特征表示方法中的信息传播模块，仅提取事件的传播序列特征信息和信息聚合信息；4）BDS-GCN-DA：移除基于深度采样和GCN的传播结构特征表示方法中的信息聚合模块，仅提取事件的传播序列特征信息和信息传播信息；5）BDS-GCN-ATT：移除基于广度采样和Transformer的传播序列特征表示方法中的注意力模块，仅使用最大池化获得最终特征向量. 如图6所示为5种变体方法和BDS-GCN在Weibo2016和CED数据集上的实验结果. 由图可知，在Weibo2016数据集中，相比BDS-GCN，BDS-GCN-ATT的准确率下降超过0.02，说明注意力机制能够使模型关注微博事件中的关键评论信息，继而提升谣言识别的准确性. 在CED数据集中，注意力机制作用并不明显，原因可能是CED数据集中存在较多的空转发节点，即用户只进行转发，没有评论任何内容，导致注意力机制在该数据集上无法很好地捕捉到关键信息. 进一步发现，BDS-GCN-D相较于BDS-GCN在2个数据集上的准确率均下降0.01左右，说明在事件传播结构中信息能够为谣言识别提供重要依据；BDS-GCN-DP和BDS-GCN-DA的实验结果均优于BDS-GCN-D，说明本研究使用的信息传播子图和信息聚合子图均蕴含对于谣言识别有用的特征信息. 在CED数据集上，BDS-GCN-B的准确率较BDS-GCN的下降超过0.026，可能是基于广度采样和Transformer的传播序列特征表示方法能够从长距离用户交互中提取有用的上下文语义信息，提升了事件表示的准确性. 不难发现，BDS-GCN在所有数据集上均获得了最高实验结果，验证了传播序列特征和传播结构特征在提高谣言识别准确性方面的有效性.

图 6

图 6 谣言检测方法在2个数据集上的模块消融实验结果

Fig.6 Modular ablation experimental results of rumor detection method in two datasets

3.6. 迭代次数取值的影响分析

将BDS-GCN与基线方法中表现较好且与所提方法结构相近的4个方法EBGCN、RDEA、PLAN及Bi-GCN进行对比，在Weibo2016和CED数据集上分别统计各方法性能指标随训练轮次变化的情况，结果如图7、图8所示. 由图可知，EBGCN、RDEA、PLAN、Bi-GCN及BDS-GCN在Weibo2016数据集上的最优Epoch分别为16、14、16、12及8，在CED数据集上的最优Epoch分别为10、16、12、10及6. 当Epoch较小时，BDS-GCN的性能稍低于其他方法，主要原因是在训练初期注意力机制权重学习不充分，须经过一定的训练迭代来逐渐调整权重. 随着Epoch的增加，BDS-GCN的性能指标明显高于其他方法的，例如，在Weibo2016数据集上，当Epoch=8时，RDEA的Acc=0.909，BDS-GCN的Acc=0.943，高于次优方法. BDS-GCN具有较高的收敛速度，主要原因是BDS-GCN采用广度与深度结合的采样方式，广度采样能够充分提取事件发布早期的评论信息，使得模型能够更全面地捕捉到传播序列中的上下文语义特征；深度采样能在事件传播过程中获取较深层次的节点信息，使得模型能够有效获得事件的复杂传播结构特征.

图 7

图 7 Weibo2016数据集上不同谣言检测方法的性能指标对比

Fig.7 Performance indicators comparision of different rumor detection methods in Weibo2016 dataset

图 8

图 8 CED数据集上不同谣言检测方法的性能指标对比

Fig.8 Performance indicators comparision of different rumor detection methods in CED dataset

3.7. 谣言早期检测实验

为了验证所提方法针对谣言事件的早期检测效果，设置自源帖发布以来的一系列检测截止时间t_d，数据集中的每个事件只将截止时间之前发布的帖子作为数据集，选取在Weibo2016和CED数据集上表现最好的4个基线方法(PLAN、Bi-GCN、RDEA、EBGCN)与所提方法进行对比，结果分别如图9、图10所示. 由图可知，各个方法的检测性能都随着截止时间的增加而提高，但从整体上来看EBGCN在2个数据集上的早期检测结果均明显低于其他方法，主要原因是在早期检测中大多评论直接回复源节点且集中在较浅层次，使EBGCN无法有效利用边间不确定性来加强事件表达. 进一步发现，Bi-GCN、RDEA利用图卷积网络聚合节点信息，整体性能表现相似，由于RDEA在Bi-GCN的基础上采用数据增强策略，整体性能优于Bi-GCN. BDS-GCN在谣言事件发布初期对应的检测精度明显高于其他方法，例如：在截止时间为5 min时，BDS-GCN在Weibo2016和CED数据集上的准确率分别为0.923和0.899，比该情况下的次优值分别高0.381和0.011，究其原因：1) 在谣言传播的早期事件的结构信息较少且不稳定，传播结构的稀疏性削弱了EBGCN、RDEA、Bi-GCN等基于图方法捕获传播结构的能力；2) 传统方法使用随机采样来建立传播子图，会丢失一定数量的早期评论信息，而所提广度采样策略能够在结构信息不足的情况下充分利用微博早期评论内容中蕴含的传播序列信息.

图 9

图 9 Weibo2016数据集上不同方法的谣言事件早期检测结果

Fig.9 Early detection of rumour events by different methods in Weibo2016 dataset

图 10

图 10 CED数据集上不同方法的谣言事件早期检测结果

Fig.10 Early detection of rumour events by different methods in CED dataset

4. 结　语

本研究提出了基于广度-深度采样和图卷积网络的谣言检测方法. 以微博事件为主要研究对象，通过广度采样保留事件早期传播信息；为了融合帖子上下文语义信息并增强各帖子间的交互过程，利用Transformer编码块提取传播序列特征并引入自注意力机制捕获关键信息；通过深度采样挖掘事件深层结构信息，利用GCN融合事件传播关系和聚合关系，提取传播结构特征，引入根节点增强，进一步提高特征表示的准确性；融合语义特征和结构特征，获得微博事件最终表达，通过全连接层输出分类结果. 实验结果表明，所提方法在2个公开数据集上的性能优于现有典型方法，所提方法在谣言检测领域的有效性得到验证. 未来计划在现有采样策略基础上，引入随机采样策略以提高模型的泛化能力；利用如用户历史评论特征、用户属性特征的信息建立用户画像，提高谣言检测的准确性和及时性.

参考文献

原文顺序

文献年度倒序

文中引用次数倒序

被引期刊影响因子

[1]

MA J, GAO W, WONG K F. Detect rumors in microblog posts using propagation structure via kernel learning [C]// Proceedings of the 55th Annual Meeting of the Association for Computational Linguistics . Vancouver: Association for Computational Linguistics, 2017: 708–717.

[2]

MA J, GAO W, WEI Z, et al. Detect rumors using time series of social context information on microblogging websites [C]// Proceedings of the 24th ACM International on Conference on Information and Knowledge Management . Melbourne: ACM, 2015: 1751–1754.

[3]

YANG F, LIU Y, YU X, et al. Automatic detection of rumor on sina weibo [C]// Proceedings of the ACM SIGKDD Workshop on Mining Data Semantics . Beijing: ACM, 2012: 1–7.

[4]

ZHAO Z, RESNICK P, MEI Q. Enquiring minds: early detection of rumors in social media from enquiry posts [C]// Proceedings of the 24th International Conference on World Wide Web . Florence: [s. n.], 2015: 1395–1405.

[5]

CASTILLO C, MENDOZA M, POBLETE B. Information credibility on Twitter [C]// Proceedings of the 20th International Conference on World Wide Web . Hyderabad: ACM, 2011: 675–684.

[本文引用: 4]

[6]

REIS J C S, CORREIA A, MURAI F, et al

Supervised learning for fake news detection

[J]. IEEE Intelligent Systems, 2019, 34 (2): 76- 81

DOI:10.1109/MIS.2019.2899143 [本文引用: 1]

[7]

YANG R, ZHANG J, GAO X, et al. Simple and effective text matching with richer alignment features [C]// Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics . Florence: Association for Computational Linguistics, 2019: 4699–4709.

[8]

KWON S, CHA M, JUNG K, et al. Prominent features of rumor propagation in online social media [C]// 2013 IEEE 13th International Conference on Data Mining . Dallas: IEEE, 2013: 1103–1108.

[9]

LIU X, NOURBAKHSH A, LI Q, et al. Real-time rumor debunking on Twitter [C]// Proceedings of the 24th ACM International on Conference on Information and Knowledge Management . Melbourne: ACM, 2015: 1867–1870.

[10]

YU F, LIU Q, WU S, et al. A convolutional approach for misinformation identification [C]// Proceedings of the 26th International Joint Conference on Artificial Intelligence . Melbourne: AAAI Press, 2017: 3901–3907.

[11]

MA J, GAO W, MITRA P, et al. Detecting rumors from microblogs with recurrent neural networks [C]// Proceedings of the 25th International Joint Conference on Artificial Intelligence . New York: AAAI Press, 2016: 3818–3824.

[本文引用: 4]

[12]

WU K, YANG S, ZHU K Q. False rumors detection on Sina Weibo by propagation structures [C]// 2015 IEEE 31st International Conference on Data Engineering . Seoul: IEEE, 2015: 651–662.

[13]

VEDOVA M L D, TACCHINI E, MORET S, et al. Automatic online fake news detection combining content and social signals [C]// 2018 22nd Conference of Open Innovations Association (FRUCT) . Jyvaskyla: IEEE, 2018: 272–279.

[14]

MA J, GAO W, WONG K F. Rumor detection on Twitter with tree-structured recursive neural networks [C]// Proceedings of the 56th Annual Meeting of the Association for Computational Linguistics . Melbourne: Association for Computational Linguistics, 2018: 1980–1989.

[15]

KUMAR S, CARLEY K. Tree LSTMs with convolution units to predict stance and rumor veracity in social media conversations [C]// Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics . Florence: Association for Computational Linguistics, 2019: 5047–5058.

[16]

LAO A, SHI C, YANG Y. Rumor detection with field of linear and non-linear propagation [C]// Proceedings of the Web Conference 2021 . Ljubljana: ACM, 2021: 3178–3187.

[17]

VOSOUGHI S, ROY D, ARAL S

The spread of true and false news online

[J]. Science, 2018, 359 (6380): 1146- 1151

DOI:10.1126/science.aap9559 [本文引用: 2]

[18]

BIAN T, XIAO X, XU T, et al. Rumor detection on social media with bi-directional graph convolutional networks [C]// Proceedings of the AAAI Conference on Artificial Intelligence . [S. l.]: AAAI Press, 2020, 34(1): 549–556.

[本文引用: 3]

[19]

HUANG Q, YU J, WU J, et al. Heterogeneous graph attention networks for early detection of rumors on Twitter [C]// 2020 International Joint Conference on Neural Networks . Glasgow: IEEE, 2020.

[20]

杨延杰, 王莉, 王宇航

融合源信息和门控图神经网络的谣言检测研究

[J]. 计算机研究与发展, 2021, 58 (7): 1412- 1424

YANG Yanjie, WANG Li, WANG Yuhang

Rumor detection based on source information and gating graph neural network

[J]. Journal of Computer Research and Development, 2021, 58 (7): 1412- 1424

[21]

HE Z, LI C, ZHOU F, et al. Rumor detection on social media with event augmentations [C]// Proceedings of the 44th International ACM SIGIR Conference on Research and Development in Information Retrieval . [S.l.]: ACM, 2021: 2020–2024.

[22]

LIN H, MA J, CHEN L, et al. Detect rumors in microblog posts for low-resource domains via adversarial contrastive learning [C]// Findings of the Association for Computational Linguistics: NAACL 2022 . Seattle: Association for Computational Linguistics, 2022: 2543–2556.

[23]

WEI L, HU D, ZHOU W, et al. Uncertainty-aware propagation structure reconstruction for fake news detection [C]// Proceedings of the 29th International Conference on Computational Linguistics . Gyeongju: International Committee on Computation Linguistics, 2022: 2759–2768.

[24]

KHOO L M S, CHIEU H L, QIAN Z, et al. Interpretable rumor detection in microblogs by attending to user interactions [C]// Proceedings of the AAAI Conference on Artificial Intelligence . [S. l.]: AAAI Press, 2020: 8783–8790.

[25]

KIPF T N, WELLING M. Semi-supervised classification with graph convolutional networks [EB/OL]. (2017–02–22)[2023–07–19]. https://arxiv.org/pdf/1609.02907.

[26]

NIKOLENTZOS G, TIXIER A, VAZIRGIANNIS M. Message passing attention networks for document understanding [C]// Proceedings of the AAAI Conference on Artificial Intelligence . [S. l.]: AAAI Press, 2020: 8544–8551.

[27]

WEI L, HU D, ZHOU W, et al. Towards propagation uncertainty: edge-enhanced bayesian graph convolutional networks for rumor detection [C]// Proceedings of the 59th Annual Meeting of the Association for Computational Linguistics and the 11th International Joint Conference on Natural Language Processing . [S.l.]: Association for Computational Linguistics, 2021: 3845–3854.

[28]

LI S, ZHAO Z, HU R, et al. Analogical reasoning on Chinese morphological and semantic relations [C]// Proceedings of the 56th Annual Meeting of the Association for Computational Linguistics . Melbourne: Association for Computational Linguistics, 2018: 138–143.

[29]

HUANG Q, ZHOU C, WU J, et al. Deep structure learning for rumor detection on Twitter [C]// 2019 International Joint Conference on Neural Networks . Budapest: IEEE, 2019: 1–8.

[30]

KINGMA D P, BA J. Adam: a method for stochastic optimization [EB/OL]. (2017–01–30)[2023–03–29]. https://arxiv.org/pdf/1412.6980.