<img src="https://www.zjujournals.com/eng/images/1008-973X/images/logo.png" class="img-responsive">

图 1 ZPTHCL的模型结构

Fig.1 Overall framework of ZPTHCL model

须注意的是，零样本对象谣言检测的任务是将P_O中已知对象的句子集训练为一个模型，可以推广至P_k当中，以此来检测含有未知对象的句子. (注意，各个不同的对象数据集当中没有相似的句子. )

3.1. 通过代理任务进行数据增强

首先，假设最终模型在推理实例时，会依赖实例中是否包含与对象相关的词语来判断实例是否为谣言. 然而，当模型面对未知对象的实例时，由于实例中很少或者没有包含与对象相关词语的信息，从而导致模型性能不稳定. 基于这一假设，进行以下操作：先使用训练集训练一个过拟合模型，再使用该模型对遮掩示例进行预测. 如果模型对该实例的标签预测成功，则认为实例与对象相关词语无关，从而可以说明该实例具有通义掩码特征. 反之，则不具有通义掩码特征. 通过以上方法，将具有通义掩码特征的实例作为样本在代理任务中生成的正样本，而将不具有通义掩码特征的实例作为样本在代理任务中生成的负样本.

对数据集进行数据增强，具体操作的过程如图2所示. 经数据增强处理后的样本被划分为2类：通义掩码样本和非通义掩码样本. 通义掩码样本特指在对象相关词被遮盖的情况下，过拟合的BERT模型仍旧能够正确预测出样本的真实标签. 相对应的，非通义掩码样本则涵盖了数据集中除了上述通义掩码样本之外的所有其他样本.

图 2

图 2 数据增强过程

Fig.2 Data augmentation process

将区分通义掩码特征的任务设计为代理任务，为了在训练集当中找到具有通义掩码特征的样本，首先须利用训练集将模型$ \mathrm{{\rm M}} $训练至过拟合，训练精度接近100%. 其中，根据谣言数据集中源语言的不同，设置使用的预训练为BERT-base-uncase^[29]或BERT-base-chinese^[29]作为谣言检测模型$ {\rm M} $，它采用“ $ \left[\mathrm{C}\mathrm{L}\mathrm{S}\right]{{\boldsymbol{S}}}_{P}\left[\mathrm{S}\mathrm{E}\mathrm{P}\right] $”作为输入. 使用$ \left[\mathrm{C}\mathrm{L}\mathrm{S}\right] $所映射的向量来表示谣言检测的输入实例.

使用隐含狄利克雷分布(LDA)^[30]针对每一个对象训练集对应的对象进行相关词的选择. 具体来说，每个对象的文档可以用主题T_i来表示，每个对象包含有$ {{W}}_{g}=\{{{W}}_{1},{{W}}_{2},\cdots ,{{W}}_{f}\} $，共包含f个对象相关词，其中f为人工所设置的超参数. 使用特殊的标记[MASK]来遮盖对象训练集中每个训练样本的主题相关词$ {W}_{g} $. 使用如图3中所示的主题相关词可以得到如图4所示的掩码示例.

图 3

图 3 主题相关词示例

Fig.3 Example of topic-related words

图 4

图 4 掩码样本示例

Fig.4 Masked sample example

最后，将经隐含狄利克雷分布所获得的掩码训练集输入进过拟合的谣言检测模型$ {\rm M} $当中，以预测每个掩码样本的谣言标签. 如果预测的标签是正确的，意味着它的谣言表达不依赖于单一的对象，说明其具有通义掩码特征. 因此，为满足这个条件的样本附加一个“通义掩码”的增强标签$ {A}_{1} $；若不满足这个条件，则给样本附加“非通义掩码”的增强标签$ {A}_{0} $. 此时，经过数据增强后的已知对象训练集可以表示为 $ {D}_{{\mathrm{s}}}={\left\{\right({{\boldsymbol{S}}}_{{O}}^{n},{y}_{i}^{n},{A}_{i}^{n}\left)\right\}}_{n=1}^{m} $，m为数据集中样本的个数.

3.2. 训练数据的编码

结合上文，使用$ {{\boldsymbol{S}}}_O $表示经数据增强后的已知对象训练集$ {D}_{{\mathrm{s}}} $中的一个句子样例，将所有已知对象训练集中的句子集合样本表示为$ {S}_{{O}}^{m-w}=\{{{\boldsymbol{S}}}_{{O}}^{1},{{\boldsymbol{S}}}_{{O}}^{2},\cdots , {{\boldsymbol{S}}}_{{O}}^{n}\} $，其中包含n个句子. 根据源谣言数据集中语言的不同，使用BERT-base-uncase^[29]或BERT-base-chinese^[29]作为训练数据的编码器. 它采用“$ \left[\mathrm{C}\mathrm{L}\mathrm{S}\right] {{\boldsymbol{S}}}_{{{{O}}}}\left[\mathrm{S}\mathrm{E}\mathrm{P}\right] $” 作为输入并以[CLS]的语义向量作为输出得到$ \boldsymbol{H} $₁. 再将$ \boldsymbol{H} $₁中[CLS]分词的语义向量输入至ReLU激活函数得到$ \boldsymbol{h} $₁，其维度为$ {d}_{{\mathrm{m}}} $，表示为$ {\boldsymbol{h}}_{1}\in {{{\bf{R}}}}^{{d}_{{\mathrm{m}}}} $、则对每个样本的输出表达式如下：

(1)$\boldsymbol{H}_1=\operatorname{BERT}\;\left([\mathrm{CLS}] {S}_{ O}[\mathrm{SEP}] \right), $

(2)$\boldsymbol{h}_1=\operatorname{ReLU}\;\left(\boldsymbol{H}_1^{[{\mathrm{C L S}}]}\right). $

3.3. 对象信息辅助文本的编码

为了解决PT-HCL在数据增强过程中所带来的噪音问题，加入对象信息辅助文本作为辅助特征，所对应的文本内容示例如图5所示. 将对象信息辅助文本表示为$ {{\boldsymbol{S}}}_{{O}}^{\mathrm{A}} $.

图 5

图 5 各个对象所对应的信息辅助文本

Fig.5 Information auxiliary text corresponding to each object

根据源谣言数据集中语言的不同，使用BERT-base-uncase^[29]或BERT-base-chinese^[29]作为对象信息辅助文本的编码器，它采用“$ \left[\mathrm{C}\mathrm{L}\mathrm{S}\right]{\boldsymbol{S}}_{{O}}^{\mathrm{A}}\left[\mathrm{S}\mathrm{E}\mathrm{P}\right] $” 作为输入并以[CLS]的语义向量作为输出得到$ \boldsymbol{H} $₂. 再将$ \boldsymbol{H} $₁中[CLS]分词的语义向量输入至ReLU激活函数得到$ \boldsymbol{h}_2 $，其维度为$ {d}_{{\mathrm{m}}} $，表示为$ {\boldsymbol{h}}_{2}\in {\mathbf{R}}^{{d}_{{\mathrm{m}}}} $. 则对每个所属对象的样本相应输出如下：

(3)$\boldsymbol{H}_2=\mathrm{BERT}\;\left([\mathrm{CLS}] {\boldsymbol{S}}_{{O}}^{\mathrm{A}}[\mathrm{SEP}]\right), $

(4)$ \boldsymbol{h}_2=\operatorname{ReLU}\;\left(\boldsymbol{H}_2^{[{\mathrm{C L S}}]}\right). $

3.4. 特征的线性变换

为了尽可能地利用对象信息辅助文本来消除掩码所带来的噪声，将$ {\boldsymbol{h}}_{1} $与$ {\boldsymbol{h}}_{2} $进行线性变换的一般表示形式为

(5)$ \boldsymbol{h}_3=\operatorname{Leaky} \operatorname{ReLU}\;\left(\alpha \boldsymbol{h}_1+\beta \boldsymbol{h}_2\right). $

式中：$ \alpha $和$ \beta $表示2个不同的超参数；LeakyReLu中所需要调节的negative_slope为一个超参数，用于控制当值小于0时的负斜率. 可以基于α和β的初始值，通过梯度下降的方式来寻找这2个参数的最合适值.

3.5. 模型的训练与推断

使用由Liang等^[12]提出的分层对比学习损失函数$ {{{\boldsymbol{L}}}}_{\mathrm{c}\mathrm{l}} $，通过设置较小的温度系数对谣言的通义掩码特征和非通义掩码特征进行对比表示，再在此基础之上，通过设置较大的温度系数对谣言标签进行对比学习. 首先，对小批次定义为$ {B}={\left\{{\boldsymbol{h}}_{i}\right\}}_{i=1}^{{N}_{{\mathrm{b}}}} $，其中，$ {N}_{{\mathrm{b}}} $为小批次的大小. 将小批量$ {B} $的语义向量输入至Softmax函数中：

(6)$ \hat{{{\boldsymbol{y}}}}_i=\text { Softmax }\left(\boldsymbol{W} * \boldsymbol{h}_3+\boldsymbol{b}\right). $

式中：$ {\widehat{\boldsymbol{y}}}_{i} $为各个谣言标签的概率分布，$ \boldsymbol{W} $与b均为可学习的参数，它们的维度与h₃一致.

基于所预测的各谣言标签概率，对$ {\widehat{\boldsymbol{y}}}_{i} $与$ {{y}}_{i} $间的分布使用交叉熵损失再结合分层对比学习损失$ {\boldsymbol{L}}_{\mathrm{c}\mathrm{l}} $来训练分类器：

(7)$ {{\boldsymbol{L}}_{{\mathrm{class}}}} = - \sum _{i = 1}^{{N_{\mathrm{b}}}}y_i\log_2 \hat {\boldsymbol{y}}_i. $

通过联合优化有监督的谣言检测损失$ {\boldsymbol{L}}_{\mathrm{c}\mathrm{l}\mathrm{a}\mathrm{s}\mathrm{s}} $和代理任务$ {\boldsymbol{L}}_{\mathrm{c}\mathrm{l}} $来训练模型. 总损失L由3个损失相加而得：

(8)$ \boldsymbol{L}=W_{11} \boldsymbol{L}_{\text {class }}+W_{12} \boldsymbol{L}_{\mathrm{c} 1}+{\boldsymbol{\lambda}}\|\boldsymbol{\varTheta}\|^2. $

式中：$ {W}_{\mathrm{l}1} $和$ {W}_{\mathrm{l}2} $为可调节的超参数，$ \boldsymbol{\varTheta } $为模型所有可训练的参数，$ {\boldsymbol{\lambda}} $为$ {\mathrm{L}}_{2} $正则化系数向量.

使用$ {{\boldsymbol{S}}}_{k}^{0} $来表示未知的对象测试集中的一个句子样例，将所有已知对象训练集中的句子集合样本表示为$ {{S}}_{K}=\{{\boldsymbol{S}}_{K}^{1},{\boldsymbol{S}}_{K}^{2},\cdots ,{\boldsymbol{S}}_{K}^{{w}}\} $. 按照同样的操作将其按照式(1)的格式输入至BERT编码器中，获得语义向量表示$ {{\boldsymbol{h}}}_{1} $（式(2)）. 再将测试集所对应的对象信息辅助文本，按照式(3)的格式输入至BERT编码器中，获得语义向量表示$ {\boldsymbol{h}}_{2} $（式(4)）. 再进行如式(5)所示的线性变换得到$ {\boldsymbol{h}}_{3} $. 再将$ {\boldsymbol{h}}_{3} $输入至已训练好的ZPTHCL模型当中，使用式(6)得到模型对测试集中各个样本的预测概率. 最后通过$ \mathrm{a}\mathrm{r}\mathrm{g}\mathrm{m}\mathrm{a}\mathrm{x} $函数来得到模型对各个样本谣言标签的预测：

(9)$ {\bf{output}} = \arg\max\; ({\hat {\boldsymbol{y}}}). $

4. 实验分析

4.1. 实验数据

在5个真实数据集上评估所提方法的有效性，包括Ma-Weibo^[31]、Weibo20^[21]、Twitter15^[32]、Twitter16^[32]和基于Ma-Weibo的零样本对象谣言数据集Zeo-Weibo. 这5个数据集中都包含2个标签类别，分别为谣言和非谣言. 具体的统计信息如表1、2所示. 表中，N为数据集中数据量. 其中，如表2所示展示了基于Ma-Weibo的零样本对象谣言数据集Zeo-Weibo，其针对零样本学习任务，包含面向7个不同对象的言论，分别为中国、刘翔、北京、地震、日本、死亡和美国. Zeo-Weibo共包含1440条数据，谣言占721条，非谣言占719条. 在对Zeo-Weibo进行实验时，仅将1个对象的数据作为测试集，而剩余的6个作为训练集和验证集，以此对所有的7个对象进行相同的实验操作.

表 1 4个谣言检测数据集的数据统计

Tab.1 Data statistics of four rumor detection data sets

数据集	N
数据集	言论	非谣言	谣言
Ma-Weibo	4664	2351	2313
Weibo20	6068	3034	3034
Twitter15	742	370	372
Twitter16	412	205	207

表 2 零样本对象谣言数据集Zeo-Weibo统计

Tab.2 Statistics of zero-shot object rumor data set Zeo-Weibo

数据集	N
数据集	言论	非谣言	谣言
中国	507	247	260
刘翔	138	69	69
北京	92	46	46
地震	178	89	89
日本	88	49	39
死亡	308	150	158
美国	129	71	58

4.2. 评价指标及基准模型

为了验证所提出的模型的性能，将其与一些现有先进方法进行比较. 这些方法可以分为5类，分别为基于机器学习和常见神经网络模型的方法、基于图结构的方法、基于Transformer的方法、基于模型融合的方法和基于对比学习的方法.

1）基于机器学习和常见神经网络模型的方法.

SVM-TS^[31]：利用内容、用户和传播模式等特征，并且考虑这些特征在谣言传播过程中的变化，通过时间序列建模技术捕捉这些特征的动态特性，再使用支持向量机的方法来进行谣言检测.

CNN^[33]：使用卷积神经网络来挖掘文本的语义特征.

BiLSTM^[34]：使用具有衰减因子的多损失层次BiLSTM模型.

CNN-BiLSTM^[35]：使用Glove作为词嵌入，并将CNN与BiLSTM相结合来提取上下文信息的特征.

Arc1^[22]：通过将句子的语义表示进行维度取均后，再与句子标签的语义表示进行拼接.

Arc2^[22]：基于LSTM模型，以时间步的方式输入句子的语义表示. 最后再将网络的最后一个隐藏状态与句子标签的语义表示进行拼接.

Arc3^[22]：基于LSTM模型，以时间步的方式输入句子的语义表示并与句子标签的语义表示进行拼接，再使用最后一个隐藏层训练一个分类器来进行预测.

2）基于图结构的方法.

Ma-RvNN^[36]：构造传播树以表示帖子的扩散，并基于树结构的递归神经网络模型以提取特征.

GCNN^[37]：使用联合图合并所有推文的传播结构以减轻稀疏性再使用网络嵌入学习联合图中节点的表示.

Bi-GCN^[17]：不仅考虑传播树的深度扩散，同时还考虑谣言检测中的分布结构.

UMLARD^[22]：考虑用户的多个不同视图，并采用注意力网络将更全面的信息进行整合.

3）基于Transformer的方法.

BERT^[29]：由Google开发的一种预训练模型，可视作多层双向的Transformer编码器，可以根据输入文本的上下文来理解文本中的含义，并能在微调后应用于下游任务当中.

RoBERTa^[38]：在BERT的研究基础上，对预训练的策略进行优化. 只使用MLM(masked language model)的自监督学习方法，而不采用预测下一句(next sentence prediction，NSP)的方法.

Longformer^[39]：使用随序列长度线性缩放的注意力机制，解决Transformer无法处理长序列的问题.

PLAN^[40]：基于推文级别的自注意力网络，在Transformer中使用多头注意机制对推文之间的长距离交互进行建模.

ToBERT^[23]：将源帖子和相关评论拼合成一个长文本，并将其重新分割成更适于BERT的短文本，再将这些短文本分别输入到BERT中得到各短文本的表征向量，最后将所有的表征向量输入到基于 LSTM 网络或Transformer层的分类器中.

4）基于模型融合的方法.

Wu-Stacking^[41]：结合传播学构建了更适合谣言识别的特征集，并将多个基础分类器的预测结果作为新的特征输入到一个元分类器中.

Bagging-BERT(2)^[42]：通过对训练数据进行有放回的随机抽样，生成多个子数据集，然后在每个子数据集上训练一个模型，最后对所有模型的预测结果进行投票或平均的方法，来降低模型方差并提供更稳健的预测.

Geng-Ensemble^[43]：使用3个基于RNN的学习器，为不同的词分配权重，最后通过多数表决来输出结果.

STANKER^[21]：使用2个层级注意力掩码BERT模型作为编码器，利用对言论的评论作为辅助特征，并在低层次的注意力机制中屏蔽了微博内容和评论之间的共同注意力，再将2个LGAM-BERT模型的预测结果作为新的特征输入到一个元分类器.

5）基于对比学习的方法.

PT-HCL^[1]：提出存在一种可迁移的特征类型，并设计了一个分层对比学习框架，能够帮助模型在零样本和少样本场景下的表现，利用该可迁移特征可以更好地检测标签.

ZPTHCL：在PT-HCL框架的基础之上，使用代理任务当中所生成的通义掩码样本对数据集进行扩充，增强通义掩码特征的表达，并且引入对象信息辅助文本，以解决数据增强过程中所带来的噪音问题.

4.3. 实现细节和评价指标

本研究所有实验的机器配置以及环境如下：处理器为AMD Ryzen7 4800H，内存为8 G，显卡为 NVIDIA GeForce RTX 2060，操作系统为Ubuntu 20.04 LTS，所有的代码主要通过Python(3.10)和Pytorch(2.0.0)实现.

所提模型中的参数由Adam优化器进行更新，学习率初始化为2×10⁻⁵，根据源谣言数据集中语言的不同，使用BERT-base-uncase^[29]、BERT-base-chinese^[29]或BERT-base-multilingual-cased^[29]作为训练数据的编码器. 超参数$ \alpha $和$ \beta $均设置为0.5. PT-HCL当中所涉及的3个温度系数采取PTHCL的默认值，分别为0.07、0.07、0.14.

模型SVM-TS^[31]、Ma-RvNN^[36]、GCNN^[37]、Bi-GCN^[17]、BERT^[29]、RoBERTa^[38]、Longformer^[39]、PLAN^[40]、Wu-Stacking^[41]、Bagging-BERT(2)^[42]、Geng-Ensemble^[43]和STANKER^[21]在Ma-Weibo^[31]、Weibo20^[21]、Twitter15^[32]、Twitter16^[32]这4个数据集的分数表现使用对应各模型在STANKER^[21]实验所得到的数据.

模型CNN^[33]、BiLSTM^[34]、CNN-BiLSTM^[35]、Arc1^[22]、Arc2^[22]、Arc3^[22]在Zeo-Weibo数据集当中进行对比实验. 由于源语言为中文，故选用统一的中文预训练词向量^[44]. 变换10次随机种子并对所得分数取均值来作为实验结果.

对于Ma-Weibo^[31]、Weibo20^[21]、Twitter15^[32]、Twitter16^[32]采用与以往谣言检测任务相同的评估指标^[20]，分别为F1分数、召回率R、精准率P和准确度A. 而对于零样本对象谣言数据集Zeo-Weibo而言，由于任务的特殊性，除了使用上述评估指标外，还将它们各自在不同对象数据集所得的均值作为额外的评估指标，表示为Avg-F1、Avg-R、Avg-P、Avg-A，以衡量模型在多个未知对象的谣言数据集中的指标表现. 同时，F1、R、P和A在同一个对象数据集所得的均值作为一个额外的评估指标，表示为Avg-Odataset. 将Avg-F1、Avg-R、Avg-P、Avg-A，进行一个相加取均值的计算，所得的数值称为SCO，主要以此指标来评估模型在数据集Zeo-Weibo中的性能表现.

为了评估本研究所提出的模型的语言泛化能力，将所提模型使用中文数据集Ma-Weibo与英文数据集Twitter15分别进行2次交叉验证，并且采用与RPL-*^[6]相同的指标进行模型语言泛化能力的评估，分别为：准确度A、谣言F1分数（R-F1）、非谣言F1分数（NR-F1）和Macro-F1分数.

为了验证模型是否可以缓解谣言检测模型训练需要大量人工标注的问题，在数据集Ma-Weibo^[31]、Weibo20^[21]、Twitter15^[32]和Twitter16^[32]中分别设置5%、10%、15%、20%的少量实例占比用于模型训练，再利用已训练好的模型对其余大量的实例进行标注. 使用F1分数、召回率、精准率、准确度作为评估指标，以展示模型在数据缺乏标签的情况下的性能.

4.4. 实验结果分析

如表3所示为本研究模型与对比模型在Ma-Weibo^[31]、Weibo20^[21]、Twitter15^[32]、Twitter16^[32]4个数据集当中的性能表现. 表中，加粗的数值为最优的表现分数，“—”表示模型原文中并没有在对应数据集上进行实验. 根据对比可知，所提出的模型在这4个数据集当中的表现最优.

表 3 不同方法在4个谣言检测数据集上的准确度

Tab.3 Accuracy of different methods on four rumor detection data sets %

方法		A
方法		Ma-Weibo	Weibo20	Twitter15	Twitter16
基于机器学习的方法	SVM-TS^[33]	88.46	89.32	73.85	76.46
基于图结构的方法	Ma-RvNN^[38]	94.81	94.31	93.92	92.68
	GCNN^[37]	95.10	93.31	87.21	92.14
	Bi-GCN^[17]	96.12	91.12	95.96	95.15
	UMLARD^[22]	92.80	—	85.70	90.10
基于Transformer 的方法	BERT^[29]	93.03	96.21	96.67	93.20
	RoBERTa^[38]	96.03	96.11	93.56	93.69
	Longformer^[37]	90.84	95.61	90.57	90.78
	PLAN^[38]	92.26	92.56	92.13	94.23
	ToBERT^[23]	98.12	—	—	—
基于模型融合的方法	Wu-Stacking^[41]	93.48	93.52	92.86	92.86
	Bagging-BERT(2)^[40]	96.67	96.68	96.50	96.50
	Geng-Ensemble^[43]	95.60	95.67	95.12	95.12
	STANKER^[21]	97.45	97.46	97.17	97.17
基于对比学习的方法	ZPTHCL (本研究)	98.97	98.86	98.89	98.89

如表4所示为所提模型与常用神经网络模型在Zeo-Weibo当中的性能. 表中，w/o cl、w/o au、w/o text分别表示不使用分层对比损失函数、不加入通义掩码样本、不使用对象信息辅助文本. 可以看出，在Avg-F1、Avg-R、Avg-P、Avg-A、SCO上，ZPTHCL在多个对象数据集中，均要优于所引论文中的模型.

表 4 不同方法在Zeo-Weibo数据集上的实验结果

Tab.4 Results of different methods on Zeo-Weibo object rumor detection dataset %

方法	Avg-F1	Avg-R	Avg-P	Avg-A	SCO
CNN^[33]	68.82	76.43	71.71	82.97	74.98
BiLSTM^[34]	70.68	72.02	70.66	76.59	72.48
CNN-BiLSTM^[35]	64.01	66.58	62.84	75.88	67.32
Arc1^[22]	79.64	80.26	79.73	81.58	80.30
Arc2^[22]	76.29	77.99	76.97	82.39	78.41
Arc3^[22]	74.77	77.33	76.40	82.02	77.63
BERT^[29]	85.24	87.09	83.90	85.39	85.40
PT-HCL^[12]	85.35	85.09	86.39	84.88	85.43
ZPTHCL (本研究)	87.58	87.25	88.24	87.13	87.55

如表5所示为所提模型通过对中文数据集Ma-Weibo^[31]的学习，将所习得的知识迁移至英文数据集Twitter16^[32]的语言泛化能力. 如表6所示为所提模型通过对英文数据集Twitter16^[32]的学习，将所习得的知识迁移至中文数据集Ma-Weibo^[31]的语言泛化能力. 可以看出，所提模型相较PT-HCL^[1]以及其他消融模型具有更强的语言泛化能力，但总体的性能表现还有一定的优化空间，可设计更好的对象辅助文本来对模型性能进行进一步的优化.

表 5 由中文训练集至英文测试集上的谣言检测结果

Tab.5 Rumor detection results from Chinese training dataset to English test dataset %

方法	A	Mac-F1	R-F1	NR-F1
PT-HCL^[12]	49.88	48.39	57.14	39.64
ZPTHCL(本研究)	56.51	53.60	41.97	65.23
w/o cl	51.35	50.08	42.11	58.05
w/o au	53.81	53.18	47.78	58.59
w/o text	54.05	53.87	56.81	50.92

表 6 由英文训练集至中文测试集上的谣言检测结果

Tab.6 Rumor detection results from English training dataset to Chinese test dataset %

方法	A	Mac-F1	R-F1	NR-F1
PT-HCL^[12]	50.20	48.33	38.52	58.15
ZPTHCL(本研究)	54.60	50.68	36.77	64.59
w/o cl	51.40	51.33	53.18	49.48
w/o au	52.80	52.11	57.86	46.36
w/o text	48.60	48.25	52.50	44.01

如表7所示为所提模型在数据缺乏标签的情况下的性能. 表中，ρ为数据集数据利用率. 在训练数据利用率为5%，即训练数据只有Ma-Weibo数据集总样本的5%时，模型对其余数据的标注准确度便已达到了94.70%；当训练数据只有Ma-Weibo数据集总样本的10%、15%、20%时，模型对其余数据的标注准确度分别达到了96.74%、97.53%和98.33%. 设置相同的方法，也在数据集Weibo20、Twitter15和Twitter16上进行实验，同样可以达到较好的效果. 故此处实验验证了本研究所提模型可以在较大程度上缓解谣言检测模型训练需要大量人工标注的问题.

表 7 ZPTHCL模型在4个谣言检测数据集上缺乏标签的情况下的准确度

Tab.7 Accuracy of ZPTHCL model in absence of labels on four rumor detection datasets %

ρ/%	A
ρ/%	Ma-Weibo	Weibo20	Twitter15	Twitter16
5	94.70	92.00	85.75	74.20
10	96.74	93.78	91.72	88.45
15	97.53	94.14	96.61	94.84
20	98.33	95.31	97.56	96.07

4.5. 消融实验

为了证明模型各个模块的必要性和有效性，进行一系列的消融实验，主要包括以下3个部分：

1) w/o cl. 主要用于验证对比学习在零样本场景下的有效性.

2) w/o au. 主要用于验证往训练集中加入通义掩码样本可否提升模型的泛化能力.

3) w/o text. 主要用于验证对象信息辅助文本缓解数据增强中噪声干扰问题的有效性.

如表8所示为消融实验结果，使用Avg-Odataset和SCO指标进行对比评估，根据图表中的实验结果，结论如下. 1) 当不使用分层对比损失函数时，SCO下降了2.31个百分点. 结果表明，PTHCL的对比损失函数能够在零样本对象谣言检测场景下，让模型有效地利用可迁移的通义掩码特征来检测未知对象的谣言，从而得到未知对象样本更优的表示. 2) 当不加入通义掩码样本时，SCO下降了2.76个百分点. 通义掩码特征是面向未知对象所要学习的重要特征表示，通义掩码样本对训练集的扩充可以增强模型对通义掩码特征的表示学习，并且提高训练数据的利用率，减少过拟合的现象. 3) 当不使用对象信息辅助文本时，SCO下降了1.43个百分点. 由于所设计的代理任务较依赖主题模型所选择的对象相关词，而主题模型所选择的对象相关词并不一定都能满足代理任务在假设上的使用条件. 引入对象信息辅助文本能够对抗数据增强过程中产生的噪声.

表 8 在7个对象数据集上的消融实验结果

Tab.8 Ablation experimental results on seven object datasets %

方法	A
方法	北京	地震	刘翔	美国	日本	死亡	中国
w/o cl	86.36	81.67	78.17	93.54	82.44	92.34	82.18
w/o au	85.56	82.34	77.43	92.96	79.00	91.70	84.51
w/o text	86.32	86.01	75.90	94.22	83.52	93.53	83.32
ZPTHCL(本研究)	86.71	87.64	79.05	94.92	84.93	93.67	95.90

5. 结　语

基于零样本学习的思想提出了零样本对象谣言检测，为应对目前主流模型依赖于大规模人工标注谣言数据的问题提供了初步的新思路. 提出基于对比学习的方法，帮助模型通过迁移学习来进行谣言检测. 实验结果表明，相对已有模型，所提模型在一个基于对象的谣言数据集和Ma-Weibo、Weibo20、Twitter15、Twitter16这4个公开的数据集上取得了更佳的性能，证明了所提模型的可行性和有效性.

不过，在代理任务的流程当中，LDA所选择进行遮盖的相关词并不一定在语义上具有足够的相关性，从而可能导致模型在理解文本意义上出现偏差，最终降低模型在实际应用中的性能和可靠性. 另外，由于对象信息辅助文本需要人为设置，并不能确定此处文本内容的最优设置. 针对此限制，可以结合多种谣言的特征信息，探寻对象信息辅助文本的自动设置并进一步提高谣言检测的性能. 在未来的研究中，将在2个方面继续深入研究：1)优化或探索针对于谣言特征更好的代理任务；2)结合多种信息来进一步提高谣言检测的性能，如多模态信息、传播结构信息、用户信息、外部知识信息等.

参考文献

原文顺序

文献年度倒序

文中引用次数倒序

被引期刊影响因子

[1]

KANTAR M. Social Media Trends [R]. London: Kantar Media, 2019.

[2]

KAPFERER J. Rumeurs-Le plus vieux média du monde [M]// Pari: Editions du Seuil, 1987: 31−33.

[3]

LAROCHELLE H, ERHAN D, BENGIO Y. Zero-data learning of new tasks [C]// Proceedings of the 23rd AAAI Conference on Artificial Intelligence . Chicago: AAAI Press, 2008: 646−651 .

[4]

CHANG M W, RATINOV L, ROTH D, et al. Importance of semantic representation: dataless classification [C]// Proceedings of the 23rd AAAI Conference on Artificial Intelligence. Chicago: AAAI Press, 2008: 830−835.

[5]

LIN H, YI P, MA J, et al. Zero-shot rumor detection with propagation structure via prompt learning [C]// Proceedings of the AAAI Conference on Artificial Intelligence . Washington: AAAI Press, 2023: 5213−5221.

[6]

SONG Y, UPADHYAY S, PENG H, et al

Toward any-language zero-shot topic classification of textual documents

[J]. Artificial Intelligence, 2019, 274 (C): 133- 150

[7]

SONG Y, UPADHYAY S, PENG H, et al. Cross-lingual dataless classification for many languages [C]// Proceedings of the 25th International Joint Conference on Artificial Intelligence . New York: AAAI Press, 2016: 2901−2907.

[8]

GOODFELLOW I, POUGET-ABADIE J, MIRZA M, et al

Generative adversarial networks

[J]. Communications of the ACM, 2020, 63 (11): 139- 44

DOI:10.1145/3422622 [本文引用: 1]

[9]

KINGMA D P, WELLING M. Auto-encoding variational bayes [C]// Proceedings of the International Conference on Learning Representations . Ithaca: ArXiv, 2014: 14−16.

[10]

CHEN T, KORNBLITH S, NOROUZI M, et al. A simple framework for contrastive learning of visual representations [C]// Proceedings of the International Conference on Machine Learning . [s. l. ]: PMLR, 2020: 1597−1607.

[11]

HE K, FAN H, WU Y, et al. Momentum contrast for unsupervised visual representation learning [C]// Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition . Seattle: IEEE, 2020: 9726−9735.

[12]

LIANG B, CHEN Z X, GUI L, et al. Zero-shot stance detection via contrastive learning [C]// Proceedings of the ACM Web Conference. Lyon: ACM, 2022: 2738−2747.

[本文引用: 5]

[13]

VICARIO M D, QUATTROCIOCCHI W, SCALA A, et al

Polarization and fake news: early warning of potential misinformation targets

[J]. ACM Transactions on the Web, 2019, 13 (2): 1- 22

[14]

MEEL P, VISHWAKARMA D K

Fake news, rumor, information pollution in social media and web: a contemporary survey of state-of-the-arts, challenges and opportunities

[J]. Expert Systems with Applications, 2020, 153 (1): 112986

[15]

WANG Z, GUO Y

Rumor events detection enhanced by encoding sentimental information into time series division and word representations

[J]. Neurocomputing, 2020, 397 (2): 224- 243

[16]

KUMAR S, CARLEY K M. Tree LSTMs with convolution units to predict stance and rumor veracity in social media conversations [C]// Proceedings of the 57th annual meeting of the association for computational linguistics . Florence: ACL, 2019: 5047−5058.

[17]

BIAN T, XIAO X, XU T, et al. Rumor detection on social media with bi-directional graph convolutional networks [C]// Proceedings of the AAAI Conference on Artificial Intelligence . New York: AAAI Press, 2020: 546−556.

[本文引用: 4]

[18]

ZHANG Q, LIPANI A, LIANG S, et al. Reply-aided detection of misinformation via bayesian deep learning [C]// Proceedings of the World Wide Web Conference . San Francisco: ACM, 2019: 2333−2343.

[19]

RIEDEL B, AUGENSTEIN I, SPITHOURAKIS G P, et al. A simple but tough-to-beat baseline for the fake news challenge stance detection task [EB/OL]. (2018−05−21). https://doi.org/10.48550/arXiv.1707.03264.

[20]

LU Y J, LI C T. GCAN: graph-aware co-attention networks for explainable fake news detection on social media [C]// Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics . [s. l. ]: ACL, 2020: 505−514.

[21]

RAO D, MIAO X, JIANG Z, et al. STANKER: stacking network based on level-grained attention-masked BERT for rumor detection on social media [C]// Proceedings of the 2021 Conference on Empirical Methods in Natural Language Processing . Online and Punta Cana: ACL, 2021: 3347−3363.

[本文引用: 10]

[22]

CHEN X, ZHOU F, TRAJCEVSKI G, et al

Multi-view learning with distinguishable feature fusion for rumor detection

[J]. Knowledge-Based Systems, 2022, 240 (8): 108085

[本文引用: 12]

[23]

XU Y, GUO J, QIU W, et al. "Comments matter and the more the better!": improving rumor detection with user comments [C]// International Conference on Trust, Security and Privacy in Computing and Communications . Wuhan: IEEE, 2022: 383−390.

[24]

PUSHP P K, SRIVASTAVA M M. Train once, test anywhere: zero-shot learning for text classification [EB/OL]. (2017−12−23). https://doi.org/10.48550/arXiv.1 712.05972.

[25]

陆恒杨, 范晨悠, 吴小俊. 面向网络社交媒体的少样本新冠谣言检测 [J]. 中文信息学报, 2022, 36(1): 135−144.

LU Hengyang, FAN Chenyou, WU Xiaojun. Few-shot COVID-19 rumor detection for online social media [J]. Journal of Chinese Information Processing . 2022, 36(1): 135−144.

[26]

ZHOU H, MA T, RONG H, et al

MDMN: multi-task and domain adaptation based multi-modal network for early rumor detection

[J]. Expert Systems with Applications, 2022, 195 (3): 116517

[27]

RAN H, JIA C. Unsupervised cross-domain rumor detection with contrastive learning and cross-attention [C]// Proceedings of the AAAI Conference on Artificial Intelligence . Washington: AAAI Press, 2023: 13510−13518.

[28]

MA J, GAO W, MITRA P, et al. Detecting rumors from microblogs with recurrent neural networks [C]// Proceedings of the 25th International Joint Conference on Artificial Intelligence . New York: AAAI Press, 2016: 3818−3824.

[29]

DEVLIN J, CHANG M, LEE K, et al. BERT: pre-training of deep bidirectional transformers for language understanding [C]// Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics . Minneapolis: ACL, 2019: 4171−4186.

[本文引用: 13]

[30]

BLEI D M, NG A Y, JORDAN M I

Latent dirichlet allocation

[J]. Journal of Machine Learning Research, 2003, 3 (1): 993- 1022

[31]

MA J, GAO W, WEI Z, et al. Detect rumors using time series of social context information on microblogging websites [C]// Proceedings of the 24th ACM International on Conference on Information and Knowledge Management . Melbourne : ACM , 2015: 1751−1754.

[本文引用: 9]

[32]

MA J, GAO W, WONG K F. Detect rumors in microblog posts using propagation structure via kernel learning [C]// Proceedings of the 55th Annual Meeting of the Association for Computational Linguistics . Vancouver: ACL, 2017: 708−717.

[本文引用: 12]

[33]

LIU Z, WEI Z, ZHANG R

Rumor detection based on convolutional neural network

[J]. Journal of Computer Applications, 2017, 37 (11): 3053

[本文引用: 4]

[34]

SUJANA Y, LI J, KAO H Y. Rumor detection on twitter using multiloss hierarchical bilstm with an attenuation factor [C]// Asian Chapter of the Association for Computational Linguistics . [s. l. ]: ACL, 2020: 18−26.

[35]

RANI N, DAS P, BHARDWAJ A K. A hybrid deep learning model based on CNN-BiLSTM for rumor detection [C]// Proceedings of the 2021 6th International Conference on Communication and Electronics Systems . Coimbatre: IEEE, 2021: 1423−1427.

[36]

MA J, GAO W, JOTY S, et al

An attention-based rumor detection model with tree-structured recursive neural networks

[J]. ACM Transactions on Intelligent Systems and Technology, 2020, 11 (4): 1- 28

[37]

TU K, CHEN C, HOU C, et al

Rumor2vec: a rumor detection framework with joint text and propagation structure representation learning

[J]. Information Sciences, 2021, 560 (1): 137- 151

[本文引用: 4]

[38]

LIU Y, OTT M, GOYAL N, et al. Roberta: a robustly optimized Bert pretraining approach [C]// Proceedings of the 20th Chinese National Conference on Computational Linguistics . Huhhot: Chinese Information Processing Society of China, 2021: 1218−1227.

[本文引用: 5]

[39]

BELTAGY I, PETERS M E, COHAN A. Longformer: the long-document transformer [EB/OL]. [2020-12-02]. https://doi.org/10.48550/arXiv.2004.05150.

[40]

KHOO L M S, CHIEU H L, QIAN Z, et al. Interpretable rumor detection in microblogs by attending to user interactions [C]// Proceedings of the AAAI Conference on Artificial Intelligence . California: AAAI Press, 2020: 8783-8790.

[41]

WU Y, ZENG Y, YANG J, et al

Weibo rumor recognition based on communication and stacking ensemble learning

[J]. Discrete Dynamics in Nature and Society, 2020, 2020: 1- 12

[42]

RISCH J, KRESTEL R. Bagging bert models for robust aggression identification [C]// Proceedings of the Second Workshop on Trolling, Aggression and Cyberbullying . Marseille: ELRA, 2020: 55−61.

[43]

GENG Y, LIN Z, FU P, et al. Rumor detection on social media: a multi-view model using self-attention mechanism [C]// Proceedings of the Computational Science-ICCS 2019: 19th International Conference . Faro: Springer-Verlag, 2019: 339−352.

[44]

LI S, ZHAO Z, HU R, et al. Analogical reasoning on chinese morphological and semantic relations [C]// Proceedings of the 56th Annual Meeting of the Association for Computational Linguistics . Melbourne: ACL, 2018: 138−143.