浙江大学学报(工学版), 2021, 55(4): 615-625 doi: 10.3785/j.issn.1008-973X.2021.04.003

计算机技术、电信技术

社交网络假消息辟谣作用机理

张玉琪,, 郭斌,, 丁亚三, 刘思聪, 於志文

西北工业大学 计算机学院,陕西 西安 710129

Mechanism of corrections to false information in online social network

ZHANG Yu-qi,, GUO Bin,, DING Ya-san, LIU Si-cong, YU Zhi-wen

School of Computer Science, Northwestern Polytechnical University, Xi’an 710129, China

通讯作者: 郭斌,男,教授. orcid.org/0000-0001-6097-2467. E-mail: guobin.keio@gmail.com

收稿日期: 2021-01-27  

基金资助: 国家重点研发计划资助项目(2019QY0600);国家自然科学基金资助项目(61772428,61725205)

Received: 2021-01-27  

Fund supported: 国家重点研发计划资助项目(2019QY0600);国家自然科学基金资助项目(61772428,61725205)

作者简介 About authors

张玉琪(1998—),女,博士生,从事数据挖掘的研究.orcid.org/0000-0001-8173-3844.E-mail:1347088657@qq.com , E-mail:1347088657@qq.com

摘要

研究真实社交网络环境下假消息辟谣作用机理. 提出评估辟谣效果的方法及探究影响辟谣效果的因素. 基于已有研究成果与假设,总结出8个影响辟谣效果的因素,如原假消息内容占比、是否包含谣言文字警示、是否解释原因、用户影响力等. 使用情感分析和微博社交上下文,评估辟谣微博的辟谣效果. 利用统计学方法,检验预设影响因素与辟谣效果间的关系. 基于新冠疫情相关的辟谣微博数据开展实验,实验分析表明,辟谣信息中原假消息内容占比和辟谣效果呈负相关,解释原因与辟谣效果呈正相关. 提出尽量少地提及原假消息、应解释原假消息错误的原因等6条辟谣建议,为社交网络假消息辟谣提供指导.

关键词: 假消息 ; 辟谣机理 ; 情感分析 ; 社交网络 ; 微博

Abstract

The mechanism of corrections on false information in real social network environments was analyzed. The effect of corrections was evaluated and its influencing factors were explored. Eight factors that affect the effectiveness of correction were summarized based on existing research and our hypotheses, such as the proportion of the original false information, whether it contains text warnings of false information, whether to explain the explanation, user influence, etc.. The effectiveness of correction posts was evaluated by sentiment analysis and the social context of themselves. Statistical methods were used to test the relationship between the pre-determined influencing factors and the effectiveness of correction. The experiment was conducted based on the false information data about COVID-19 epidemic collected from Sina Weibo. Results show that a higher proportion of false information in a correction reduces the effectiveness, and explaining the reason improves the effectiveness. Six conclusions that improve the effectiveness of corrections on social networks were proposed such as mentioning original misinformation less, explaining why original misinformation is wrong. Guidance was provided for related media to correct false information on social network.

Keywords: false information ; mechanism of correction ; sentiment analysis ; social network ; Weibo

PDF (1191KB) 元数据 多维度评价 相关文章 导出 EndNote| Ris| Bibtex  收藏本文

本文引用格式

张玉琪, 郭斌, 丁亚三, 刘思聪, 於志文. 社交网络假消息辟谣作用机理. 浙江大学学报(工学版)[J], 2021, 55(4): 615-625 doi:10.3785/j.issn.1008-973X.2021.04.003

ZHANG Yu-qi, GUO Bin, DING Ya-san, LIU Si-cong, YU Zhi-wen. Mechanism of corrections to false information in online social network. Journal of Zhejiang University(Engineering Science)[J], 2021, 55(4): 615-625 doi:10.3785/j.issn.1008-973X.2021.04.003

社交网络的强便捷性、高传播性及低门槛化为假消息的广泛传播提供了便利[1]. 与真消息相比,假消息具有传播速度快、影响范围广,呈散布型网状拓扑结构等特征[2],给社会造成了极大的负面影响. 2020年1月底以来,有关新型冠状病毒肺炎的假消息在社交网络上广泛传播,为防疫工作有序开展带来了极大的阻碍. 社交网络假消息的有效治理至关重要. 假消息的治理主要分为假消息检测和辟谣两方面. 目前,关于假消息的研究主要集中在假消息的检测,但在假消息辟谣方向上的研究很少. 在计算机领域,为数不多的假消息辟谣研究主要是通过辟谣消息传播模型仿真提出有效的辟谣策略. Nguyen等[3]提出基于贪心策略来最大化辟谣传播范围的方法,Tripathy等[4]建立基于真实数据的辟谣消息的传播模型,但这类研究大多忽略了辟谣机理与受众认知机制. 在心理学和社会学领域,对辟谣机理的研究较深入. Jerit[5]的研究揭示了假消息难以被辟谣的感知因素之一是动机性推理;Bush等[6-7]的研究发现有的放矢的辟谣会给人们带来负面影响,这种效应叫做辟谣的逆火效应. 除此之外,Lewandowsky等[8]基于心理学理论,提出辟谣假消息的有效形式. 以上辟谣机理研究的结论很少在真实的社交网络中被验证. 鉴于此,本文基于真实社交网络数据,探究辟谣效果的影响因素及作用机理. 该研究的挑战如下. 1)缺少完备、可用的探究辟谣影响因素的数据集. 现有的数据集多为用于假消息检测的数据集,不包含假消息辟谣及其作用影响相关数据. 2)目前不存在对社交网络中辟谣有效性的定量评估方法. 3)在社交网络辟谣方面,欠缺可靠的且基于大量数据分析的实践性建议.

针对上述研究的挑战,本文的主要工作和贡献如下. 1)针对新浪微博平台2020年1月18日—2020年3月15日期间的131个重要假消息事件,收集有关微博、用户评论的多模态数据,使用基于已有研究与假设总结出的8个影响辟谣效果的特征,对938条辟谣微博完成特征标注. 2)使用辟谣微博评论的情感分析结果和辟谣微博的社交上下文,评估辟谣效果. 3)使用差异分析和相关分析,检验先前归纳的影响因素与辟谣效果的关系.

1. 相关工作

1.1. 假消息传播干预研究

假消息的传播干预主要分为假消息节点消除、竞争级联和网络监控[9].

假消息节点消除指的是通过辟谣方式对接触过假消息的用户消除假消息负面影响的策略,如由Nguyen等[3]提出的基于贪心策略进行辟谣的方法. 在仿真网络模型中,该贪心算法选择辟谣消息级联的初始用户节点集合,使得辟谣消息传播范围最大化. Tripathy等[4]建立2个基于真实数据的辟谣消息的传播模型:一个模型是在真实生活中辟谣相对假消息传播的时间延迟下的辟谣消息传播模型,另一个是无时间延迟且由官方账号辟谣的辟谣传播模型. 实验结果表明,假消息的生命周期和辟谣的延迟之间存在超线性的关系,在无时间延迟且由官方账号辟谣的条件下,假消息的生命周期减少了至少60%.

竞争级联是指在虚假消息传播的过程中扩大真实消息的传播和假消息进行级联竞争、从而减小假消息负面影响的策略. Budak等[10-11]通过计算影响封锁最大化的目标函数的最佳策略,增强辟谣消息的传播. Farajtabar等[12]提出首个结合强化学习和点过程网络活动模型的多阶段干预框架,对虚假新闻的传播和外部干预行为建模,干预策略随着虚假新闻传播的动态变化而作出调整,将干预活动效果作为奖励函数.

网络监控指的是使用半自动化社交账号或人工账号来拦截可疑来源的假消息的干预策略. 网络监控位置是跨站点传输概率最高且在可疑源用户附近最多有k个用户的站点或分区[13],另一种网络监控位置的寻找方案是基于攻击者和防御者之间的Stackelberg博弈[14]. 结合人工和机器检测的方法,可以提高假消息检测的鲁棒性,因为当机器遗漏了某些假消息时,人工可以发现并封锁这些假消息;当人工检测出现失误时,机器可以弥补这些差错.

1.2. 假消息辟谣机理研究

辟谣信息是对社交网络假消息的揭露和反驳,不同用户对辟谣信息的传播心理和认知水平存在差异. Thorson[15]发现假消息有时很难被更正,即人脑中最初的错误认知内容可能会在记忆中留存较长时间. Lazer等[2]的研究表明,人们一旦相信了假消息,便倾向于接受和自己观点一致的信息而拒绝相悖的信息. 即便是在有的放矢的辟谣中,也可能不会减少受众的认知错误[16]. 此外,辟谣信息表达不当可能会“适得其反”,即产生逆火效应(backfire effect)[6]. Lewandowsky等[8]将逆火效应划分为熟悉-逆火效应、过度-逆火效应和世界观-逆火效应:熟悉-逆火效应指辟谣中提及假消息会使受众对假消息内容更加熟悉,从而更加强错误认知[7];过度-逆火效应指过度地提供辟谣的事实观点,反而会使辟谣效果降低打折扣的现象;世界观-逆火效应指受众的意识形态和世界观会影响辟谣的有效性. 辟谣时应使用令人信服的证据进行解释,强调事实,而不是重复假消息本身内容,同时辟谣信息应尽可能简明扼要、易于理解.

除了心理学和传播学方面的辟谣理论研究外,还有在社交网络上的仿真实验研究. Kim等[17]利用对比试验,探究消息来源及表达方式对人们信息接受程度的影响. 他们发现信息来源可信度高的内容更容易被相信,故事体制的新闻对信息接受度有显著的负面影响,先验知识会让人们更容易相信与自己观念相似的内容. 除此之外,他们分析了信息接受程度对用户阅读、点赞、转发等社交行为的影响,发现人们在自己信服或者和先验知识相符的内容上,更倾向社交参与. 以上结论对研究辟谣有效性的影响因素有重要的启发作用. Bode等[18]研究发现,Facebook平台中恰当地推荐假消息辟谣的内容可以提升辟谣效果,利用仿真Facebook界面对比Facebook算法推荐内容和真实的Facebook用户传播的推文对辟谣效果的影响,试验结果表明发现这2种机制在减小认知错误上的效果相当[19].

综上所述,现有的假消息辟谣工作主要集中于心理学理论研究和仿真实验研究,真实社交网络环境下的假消息辟谣作用机理未得到有效研究.

2. 研究问题定义与数据获取

2.1. 研究问题定义

假消息通常指错误的或不准确的信息,随着社交网络的发展,假消息逐渐出现了多种形式,例如谣言、假新闻、标题党等,如表1所示[20]. 根据消息的意图类型,假消息可以分为误传消息和恶意消息. 误传消息通常是指在事件演化或知识更新过程中产生的、不以误导受众为目的的假消息,有时是无法避免的[21],例如新冠疫情期间,全国各地卫健委每日公布新增确诊病例人数,在人数统计过程中会出现误报、漏报病例,通常会在确认后及时更正. 恶意消息通常指为了达到某种目的而故意误导他人的假消息,例如某些网民在疫情期间造谣“XX市出租车开始停运、高速路口全部封闭”等引起市民恐慌,赚取个人流量. 针对社交网络误传消息和恶意信息的辟谣帖子,分析假消息辟谣的作用机理.

表 1   常见假消息分类表

Tab.1  Common false information classification table

术语 中文描述
误传消息(misinformation) 由于信息不准确或误解,无意识传播的错误信息
恶意消息(disinformation) 被故意传播用来欺骗人们和加强偏见的错误信息
恶搞(hoaxes) 恶作剧地故意用来欺骗人们的错误消息
讽刺新闻
(satirical news)
主要目的是娱乐人们,但脱离语境会产生误解的信息
鼓动(propaganda) 用来影响人们舆论和行为的欺骗性信息,目的常出于政治性或宗教性
标题党(click-bait) 用来吸引流量的低质量报道
谣言(rumor) 人们之间传播的一种说法,并且暂时还没有被认证其真实性

新窗口打开| 下载CSV


此次疫情期间,社交网络中的假消息主要通过官方媒体或者自媒体发布的消息进行辟谣,以微博平台上的辟谣帖子为例,比如在“钟南山院士建议盐水漱口防病毒”的假消息事件中,其中2则辟谣微博如图1所示.

图 1

图 1   辟谣微博示例

Fig.1   Examples of refuting Weibo


图1(a)所示为官方媒体的辟谣帖子,如图1(b)所示为个人账号发表的辟谣帖子.

由于辟谣微博的表达形式差异会导致辟谣效果不同,比如可以从图1看出官方媒体用户发布的辟谣信息会比普通用户发布的辟谣信息的点赞、转发、评论数多,说明影响力大的用户发布的辟谣消息可能传播范围更广,因此探究社交平台辟谣帖子不同特征对辟谣效果的影响,总结出提升辟谣效果的影响因素,为社交网络假消息辟谣提供实操性建议. 获取社交网络数据,基于已有研究假设归纳可能影响辟谣效果的因素并标注,评估辟谣帖子的辟谣效果,分析归纳的辟谣影响因素与辟谣效果间的关系. 工作框架如图2所示.

图 2

图 2   辟谣机理探究框架图

Fig.2   Architecture of exploration on mechanism of correction


2.2. 社交网络数据获取

1)重要假消息事件收集. 由于疫情期间大量低可信度信息在社交网络传播,从2020年2月7日起微博推出了微博小秘书“微博辟谣信息汇总”功能,它被用来总结近日出现的有重大影响力的假消息并对其进行辟谣. 收集2020年2月7日—2020年3月15日微博小秘书辟谣总结中“重要辟谣”部分的假消息事件,在腾讯求真辟谣平台上收集2020年1月18日—2020年2月6日的假消息事件,最终共收集2020年1月18日—3月15日社交网络热议的131个假消息事件原始数据,例如“北京4月6日大学中学开学”、“武汉病毒所女研究生黄燕玲是新冠肺炎零号病人”、“蚊子苍蝇可传播新冠病毒”等.

2)微博与用户评论收集. 使用已收集到的假消息事件的关键词匹配相关的微博及其评论,微博数据及评论的格式分别如表23所示.

表 2   微博数据格式

Tab.2  Data format of post

数据名 描述 类型 数据示例
微博id 微博特有且唯一的标识 字符串 IvZBqpH3O
发布者 发布微博的用户名 文本 微博辟谣
微博正文 微博的文字内容 文本
发布时间 微博的发布时间 时间 2020/2/26 16:09
点赞数 微博被点赞的数目 整数 4315
转发数 微博被转发的数目 整数 1106
评论数 微博被评论的数目 整数 1671

新窗口打开| 下载CSV


表 3   评论数据格式

Tab.3  Data format of comment

数据名 描述 类型 数据示例
用户id 发布评论的用户
唯一的标识
数字串 264384 2782
发布时间 评论发布时间 时间 2020/2/26 1:08:00
评论 评论的内容 文本 湖南日报这个消息已经没有…
点赞数 评论被点赞数 整数 3

新窗口打开| 下载CSV


3)发布者数据收集. 后续用于评估辟谣微博发布者影响力的数据主要包括粉丝数、关注数、互关数、昨日微博数、昨日阅读数和昨日互动数等(将在3.2节详细介绍).

3. 辟谣影响因素标注与辟谣效果评估

3.1. 辟谣影响因素的归纳

基于已有研究理论[7, 22]并提出新的假设,共归纳出8个影响辟谣效果的因素,如表4所示,理论依据分别如下.

表 4   影响辟谣因素归纳表

Tab.4  Summary on influencing factors

理论与假设 说明 归纳的影响辟谣效果的因素
熟悉-逆火效应 辟谣中再次提到假消息,会加深错误认知 原假消息内容占比
过度-逆火效应 过度地辟谣会降低辟谣效果 帖子字数
替代性解释 用令人信服的解释填补假消息被揭穿时心理模型的空缺 “是否包含谣言文字警示”、“是否包含谣言图片警示”、
“是否包含真相图片”、“是否解释原因”
信息来源对辟谣有影响 信息的可信度和影响力对辟谣有促进作用 “来源是否认证用户”以及“来源影响力”

新窗口打开| 下载CSV


1)熟悉-逆火效应指的是辟谣中再次提到假消息会导致人们对假消息记得更牢固的现象. 人们对一个信息越熟悉,越容易接受它是真的,Skurnik等[23]的实验证明,辟谣中提到假消息会加强假消息的影响. 在辟谣中,为了减小这种负面影响,需要更多地去强调事实,而不是假消息,这样人们会更容易记住真相. 以“原假消息内容占比”衡量这一效应.

2)过度-逆火效应指的是过度提供辟谣的事实观点,反而会使辟谣效果降低的现象,因为人们更可能接受容易理解的信息为真[24]. 解决方案是让辟谣内容更加简洁,更容易阅读. 以“帖子字数”衡量这一效应.

3)替代性解释(fill gap with alternative explanation). 当人们听到假消息的时候,他们使用这个假消息建立心理模型. 当假消息被揭穿的时候,他们的心理模型会留下一个空缺. 为了解决该问题,人们更倾向于一个完整但不正确的心理模型,即若缺少更合理充分的解释,人们则会继续相信假消息. 减少假消息影响的有效方式是提供更精准、权威的解释去覆盖假消息,包括为什么该消息是错误的,为什么造谣者要传播该消息. 图片解释比文本解释更有效[25]. Ecker等[26]提出另一种有效的方式是使用明确的谣言警示,图片的谣言警示效果优于文字警示. 本文利用“是否包含谣言文字警示”、“是否包含谣言图片警示”、“是否包含真相图片”、“是否解释原因”,对该影响进行刻画.

4)信息的来源对辟谣效果影响的假设. Kim等[17]研究发现,信息来源可信度高的内容更容易被相信. 本文以“来源是否认证用户”及“来源影响力”,对辟谣效果的影响进行刻画.

3.2. 辟谣影响因素的标注

辟谣影响因素的标注分为以下2部分. 1)对“原假消息内容占比”、“帖子字数”、“是否包含谣言文字警示”、“是否包含谣言图片警示”、“是否包含真相图片”、“是否解释原因”这6个特征进行人工标注,如表5所示(对“是否解释原因”的判断标准是辟谣微博中是否提及原假消息错误原因或者假消息的传播过程).2)确定辟谣微博发布者是否为认证用户以及评估用户影响力.

表 5   人工标注说明

Tab.5  Description of labeling

特征名 标注说明 数据类型 数据示例
微博id 微博的唯一标识 字符串 IqPUS phiw
时间 发布时间 时间 2020/1/23 18:18:00
来源 发布者的昵称 文本 丁香医生
原假消息占比 假消息字数/微博正文总字数 数值 0.824
帖子字数 微博正文总字数 整数 416
是否包含谣言文字警示 首次提及假消息是否警示,比如“谣言”,“不实”等字样 二分类变量 1
是否包含谣言图片警示 是否包含图片的谣言警示 二分类变量 0
是否包含真相图片 是否包含说明真相的图片解释 二分类变量 0
是否解释原因 是否包含文字或图片解释 二分类变量 0

新窗口打开| 下载CSV


考虑到网络上“僵尸粉”与“刷粉市场”的存在,仅仅依靠粉丝数不能准确地衡量用户的影响力,而动态的互动行为更能体现出用户的影响力. 使用2018年新浪微博推出的“昨日影响力”统计功能中的数据,它统计了用户的“昨日发博数”、“昨日阅读数”和“昨日互动数”,可以更真实、准确地反映用户的影响力,含义如下.

昨日发博数:用户最近30天发布的微博在昨天(0点到24点)的阅读数增量.

昨日阅读数:昨日阅读人数是用户最近30天发布的微博在昨天(0点到24点)的阅读人数增量,如果没有发博,阅读人数记为零.

昨日互动数:昨日互动数是指用户发布的内容和用户的粉丝群在昨天(0点到24点)的互动数.

用户的影响力从3个维度进行评估,分别为用户的覆盖度、活跃度、人脉.

覆盖度指发布的博文覆盖的范围,使用“昨日阅读数”来衡量,记作 ${R_i}$.

活跃度指的是用户与粉丝之间互动的活跃程度,使用“昨日互动数”来衡量,记作 ${I_i}$.

人脉指的是用户与其他用户之间的认可程度,使用“互粉数”来衡量,记作 ${C_i}$.

其他的形式化定义如下. 用户影响力记作 ${F_i}$. 昨日发博数记作 ${W_i}$. 昨日平均阅读数: ${R_i}/{W_i}$(若 ${W_i}$为0,则直接取为 ${R_i}$),记作 $R_i^{{\rm{av}}}$. 昨日平均互动数: ${I_i}/{W_i}$(若 ${W_i}$为0,则直接取为 ${I_i}$),记作 $I_i^{{\rm{av}}}$. 用户影响力评估为

$ {I_i} = \alpha R_i^{{\rm{av}}} + \beta I_i^{{\rm{av}}} + \gamma {C_i}. $

由于互动行为在影响力评估中更重要,取 $\alpha = $ $ \;\beta = 0.8$$\gamma = 0.2$. 对人工标注的938条辟谣假消息微博的发布者统计去重,共计491名用户,依据式(1)评估他们的影响力.

3.3. 辟谣效果评估

3.3.1. 问题定义

使用社交上下文来评估假消息辟谣效果,其中社交上下文包括点赞、转发以及用户的评论行为等. Kim等[17]的研究发现,信息接受度对社交媒体中的点赞、转发、正向的评论行为有重要的积极作用,即用户在相信某则信息的情况下更可能产生社交互动行为. 使用社交上下文可以在一定程度上反映出人们对信息的信任程度,根据点赞数、转发数、有效评论中持有积极观点的用户数来评估某条微博的辟谣效果.

形式化定义如下. 点赞数:某条微博的被点赞数,记作 ${L_i}$. 转发数:某条微博的被转发数,记作 ${T_i}$. 有效评论数:与某条微博相关的被评论数,记作 ${M_i}$. 积极程度:某条微博的积极评论在该微博的有效评论数中的占比,记作 ${P_i}$. 辟谣效果:某条微博的辟谣效果,记作 ${E_i}$.

辟谣效果的评估定义为点赞数、转发数以及有效的积极评论数的加权:

${E_i} = \alpha {L_i} + \beta {T_i} + \gamma {M_i}{P_i}.$

依据Kim等[17]的相关工作中信息接受程度与点赞行为、转发行为以及发表支持性观点的行为的相关性,设置 $\alpha = 0.4$$\;\beta = 0.3$$\gamma = 0.3$.

3.3.2. 评论情感分析

辟谣效果的评估需要使用辟谣帖子评论的情感分析结果. 使用SnowNLP对评论进行情感分析. 使用的训练集的分布如下. 积极∶消极为5497∶4503,测试集的情感分布为7∶3. 语料数据格式如表6所示.

表 6   语料数据格式

Tab.6  Data format of corpus

数据名 描述 数据类型 数据示例
微博id 微博唯一的标识 字符串 4231270000000000
评论 原始评论内容 文本 战争的灾难远超你
我的想象……
情感倾向 人工标注的情感分类,0-消极,1-积极 二分类变量 1

新窗口打开| 下载CSV


在模型训练前需要对数据进行预处理. 预处理过程如下. 1)数据清洗:去除英文、数字、表情、网址、特殊字符等杂质信息,但对于话题的标签不进行删除,因为它具有相关的语义信息,可以为情感分析提供辅助. 2)分词:将中文文本分解成具有语义信息的最小单位——词语,本文使用的是Jieba分词,它具有高性能、高准确率、可扩展性的优点. 3)词向量模型训练:使用训练集和测试集通过python的gensim包进行词向量模型训练,词向量维数为300维,在训练时考虑了词语间的共现特征、上下文特征,保留出现频数大于5的词语. 数据预处理的前2步处理过程如表7所示.

表 7   数据预处理过程

Tab.7  Process of data pre-processing

流程 内容
原始文本 {%##%123music}“书中自有黄金屋,书中自有颜如玉”. 沿着岁月的长河跋涉,或是风光旖旎,或是姹紫嫣红.
数据清洗 书中自有黄金屋 书中自有颜如玉 沿着岁月的长河跋涉 或是风光旖旎 或是姹紫嫣红
分词 ['书中','自有','黄金屋','书中','自有','颜如玉','沿着','岁月','的','长河','跋涉','或是','风光旖旎','或是','姹紫嫣红'']

新窗口打开| 下载CSV


下一步是模型训练. 基于语料及预训练的word2vec模型对SnowNLP贝叶斯分类器、SVM以及LSTM进行情感二分类模型训练,训练模型的指标对比如图3所示.

图 3

图 3   模型指标的对比

Fig.3   Comparison of model indicator


贝叶斯分类器的准确率、精确率和F1分数的综合性能优于SVM和LSTM,选用贝叶斯分类器进行情感分类.

在正式对微博评论进行分析前,由于微博评论存在与原微博阐述的事不太相关的内容,需要对和微博内容无关的评论进行清洗,再进行情感分析. 辟谣假消息“日本派遣1 000人医疗队前往武汉”的微博下一些不相关评论的示例如表8所示.

表 8   不相关评论示例

Tab.8  Examples of unrelated comments

评论用户id 评论内容 描述
6094940083 这些造谣的人是怎么想的 没有表达对假消息的观点,只是对造谣的人的批判
3896911115 以色列可能已经在路上 提到的与当前的假消息无关
5133431206 有个在华伊拉克人在说伊拉克··· 提到的不是当前的假消息,而是别的假消息

新窗口打开| 下载CSV


清除无关评论的主要思想是将文本映射到向量空间,计算微博文本与评论文本分别对应的向量之间的余弦相似度.

使用word2vec来生成词向量,因为与经典的向量空间模型相比,word2vec考虑上下文的语义信息且将高维信息映射到低维,解决维度灾难问题,步骤如下. 1)语料处理与word2vec模型训练:对获取的疫情评论数据集进行数据预处理;2)文本向量构建:使用python开源库Jieba对文本进行分词,对词向量进行加权求平均,得到文本向量 ${{v}}(d)$.

${{v}}(d) = \frac{{{{v}}({t_1}){w_1} + {{v}}({t_2}){w_2} + \cdots + {{v}}({t_n}){w_n}}}{{{w_1} + {w_2} + \cdots + {w_n}}}.$

式中: ${t_i}$表示单词, ${w_i}$为该词对应的权重, ${{v}}({t_i})$${t_i}$的词向量.

3)相似度计算:使用余弦距离计算向量之间的相似度:

${\rm{sim}}\;({d_i},{d_j}) = \frac{{\displaystyle\sum _{k = 1}^n{x_{ki}}{x_{kj}}}}{{\sqrt {\displaystyle\sum _{k = 1}^n{x_{ki}}^2} \sqrt {\displaystyle\sum _{k = 1}^n{x_{kj}}^2} }}.$

式中: ${x_{ki}}$为文本向量 ${{v}}({d_i})$中第 $k$维对应的数值.

清洗完无关评论后,使用基于贝叶斯的SnowNLP进行情感分类,流程图如图4所示. 详细步骤如下. 1)评论杂质清洗:去除英文、数字、网址、特殊字符等杂质信息. 2)去除无关评论:选取阈值为0.15,将相似度小于0.15的评论删除. 3)分词 & 去停用词:对保留的评论进行分词,使用SnowNLP自带的停用词表去除停用词. 4)贝叶斯情感分类:输出情感得分,得分≥0.6为积极,反之为消极. 至此完成评论情感分析,根据式(2)完成辟谣效果评估.

图 4

图 4   情感分类流程图

Fig.4   Process of sentiment classification


4. 辟谣效果影响因素分析实验

4.1. 实验方法设置

为了研究预设可能影响辟谣效果的因素与辟谣效果间的关系,采用SPSS软件进行相关分析和差异分析. SPSS的数据分类方法如下.

定类数据:数字的大小表示分类,数字无比较意义,比如性别.

定量数据:数字大小具有比较意义,比如问卷调查的选项“不喜欢”=0,“一般”=1,“喜欢”=2.

依据SPSS数据分类方法,可以对影响辟谣效果的因素和辟谣效果确定数据分类,如表9所示.

表 9   预设影响因素的数据类别

Tab.9  Data category of predefined influencing factors

数据名 数据类型
原假消息内容占比 定量
帖子字数 定量
是否包含谣言文字警示 定类
是否包含谣言图片警示 定类
是否包含真相图片 定类
是否解释原因 定类
来源是否为认证用户 定类
来源影响力 定量
辟谣效果 定量

新窗口打开| 下载CSV


差异分析应用于定类与定量数据间,相关分析应用于定量与定量数据间,由于辟谣效果的正态检验不符合正态分布(正态检验显著性<0.05),所有的方法只可选取非参数检验的方式. 选取合适的方法如表10所示.

表 10   关系分析方法选取

Tab.10  Selected methods for relation analysis

变量名 辟谣效果 选用分析 选用方法
原假消息内容占比 定量 & 定量 相关分析 斯皮尔曼相关系数
帖子字数
来源影响力
是否包含谣言文字警示 定类 & 定量 差异分析 曼-惠特尼秩和检验
是否包含谣言图片警示
是否包含真相图片
是否解释原因
是否为认证用户

新窗口打开| 下载CSV


4.2. 实验结果

差异分析结果如表11所示,当显著水平<0.05时认为该因素对辟谣效果有差异作用,因此谣言文字警示和图片警示对辟谣效果无差异作用,“是否包含真相图片”和“是否认证用户”对辟谣效果不产生影响,只有“是否解释原因”对辟谣效果有差异影响.

表 11   差异分析结果

Tab.11  Results of difference analysis

因素 显著性
是否包含谣言文字警示 0.667
是否包含谣言图片警示 0.604
是否包含真相图片 0.571
是否解释原因 0.018
是否为认证用户 0.418

新窗口打开| 下载CSV


斯皮尔曼相关分析结果如表12所示. 当显著性<0.001时相关性十分显著,相关系数表示相关强弱,相关系数的绝对值越靠近1,相关性越强. 可以发现,帖子字数与辟谣效果间不存在相关性,原假消息内容占比和来源影响力与辟谣效果之间存在显著的弱相关性,且原假消息内容占比越大,辟谣效果越差;来源影响力越强,辟谣效果越好.

表 12   斯皮尔曼相关分析结果

Tab.12  Results of Spearman correlation analysis

因素 相关系数 显著性
原假消息内容占比 −0.131** 0.001
帖子字数 0.033 0.400
来源影响力 0.269** 0.000

新窗口打开| 下载CSV


4.3. 实验讨论

根据先前归纳影响因素的理论基础,谣言警示是为了提醒人们将要提到的信息是错误的,以防止人们强化错误认知. 本文实验发现,谣言警示对辟谣效果没有显著的影响作用,说明不加以提醒人们也能够根据上下文内容对信息的正误作出正确判断. 分析谣言文字警示、图片警示以及包含图片或文字警示的频率分布,如表13所示.

表 13   谣言文字警示、图片警示以及包含图片或文字警示的频率分布

Tab.13  Frequency distributions of posts whether contains warnings of false information in text,graphic or either format,respectively

变量名
是否包含谣言文字警示 0.72 0.28
是否包含谣言图片警示 0.30 0.70
是否包含谣言警示 0.74 0.26

新窗口打开| 下载CSV


表13可以发现,74%的辟谣微博中包含文字警示或图片警示,至少包含文字警示的辟谣微博占到了72%,说明媒体十分注重通过文字警示来吸引人们的眼球,但这对辟谣效果没有显著的促进作用.

“是否包含真相图片”影响因素的确立是因为辟谣会使人们先前的心理模型产生空缺,要提供有效的解释去填补该空缺,且图形化的解释比文字性的解释有效. 本文实验中得出的结论如下. 解释原因会对辟谣效果产生积极影响,但真相图片没有产生预设的影响,结合数据集推断可能是因为辟谣微博中的真相图片大多质量都很低,基本都是对别的辟谣微博的截图、模糊不清的网页截图或聊天截图,没有对真相有说服力的解释,这会使辟谣效果大打折扣,希望相关媒体在以后的社交网络假消息辟谣过程中增加简明、清晰的真相解释图片.

“用户是否认证”这一影响因素的设置基于信息来源的可信度对辟谣效果会产生影响的假设,但本文实验否定了该假设,可能是数据分布不均衡导致的无关性,即辟谣微博的发布者大多是认证用户. “用户是否认证”的分布如图5所示.

图 5

图 5   认证用户的分布

Fig.5   Distribution of verified users


实验表明,“是否解释原因”对辟谣效果有显著的差异作用,如图6所示为解释原因的帖子与未解释原因的帖子在辟谣效果上的差异. 图中,E为取对数后的辟谣效果.

图 6

图 6   是否解释原因的辟谣效果对数分布的对比

Fig.6   Comparison of effectives between posts explaining or not


图6可以看出,未解释原因的辟谣效果集中在效果较差的[0,1.4],解释原因的辟谣微博的辟谣效果多集中在更高的[1.4,5],说明解释原因对辟谣效果具有促进作用,在辟谣中需要更多地解释“为什么假消息是错的”或者假消息被传播的原因,而不是仅仅声明消息是错误的.

实验结果表明,原假消息内容占比与辟谣效果成负相关,信息来源的影响力与辟谣效果成正相关,如图7所示分别为原假消息内容占比P、信息来源影响力IE的关系.

图 7

图 7   原假消息内容占比、信息来源影响力与辟谣效果的关系

Fig.7   Relation between proportion of original false content, source of information and effect of correction respectively


图7(a)可以看出,除去一些离群点,随着原假消息内容占比的增大,辟谣效果对数的范围的下界变得更小,上界随着原假消息内容占比变大一直在递减,这说明原假消息内容占比对辟谣效果有负面影响. 从图7(b)可以看出,随着来源影响力的增强,辟谣效果对数的范围更加集中在效果更好的区域,这说明原假消息内容占比对辟谣效果有积极影响.

探究原假消息内容占比和来源影响力对辟谣效果的共同作用,数据点的大小和颜色以辟谣效果的对数来衡量,数据点越大,辟谣效果越好,如图8所示.

图 8

图 8   原假消息内容占比与来源影响力对辟谣效果共同作用

Fig.8   Combined effect of proportion of original false content and influence of source on effect of correction


图8可以发现,较大的数据点集中在来源影响力较大且原假消息内容占比小于0.4的区域,在相同的原假消息内容占比下,来源影响力越大,辟谣效果越好. 在原假消息内容占比为1,即只声明是假消息、却没有进行任何解释的辟谣微博中,即使在来源影响力比较大的时候,辟谣的效果也很差,说明在辟谣中要尽量降低原假消息内容占比. 通过更加有影响力的官方媒体发声,会有效地提升辟谣效果.

探究时效性对辟谣效果的影响,选取2个事件进行可视化. 第一个假消息事件是“钟南山院士建议盐水漱口防病毒”,对该事件下的辟谣微博的辟谣效果、辟谣数目以及来源影响力随时间的变化进行可视化,如图9所示. 图中,N为辟谣数.

图 9

图 9   辟谣效果、辟谣数目以及来源影响力的时序变化

Fig.9   Temporal changes on effect of correction, number of corrections and influence of source respectively


图9(a)可以看出,早期辟谣的效果优于后期辟谣的效果,结合图9(a)(c)可以发现,尽管最开始,在来源影响力不高的情况下,辟谣效果优于后期来源影响力很高的辟谣效果,说明时效性对辟谣效果的影响很大. 从图9(b)可以发现,辟谣数从一开始较少到中期会出现峰值再到后期下降的趋势,在该事件下前期的辟谣数较少,说明相关媒体报道的及时性需要进一步提高.

选取第2个假消息事件“新加坡拒绝超过116名来自武汉的旅客入境”,在该事件上的数据分析中得到了相似的结论,说明以上结论具有一定的普适性.

4.4. 社交网络假消息辟谣建议总结

根据以上实验结果,对社交网络假消息的辟谣总结出以下6条指导性建议. 1)在辟谣时,不能仅仅声明消息的虚假性,还要解释原因,比如“为什么消息是错误的”、“假消息在开始如何传播起来的”等. 2)图形化的真相解释可能会带来更好的辟谣效果,但目前微博平台的辟谣中真相解释图片质量较低,因此需要提供更简明清晰、有说服力的真相解释图片. 3)原假消息内容占比较高会降低辟谣效果,应该尽量保证假消息的比例小于0.4. 4)来源的影响力会提高辟谣效果,影响力大的媒体应该在假消息辟谣中作为主力军. 5)假消息辟谣的时效性对辟谣效果的影响很大,相关媒体的报道需要把握时机及时报道. 6)假消息的文字警示和图片警示不能显著性提高辟谣效果,相关媒体在辟谣时对此方面不需要过于强调注重.

5. 结 语

本文基于微博上疫情相关假消息的数据集,评估辟谣效果,探究影响辟谣效果的因素. 通过实验分析总结了6条社交网络假消息辟谣的指导性建议,为假消息的有效治理做出参考.

本文工作有很多不足之处:预设的辟谣影响因素可以基于其他心理学理论进一步扩展;还可以更加细粒度地去研究辟谣效果在不同种类的假消息事件上的差别,通过对事件类别的标注来对比不同种类之间辟谣效果的不同以及在不同用户群体上辟谣效果的差别及原因;可以利用用户的个人信息画出用户画像,分析不同的人群特征对辟谣的接受程度的差异. 受众先前的认知会对辟谣接受度有很大的影响,但评估受众先前认知存在不小的挑战,因此进一步研究受众先前认知对辟谣接受度的影响及解决顽固认知错误根除的方法.

参考文献

SHU K, BERNARD H R, LIU H. Studying fake news via network analysis: detection and mitigation[M]// Emerging Research Challenges and Opportunities in Computational Social Network Analysis and Mining. Cham: Springer, 2019: 43–65.

[本文引用: 1]

LAZER D M J, BAUM M A, BENKLER Y, et al

The science of fake news

[J]. Science, 2018, 359 (6380): 1094- 1096

DOI:10.1126/science.aao2998      [本文引用: 2]

NGUYEN N P, YAN G, THAI M T, et al. Containment of misinformation spread in online social networks [C]// Proceedings of the 4th Annual ACM Web Science Conference. Wuhan: ACM, 2012: 213-222.

[本文引用: 2]

TRIPATHY R M, BAGCHI A, MEHTA S, et al. A study of rumor control strategies on social networks [C]// Conference on Information and Knowledge Management. Toronto: ACM, 2010: 1817-1820.

[本文引用: 2]

JERIT J

Partisan perceptual bias and the information environment

[J]. The Journal of Politics, 2012, 74 (3): 672- 684

DOI:10.1017/S0022381612000187      [本文引用: 1]

BUSH J G, JOHNSON H M, SEIFERT C M. The implications of corrections: then why did you mention it [C]// Proceedings of the 16th Annual Conference of the Cognitive Science Society. Atlanta: Elsevier, 1994: 112-117.

[本文引用: 2]

COOK J, LEWANDOWSKY S. The debunking handbook [EB/OL]. (2012-01-23). http: //sks.to/debunk.

[本文引用: 3]

LEWANDOWSKY S, ECKER U K, SEIFERT C M, et al

Misinformation and its correction continued influence and successful debiasing

[J]. Psychological Science in the Public Interest, 2012, 13 (3): 106- 131

DOI:10.1177/1529100612451018      [本文引用: 2]

SHARMA K, QIAN F, JIANG H, et al

Combating fake news: a survey on identification and mitigation techniques

[J]. ACM Transactions on Intelligent Systems and Technology, 2019, 10 (3): 1- 42

[本文引用: 1]

BUDAK C, AGRAWAL D, ABBADI A E, et al. Limiting the spread of misinformation in social networks [C]// Proceedings of the 20th International Conference on World Wide Web. Bangalore: ACM, 2011: 665-674.

[本文引用: 1]

HE X, SONG G, CHEN W, et al. Influence blocking maximization in social networks under the competitive linear threshold model [C]// Proceedings of the 2012 SIAM International Conference on Data Mining. Anaheim: SIAM, 2012: 463-474.

[本文引用: 1]

FARAJTABAR M, YANG J, YE X, et al. Fake news mitigation via point process based intervention [C]// International Conference on Machine Learning. Sydney: ML Research Press, 2017: 1097-1106.

[本文引用: 1]

AMORUSO M, ANELLO D, AULETTA V, et al

Contrasting the spread of misinformation in online social networks

[J]. Journal of Artificial Intelligence Research, 2020, 69: 847- 879

DOI:10.1613/jair.1.11509      [本文引用: 1]

YU S, VOROBEYCHIK Y, ALFELD S, et al. Adversarial classification on social networks [C]// Adaptive Agents and Multi-agents Systems. Stockholm: ACM, 2018: 211-219.

[本文引用: 1]

THORSON E A

Belief echoes: the persistent effects of corrected misinformation

[J]. Political Communication, 2016, 33 (3): 460- 480

DOI:10.1080/10584609.2015.1102187      [本文引用: 1]

NYHAN B, REIFLER J

When corrections fail: the persistence of political misperceptions

[J]. Political Behavior, 2010, 32 (2): 303- 330

DOI:10.1007/s11109-010-9112-2      [本文引用: 1]

KIM A, DENNIS A R. Says who?: how news presentation format influences perceived believability and the engagement level of social media users [C]// Proceedings of the 51st Hawaii International Conference on System Sciences. Hawaii: AIS eLibrary, 2018: 1-11.

[本文引用: 4]

BODE L, VRAGA E K

In related news, that was wrong: the correction of misinformation through related stories functionality in social media

[J]. Journal of Communication, 2015, 65 (4): 619- 638

DOI:10.1111/jcom.12166      [本文引用: 1]

BODE L, VRAGA E K

See something, say something: correction of global health misinformation on social media

[J]. Health Communication, 2018, 33 (9): 1131- 1140

DOI:10.1080/10410236.2017.1331312      [本文引用: 1]

PIERRI F, CERI S

False news on social media: a data-driven survey

[J]. Sigmod Record, 2019, 48 (2): 18- 27

DOI:10.1145/3377330.3377334      [本文引用: 1]

SCHEUFELE D A, KRAUSE N M

Science audiences, misinformation, and fake news

[J]. Proceedings of the National Academy of Sciences of the United States of America, 2019, 116 (16): 7662- 7669

DOI:10.1073/pnas.1805871115      [本文引用: 1]

LEWANDOWSKY S, ECKER U K, COOK J, et al

Beyond misinformation: understanding and coping with the “post-truth” era

[J]. Journal of Applied Research in Memory and Cognition, 2017, 6 (4): 353- 369

DOI:10.1016/j.jarmac.2017.07.008      [本文引用: 1]

SKURNIK I, YOON C, PARK D C, et al

How warnings about false claims become recommendations

[J]. Journal of Consumer Research, 2005, 31 (4): 713- 724

DOI:10.1086/426605      [本文引用: 1]

SCHWARZ N, SANNA L J, SKURNIK I, et al

Metacognitive experiences and the intricacies of setting people straight: implications for debiasing and public information campaigns

[J]. Advances in Experimental Social Psychology, 2007, 39 (6): 127- 161

[本文引用: 1]

NYHAN B, REIFLER J

The roles of information deficits and identity threat in the prevalence of misperceptions

[J]. Journal of Elections, Public opinion and parties, 2019, 29 (2): 222- 244

DOI:10.1080/17457289.2018.1465061      [本文引用: 1]

ECKER U K, LEWANDOWSKY S, TANG D T, et al

Explicit warnings reduce but do not eliminate the continued influence of misinformation

[J]. Memory and Cognition, 2010, 38 (8): 1087- 1100

DOI:10.3758/MC.38.8.1087      [本文引用: 1]

/