【技术实现步骤摘要】
一种基于动态图注意力网络的虚假信息易感用户识别方法
[0001]本专利技术涉及虚假信息控制领域,特别涉及一种基于动态图注意力网络的虚假信息易感用户识别方法。
技术介绍
[0002]过去十年社交媒体频繁地爆发虚假信息,带来了一系列严重后果,不利于社会的长治久安。目前大多数打击虚假信息的方法集中于虚假信息的内容检测,然而虚假信息的传播范围和影响力取决于宣传它的用户,每一个用户既是互联网信息的消费者也是互联网信息的传播者。互联网用户作为社交网络中的节点,每天都在不断的接受及传播信息,可见,虚假信息的传播主体是用户,用户的背后是现实世界的人。因此,要想控制虚假信息在社交网络中传播,重要的是要主动识别可能会传播虚假信息的用户,而有些用户无意中成为传播虚假信息的节点的原因是自己不验证新闻的真实性就随手传播。本研究将社交网络中随意传播未经验证真实性的信息的自然用户统称为虚假信息易感用户。对虚假信息易感用户的深入了解有助于主动预测传播路径中的节点是否可能进一步传播虚假/辟谣信息,为社交媒体平台的虚假信息的甄别及控制提供解决方法。
[0003]目前大部分研究集中在虚假信息内容的检测上,由于社交媒体的用户数据涉及隐私难以收集,对于传播虚假信息的用户的研究还处于起步阶段。国内外的研究者们大多聚焦于社交网络中的恶意用户、社交机器人、水军的研究,但是,这些研究存在以下两点问题,一是事先认定传播虚假信息的用户是恶意的或者是由软件算法控制的社交机器人,忽略了社交网络中轻易相信虚假信息的用户,二是目前的研究很少涉及用户传播信息的心理动机以及 ...
【技术保护点】
【技术特征摘要】
1.一种基于动态图注意力网络的虚假信息易感用户识别方法,其特征在于,包括以下步骤:步骤1:将社交网络平台中的新闻传播关系图映射为有向图;步骤2:采用深度学习模型识别社交网络中的社交机器人,删除有向图中的社交机器人节点;步骤3:根据用户历史推文、用户基本信息提取四个维度的特征,经过特征筛选及验证整合为用户可信度特征,分别是用户基本特征、情感特征、心理特征以及人格特征;步骤4:使用社交媒体信任计算算法计算用户之间的信任度作为用户的全局信任度;步骤5:计算用户的转发数作为用户的局部信任度;步骤6:采用动态图注意力机制,根据用户之间的信任度计算用户之间的重要性分数,即信任分数;步骤7:将信任分数归一化为0到1之间的数值;步骤8:根据信任度,使用图卷积神经网络成比例地聚合步骤3中提取的用户的可信度,得到携带邻居信任度的邻接矩阵;步骤9:使用前馈神经网络学习携带邻居信息的节点表示;步骤10:使用交叉熵损失函数进行节点分类,输出用户在面对虚假信息时是易感用户/无害用户/辟谣用户的三元分类。2.根据权利要求1所述的一种基于动态图注意力网络的虚假信息易感用户识别方法,其特征在于,所述步骤1包括以下内容:基于公开数据集MinFN包含的十个新闻事件N1‑
N
10
,每个新闻事件都包括一条真新闻和一条假新闻及其传播关系,根据用户传播关系映射为社交网络有向图,有向图中的节点表示传播该条新闻的用户,有向图中的边用来表示用户之间的传播关系,边的方向表示新闻的传递方向。3.根据权利要求2所述的一种基于动态图注意力网络的虚假信息易感用户识别方法,其特征在于,所述步骤2包括以下内容:为消除社交机器人对实验结果的影响,提出一种推文级别的模型,该模型是一种融合了辅助信息的LSTM模型;利用用户账户信息作为辅助输入,再将推文文本分句、分词后通过预训练的BERT模型转换为一组词向量,随后送入LSTM模型,再将输出与辅助信息输入一起拼接送入具有ReLU激活函数的两层全连接神经网络中产生最终的输出,实现社交机器人与自然用户的二元分类,识别出社交机器人用户后删除信息传播网络中的社交机器人节点。4.根据权利要求3所述的一种基于动态图注意力网络的虚假信息易感用户识别方法,其特征在于,所述步骤3包括以下内容:根据用户的基本信息提取出可利用的用户基本特征包括认证状态和注册时长,其中注册时长以特定日期为时间节点,以天为单位计算用户注册时长;情感特征的提取使用情绪强度词典NRC
‑
EIL和程度副词词典,根据用户历史推文将用户情感倾向分为好笑、快乐、悲伤、害怕、不愉快、不在乎、鼓舞、生气八种类型,计算流程包括句子、推文的情感倾向计算,最后对用户整体情感进行分类,具体可以通过以下三个步骤进行用户的情感分数计算:对每个用户的每条推文经过数据预处理、分句并去除停用词后挑选出否定词,根据
NRC
‑
EIL词典和程度副词词典统计每个句子的情感分数,公式如下:Senti_score=(
‑
1)
否定词个数
×
程度值
×
情感词分数得到每一个句子的情感得分后,将一条推文中同一类别的情感词相加,比较这些情感类别的得分大小,取得分的绝对值最大的情感类别作为该条推文的情感倾向,公式如下:Senti
t
=max(|情感类别,sum(情感词分数)|)得到每一条推文的情感倾向后,经过统计后选出用户100条历史推文中情感倾向最多的类别作为该用户的情感倾向,公式如下:式中,n表示推文数量;心理动机特征包括焦虑、不确定、博取关注、参与感四个因素,其中:焦虑因素使用LIWC词典焦虑类别来衡量,其中包括紧张、害怕,通过统计用户推文使用的词涉及LIWC词典中焦虑这一类别的词的个数来衡量用户的焦虑程度;不确定因素同样使用LIWC词典中与不确定性相关的类别计算,通过计算用户推文中涉及不确定性词汇的推文数量及其占比来表示用户的不确定程度;博取关注因素是通过设置观察日期为每个用户发布的推文的最新日期的一个月内,计算用户在这30天内平均发布包括转发的推文的数量,由此推断具有博取关注的心理动机的用户是否会以高频率发文来维持账户的活跃,公式如下:参与感因素是通过计算粉丝关注比来衡量用户的影响力,公式如下:其中,TFF表示粉丝关注比,num
follower
表示某一账号的粉丝数目,num
following
【专利技术属性】
技术研发人员:王剑,彭雨琦,郭世远,庾桂铭,王章全,王京岭,张革,
申请(专利权)人:郑州大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。