【技术实现步骤摘要】
基于人格的社交网络谣言检测与立场分类方法及系统
[0001]本专利技术涉及社交数据及舆情处理分析领域,具体涉及基于人格的社交网络谣言检测与立场分类方法及系统。
技术介绍
[0002]现如今,谣言检测和立场分类研究在各个领域都非常重要,并且应用范围十分广泛。尤其是在社交网络中。近年来,社交网络的发展越来越迅速,并且社交网络范围越来越广,使得人们传递消息变得越来越方便。国内外人们都广泛地使用社交平台,例如新浪微博和推特等。“谣言”释义为一种缺乏真实依据,或未经证实、公众一时难以辨别真伪的闲话、传闻或舆论。由于社交网络媒体平台的存在,谣言可以以闪电般的速度产生和传播。部分谣言不仅可能是错误的,甚至会误导和危害公众社会。例如一则“双黄连可抑制新型冠状病毒”的消息在网络上传播,引发公众抢购双黄连口服液。很多人甚至不顾居家隔离的要求,连夜上街排队抢购。从谣言社会心理学的角度来看,这则谣言体现了疫情期间公众的负面情绪、对安慰的寻求以及从众心理等心理类型。但是还是会有一部分人保持理智,不会轻易听信谣言,有自己客观的判断。那么,研究这类人的人格特征是我们关注的一个重点。
[0003]谣言检测的目的是确定关于某个主题的给定声明的真实性。这是一个三分类任务,即谣言可以是真、假或未经验证的。我们在研究如何识别谣言时,不仅关注发帖人的信息,其他用户对于主帖的回复和立场也是很重要的。不同的人有不同的立场,立场不坚定的人就容易相信别人的谣言,立场与谣言检测是有很大关联的,这在很多研究中都得到了论证。立场分类的目的是确定用户对社交网络上特定 ...
【技术保护点】
【技术特征摘要】
1.基于人格的社交网络谣言检测与立场分类方法,其特征在于,所述方法包括:S1、收集用户对特定事件发布的源推文以及不同用户对所述源推文的回复立场,预处理所述源推文及所述回复立场,以得到推文数据集及立场数据集,据以获得推文及立场数据向量S2、根据与所述推文数据集及所述立场数据集相关联的用户信息,从社交平台爬取所有所述用户的推文记录数据,据以处理得到每个用户的大五人格向量S3、从所述推文数据集中查找获取每个所述用户发布的所有所述推文及评论,平均值化处理所述推文及立场数据向量以得到用户输入向量,据以通过预置多层感知器模型MLP预测所述用户的大五人格分数;S4、利用长短期记忆网络LSTM的共享层,根据所述大五人格分数训练所述大五人格向量以整合所述源推文和所述回复立场的相互影响,据以得到谣言检测表示向量以及立场分类表示向量;S5、拼接所述谣言检测表示向量与对应用户的所述大五人格向量,以得到谣言人格拼接向量,依次利用所述多层感知器模型中的所述长短期记忆网络LSTM的共享层、softmax层及Dence层处理所述谣言人格拼接向量,据以得到谣言检测结果;S6、拼接所述立场分类表示向量与对应用户的所述大五人格向量,以得到立场人格拼接向量,依次利用所述多层感知器模型中的所述LSTM共享层、所述softmax层及所述Dence层对所述立场人格拼接向量进行立场分类,据以得到立场分类结果。2.根据权利要求1所述的基于人格的社交网络谣言检测与立场分类方法,其特征在于,所述步骤S1包括:S11、在预设社交平台上收集所述源推文及所述回复立场;S12、将所述源推文预处理为推文文本数据,并利用自然语言工具包(NLTK)标记所述推文文本;S13、利用Google News数据集对所述推文文本中的每个单词提取预先训练的词嵌入,利用doc2vec得到句向量;S14、将收集到的帖子集合表示为P={P1,P2,
…
,P
n
},其中,P=(C,X,t)表示每个帖子,C表示为一个源推文,X表示为一系列回复推文,t表示发布的时间。3.根据权利要求1所述的基于人格的社交网络谣言检测与立场分类方法,其特征在于,所述步骤S13中,初始所述句向量的维度为300。4.根据权利要求1所述的基于人格的社交网络谣言检测与立场分类方法,其特征在于,所述步骤S2包括:S21、根据所述用户信息爬取当前所述用户发布的所述推文记录数据;S22、使用LIWC软件分析所述推文记录数据,据以得到当前所述用户的五维人格表示向量;S23、以下述逻辑标准化处理所述五维人格表示向量,据以得到人格真实值的五维标签:
其中S24、根据所述五维标签获取每个所述用户的所述大五人格向量5.根据权利要求1所述的基于人格的社交网络谣言检测与立场分类方法,其特征在于,所述步骤S3包括:S31、获取每个所述用户发布的所有所述推文及所述评论,作为分析用户人格输入数据;S32、从所述推文及立场数据向量中获取源推文及回复表示向量:p
i
={c
i
,x
(i,1)
,x
(i,2)
,...,x
(i,j)
},i∈[1,n],P∈R
|U|
×
d
其中d表示特征维度,平均值化处理每个用户的所述源推文及回复表示向量,以得到用户人格表示向量:Q=[q1,q2,...,q
u
],u∈U其中,q=mean embedding
k∈U
(p1,p2,...,p
k
),mean embedding是每个用户发布的所有推文向量的平均值,U是用户总数。S33、以所述预置多层感知器模型通过多层感知器MLP处理所述用户人格表示向量,据以得到五维个性评分预测值S34、比较五维个性评分预测值和真实人格特征q
′
i
,并使用均方误差和平均绝对误差来评估所述预置多层感知器模型。6.根据权利要求4所述的基于人格的社交网络谣言检测与立场分类方法,其特征在于,所述步骤S34包括:S341、以下述逻辑处理得到所述预置多层感知器模型的损失:其中q
′
i
∈R
|U|
×
d
,d=5并且包括[q
O
,q
C
,q
E
,q
A
,q
N
],q
′
i
是大五人格的真实值,是大五人格的预测值;S342、根据所述损失评估所述预置多层感知器模型。7.根据权利要求1所述的基于人格的社交网络谣言检测与立场分类方法,其特征在于,所述步骤S4包括:S41、将所述大五人格向量作为输入序列p
i
={c
i
,x
i,1
,x
i,2
,...,x
i,j
},i∈[1,n],p∈R
|U|
×
d
,根据下述逻辑h
t
,t∈[1,n]用反馈边更新输入序列隐层的隐状态:h
t
=f(Rh
t
‑1+Wp
t
+b)其中,h0=0,f(
·
)为非线性函数是一个前馈网络,R、W、b、V为网络参数;S42、以所述长短期记忆网络LSTM引入新内部状态c
t
,以利用下述逻辑传递线性循环消息:h
t
=o
t
⊙
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。