当前位置: 首页 > 专利查询>安徽大学专利>正文

基于人格的社交网络谣言检测与立场分类方法及系统技术方案

技术编号:34919836 阅读:27 留言:0更新日期:2022-09-15 07:11
本发明专利技术提供基于人格的社交网络谣言检测与立场分类方法及系统,方法包括:收集、整理数据集,将数据集处理成向量形式;在原数据集基础上再爬取用户日常发布的其他推文,处理成人格向量;实现人格识别任务,预测用户的大五人格值;将预处理推文向量通过LSTM共享层进一步训练;实现谣言检测任务,对源推文进行分类,判断是否是谣言;实现立场分类任务,对所有人的回复进行分类。解决了现有技术存在的考虑因素覆盖不够全面以及检测效果较差的技术问题。覆盖不够全面以及检测效果较差的技术问题。覆盖不够全面以及检测效果较差的技术问题。

【技术实现步骤摘要】
基于人格的社交网络谣言检测与立场分类方法及系统


[0001]本专利技术涉及社交数据及舆情处理分析领域,具体涉及基于人格的社交网络谣言检测与立场分类方法及系统。

技术介绍

[0002]现如今,谣言检测和立场分类研究在各个领域都非常重要,并且应用范围十分广泛。尤其是在社交网络中。近年来,社交网络的发展越来越迅速,并且社交网络范围越来越广,使得人们传递消息变得越来越方便。国内外人们都广泛地使用社交平台,例如新浪微博和推特等。“谣言”释义为一种缺乏真实依据,或未经证实、公众一时难以辨别真伪的闲话、传闻或舆论。由于社交网络媒体平台的存在,谣言可以以闪电般的速度产生和传播。部分谣言不仅可能是错误的,甚至会误导和危害公众社会。例如一则“双黄连可抑制新型冠状病毒”的消息在网络上传播,引发公众抢购双黄连口服液。很多人甚至不顾居家隔离的要求,连夜上街排队抢购。从谣言社会心理学的角度来看,这则谣言体现了疫情期间公众的负面情绪、对安慰的寻求以及从众心理等心理类型。但是还是会有一部分人保持理智,不会轻易听信谣言,有自己客观的判断。那么,研究这类人的人格特征是我们关注的一个重点。
[0003]谣言检测的目的是确定关于某个主题的给定声明的真实性。这是一个三分类任务,即谣言可以是真、假或未经验证的。我们在研究如何识别谣言时,不仅关注发帖人的信息,其他用户对于主帖的回复和立场也是很重要的。不同的人有不同的立场,立场不坚定的人就容易相信别人的谣言,立场与谣言检测是有很大关联的,这在很多研究中都得到了论证。立场分类的目的是确定用户对社交网络上特定目标表达的不同态度,这是一个四分类任务,分为支持、否定、质疑和评论。但是现有的谣言检测和立场分类的方法都没有考虑到用户人格的影响因素,所以我们的研究考虑了用户大五人格的影响。
[0004]公开号为CN111159395A的现有专利技术专利申请文献《一种基于图神经网络的谣言立场检测方法、装置和电子设备》中披露的方法包括:获取谣言数据;根据所述谣言数据的特征构建异构图,其中,所述异构图包括多个节点,所述节点用于表示所述谣言数据;将所述异构图输入图神经网络模型,得到对所述节点的立场分类结果,其中,所述立场分类结果是由所述图神经网络模型确定所述节点的目标特征,并根据每个所述节点的目标特征经过分类得到的。该现有专利申请文献中未考虑用户人格的影响因素,该现有技术未完全披露本申请的技术方案,也无法达到本申请的技术效果。
[0005]公开号为CN114491025A的现有专利技术专利申请文献《一种基于写作风格的多任务谣言检测方法、装置及设备》披露的方法包括:获取待检测文本,并确定对应的内容特征以及写作风格特征;在多任务检测模型中,将内容特征输入至基于内容的谣言检测任务模块,得到谣言检测结果;将写作风格特征输入至基于写作风格的谣言检测任务模块,得到谣言检测结果;其中,在训练过程中,基于内容的谣言检测任务模块和基于写作风格的谣言检测任务模块通过共享层进行信息交互。该现有专利文献并未披露本申请的技术方案,也无法达到本申请的技术效果。
[0006]综上,现有技术存在考虑因素覆盖不够全面以及检测效果较差的技术问题。

技术实现思路

[0007]本专利技术所要解决的技术问题在于如何解决现有技术存在的考虑因素覆盖不够全面以及检测效果较差的技术问题。
[0008]本专利技术是采用以下技术方案解决上述技术问题的:基于人格的社交网络谣言检测与立场分类方法包括:
[0009]S1、收集用户对特定事件发布的源推文以及不同用户对源推文的回复立场,预处理源推文及回复立场,以得到推文数据集及立场数据集,据以获得推文及立场数据向量
[0010]S2、根据与推文数据集及立场数据集相关联的用户信息,从社交平台爬取所有用户的推文记录数据,据以处理得到每个用户的大五人格向量
[0011]S3、从推文数据集中查找获取每个用户发布的所有推文及评论,平均值化处理推文及立场数据向量以得到用户输入向量,据以通过预置多层感知器模型MLP预测用户的大五人格分数;
[0012]S4、利用长短期记忆网络LSTM的共享层,根据大五人格分数训练大五人格向量以整合源推文和回复立场的相互影响,据以得到谣言检测表示向量以及立场分类表示向量;
[0013]S5、拼接谣言检测表示向量与对应用户的大五人格向量,以得到谣言人格拼接向量,依次利用多层感知器模型中的长短期记忆网络LSTM的共享层、softmax层及Dence层处理谣言人格拼接向量,据以得到谣言检测结果;
[0014]S6、拼接立场分类表示向量与对应用户的大五人格向量,以得到立场人格拼接向量,依次利用多层感知器模型中的LSTM共享层、softmax层及Dence层对立场人格拼接向量进行立场分类,据以得到立场分类结果。
[0015]本专利技术提供的多任务模型不仅可以进行谣言检测任务,还能对用户评论进行立场分类,还可以对用户人格进行分析。受到多任务学习成功的启发,本专利技术在一个统一的架构中,将谣言检测、立场分类和人格识别三个任务结合在一起训练。不同于现有的模型,本专利技术使谣言检测和立场分类任务独立处理。在本文中,我们提出一个多任务模型,名为PI

RS,结合了长短期记忆网络(LSTM)和多层感知器(MLP)使三个任务共同训练,相互之间影响,不断迭代训练找出最优的参数,得到好的结果。同时,本专利技术通过使用多任务学习的方式,减少了对每个单独任务的过度拟合。
[0016]在更具体的技术方案中,步骤S1包括:
[0017]S11、在预设社交平台上收集源推文及回复立场;
[0018]S12、将源推文预处理为推文文本数据,并利用自然语言工具包(NLTK)标记推文文本;
[0019]S13、利用Google News数据集对推文文本中的每个单词提取预先训练的词嵌入,利用doc2vec得到句向量;
[0020]S14、将收集到的帖子集合表示为P={P1,P2,

,P
n
},其中,P=(C,X,t)表示每个帖子,C表示为一个源推文,X表示为一系列回复推文,t表示发布的时间。
[0021]在更具体的技术方案中,步骤S13中,初始句向量的维度为300。
[0022]在更具体的技术方案中,步骤S2包括:
[0023]S21、根据用户信息爬取当前用户发布的推文记录数据;
[0024]S22、使用LIWC软件分析推文记录数据,据以得到当前用户的五维人格表示向量;
[0025]S23、以下述逻辑标准化处理五维人格表示向量,据以得到人格真实值的五维标签:
[0026][0027]其中
[0028]S24、根据五维标签获取每个用户的大五人格向量
[0029]在更具体的技术方案中,步骤S3包括:
[0030]S31、获取每个用户发布的所有推文及评论,作为分析用户人格输入数据;
[0031]S32、从推文及立场数据向量中获取源推文及回复表示向量:
[003本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.基于人格的社交网络谣言检测与立场分类方法,其特征在于,所述方法包括:S1、收集用户对特定事件发布的源推文以及不同用户对所述源推文的回复立场,预处理所述源推文及所述回复立场,以得到推文数据集及立场数据集,据以获得推文及立场数据向量S2、根据与所述推文数据集及所述立场数据集相关联的用户信息,从社交平台爬取所有所述用户的推文记录数据,据以处理得到每个用户的大五人格向量S3、从所述推文数据集中查找获取每个所述用户发布的所有所述推文及评论,平均值化处理所述推文及立场数据向量以得到用户输入向量,据以通过预置多层感知器模型MLP预测所述用户的大五人格分数;S4、利用长短期记忆网络LSTM的共享层,根据所述大五人格分数训练所述大五人格向量以整合所述源推文和所述回复立场的相互影响,据以得到谣言检测表示向量以及立场分类表示向量;S5、拼接所述谣言检测表示向量与对应用户的所述大五人格向量,以得到谣言人格拼接向量,依次利用所述多层感知器模型中的所述长短期记忆网络LSTM的共享层、softmax层及Dence层处理所述谣言人格拼接向量,据以得到谣言检测结果;S6、拼接所述立场分类表示向量与对应用户的所述大五人格向量,以得到立场人格拼接向量,依次利用所述多层感知器模型中的所述LSTM共享层、所述softmax层及所述Dence层对所述立场人格拼接向量进行立场分类,据以得到立场分类结果。2.根据权利要求1所述的基于人格的社交网络谣言检测与立场分类方法,其特征在于,所述步骤S1包括:S11、在预设社交平台上收集所述源推文及所述回复立场;S12、将所述源推文预处理为推文文本数据,并利用自然语言工具包(NLTK)标记所述推文文本;S13、利用Google News数据集对所述推文文本中的每个单词提取预先训练的词嵌入,利用doc2vec得到句向量;S14、将收集到的帖子集合表示为P={P1,P2,

,P
n
},其中,P=(C,X,t)表示每个帖子,C表示为一个源推文,X表示为一系列回复推文,t表示发布的时间。3.根据权利要求1所述的基于人格的社交网络谣言检测与立场分类方法,其特征在于,所述步骤S13中,初始所述句向量的维度为300。4.根据权利要求1所述的基于人格的社交网络谣言检测与立场分类方法,其特征在于,所述步骤S2包括:S21、根据所述用户信息爬取当前所述用户发布的所述推文记录数据;S22、使用LIWC软件分析所述推文记录数据,据以得到当前所述用户的五维人格表示向量;S23、以下述逻辑标准化处理所述五维人格表示向量,据以得到人格真实值的五维标签:
其中S24、根据所述五维标签获取每个所述用户的所述大五人格向量5.根据权利要求1所述的基于人格的社交网络谣言检测与立场分类方法,其特征在于,所述步骤S3包括:S31、获取每个所述用户发布的所有所述推文及所述评论,作为分析用户人格输入数据;S32、从所述推文及立场数据向量中获取源推文及回复表示向量:p
i
={c
i
,x
(i,1)
,x
(i,2)
,...,x
(i,j)
},i∈[1,n],P∈R
|U|
×
d
其中d表示特征维度,平均值化处理每个用户的所述源推文及回复表示向量,以得到用户人格表示向量:Q=[q1,q2,...,q
u
],u∈U其中,q=mean embedding
k∈U
(p1,p2,...,p
k
),mean embedding是每个用户发布的所有推文向量的平均值,U是用户总数。S33、以所述预置多层感知器模型通过多层感知器MLP处理所述用户人格表示向量,据以得到五维个性评分预测值S34、比较五维个性评分预测值和真实人格特征q

i
,并使用均方误差和平均绝对误差来评估所述预置多层感知器模型。6.根据权利要求4所述的基于人格的社交网络谣言检测与立场分类方法,其特征在于,所述步骤S34包括:S341、以下述逻辑处理得到所述预置多层感知器模型的损失:其中q

i
∈R
|U|
×
d
,d=5并且包括[q
O
,q
C
,q
E
,q
A
,q
N
],q

i
是大五人格的真实值,是大五人格的预测值;S342、根据所述损失评估所述预置多层感知器模型。7.根据权利要求1所述的基于人格的社交网络谣言检测与立场分类方法,其特征在于,所述步骤S4包括:S41、将所述大五人格向量作为输入序列p
i
={c
i
,x
i,1
,x
i,2
,...,x
i,j
},i∈[1,n],p∈R
|U|
×
d
,根据下述逻辑h
t
,t∈[1,n]用反馈边更新输入序列隐层的隐状态:h
t
=f(Rh
t
‑1+Wp
t
+b)其中,h0=0,f(
·
)为非线性函数是一个前馈网络,R、W、b、V为网络参数;S42、以所述长短期记忆网络LSTM引入新内部状态c
t
,以利用下述逻辑传递线性循环消息:h
t
=o
t

【专利技术属性】
技术研发人员:颜登程蔡燕平张以文仲红
申请(专利权)人:安徽大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1