一种基于信息对抗学习的社交网络谣言检测方法技术

技术编号:35994356 阅读:91 留言:0更新日期:2022-12-17 23:10
本发明专利技术公开了一种基于信息对抗学习的社交网络谣言检测方法,该方法借助于舆情信息流的分离,分别将舆情信息源和回复评论信息映射到高维词表示空间和句子表示空间,再通过信息对抗网络中生成器以及鉴别器的竞争优化机制,实现了在现实情形中广泛存在不实情感表达和虚假评论背景下的谣言检测,从而在降低模型对于噪声敏感性的同时,有效提高了谣言识别的准确度。确度。确度。

【技术实现步骤摘要】
一种基于信息对抗学习的社交网络谣言检测方法


[0001]本专利技术涉及深度学习及谣言检测
,特别涉及一种基于信息对抗学习的社交网络谣言检测方法。

技术介绍

[0002]线上社交网络上的交互已经成为人们生活必不可少的组成部分,人们通过社交网络获取新闻、知识等,交换对热点事件的看法,分享对人生的感悟,可以说社交网络已经深深嵌入到了现代生活的每个领域之中。摆脱了线下社交对于物理接触的依赖,线上社交网络的出现及兴起极大的提升了交互的效率,降低了信息流通的成本。线上社交网络为信息的传播提供了便利,然而,谣言作为信息的一种特定存在形式,却并没有被排除在外。各种谣言信息在多种社交平台上以一种空前的速度急速扩张,造成了前所未有的恶劣影响。谣言检测相关方法的探索逐渐引起了社会的重视,借助于现代机器学习算法的发展,相关学者提出了一系列基于特征的自动化谣言检测方法。此类方法需要手动搜集大量的特征变量,同时辅以具有针对性设计的模型来对数以十计的特征进行处理。严格来说,此类算法并不能完全归类为自动化谣言检测方法,其仍需大量的人力参与到特征筛选之中。近年来,在深度学习算法快速发展的推动下,数据驱动的方法开始进入了人们的视线。摆脱了对于特征筛选的过分依赖,学者们从时序特征解析、网络结构特征构建及传播树搭建等角度提出了多种基于舆情数据分析的谣言检测框架。然而,此类方法没能对数据本身的复杂性给予更多的关注。需要注意,对于大多数的现实情形,虚假观点和恶意评论广泛存在于舆情事件中,增加了舆情信息内容的复杂性,给基于数据驱动的方法提出了不小的挑战。<br/>
技术实现思路

[0003]考虑到上述现有方法的局限性,本专利技术的目的是提出了一种基于信息对抗学习的社交网络谣言检测方法,该方法实现了在现实情形中广泛存在不实情感表达和虚假评论背景下的谣言检测,从而在降低模型对于噪声敏感性的同时,有效提高了谣言识别的准确度。
[0004]为了实现上述目的,达成对于线上社交网络上的谣言检测,本专利技术通过以下技术方案实现:
[0005]本专利技术做如下定义:
[0006]定义1舆情信息发布源
[0007]舆情信息发布源在本专利技术中是指特定社交网络用户发布的,用来针对某种事件表达自身观点或情感的相关信息。在层级关系上,舆情信息发布源处于信息传播金字塔的顶端,位于所有针对某种事件讨论的起始点。
[0008]定义2回复评论信息
[0009]回复评论信息在本专利技术中指的是社交网络中具有相同关注或兴趣的个体在阅读到舆情信息发布源时,做出的相关回复或情感表达。在层级关系上,回复评论信息组成了信息传播金字塔的基底。
[0010]定义3舆情信息流
[0011]在本专利技术中,单一地从时序递进的角度来理解舆情信息流,并将其定义成依据信息发布时间分布的所有舆情信息组成的一种信息扩散及反应过程。在一个特定的舆情信息流中,所有的信息(包括舆情信息发布源和回复评论信息)都依时序排列。这样,所有的舆情信息流组合起来就构成了待分析舆情事件的整体。
[0012]一种基于信息对抗学习的社交网络谣言检测方法,其特征在于:确定待分析舆情信息所属平台的相关API参数,爬取舆情数据并做细粒度的结构化预处理;然后分离舆情信息流,将舆情信息发布源和回复评论信息分别映射到高维度的词表示以及句子表示空间;再通过构建基于双向门循环神经网络构建的对抗学习生成器,从回复评论数据中提取时序特征,生成对抗信息;接着利用基于卷积神经网络搭建的鉴别器,对舆情信息发布源和生成对抗信息进行鉴别,输出可用于鉴别谣言的特征变量;最后借助于前馈神经网络以及有针对性设计的优化方法,驱动模型持续的提高谣言鉴别准确性。
[0013]本专利技术通过下述技术方案具体实现:
[0014]一种基于信息对抗学习的社交网络谣言检测方法,其特征在于具体步骤为:
[0015]步骤1)确定待检测的社交网络舆情来源,利用相关社交网络提供的API接口爬取网络舆情数据,并对得到的原始舆情数据进行结构化预处理,具体过程为:
[0016]Step1:确定社交平台提供API接口的相关参数,选择支持的编程语言爬取原始舆情数据;
[0017]Step2:删除舆情数据中的完全重复评论、无意义转发、空白推文以及话题标签等无效数据;
[0018]Step3:对舆情数据中的表情图片及情感表达符号进行具象化的文字对应;
[0019]Step4:对社交网络舆情数据中涉及的中文信息进行分词处理,再对中英文信息进行去停用词操作;
[0020]步骤2)分离舆情信息流,得到舆情信息发布源以及对应的回复评论数据,分别采用词嵌入以及句子嵌入方法将舆情信息发布源和回复评论数据映射到高维词表示空间和句子表示空间,作为后续数据分析的基础,具体过程为:
[0021]Step1:从舆情信息流中分离出各舆情事件的信息发布源及对应的回复评论数据;
[0022]Step2:基于SOTA算法,利用WordEmbedding将舆情事件源信息映射到高维词表示空间;
[0023]Step3:以SentenceEmbedding方法为基础,将回复评论数据映射到具有语义关联的高维句子表示空间,同时保持与源信息的对应关系;
[0024]步骤3)提取相关舆情回复评论数据的发布时间,并以之为依据建立舆情反应信息流,以双向门循环神经网络Bi

GRU为基础建立对抗网络的生成器模块,分别提取舆情反应信息流在顺时序方向及逆时序方向的传播特征,并加以融合,从而得到全维度的时序特征表现,再进一步采用反卷积方法,将融合得到的在句子表示空间的特征变量投影到词表示空间,生成对抗信息,具体过程为:
[0025]Step1:提取从舆情事件分离出的回复评论数据,依据其时间依赖关系建立回复评论数据舆情信息流;
[0026]Step2:基于顺时序方向上的依赖关系,将映射后的高维句子空间表示的回复评论
数据依次输入到门循环神经网络GRU,提取正向的积累时序特征,通过下述方法计算:
[0027][0028][0029][0030][0031]其中,h'
n
是正向当前时刻的积累时序特征,W
z
,W
r
和是可学习网络权重参数,h'
n
‑1是上一个时刻的积累时序特征,是当前时刻积累时序特征的备选状态,和分别代表更新门及重置门的当前时刻状态,表示逐乘操作,σ(
·
)代表Sigmoid函数;
[0032]Step3:将高维句子空间表示的回复评论数据按逆时序关系依次排列,输入门循环神经网络GRU,得到逆时序特征的积累表示h'
n
';
[0033]Step4:融合正时序及逆时序的积累特征表示,得到全维度的时序特征表现h
n

[0034]Step5:借助于反卷积方法,将全维度的时序特征表现h
n
投影到词表示空间,其计算方法如下:
[0035]本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于信息对抗学习的社交网络谣言检测方法,其特征在于:确定待分析舆情信息所属平台的相关API参数,爬取舆情数据并做细粒度的结构化预处理;然后分离舆情信息流,将舆情信息发布源和回复评论信息分别映射到高维度的词表示以及句子表示空间;再通过构建基于双向门循环神经网络构建的对抗学习生成器,从回复评论数据中提取时序特征,生成对抗信息;接着利用基于卷积神经网络搭建的鉴别器,对舆情信息发布源和生成对抗信息进行鉴别,输出可用于鉴别谣言的特征变量;最后借助于前馈神经网络以及有针对性设计的优化方法,驱动模型持续的提高谣言鉴别准确性。2.根据权利要求1所述的基于信息对抗学习的社交网络谣言检测方法,其特征在于具体步骤为:步骤1)确定待检测的社交网络舆情来源,利用相关社交网络提供的API接口爬取网络舆情数据,并对得到的原始舆情数据进行结构化预处理;步骤2)分离舆情信息流,得到舆情信息发布源以及对应的回复评论数据,分别采用词嵌入以及句子嵌入方法将舆情信息发布源和回复评论数据映射到高维词表示空间和句子表示空间,作为后续数据分析的基础;步骤3)提取相关舆情回复评论数据的发布时间,并以之为依据建立舆情反应信息流,以双向门循环神经网络Bi

GRU为基础建立对抗网络的生成器模块,分别提取舆情反应信息流在顺时序方向及逆时序方向的传播特征,并加以融合,从而得到全维度的时序特征表现,再进一步采用反卷积方法,将融合得到的在句子表示空间的特征变量投影到词表示空间,生成对抗信息;步骤4)以三个平行放置的深度卷积神经网络CNN为基础搭建对抗网络的鉴别器模块,将生成器生成的对抗信息以及高维词空间映射得到的舆情源信息输入到鉴别器模块,分别分析二元语法、三元语法和四元语法中的语义关系,再使用Max

pooling方法提取最强相关特征作为舆情鉴别的依据;步骤5)分析鉴别器输出的特征变量,将其中的舆情类别指示变量输入到前馈神经网络中,配以Softmax函数将前馈神经网络的输出映射到谣言鉴别的概率空间,定义兼顾对抗网络进化及鉴别精度的损失函数,并以之最小化为优化目标,持续调整网络重点的可学习权重参数。3.根据权利要求2所述的基于信息对抗学习的社交网络谣言检测方法,其特征在于步骤1)的具体过程如下:Step1:确定社交平台提供API接口的相关参数,选择支持的编程语言爬取原始舆情数据;Step2:删除舆情数据中的完全重复评论、无意义转发、空白推文以及话题标签等无效数据;Step3:对舆情数据中的表情图片及情感表达符号进行具象化的文字对应;Step4:对社交网络舆情数据中涉及的中文信息进行分词处理,再对中、英文信息进行去停用词操作。4.根据权利要求2所述的一种基于信息对抗学习的社交网络谣言检测方法,其特征在于步骤2)的具体过程如下:Step1:从舆情信息流中分离出各舆情事件的信息发布源及对应的回复评论数据;
Step2:基于SOTA算法,利用Word Embedding将舆情事件源信息映射到高维词表示空间;Step3:以Sentence Embedding方法为基础,将回复评论数据映射到具有语义关联的高维句子表示空间,同时保持与源信息的对应关系。5.根据权利要求2所述的基于信息对抗学习的社交网络谣言检测方法,其特征在于步骤3)的具体过程如下:Step1:提取从舆情事件分离出的回复评论数据,依据其时间依赖关系建立回复评论数据舆情信...

【专利技术属性】
技术研发人员:朱贺刘琦
申请(专利权)人:河南师范大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1