【技术实现步骤摘要】
一种基于信息对抗学习的社交网络谣言检测方法
[0001]本专利技术涉及深度学习及谣言检测
,特别涉及一种基于信息对抗学习的社交网络谣言检测方法。
技术介绍
[0002]线上社交网络上的交互已经成为人们生活必不可少的组成部分,人们通过社交网络获取新闻、知识等,交换对热点事件的看法,分享对人生的感悟,可以说社交网络已经深深嵌入到了现代生活的每个领域之中。摆脱了线下社交对于物理接触的依赖,线上社交网络的出现及兴起极大的提升了交互的效率,降低了信息流通的成本。线上社交网络为信息的传播提供了便利,然而,谣言作为信息的一种特定存在形式,却并没有被排除在外。各种谣言信息在多种社交平台上以一种空前的速度急速扩张,造成了前所未有的恶劣影响。谣言检测相关方法的探索逐渐引起了社会的重视,借助于现代机器学习算法的发展,相关学者提出了一系列基于特征的自动化谣言检测方法。此类方法需要手动搜集大量的特征变量,同时辅以具有针对性设计的模型来对数以十计的特征进行处理。严格来说,此类算法并不能完全归类为自动化谣言检测方法,其仍需大量的人力参与到特征筛选之中。近年来,在深度学习算法快速发展的推动下,数据驱动的方法开始进入了人们的视线。摆脱了对于特征筛选的过分依赖,学者们从时序特征解析、网络结构特征构建及传播树搭建等角度提出了多种基于舆情数据分析的谣言检测框架。然而,此类方法没能对数据本身的复杂性给予更多的关注。需要注意,对于大多数的现实情形,虚假观点和恶意评论广泛存在于舆情事件中,增加了舆情信息内容的复杂性,给基于数据驱动的方法提出了不小的挑战。< ...
【技术保护点】
【技术特征摘要】
1.一种基于信息对抗学习的社交网络谣言检测方法,其特征在于:确定待分析舆情信息所属平台的相关API参数,爬取舆情数据并做细粒度的结构化预处理;然后分离舆情信息流,将舆情信息发布源和回复评论信息分别映射到高维度的词表示以及句子表示空间;再通过构建基于双向门循环神经网络构建的对抗学习生成器,从回复评论数据中提取时序特征,生成对抗信息;接着利用基于卷积神经网络搭建的鉴别器,对舆情信息发布源和生成对抗信息进行鉴别,输出可用于鉴别谣言的特征变量;最后借助于前馈神经网络以及有针对性设计的优化方法,驱动模型持续的提高谣言鉴别准确性。2.根据权利要求1所述的基于信息对抗学习的社交网络谣言检测方法,其特征在于具体步骤为:步骤1)确定待检测的社交网络舆情来源,利用相关社交网络提供的API接口爬取网络舆情数据,并对得到的原始舆情数据进行结构化预处理;步骤2)分离舆情信息流,得到舆情信息发布源以及对应的回复评论数据,分别采用词嵌入以及句子嵌入方法将舆情信息发布源和回复评论数据映射到高维词表示空间和句子表示空间,作为后续数据分析的基础;步骤3)提取相关舆情回复评论数据的发布时间,并以之为依据建立舆情反应信息流,以双向门循环神经网络Bi
‑
GRU为基础建立对抗网络的生成器模块,分别提取舆情反应信息流在顺时序方向及逆时序方向的传播特征,并加以融合,从而得到全维度的时序特征表现,再进一步采用反卷积方法,将融合得到的在句子表示空间的特征变量投影到词表示空间,生成对抗信息;步骤4)以三个平行放置的深度卷积神经网络CNN为基础搭建对抗网络的鉴别器模块,将生成器生成的对抗信息以及高维词空间映射得到的舆情源信息输入到鉴别器模块,分别分析二元语法、三元语法和四元语法中的语义关系,再使用Max
‑
pooling方法提取最强相关特征作为舆情鉴别的依据;步骤5)分析鉴别器输出的特征变量,将其中的舆情类别指示变量输入到前馈神经网络中,配以Softmax函数将前馈神经网络的输出映射到谣言鉴别的概率空间,定义兼顾对抗网络进化及鉴别精度的损失函数,并以之最小化为优化目标,持续调整网络重点的可学习权重参数。3.根据权利要求2所述的基于信息对抗学习的社交网络谣言检测方法,其特征在于步骤1)的具体过程如下:Step1:确定社交平台提供API接口的相关参数,选择支持的编程语言爬取原始舆情数据;Step2:删除舆情数据中的完全重复评论、无意义转发、空白推文以及话题标签等无效数据;Step3:对舆情数据中的表情图片及情感表达符号进行具象化的文字对应;Step4:对社交网络舆情数据中涉及的中文信息进行分词处理,再对中、英文信息进行去停用词操作。4.根据权利要求2所述的一种基于信息对抗学习的社交网络谣言检测方法,其特征在于步骤2)的具体过程如下:Step1:从舆情信息流中分离出各舆情事件的信息发布源及对应的回复评论数据;
Step2:基于SOTA算法,利用Word Embedding将舆情事件源信息映射到高维词表示空间;Step3:以Sentence Embedding方法为基础,将回复评论数据映射到具有语义关联的高维句子表示空间,同时保持与源信息的对应关系。5.根据权利要求2所述的基于信息对抗学习的社交网络谣言检测方法,其特征在于步骤3)的具体过程如下:Step1:提取从舆情事件分离出的回复评论数据,依据其时间依赖关系建立回复评论数据舆情信...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。