本发明专利技术公开一种基于不确定语义融合的虚假新闻检测方法及系统,涉及数据挖掘技术领域,通过获取社交网络中新闻的多模态数据;基于不确定性的模态编码模块从各模态数据中提取特定模态的高阶语义特征;通过变分注意融合模块建模模态间的不确定性,融合多模态特征;基于融合后的多模态特征,利用假新闻分类器得到目标新闻的类别标签。本发明专利技术能够从新闻的不同模态信息中提取更多鲁棒的高阶特征,并进一步有效整合更为可靠的多模态特征,可有效提升多模态假新闻检测的准确率。多模态假新闻检测的准确率。多模态假新闻检测的准确率。
【技术实现步骤摘要】
基于不确定语义融合的虚假新闻检测方法及系统
[0001]本专利技术涉及数据挖掘
,具体涉及一种基于不确定语义融合的虚假新闻检测方法及系统。
技术介绍
[0002]近年来,虚假新闻已从传统的纯文本形式演化为多模态形式呈现,与纯文本的虚假信息相比,带有视觉信息的虚假新闻更容易博人眼球,具有更快的传播速度,为网络生态带来了巨大的危害和负面影响,严重影响了社会安定和人们日常生活。因此,如何自动化检测多模态虚假新闻是社交网络分析领域中一个迫切需要的研究课题,有重要的研究意义和现实应用意义。
[0003]多模态信息为识别虚假信息提供了很多互补性的线索,多模态内容理解的两大关键是对多模态特征的提取和融合。首先,在多模态特征提取方面,大多数多模态虚假新闻检测方法借助于预训练模型获取高阶语义特征,但是多模态数据尤其是社交媒体中的多模态数据往往是低质量的、包含很多噪音,造成了图片/文本模态内的语义不确定性。传统的编码器通过点向量难以表征带有固有不确定性的噪声数据,因此,如何鲁棒地提取特定模态的表示,对更好地理解多模态内容具有决定作用。
[0004]其次,虚假新闻发布者可能对任何模态数据进行伪装,导致样本的不同模态间伪装分布存在差异,造成了模态间的不确定性。而在多模态特征融合方面,现有的注意力融合方式基于数据特征,学习一种与模态无关的权重以融合多模态特征,忽略了上述差异的影响。因此,如何合理地建模模态间的不确定性对于有效融合多模态特征至关重要。
技术实现思路
[0005]本专利技术的目的是针对以下两个主要技术问题:一是如何建模不同模态数据固有的数据不确定性,提取更鲁棒的模态特征;二是如何考虑模态伪装分布差异问题,更有效地融合多模态特征;提供一种同时建模模态内和模态间不确定性的虚假新闻检测方法及系统,以提高虚假新闻检测任务的性能。
[0006]为实现上述目的,本专利技术提供的技术方案如下:
[0007]一种基于不确定语义融合的虚假新闻检测方法,包括以下步骤:
[0008]1)获取社交网络中新闻的多模态数据,包括文本和/或图片;
[0009]2)针对所述多模态数据,构建基于不确定性的模态编码模块,该模态编码模块通过预训练语言模型从输入的模态数据中提取句子表示,并将句子表示映射到预定义维度,再将映射后的句子表示用潜在的高斯分布进行重构,获取模态数据的分布式语义表示;
[0010]3)针对步骤2)得到的不同模态的分布式语义表示,构建变分注意融合模块,该变分注意融合模块通过采样方式得到跨模态注意向量,再通过加权计算不同模态的特征表示并进行融合;
[0011]4)针对步骤3)得到的融合后的多模态特征表示,利用虚假新闻分类器进行处理,
得到目标新闻的类别标签。
[0012]优选地,步骤1)中对文本和/或图片进行预处理,包括:对文本进行分词处理,生成token字符索引,保留最大序列长度;对图片转换为预设尺寸。
[0013]优选地,步骤2)中通过预训练语言模型从输入的模态数据中提取句子表示的表达式如下:
[0014]x
t
=BERT({[CLS],w1,...,w
n
})
[0015]其中,x
t
表示句子的表达式,[CLS]表示插入句子开头的特殊字符,w
i
表示输入文本序列的第i个单词,n为文本长度,BERT表示预训练语言模型。
[0016]优选地,步骤2)中基于激活函数和预训练语言模型的可训练参数,将句子表示映射到预定义维度。
[0017]优选地,步骤2)中将映射后的句子表示用潜在的高斯分布进行重构的表达式如下:
[0018][0019]其中,p表示重构后的句子表示,z
t
表示重构的分布式表示,s
t
为映射后的句子表示,为高斯分布,μ
t
为高斯分布的均值,σ
t
为高斯分布的方差,I为单位阵。
[0020]优选地,其中和表示参数独立的多层感知机,θ1和θ2为对应的模型参数。
[0021]优选地,步骤2)中将映射后的句子表示用潜在的高斯分布进行重构后,采用重参数化使模型梯度能被计算,重构后的分布式表示的表达式如下:
[0022]优选地,步骤3)中跨模态注意向量的计算式如下:
[0023][0024][0025]其中,为模态k对应的注意向量,a
k
为正则化后的模态k对应的注意向量,z
k
为模态k的分布式语义表示,为模态k对应的均值;为模态k对应的方差,描述了模态k的相对置信度;k
′
为从集合{v,t}中取值的模态,q
θ
为模态间注意权重的后验分布,t表示文本模态,v表示图片模态。
[0026]优选地,步骤3)中通过加权计算不同模态的特征表示并进行融合的计算式如下:
[0027][0028]其中,W
h
为可训练的参数。
[0029]一种基于不确定语义融合的虚假新闻检测系统,包括:
[0030]数据采集与预处理模块,用于从社交媒体平台获取新闻的多模态数据,包括文本和/或图片;
[0031]模态编码模块,用于针对多模态数据,通过预训练语言模型提取句子表示,并将句子表示映射到预定义维度,再将映射后的句子表示用潜在的高斯分布进行重构,获取多模
态数据的分布式语义表示;
[0032]变分注意融合模块,用于针对不同模态下的分布式语义表示,通过采样方式得到跨模态注意向量,通过加权计算不同模态的特征表示并进行融合;
[0033]虚假新闻分类模块,用于利用虚假新闻分类器对融合的多模态特征表示进行处理,预测目标新闻的类别标签。
[0034]本专利技术的技术方案具有以下优点:
[0035]本专利技术在多模态特征提取方面,通过特征正则的方式建模特定模态内固有的不确定性,能够从带有噪声的多模态内容中鲁棒地提取更丰富的特定模态表示,有利于更好地理解特定模态语义信息;本专利技术在多模态特征融合方面,学习了一种与模态伪装分布相关的注意权重估计不同模态的贡献,用以有效融合多模态特征,使得模型能够从更可靠的模态中融合有效信息。本专利技术通过同时建模模态内和模态间不确定性,能够更有效地理解、融合多模态内容,有效提高多模态虚假新闻检测性能,在公开数据集的实验表明,对于微博和Twitter平台,本专利技术分别能够有效提升4.8%和10.2%检测准确率。
附图说明
[0036]图1为本专利技术实施例的基于不确定语义融合的虚假新闻检测方法的流程图;
[0037]图2为本专利技术实施例的基于不确定语义融合的虚假新闻检测系统的结构图。
具体实施方式
[0038]以下结合附图和实施例对本专利技术进行详细说明,需要指出的是,所描述的实施例仅旨在便于对本专利技术的理解,而对其不起任何限定作用。
[0039]图1是本专利技术实施例提供的一种虚假新闻检测方法的流程图,具本文档来自技高网...
【技术保护点】
【技术特征摘要】
1.一种基于不确定语义融合的虚假新闻检测方法,其特征在于,包括以下步骤:1)获取社交网络中新闻的多模态数据,包括文本和/或图片;2)针对所述多模态数据,构建基于不确定性的模态编码模块,该模态编码模块通过预训练语言模型从输入的模态数据中提取句子表示,并将句子表示映射到预定义维度,再将映射后的句子表示用潜在的高斯分布进行重构,获取模态数据的分布式语义表示;3)针对步骤2)得到的不同模态的分布式语义表示,构建变分注意融合模块,该变分注意融合模块通过采样方式得到跨模态注意向量,再通过加权计算不同模态的特征表示并进行融合;4)针对步骤3)得到的融合后的多模态特征表示,利用虚假新闻分类器进行处理,得到目标新闻的类别标签。2.如权利要求1所述的方法,其特征在于,步骤1)中,对文本和/或图片进行预处理,包括:对文本进行分词处理,生成token字符索引,保留最大序列长度;对图片转换为预设尺寸。3.如权利要求1所述的方法,其特征在于,步骤2)中通过预训练语言模型从输入的模态数据中提取句子表示的表达式如下:x
t
=BERT({[CLS],w1,
…
,w
n
})其中,x
t
表示句子的表达式,[CLS]表示插入句子开头的特殊字符,w
i
表示输入文本序列的第i个单词,n为文本长度,BERT表示预训练语言模型。4.如权利要求1所述的方法,其特征在于,步骤2)中基于激活函数和预训练语言模型的可训练参数,将句子表示映射到预定义维度。5.如权利要求1所述的方法,其特征在于,步骤2)中将映射后的句子表示用潜在的高斯分布进行重构的表达式如下:其中,p表示重构后的句子表示,z
t
表示重构的分布式表示,s
t
为映射后的句子表示,为高斯分布,μ
t
为高斯分布的均值,σ
【专利技术属性】
技术研发人员:周薇,卫玲蔚,胡斗,虎嵩林,
申请(专利权)人:中国科学院信息工程研究所,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。