基于不确定语义融合的虚假新闻检测方法及系统技术方案

技术编号：38496084 阅读：39 留言：0更新日期：2023-08-15 17:06

本发明专利技术公开一种基于不确定语义融合的虚假新闻检测方法及系统，涉及数据挖掘技术领域，通过获取社交网络中新闻的多模态数据；基于不确定性的模态编码模块从各模态数据中提取特定模态的高阶语义特征；通过变分注意融合模块建模模态间的不确定性，融合多模态特征；基于融合后的多模态特征，利用假新闻分类器得到目标新闻的类别标签。本发明专利技术能够从新闻的不同模态信息中提取更多鲁棒的高阶特征，并进一步有效整合更为可靠的多模态特征，可有效提升多模态假新闻检测的准确率。多模态假新闻检测的准确率。多模态假新闻检测的准确率。

全部详细技术资料下载

【技术实现步骤摘要】
基于不确定语义融合的虚假新闻检测方法及系统

[0001]本专利技术涉及数据挖掘
，具体涉及一种基于不确定语义融合的虚假新闻检测方法及系统。

技术介绍

[0002]近年来，虚假新闻已从传统的纯文本形式演化为多模态形式呈现，与纯文本的虚假信息相比，带有视觉信息的虚假新闻更容易博人眼球，具有更快的传播速度，为网络生态带来了巨大的危害和负面影响，严重影响了社会安定和人们日常生活。因此，如何自动化检测多模态虚假新闻是社交网络分析领域中一个迫切需要的研究课题，有重要的研究意义和现实应用意义。
[0003]多模态信息为识别虚假信息提供了很多互补性的线索，多模态内容理解的两大关键是对多模态特征的提取和融合。首先，在多模态特征提取方面，大多数多模态虚假新闻检测方法借助于预训练模型获取高阶语义特征，但是多模态数据尤其是社交媒体中的多模态数据往往是低质量的、包含很多噪音，造成了图片/文本模态内的语义不确定性。传统的编码器通过点向量难以表征带有固有不确定性的噪声数据，因此，如何鲁棒地提取特定模态的表示，对更好地理解多模态内容具有决定作用。
[0004]其次，虚假新闻发布者可能对任何模态数据进行伪装，导致样本的不同模态间伪装分布存在差异，造成了模态间的不确定性。而在多模态特征融合方面，现有的注意力融合方式基于数据特征，学习一种与模态无关的权重以融合多模态特征，忽略了上述差异的影响。因此，如何合理地建模模态间的不确定性对于有效融合多模态特征至关重要。

技术实现思路

[0005]本专利技术的目的是针对以下两个...

【技术保护点】

【技术特征摘要】
1.一种基于不确定语义融合的虚假新闻检测方法，其特征在于，包括以下步骤：1)获取社交网络中新闻的多模态数据，包括文本和/或图片；2)针对所述多模态数据，构建基于不确定性的模态编码模块，该模态编码模块通过预训练语言模型从输入的模态数据中提取句子表示，并将句子表示映射到预定义维度，再将映射后的句子表示用潜在的高斯分布进行重构，获取模态数据的分布式语义表示；3)针对步骤2)得到的不同模态的分布式语义表示，构建变分注意融合模块，该变分注意融合模块通过采样方式得到跨模态注意向量，再通过加权计算不同模态的特征表示并进行融合；4)针对步骤3)得到的融合后的多模态特征表示，利用虚假新闻分类器进行处理，得到目标新闻的类别标签。2.如权利要求1所述的方法，其特征在于，步骤1)中，对文本和/或图片进行预处理，包括：对文本进行分词处理，生成token字符索引，保留最大序列长度；对图片转换为预设尺寸。3.如权利要求1所述的方法，其特征在于，步骤2)中通过预训练语言模型从输入的模态数据中提取句子表示的表达式如下：x
t
＝BERT({[CLS],w1,
…
,w
n
})其中，x
t
表示句子的表达式，[CLS]表示插入句子开头的特殊字符，w
i
表示输入文本序列的第i个单词，n为文本长度，BERT表示预训练语言模型。4.如权利要求1所述的方法，其特征在于，步骤2)中基于激活函数和预训练语言模型的可训练参数，将句子表示映射到预定义维度。5.如权利要求1所述的方法，其特征在于，步骤2)中将映射后的句子表示用潜在的高斯分布进行重构的表达式如下：其中，p表示重构后的句子表示，z
t
表示重构的分布式表示，s
t
为映射后的句子表示，为高斯分布，μ
t
为高斯分布的均值，σ

【专利技术属性】
技术研发人员：周薇，卫玲蔚，胡斗，虎嵩林，
申请(专利权)人：中国科学院信息工程研究所，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人