System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种虚假信息检测系统及检测方法技术方案_技高网

一种虚假信息检测系统及检测方法技术方案

技术编号:42827627 阅读:23 留言:0更新日期:2024-09-24 21:03
本发明专利技术公开了一种虚假信息检测系统及检测方法,包括证据选择模块,用于根据声称和每个证据之间的相似度选择最为相关的K个证据;虚假信息检测模块,使用BERT模型对声称和选定的证据进行特征提取,使用掩码注意力网络进行特征融合,输入至一个分类器中进行虚假信息检测;解释生成模块,在虚假信息检测模块判断出声称的真伪之后,解释生成模块根据声称和选定的证据,使用预训练的BART模型生成解释;证据‑声称变分因果推理模块,利用BART模型补充、推理和修改预测结果。本发明专利技术能够在判断社交媒体帖子真实性的同时,提供可靠且合理的解释,并有效捕捉声称和证据之间的复杂关系,进而挖掘关键信息以及舍弃无关信息。

【技术实现步骤摘要】

本专利技术涉及虚假信息检测,尤其涉及一种虚假信息检测系统及检测方法


技术介绍

1、在过去的几十年里,越来越多的人在网上发布和阅读新闻,因为社交媒体越来越方便,随着网民数量的增加,社交媒体平台上出现了各种各样的信息数据,然而,由于用户对给定信息的可靠性没有进行评估,信息数据的真实性难以保证,导致重大假新闻的广泛传播,此外,虚假信息的广泛传播,由于其恶意歪曲和捏造事实,对个人和社会都有重大的不利影响。

2、近年来,人们提出了许多识别假新闻的方法。它们基本上可以分为两组:(1)一种是传统的手工制作的基于特征的方法,一般是从帖子内容中获取特征,训练分类器去揭穿虚假信息,然而,虚假信息的内容非常复杂,很难用手工制作的特征完全捕捉到。(2)另一种是基于深度学习的方法,该方法善于利用神经网络获取深度特征,例如,ma等人通过循环神经网络提取帖子的隐藏特征,yu等人利用卷积神经网络来学习潜在的表征,并捕捉虚假信息的高层关系。

3、近年来,随着多媒体技术的飞速发展,对于社交媒体帖子的真实性的检测不单仅局限于简单真假分类,更需要具有支撑性的解释语句来辅助判断。因此,可解释的虚假信息检测(efnd)更进一步,提供对分类的理由,从而提高了过程的透明度和可信度。efnd在预测一个声称(新闻)的真实性的同时,基于多个证据提供了一个简明扼要的解释。为了实现可解释的虚假信息检测,许多方法仅聚焦于报告中的关键词或短语作为解释,缺乏全面和可读的解释语句,且用户倾向于简明一致的解释性陈述。因此,生成式的解释吸引了研究者的关注,他们利用可用的信息生成解释内容。过去大多数efnd方法通常独立处理分类和解释,忽视它们之间的内在因果关系。同样的,以相关方式处理分类和解释可以有益于虚假信息检测任务,因为虚假信息的分类可以依赖于高质量的解释。然而,该方法存在较大困难和挑战。因此,如何提供一种虚假信息检测系统及检测方法是本领域技术人员亟需解决的问题。


技术实现思路

1、本专利技术的一个目的在于提出一种虚假信息检测系统及检测方法,本专利技术能够在判断社交媒体帖子真实性的同时,提供可靠且合理的解释,并有效捕捉声称和证据之间的复杂关系,进而挖掘关键信息以及舍弃无关信息。

2、根据本专利技术实施例的一种虚假信息检测系统,包括:

3、证据选择模块,用于根据声称和每个证据之间的相似度选择最为相关的k个证据;

4、虚假信息检测模型,使用bert模型对声称和选定的证据进行特征提取,使用掩码注意力网络进行特征融合,输入至一个分类器中进行虚假信息检测;

5、解释生成模块,在虚假信息检测模型判断出声称的真伪之后,解释生成模块根据声称和选定的证据,使用预训练的bart模型生成解释;

6、证据-声称变分因果推理模块,利用bart模型补充、推理和修改预测结果。

7、可选的,所述证据选择模块具体包括输入新闻模型:

8、

9、其中,c表示新闻声称,表示k个相关证据;

10、每个新闻声称c建模为一个由n个词组成的序列证据si被视为一个由m个词组成的序列

11、每个词和通过嵌入矩阵we∈rv×d投影为维度为d的向量ci和sj;

12、对每个证据的词特征进行平均池化操作,作为对应证据的特征表示,获得声称特征pc∈rn×d和证据特征ps∈rk×d,其中,n表示声称中的词数,k表示证据的数量,选择与声称最为相关的k个证据,通过计算每个证据与声称中的每个词之间的相似度,并将其映射到一维空间,选择具有最高权重的k个证据,前k个证据的指数u按如下方式计算:

13、

14、u=topk(mewe,k);

15、其中,u∈rk、me∈rk×n和we∈rn×l表示可训练的参数,topk表示一种按行的选择操作,选择前k个证据,k表示所选证据数量的超参数;

16、获得与声称最相关的k个证据sk。

17、可选的,所述虚假信息检测模型具体包括判定社交媒体帖子的真实性,包括编码网络和掩码注意力网络。

18、可选的,所述编码网络对于新闻声称c和选定的证据使用双向transformer编码表示bert模型生成包含单词语义和语言上下文的特征;

19、给定新闻声称c,将新闻声称c建模为由单词组成的序列c={w1,...wn},其中,n代表声称中的单词数,再将转换后的特征表示为声称特征其中,对应于第i个单词wi的转换特征,单词表示是通过预训练的bert模型计算得到的:

20、

21、使用bert模型提取证据的文本特征,对于选定的证据输入至bert模型中,并使用[cls]标记的表示作为文本的表示,证据的特征表示通过预训练的bert模型计算得到:

22、

23、其中,ds表示单词嵌入的维度;

24、得到选定证据特征hs表示:

25、

26、可选的,所述掩码注意力网络融合声称和证据的特征,通过掩码注意力网络捕捉声称和证据之间的细粒度关系,发现证据中隐藏的关键信息,所述掩码注意力网络的输入是声称特征hc和选定的证据特征hs,输出是融合后的特征h。

27、掩码注意力网络由两个transformer单元组成,其中一个transformer单元使用hc作为查询q,hs作为键k和值v,使用注意力网络计算声称中的单词与选定证据之间的亲和关联矩阵a1:

28、

29、其中,softmax表示进行softmax操作,和是不同的全连接层,矩阵a1中的每个元素a1[i,j]表示声称中第i个单词对于第j个证据的重要性,

30、引入用于屏蔽声称和证据之间的噪声并保留关键信息的掩码机制,对于亲和关联矩阵a1,将具有较大权重的元素之间的相关性高判定为属于关键信息,而具有较小权重的元素之间的相关性低判定为属于噪声,对亲和关联矩阵a1进行处理:

31、

32、l=mean(ffn([hc]||[hs]));

33、其中,l表示权重的阈值,ffn表示双层全连接网络,||表示连接操作;

34、基于修改后的亲和关联矩阵a1,融合特征h1的表示通过以下方式学习得到:

35、

36、h1=layernorm(h1′+ffn1(h1′));

37、其中,表示一个全连接层,layernorm表示层归一化,ffn1表示一个两层全连接网络,将非线性变换引入模型中;

38、另一个transformer单元中,将hs作为查询q,hc作为键k和值v,通过上述步骤获得h2;

39、将h1和h2汇聚成两个特征向量,将它们连接成一个特征向量h作为融合表示。

40、可选的,所述解释生成模块还包括解释对输入声称真实性的预测,使用bart模型通过输入声称和选定证据来生成裁决性陈述,将一个任务特定的提示插入到声称中作为模型的输入,并创建了填本文档来自技高网...

【技术保护点】

1.一种虚假信息检测系统,其特征在于,包括:

2.根据权利要求1所述的一种虚假信息检测系统,其特征在于,所述证据选择模块具体包括输入新闻模型:

3.根据权利要求2所述的一种虚假信息检测系统,其特征在于,所述虚假信息检测模型具体包括判定社交媒体帖子的真实性,包括编码网络和掩码注意力网络。

4.根据权利要求3所述的一种虚假信息检测系统,其特征在于,所述编码网络对于新闻声称C和选定的证据使用双向Transformer编码表示BERT模型生成包含单词语义和语言上下文的特征;

5.根据权利要求4所述的一种虚假信息检测系统,其特征在于,所述掩码注意力网络融合声称和证据的特征,通过掩码注意力网络捕捉声称和证据之间的细粒度关系,发现证据中隐藏的关键信息,所述掩码注意力网络的输入是声称特征HC和选定的证据特征HS,输出是融合后的特征H;

6.根据权利要求5所述的一种虚假信息检测系统,其特征在于,所述解释生成模块还包括解释对输入声称真实性的预测,使用BART模型通过输入声称和选定证据来生成裁决性陈述,将一个任务特定的提示插入到声称中作为模型的输入,并创建了填空模板,给定提示内容P,输入新闻声称C和选定的证据{S1,S2,...SK}并连接成一个整体序列X,将该序列作为输入提供给BART模型,并对BART模型进行优化,生成接近于真实裁决陈述的E={e1,e2,...eo},训练目标是最小化以下负对数似然:

7.根据权利要求6所述的一种虚假信息检测系统,其特征在于,所述证据-声称变分因果推理模块在SCM中引入了前门路径:

8.如权利要求1-7任一项所述的一种虚假信息检测系统的检测方法,其特征在于,包括以下步骤:

...

【技术特征摘要】

1.一种虚假信息检测系统,其特征在于,包括:

2.根据权利要求1所述的一种虚假信息检测系统,其特征在于,所述证据选择模块具体包括输入新闻模型:

3.根据权利要求2所述的一种虚假信息检测系统,其特征在于,所述虚假信息检测模型具体包括判定社交媒体帖子的真实性,包括编码网络和掩码注意力网络。

4.根据权利要求3所述的一种虚假信息检测系统,其特征在于,所述编码网络对于新闻声称c和选定的证据使用双向transformer编码表示bert模型生成包含单词语义和语言上下文的特征;

5.根据权利要求4所述的一种虚假信息检测系统,其特征在于,所述掩码注意力网络融合声称和证据的特征,通过掩码注意力网络捕捉声称和证据之间的细粒度关系,发现证据中隐藏的关键信息,所述掩码注意力网络的输入是声称特征hc和选定的证据特征...

【专利技术属性】
技术研发人员:洪日昌王金光张超黄旭东龙飞刘硕滕辉陈梓钊李玉垒
申请(专利权)人:数据空间研究院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1