一种虚假信息检测系统及检测方法技术方案

技术编号：42827627 阅读：37 留言：0更新日期：2024-09-24 21:03

本发明专利技术公开了一种虚假信息检测系统及检测方法，包括证据选择模块，用于根据声称和每个证据之间的相似度选择最为相关的K个证据；虚假信息检测模块，使用BERT模型对声称和选定的证据进行特征提取，使用掩码注意力网络进行特征融合，输入至一个分类器中进行虚假信息检测；解释生成模块，在虚假信息检测模块判断出声称的真伪之后，解释生成模块根据声称和选定的证据，使用预训练的BART模型生成解释；证据‑声称变分因果推理模块，利用BART模型补充、推理和修改预测结果。本发明专利技术能够在判断社交媒体帖子真实性的同时，提供可靠且合理的解释，并有效捕捉声称和证据之间的复杂关系，进而挖掘关键信息以及舍弃无关信息。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及虚假信息检测，尤其涉及一种虚假信息检测系统及检测方法。

技术介绍

1、在过去的几十年里，越来越多的人在网上发布和阅读新闻，因为社交媒体越来越方便，随着网民数量的增加，社交媒体平台上出现了各种各样的信息数据，然而，由于用户对给定信息的可靠性没有进行评估，信息数据的真实性难以保证，导致重大假新闻的广泛传播，此外，虚假信息的广泛传播，由于其恶意歪曲和捏造事实，对个人和社会都有重大的不利影响。

2、近年来，人们提出了许多识别假新闻的方法。它们基本上可以分为两组：(1)一种是传统的手工制作的基于特征的方法，一般是从帖子内容中获取特征，训练分类器去揭穿虚假信息，然而，虚假信息的内容非常复杂，很难用手工制作的特征完全捕捉到。(2)另一种是基于深度学习的方法，该方法善于利用神经网络获取深度特征，例如，ma等人通过循环神经网络提取帖子的隐藏特征，yu等人利用卷积神经网络来学习潜在的表征，并捕捉虚假信息的高层关系。

3、近年来，随着多媒体技术的飞速发展，对于社交媒体帖子的真实性的检测不单仅局限于简单真假分类，更需要具有支撑性的解释语句来辅助判断。因此，可解释的虚假信息检测(efnd)更进一步，提供对分类的理由，从而提高了过程的透明度和可信度。efnd在预测一个声称(新闻)的真实性的同时，基于多个证据提供了一个简明扼要的解释。为了实现可解释的虚假信息检测，许多方法仅聚焦于报告中的关键词或短语作为解释，缺乏全面和可读的解释语句，且用户倾向于简明一致的解释性陈述。因此，生成式的解释吸引了研究者的关注，他们利用可用的信

技术实现思路

1、本专利技术的一个目的在于提出一种虚假信息检测系统及检测方法，本专利技术能够在判断社交媒体帖子真实性的同时，提供可靠且合理的解释，并有效捕捉声称和证据之间的复杂关系，进而挖掘关键信息以及舍弃无关信息。

2、根据本专利技术实施例的一种虚假信息检测系统，包括：

3、证据选择模块，用于根据声称和每个证据之间的相似度选择最为相关的k个证据；

4、虚假信息检测模型，使用bert模型对声称和选定的证据进行特征提取，使用掩码注意力网络进行特征融合，输入至一个分类器中进行虚假信息检测；

5、解释生成模块，在虚假信息检测模型判断出声称的真伪之后，解释生成模块根据声称和选定的证据，使用预训练的bart模型生成解释；

6、证据-声称变分因果推理模块，利用bart模型补充、推理和修改预测结果。

7、可选的，所述证据选择模块具体包括输入新闻模型：

8、

9、其中，c表示新闻声称，表示k个相关证据；

10、每个新闻声称c建模为一个由n个词组成的序列证据si被视为一个由m个词组成的序列

11、每个词和通过嵌入矩阵we∈rv×d投影为维度为d的向量ci和sj；

12、对每个证据的词特征进行平均池化操作，作为对应证据的特征表示，获得声称特征pc∈rn×d和证据特征ps∈rk×d，其中，n表示声称中的词数，k表示证据的数量，选择与声称最为相关的k个证据，通过计算每个证据与声称中的每个词之间的相似度，并将其映射到一维空间，选择具有最高权重的k个证据，前k个证据的指数u按如下方式计算：

13、

14、u＝topk(mewe,k)；

15、其中，u∈rk、me∈rk×n和we∈rn×l表示可训练的参数，topk表示一种按行的选择操作，选择前k个证据，k表示所选证据数量的超参数；

16、获得与声称最相关的k个证据sk。

17、可选的，所述虚假信息检测模型具体包括判定社交媒体帖子的真实性，包括编码网络和掩码注意力网络。

18、可选的，所述编码网络对于新闻声称c和选定的证据使用双向transformer编码表示bert模型生成包含单词语义和语言上下文的特征；

19、给定新闻声称c，将新闻声称c建模为由单词组成的序列c＝{w1,...wn}，其中，n代表声称中的单词数，再将转换后的特征表示为声称特征其中，对应于第i个单词wi的转换特征，单词表示是通过预训练的bert模型计算得到的：

20、

21、使用bert模型提取证据的文本特征，对于选定的证据输入至bert模型中，并使用[cls]标记的表示作为文本的表示，证据的特征表示通过预训练的bert模型计算得到：

22、

23、其中，ds表示单词嵌入的维度；

24、得到选定证据特征hs表示：

25、

26、可选的，所述掩码注意力网络融合声称和证据的特征，通过掩码注意力网络捕捉声称和证据之间的细粒度关系，发现证据中隐藏的关键信息，所述掩码注意力网络的输入是声称特征hc和选定的证据特征hs，输出是融合后的特征h。

27、掩码注意力网络由两个transformer单元组成，其中一个transformer单元使用hc作为查询q，hs作为键k和值v，使用注意力网络计算声称中的单词与选定证据之间的亲和关联矩阵a1：

28、

29、其中，softmax表示进行softmax操作，和是不同的全连接层，矩阵a1中的每个元素a1[i,j]表示声称中第i个单词对于第j个证据的重要性，

30、引入用于屏蔽声称和证据之间的噪声并保留关键信息的掩码机制，对于亲和关联矩阵a1，将具有较大权重的元素之间的相关性高判定为属于关键信息，而具有较小权重的元素之间的相关性低判定为属于噪声，对亲和关联矩阵a1进行处理：

31、

32、l＝mean(ffn([hc]||[hs]))；

33、其中，l表示权重的阈值，ffn表示双层全连接网络，||表示连接操作；

34、基于修改后的亲和关联矩阵a1，融合特征h1的表示通过以下方式学习得到：

35、

36、h1＝layernorm(h1′+ffn1(h1′))；

37、其中，表示一个全连接层，layernorm表示层归一化，ffn1表示一个两层全连接网络，将非线性变换引入模型中；

38、另一个transformer单元中，将hs作为查询q，hc作为键k和值v，通过上述步骤获得h2；

39、将h1和h2汇聚成两个特征向量，将它们连接成一个特征向量h作为融合表示。

40、可选的，所述解释生成模块还包括解释对输入声称真实性的预测，使用bart模型通过输入声称和选定证据来生成裁决性陈述，将一个任务特定的提示插入到声称中作为模型的输入，并创建了填本文档来自技高网...

【技术保护点】

1.一种虚假信息检测系统，其特征在于，包括：

2.根据权利要求1所述的一种虚假信息检测系统，其特征在于，所述证据选择模块具体包括输入新闻模型：

3.根据权利要求2所述的一种虚假信息检测系统，其特征在于，所述虚假信息检测模型具体包括判定社交媒体帖子的真实性，包括编码网络和掩码注意力网络。

4.根据权利要求3所述的一种虚假信息检测系统，其特征在于，所述编码网络对于新闻声称C和选定的证据使用双向Transformer编码表示BERT模型生成包含单词语义和语言上下文的特征；

5.根据权利要求4所述的一种虚假信息检测系统，其特征在于，所述掩码注意力网络融合声称和证据的特征，通过掩码注意力网络捕捉声称和证据之间的细粒度关系，发现证据中隐藏的关键信息，所述掩码注意力网络的输入是声称特征HC和选定的证据特征HS，输出是融合后的特征H；

6.根据权利要求5所述的一种虚假信息检测系统，其特征在于，所述解释生成模块还包括解释对输入声称真实性的预测，使用BART模型通过输入声称和选定证据来生成裁决性陈述，将一个任务特定的提示插入到声称中作为模型

7.根据权利要求6所述的一种虚假信息检测系统，其特征在于，所述证据-声称变分因果推理模块在SCM中引入了前门路径：

8.如权利要求1-7任一项所述的一种虚假信息检测系统的检测方法，其特征在于，包括以下步骤：

...

【技术特征摘要】

1.一种虚假信息检测系统，其特征在于，包括：

2.根据权利要求1所述的一种虚假信息检测系统，其特征在于，所述证据选择模块具体包括输入新闻模型：

4.根据权利要求3所述的一种虚假信息检测系统，其特征在于，所述编码网络对于新闻声称c和选定的证据使用双向transformer编码表示bert模型生成包含单词语义和语言上下文的特征；

5.根据权利要求4所述的一种虚假信息检测系统，其特征在于，所述掩码注意力网络融合声称和证据的特征，通过掩码注意力网络捕捉声称和证据之间的细粒度关系，发现证据中隐藏的关键信息，所述掩码注意力网络的输入是声称特征hc和选定的证据特征...

【专利技术属性】
技术研发人员：洪日昌，王金光，张超，黄旭东，龙飞，刘硕，滕辉，陈梓钊，李玉垒，
申请(专利权)人：数据空间研究院，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人