System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术涉及虚假信息检测,尤其涉及一种虚假信息检测系统及检测方法。
技术介绍
1、在过去的几十年里,越来越多的人在网上发布和阅读新闻,因为社交媒体越来越方便,随着网民数量的增加,社交媒体平台上出现了各种各样的信息数据,然而,由于用户对给定信息的可靠性没有进行评估,信息数据的真实性难以保证,导致重大假新闻的广泛传播,此外,虚假信息的广泛传播,由于其恶意歪曲和捏造事实,对个人和社会都有重大的不利影响。
2、近年来,人们提出了许多识别假新闻的方法。它们基本上可以分为两组:(1)一种是传统的手工制作的基于特征的方法,一般是从帖子内容中获取特征,训练分类器去揭穿虚假信息,然而,虚假信息的内容非常复杂,很难用手工制作的特征完全捕捉到。(2)另一种是基于深度学习的方法,该方法善于利用神经网络获取深度特征,例如,ma等人通过循环神经网络提取帖子的隐藏特征,yu等人利用卷积神经网络来学习潜在的表征,并捕捉虚假信息的高层关系。
3、近年来,随着多媒体技术的飞速发展,对于社交媒体帖子的真实性的检测不单仅局限于简单真假分类,更需要具有支撑性的解释语句来辅助判断。因此,可解释的虚假信息检测(efnd)更进一步,提供对分类的理由,从而提高了过程的透明度和可信度。efnd在预测一个声称(新闻)的真实性的同时,基于多个证据提供了一个简明扼要的解释。为了实现可解释的虚假信息检测,许多方法仅聚焦于报告中的关键词或短语作为解释,缺乏全面和可读的解释语句,且用户倾向于简明一致的解释性陈述。因此,生成式的解释吸引了研究者的关注,他们利用可用的信
技术实现思路
1、本专利技术的一个目的在于提出一种虚假信息检测系统及检测方法,本专利技术能够在判断社交媒体帖子真实性的同时,提供可靠且合理的解释,并有效捕捉声称和证据之间的复杂关系,进而挖掘关键信息以及舍弃无关信息。
2、根据本专利技术实施例的一种虚假信息检测系统,包括:
3、证据选择模块,用于根据声称和每个证据之间的相似度选择最为相关的k个证据;
4、虚假信息检测模型,使用bert模型对声称和选定的证据进行特征提取,使用掩码注意力网络进行特征融合,输入至一个分类器中进行虚假信息检测;
5、解释生成模块,在虚假信息检测模型判断出声称的真伪之后,解释生成模块根据声称和选定的证据,使用预训练的bart模型生成解释;
6、证据-声称变分因果推理模块,利用bart模型补充、推理和修改预测结果。
7、可选的,所述证据选择模块具体包括输入新闻模型:
8、
9、其中,c表示新闻声称,表示k个相关证据;
10、每个新闻声称c建模为一个由n个词组成的序列证据si被视为一个由m个词组成的序列
11、每个词和通过嵌入矩阵we∈rv×d投影为维度为d的向量ci和sj;
12、对每个证据的词特征进行平均池化操作,作为对应证据的特征表示,获得声称特征pc∈rn×d和证据特征ps∈rk×d,其中,n表示声称中的词数,k表示证据的数量,选择与声称最为相关的k个证据,通过计算每个证据与声称中的每个词之间的相似度,并将其映射到一维空间,选择具有最高权重的k个证据,前k个证据的指数u按如下方式计算:
13、
14、u=topk(mewe,k);
15、其中,u∈rk、me∈rk×n和we∈rn×l表示可训练的参数,topk表示一种按行的选择操作,选择前k个证据,k表示所选证据数量的超参数;
16、获得与声称最相关的k个证据sk。
17、可选的,所述虚假信息检测模型具体包括判定社交媒体帖子的真实性,包括编码网络和掩码注意力网络。
18、可选的,所述编码网络对于新闻声称c和选定的证据使用双向transformer编码表示bert模型生成包含单词语义和语言上下文的特征;
19、给定新闻声称c,将新闻声称c建模为由单词组成的序列c={w1,...wn},其中,n代表声称中的单词数,再将转换后的特征表示为声称特征其中,对应于第i个单词wi的转换特征,单词表示是通过预训练的bert模型计算得到的:
20、
21、使用bert模型提取证据的文本特征,对于选定的证据输入至bert模型中,并使用[cls]标记的表示作为文本的表示,证据的特征表示通过预训练的bert模型计算得到:
22、
23、其中,ds表示单词嵌入的维度;
24、得到选定证据特征hs表示:
25、
26、可选的,所述掩码注意力网络融合声称和证据的特征,通过掩码注意力网络捕捉声称和证据之间的细粒度关系,发现证据中隐藏的关键信息,所述掩码注意力网络的输入是声称特征hc和选定的证据特征hs,输出是融合后的特征h。
27、掩码注意力网络由两个transformer单元组成,其中一个transformer单元使用hc作为查询q,hs作为键k和值v,使用注意力网络计算声称中的单词与选定证据之间的亲和关联矩阵a1:
28、
29、其中,softmax表示进行softmax操作,和是不同的全连接层,矩阵a1中的每个元素a1[i,j]表示声称中第i个单词对于第j个证据的重要性,
30、引入用于屏蔽声称和证据之间的噪声并保留关键信息的掩码机制,对于亲和关联矩阵a1,将具有较大权重的元素之间的相关性高判定为属于关键信息,而具有较小权重的元素之间的相关性低判定为属于噪声,对亲和关联矩阵a1进行处理:
31、
32、l=mean(ffn([hc]||[hs]));
33、其中,l表示权重的阈值,ffn表示双层全连接网络,||表示连接操作;
34、基于修改后的亲和关联矩阵a1,融合特征h1的表示通过以下方式学习得到:
35、
36、h1=layernorm(h1′+ffn1(h1′));
37、其中,表示一个全连接层,layernorm表示层归一化,ffn1表示一个两层全连接网络,将非线性变换引入模型中;
38、另一个transformer单元中,将hs作为查询q,hc作为键k和值v,通过上述步骤获得h2;
39、将h1和h2汇聚成两个特征向量,将它们连接成一个特征向量h作为融合表示。
40、可选的,所述解释生成模块还包括解释对输入声称真实性的预测,使用bart模型通过输入声称和选定证据来生成裁决性陈述,将一个任务特定的提示插入到声称中作为模型的输入,并创建了填本文档来自技高网...
【技术保护点】
1.一种虚假信息检测系统,其特征在于,包括:
2.根据权利要求1所述的一种虚假信息检测系统,其特征在于,所述证据选择模块具体包括输入新闻模型:
3.根据权利要求2所述的一种虚假信息检测系统,其特征在于,所述虚假信息检测模型具体包括判定社交媒体帖子的真实性,包括编码网络和掩码注意力网络。
4.根据权利要求3所述的一种虚假信息检测系统,其特征在于,所述编码网络对于新闻声称C和选定的证据使用双向Transformer编码表示BERT模型生成包含单词语义和语言上下文的特征;
5.根据权利要求4所述的一种虚假信息检测系统,其特征在于,所述掩码注意力网络融合声称和证据的特征,通过掩码注意力网络捕捉声称和证据之间的细粒度关系,发现证据中隐藏的关键信息,所述掩码注意力网络的输入是声称特征HC和选定的证据特征HS,输出是融合后的特征H;
6.根据权利要求5所述的一种虚假信息检测系统,其特征在于,所述解释生成模块还包括解释对输入声称真实性的预测,使用BART模型通过输入声称和选定证据来生成裁决性陈述,将一个任务特定的提示插入到声称中作为模型
7.根据权利要求6所述的一种虚假信息检测系统,其特征在于,所述证据-声称变分因果推理模块在SCM中引入了前门路径:
8.如权利要求1-7任一项所述的一种虚假信息检测系统的检测方法,其特征在于,包括以下步骤:
...【技术特征摘要】
1.一种虚假信息检测系统,其特征在于,包括:
2.根据权利要求1所述的一种虚假信息检测系统,其特征在于,所述证据选择模块具体包括输入新闻模型:
3.根据权利要求2所述的一种虚假信息检测系统,其特征在于,所述虚假信息检测模型具体包括判定社交媒体帖子的真实性,包括编码网络和掩码注意力网络。
4.根据权利要求3所述的一种虚假信息检测系统,其特征在于,所述编码网络对于新闻声称c和选定的证据使用双向transformer编码表示bert模型生成包含单词语义和语言上下文的特征;
5.根据权利要求4所述的一种虚假信息检测系统,其特征在于,所述掩码注意力网络融合声称和证据的特征,通过掩码注意力网络捕捉声称和证据之间的细粒度关系,发现证据中隐藏的关键信息,所述掩码注意力网络的输入是声称特征hc和选定的证据特征...
【专利技术属性】
技术研发人员:洪日昌,王金光,张超,黄旭东,龙飞,刘硕,滕辉,陈梓钊,李玉垒,
申请(专利权)人:数据空间研究院,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。