System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种基于知识增强与语义差的虚假信息识别方法技术_技高网

一种基于知识增强与语义差的虚假信息识别方法技术

技术编号:41297068 阅读:10 留言:0更新日期:2024-05-13 14:45
本发明专利技术提出一种基于知识增强与语义差的虚假信息识别方法,包括如下步骤:通过网络爬虫爬取网络数据,对数据进行预处理得到由真实信息和虚假信息组成的数据集,对数据集进行数据增强,得到增强数据集;从增强数据集中提取信息特征,将信息特征输入表示学习模块中进行BERT预训练、特征拼接、语义差计算和特征融合,得到特征融合表示;将特征融合表示输入BilLSTM深度学习模块进行BilLSTM深度学习深度学习,得到特征语义表示向量;将特征语义表示向量输入自注意力模块进行自注意力机制计算,得到自注意力向量;将自注意力向量输入决策模块通过激活函数进行激活并通过交叉熵损失函数进行学习后,输出分类结果。本发明专利技术提高了对虚假信息识别的准确性和可靠性。

【技术实现步骤摘要】

本专利技术涉及虚假信息识别领域,具体涉及一种基于知识增强与语义差的虚假信息识别方法。背景介绍社交媒体中虚假信息特征是学者们的重点研究对象,在对社交媒体中虚假信息的识别研究方面,通过专业的技术方案识别未经验证或完全虚假的信息是学者们研究的重要方向。k.r.garrett等基于语料数据库,利用pu-learning算法结合n-gram词袋模型检测虚假评论,实验结果表明,这种方法在正负面欺骗意见上有较好的检测效果;de magistris等提出了一种自动假新闻检测系统,它可以支持或反驳可疑的声明,同时返回一组来自已验证来源的文件,该系统由多个模块组成,利用了机器学习、深度学习和自然语言处理等不同的技术;xu等开发了一个新的主题驱动的谣言检测框架,仅根据其源微博来确定一个帖子是否为谣言。具体地,现有虚假信息识别主要基于如下三种方法:(1)基于内容特征的方法,即通过分析文本的语义信息对虚假信息进行识别。於张闲等采用基于词向量的深度神经网络模型和基于双向编码的语言表征模型,对健康信息文本进行自动分类,识别虚假健康信息,模型准确率达88.1%。也有研究者针对信息的内容特征采用支持向量机、朴素贝叶斯、决策树算法和逻辑回归模型对虚假评论虚假新闻进行识别,收到较好的识别效果。(2)基于情感特征的方法,即通过分析文本中表现出的情感倾向对虚假信息进行识别。周娅等基于程度副词与情感词之间的依赖关系计算出评论的情感极性,提出一种基于xgboost算法的虚假评论识别方法。zhang等人在利用情感信号时,发现现有的方法主要是利用发布者所传达的信息内容的情感。他们为了模拟双情感的共振和不和谐,提出了情感差,情感差被设计为发布者情感和社会情感之间的减法。他们验证了情感差可以提高虚假信息检测的结果。(3)基于信息发布者特征的方法,即通过分析信息发布者的社交行为、关系特征影响力和信誉识别出不可靠的信息发布者从而实现对虚假信息的识别。张小旭对垃圾评论用户群组评论用户和作者的基础特征和关系特征进行提取使用迭代方式通grouprank算法识别出垃圾评论用户。但现有的虚假信息识别方法仍存在一些缺点:(1)虚假信息表示不足:在虚假健康信息表示上,上述方法在建模过程中多采用内容特征、情感特征和信息发布者特征,缺乏外部知识的整合,限制了虚假信息识别的全面性和深度。(2)忽略语义差异:在虚假信息特征表示上,现有虚假信息识别方法中均忽略了虚假信息与专家知识之间的语义差别。虚假信息与专家知识之间的语义差别是识别虚假信息的重要维度,所以导致识别精度较低。针对上述存在的问题,研究设计一种新型的基于知识增强与语义差的虚假信息识别方法,克服现有虚假信息识别方法中存在的问题是十分必要的。


技术介绍


技术实现思路

1、本专利技术为解决现有虚假信息识别方法缺乏外部知识的整合,忽略语义差异,识别精度较低的问题,提出了一种基于知识增强与语义差的虚假信息识别方法。

2、本专利技术提供了一种基于知识增强与语义差的虚假信息识别方法,包括如下步骤:

3、s1.通过网络爬虫爬取网络数据,对爬取到的数据进行预处理得到由真实信息和虚假信息组成的数据集,对所述数据集进行数据增强,得到增强数据集;

4、s2.从步骤s1中得到的所述增强数据集中提取信息特征,将所述信息特征输入表示学习模块中进行bert预训练、特征拼接、语义差计算和特征融合,得到特征融合表示;

5、s3.将所述步骤s2中得到所述特征融合表示输入billstm深度学习模块进行billstm深度学习深度学习,得到特征语义表示向量;

6、s4.将所述步骤s3中得到所述特征语义表示向量输入自注意力模块进行自注意力机制计算,得到自注意力向量;

7、s5.将所述步骤s4中得到所述自注意力向量输入决策模块通过激活函数进行激活并通过交叉熵损失函数进行学习后,输出分类结果。

8、根据本专利技术一些实施例的一种基于知识增强与语义差的虚假信息识别方法,所述步骤s1中,所述预处理包括删除所述数据集中有缺失值的信息、删除所述数据集中未被明确鉴定的信息和为所述数据集中每条信息分配唯一的id;

9、所述数据增强包括对所述真实信息或虚假信息进行随机复制,使所述真实信息与所述虚假信息数据数量相等。

10、根据本专利技术一些实施例的一种基于知识增强与语义差的虚假信息识别方法,所述步骤s2中,所述信息特征包括标题特征、流传说法特征、查证要点特征和查证内容特征。

11、根据本专利技术一些实施例的一种基于知识增强与语义差的虚假信息识别方法,所述步骤s2中,所述表示学习模块通过预训练bert模型进行bert预训练,所述预训练bert模型包括12层transformer和12个自注意头;

12、将所述标题特征进行所述bert预训练,得到标题特征输入,如公式(1)所示:

13、inputtitle=bert(ttitle) (1)

14、其中,inputtitle表示标题特征输入,ttitle表示标题特征的输入序列,

15、将所述流传说法特征进行所述bert预训练,得到流传说法特征输入,如公式(2)所示:

16、inputrumor=bert(trumor) (2)

17、其中,inputrumor表示流传说法特征输入,trumor表示流传说法特征的输入序列,

18、将所述查证要点特征进行所述bert预训练,得到查证要点特征输入,如公式(3)所示:

19、inputpoint=bert(tpoint) (3)

20、其中,inputpoint表示查证要点特征输入,tpoint表示查证要点特征的输入序列,

21、将所述查证内容特征进行所述bert预训练,得到查证内容特征输入,如公式(4)所示:

22、inputcontent=bert(tcontent) (4)

23、其中,inputcontent表示查证内容特征输入,tcontent表示查证内容特征的输入序列。

24、根据本专利技术一些实施例的一种基于知识增强与语义差的虚假信息识别方法,所述步骤s2中,所述特征拼接包括将所述标题特征输入和流传说法特征输入进行特征拼接,将所述查证要点特征输入和查证要点特征输入进行特征拼接;

25、将所述标题特征输入和流传说法特征输入进行特征拼接,得到内容信息语义特征,如公式(5)所示:

26、features=cat(inputtitle,inputrumor) (5)

27、其中,features表示内容信息语义特征,

28、将所述查证要点特征输入和查证内容特征输入进行特征拼接,得到知识增强特征,如公式(6)所示:

29、featuree=cat(inputpoint,inputcontent) (6)

30、其中,featuree表示知识增强特征。

31、根据本专利技术一些实施例的一种基于知本文档来自技高网...

【技术保护点】

1.一种基于知识增强与语义差的虚假信息识别方法,其特征在于,包括如下步骤:

2.根据权利要求1所述的一种基于知识增强与语义差的虚假信息识别方法,其特征在于,所述步骤S1中,所述预处理包括删除所述数据集中有缺失值的信息、删除所述数据集中未被明确鉴定的信息和为所述数据集中每条信息分配唯一的ID;

3.根据权利要求1所述的一种基于知识增强与语义差的虚假信息识别方法,其特征在于,所述步骤S2中,所述信息特征包括标题特征、流传说法特征、查证要点特征和查证内容特征。

4.根据权利要求3所述的一种基于知识增强与语义差的虚假信息识别方法,其特征在于,所述步骤S2中,所述表示学习模块通过预训练BERT模型进行BERT预训练,所述预训练BERT模型包括12层Transformer和12个自注意头;

5.根据权利要求4所述的一种基于知识增强与语义差的虚假信息识别方法,其特征在于,所述步骤S2中,所述特征拼接包括将所述标题特征输入和流传说法特征输入进行特征拼接,将所述查证要点特征输入和查证要点特征输入进行特征拼接;

6.根据权利要求5所述的一种基于知识增强与语义差的虚假信息识别方法,其特征在于,所述步骤S2中,所述语义差计算包括计算所述内容信息语义特征与知识增强特征之间的差值,如公式(7)所示:

7.根据权利要求6所述的一种基于知识增强与语义差的虚假信息识别方法,其特征在于,所述步骤S2中,所述特征融合通过特征融合层将所述内容信息语义特征、知识增强特征和语义差特征进行融合,得到特征融合表示,如公式(8)所示:

8.根据权利要求7所述的一种基于知识增强与语义差的虚假信息识别方法,其特征在于,所述步骤S3中,所述BilLSTM深度学习模块通过多个长短期记忆网络对所述特征融合表示进行深度学习。

9.根据权利要求8所述的一种基于知识增强与语义差的虚假信息识别方法,其特征在于,所述步骤S4中,所述自注意力模块通过自注意力机制计算注意权重矩阵,如公式(9)所示:

10.根据权利要求1所述的一种基于知识增强与语义差的虚假信息识别方法,其特征在于,所述步骤S5中,通过Flatten层将所述自注意力向量中多维数据压平为一维向量,得到Flatten层输出特征向量,通过Dense层对所述Flatten层输出特征向量进行非线性变化,得到非线性向量,将所述非线性向量映射到输出空间上,并通过sigmoid激活函数进行激活,通过Binary_crossentropy交叉熵损失函数对激活结果进行学习,输出分类结果,所述分类结果为真实或虚假中的一种。

...

【技术特征摘要】

1.一种基于知识增强与语义差的虚假信息识别方法,其特征在于,包括如下步骤:

2.根据权利要求1所述的一种基于知识增强与语义差的虚假信息识别方法,其特征在于,所述步骤s1中,所述预处理包括删除所述数据集中有缺失值的信息、删除所述数据集中未被明确鉴定的信息和为所述数据集中每条信息分配唯一的id;

3.根据权利要求1所述的一种基于知识增强与语义差的虚假信息识别方法,其特征在于,所述步骤s2中,所述信息特征包括标题特征、流传说法特征、查证要点特征和查证内容特征。

4.根据权利要求3所述的一种基于知识增强与语义差的虚假信息识别方法,其特征在于,所述步骤s2中,所述表示学习模块通过预训练bert模型进行bert预训练,所述预训练bert模型包括12层transformer和12个自注意头;

5.根据权利要求4所述的一种基于知识增强与语义差的虚假信息识别方法,其特征在于,所述步骤s2中,所述特征拼接包括将所述标题特征输入和流传说法特征输入进行特征拼接,将所述查证要点特征输入和查证要点特征输入进行特征拼接;

6.根据权利要求5所述的一种基于知识增强与语义差的虚假信息识别方法,其特征在于,所述步骤s2中,所述语义差计算包括计算所述内容信息语义特征与知识增强特征之...

【专利技术属性】
技术研发人员:祁瑞华魏佳郭旭孙云浩
申请(专利权)人:大连外国语大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1