一种基于强化学习和事理知识图谱的真假消息鉴别方法技术

技术编号:33304044 阅读:16 留言:0更新日期:2022-05-06 12:12
本发明专利技术提出一种基于强化学习和事理知识图谱的真假消息鉴别方法。互联网和新媒体的发展突破了网络消息时空的限制,使得虚假消息能够在短时间内对现实世界产生巨大影响。目前谣言检测还主要依赖用户举报,无法大规模对网络中的信息进行检测,而基于深度学习的检测方法时效性不强且缺少训练数据。为提高对网络中真假信息的检测效率,及时对突发事件进行真假判别,基于强化学习和事理知识图图谱,提出一种真假消息鉴别方法,使用弱分类器对舆情数据进行真假分类,使用强化学习筛选置信度高的舆情数据,使用基于事理知识图谱的真对筛选后的舆情数据进行真假鉴别,并根据鉴别结果更新强化学习和弱分类器。学习和弱分类器。学习和弱分类器。

【技术实现步骤摘要】
一种基于强化学习和事理知识图谱的真假消息鉴别方法


[0001]本专利技术涉及深度学习、强化学习、自然语言处理、事理知识图谱等技术,具体涉及到真假消息检测算法。

技术介绍

[0002]目前谣言检测还主要依赖用户举报,无法大规模对网络中的信息进行检测,而基于深度学习的检测方法时效性不强且缺少训练数据。为提高对网络中真假信息的检测效率,及时对突发事件进行真假判别,基于强化学习和事理知识图图谱,提出一种真假消息鉴别方法。最接近本专利技术的技术有:
[0003](1)基于神经网络的多模态谣言检测方法:该方法使用VGG

19网络提取图像内容特征,使用DenseNet提取图像内嵌文本内容,使用LSTM网络提取文本内容特征,与图像特征串接后,通过完全连接层获取图像与文本共享表示的均值与方差向量,借助从高斯分布中采样的随机变量以形成重新参数化的多模态特征并作为谣言检测器的输入进行谣言检测。但该方法没有利用相关的领域知识,无法对新谣言进行检测,不具备泛化能力。
[0004](2)基于强化学习的谣言早期检测模型:该模型将社交媒体中发布的帖子按其发布时间以信息流的形式进行输入。每当一个新帖子到来,模型都会对其进行判别,并将判别结果输入到强化学习模块,强化学习模块利用奖励机制对当前检测结果进行判断,并根据准确率来进行策略选择。如果准确率满足要求,则输出判别结果,否则继续监听。该模型利用强化学习对检测结果进行判别,存在奖励机制复杂,无法完全模拟真实环境等问题,并且对新出现的谣言不具备较好的检测效果。

技术实现思路

[0005]为解决现有技术中的缺点和不足,基于强化学习和事理知识图谱的真假消息鉴别模型,根据强化学习,事理知识图谱,自然语言处理确定消息真假。
[0006]本专利技术的技术方案为:
[0007]一种基于强化学习和事理知识图谱的真假消息鉴别模型,通过事理知识图谱来存储舆情中的知识,通过强化学习来解决其数据集标注困难的问题,提升模型的泛化能力。包括以下步骤:
[0008]步骤(1)、对每一条舆情数据进行分词、去除停用词预处理;
[0009]步骤(2)、手动标定小部分预处理好的数据集;并使用标定好的部分数据微调XLNET预训练模型;
[0010]步骤(3)、在使用XLNET模型对无标签数据进行弱分类;
[0011]步骤(4)、针对步骤(3)分好类的数据,使用强化学习算法筛选出高置信度的数据;
[0012]步骤(5)、结合事理知识图谱,使用BERT对步骤(4)筛选出来的数据进行真假消息鉴别;
[0013]步骤(6)、根据步骤(5)分类的结果,反向更新XLNET弱分类器和强化学习筛选算
法;
[0014]步骤(7)、重复执行步骤(3)至步骤(6),直到真假消息鉴别收敛。
附图说明
[0015]为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0016]图1为本专利技术基于强化学习和事理知识图谱的真假消息鉴别模型。
具体实施方式
[0017]下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。
[0018]如图1所示,本专利技术中基于强化学习和事理知识图谱的真假消息鉴别模型。该真假消息鉴别模型首先使用一个弱分类器对网络舆情进行真假识别,在使用强化学习筛选出置信度高的数据,结合事理知识图谱,使用真假消息鉴别器对筛选出的数据进行真假识别,对识别结果进行评估并返回更新弱分类器和强化学习智能体。
[0019]下面结合图1,对基于强化学习和事理知识图谱的真假消息鉴别模型的具体流程进行详细说明:
[0020]步骤(1)、对每一条舆情数据进行分词、去除停用词预处理;
[0021]步骤(2)、手动标定小部分预处理好的数据集;并使用标定好的部分数据微调XLNET预训练模型;
[0022]步骤(3)、在使用XLNET模型对无标签数据进行弱分类;
[0023]步骤(4)、针对步骤(3)分好类的数据,使用强化学习算法筛选出高置信度的数据;
[0024]步骤(5)、结合事理知识图谱,使用BERT对步骤(4)筛选出来的数据进行真假消息鉴别;
[0025]步骤(6)、根据步骤(5)分类的结果,反向更新XLNET弱分类器和强化学习筛选算法;
[0026]步骤(7)、重复执行步骤(3)至步骤(6),直到真假消息鉴别器收敛。
[0027]本专利技术基于强化学习和事理知识图谱的真假消息鉴别方法,在强化学习和事理知识图谱的基础上进行谣言检测。使用弱分类器预先对舆情数据进行分类,使用强化学习算法筛选出高置信度的数据,结合事理知识图谱,使用BERT对筛选出的数据进行进一步的鉴别,并根据鉴别结果对弱分类器和强化学习智能体进行更新。
[0028]以上所述仅为本专利技术的较佳实施例而已,并不用以限制本专利技术,凡在本专利技术的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本专利技术的保护范围之内。
本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于强化学习和事理知识图谱的真假消息鉴别方法,将大量的网络舆情数据以及用户评论和反馈数据联合建模,通过弱分类器实现真假消息预分类,强化学习筛选器选择置信度高的数据,用以分类训练,分类器将事理知识图谱与预训练语言表示模型BERT相结合,使机器在语义解析时,能够利用相关舆情知识进行真假推理。具体包括以下步骤:步骤(1)、对每一条舆情数据进行分词、去除停用词预处理;步骤(2)、手动标定小部分预处理好的数据集;并使用标定好的部分数据微调XLNET预训练模型;步骤(3)、在使用XLNET模型对无标签数据进行弱分类;步骤(4)、针对步骤(3)分好类的数据,使用强化学习算法筛选出高置信度的数据;步骤(5)、结合事理知识图谱,使用BERT对步骤(4)筛选出来的数据进...

【专利技术属性】
技术研发人员:陈涛张卫山王振琦孙晨瑜
申请(专利权)人:中国石油大学华东
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1