System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种结合知识图谱与注意力机制的虚假新闻识别方法技术_技高网

一种结合知识图谱与注意力机制的虚假新闻识别方法技术

技术编号:44496458 阅读:0 留言:0更新日期:2025-03-04 18:03
本发明专利技术属于自然语言处理技术与虚假新闻的事实核查领域,具体涉及到知识图谱辅助和注意力机制的新型虚假新闻检测的方法,该方法包括:首先从目标新闻文本中抽取数据,识别关键实体并将其链接到知识图谱,通过门控机制得到基于知识图谱的实体嵌入向量;接着,将目标文本中的句子、主题和实体作为输入向量,利用Transformer编码器提取其高阶知识表示;然后,通过多头注意力机制获取更深层次的文本嵌入,包括句子‑实体和句子‑主题的嵌入表示;最后,对比所获取的所有高级知识表示,并将它们一同输入模型,以预测新闻的真实度评分,从而有效甄别潜在的虚假新闻报道。

【技术实现步骤摘要】

本专利技术属于自然语言处理技术和自动文本真实性验证领域,具体涉及一种结合知识图谱与注意力机制的虚假新闻识别方法


技术介绍

1、自动虚假新闻识别是自然语言处理研究中的一个重要分支,对于维护信息真实性、保障社会舆论健康具有重大意义和广泛的应用前景。传统的虚假新闻检测方法主要依赖于文本内容的语义特征和上下文信息,但由于忽略了新闻实体间深层的知识层级关系,使得这类方法在面对复杂和模糊的实体引用时,识别精度受限。此外,现有的深度学习模型虽然在文本理解上有显著的进步,但在处理新闻内容时并未充分调动外部知识库的支持,尤其是知识图谱中蕴含的实体关系和背景知识。

2、随着深度学习技术的普及,自然语言处理领域也渐渐开始把其应用到虚假新闻检测中。刚开始,学术界普遍使用transformer大模型进行文章文本内容的文本特征提取,从而进行虚假新闻的检测;而后又使用了变分自动编码器vae(variational auto encoder)自编码文本信息的方式得到新闻文本的嵌入表示,并且将得到的新闻向量进行多任务学习,提升了检测模型的效果。而后又基于内容风格,发现虚假新闻发布者通常具有恶意意图,以传播扭曲和误导性的信息并影响群众,因此需要特定的写作风格来吸引和说服广泛的群众,而这在真实新闻中是看不到的,因此要让机器学习辨别虚假新闻的写作风格,通过对抗学习以此增强识别能力。接着,也有研究利用用户的发文历史来识别用户的可信度,同时检测用户的互动指数,利用二者进行综合判别共同进行虚假新闻检测。2018年,香港中文大学马晶博士基于新闻传播行为将谣言的传播过程建模为树形结构,该工作构建了一个自底向上传播树,又构建了一个自顶向下传播树,并使用递归神经网络对树中的节点进行建模,对虚假新闻进行分类。后来,有学者提出了一种简洁而有效的多领域虚假新闻检测模型,通过利用社交媒体上的用户投票和评论等信息,作为集体智慧的参考,提高虚假新闻检测的效果,以此采用用户集体知识的反馈来构建的一套相应的知识库。

3、尽管如此,现有的许多技术仍然存在一定的局限性,它们通常独立处理文本片段,忽视了词汇在上下文中的含义变化,以及两个文本片段之间可能存在的复杂语义关联,也依然未能充分利用知识图谱中的实体知识以及实体间的关系网络来指导虚假新闻的识别过程。


技术实现思路

1、为解决以上现有技术存在的问题,本专利技术提出一种结合知识图谱与注意力机制的虚假新闻识别方法,其特征在于,包括如下步骤:实时获取新闻数据,对新闻数据进行预处理;将预处理后的数据输入到训练好的虚假新闻检测模型中,得到新闻为假的概率,根据概率输出新闻真假的判断结果;所述假新闻检测模型包括知识图谱实体对比模块、以及多头注意力机制模块;

2、训练虚假新闻检测模型的过程包括:

3、s1:获取原始新闻数据集,将原始新闻数据集进行划分,得到训练集和测试集;对训练集中的数据进行预处理;

4、s2:将预处理后的数据分别提取句子、主题、实体,并输入到transformer编码器中,生成新闻内容中每个句子、主题、实体的嵌入表示数据;

5、s3:设计句子-主题注意力和句子-实体注意力机制,分别计算新闻句子与主题以及实体的语义相似度,从而生成新闻的句子-主题嵌入向量和句子-实体嵌入向量;

6、s4:从知识图谱中提取实体及其实体上下文信息,并使用门控机制得到基于知识图谱的实体嵌入数据;

7、s5:将s4得到的基于知识图谱的实体嵌入数据和s3得到的嵌入数据进行加权聚合。

8、s6:采用relu非线性激活函数计算聚合后特征的假新闻概率得分;设置迭代次数的初始值;

9、s7:采用交叉熵损失函数训练模型;

10、s8:采用adam算法优化模型,即在训练过程中调整transformer编码器和注意力机制模块中的参数;

11、s9:判断迭代次数是否达到最大迭代次数,如果达到,则完成假新闻检测模型的训练,否则返回步骤s7,迭代次数加1。

12、这种基于知识图谱和注意力机制的虚假新闻检测方法,对数据进行处理的过程包括:

13、将文本中的实体进行提取,获得实体序列:

14、e={e1,e2,··,em}

15、其中,e表示实体的集合,ei表示分割出的实体,m是实体的数量。

16、使用lda从所有句子中挖掘出潜在主题:

17、t={t1,t2,··,tk}

18、其中,t表示主题的集合,ti表示提取出的主题,k是主题的数量。

19、并将新闻划分为句子集合:

20、s={s1,s2,··,sn}

21、其中,s表示句子的集合,si表示划分的句子,n是句子的数量。

22、进一步的,将提取的句子、主题、实体进行文本编码:

23、句子内容表示p的计算过程如下:

24、步骤1:从上述给定的句子集合s={s1,s2,··,sn}中,将每个句子si从句子嵌入矩阵m∈rv*d投影到一个固定长度的句子嵌入s′i中,其中v是句子的长度,d是嵌入维度。然后,得到句子向量集合s′={s′1,s′2,··,s′n},其中s′∈rn*d。

25、步骤2:使用位置编码并结合句嵌入:

26、ut=w′t+post

27、其中,post是句子中第t个句子的位置编码,本专利技术将u=u0,··,un∈rn*d表示为transformer编码器底部的输入编码。

28、步骤3:使用单层transformer编码器来处理输入编码u:

29、

30、其中,multiheadattention(u)表示多头注意力机制,输入u首先由多头自注意力机制的子层转换得到表示层归一化,结果输出a;feedforwardnetwork(a)表示将输出a被发送到逐点前馈神经网络层,得到表示层归一化,即将前馈网络的输出与经过多头自注意力机制和归一化处理后的向量a相加;最终构造出句子表示p。

31、主题表示q′的计算过程与上述步骤1、步骤2和步骤3类似,只需将输入换成主题集合t={t1,t2,··,tk}。

32、实体表示r′的计算过程与上述步骤1、步骤2和步骤3类似,只需将输入换成实体集合e={e1,e2,··,em}。

33、进一步的,将提取的句子表示p、主题表示q′、实体r′表示进行多层注意力感知:

34、本专利技术设计的基于多头注意力的注意力网络,允许模型考虑不同位置的不同表示子空间的信息。计算注意力的公式如下:

35、

36、multihead(q,k,v)=concat(attn1,……,attnh)

37、其中q、k、v分别为查询矩阵、键矩阵和值矩阵,dk是查询和键矩阵的维度,其中,concat(attn1,……,attnh)表示将各个自注意力矩阵进行拼接,h是注意力头的数量。...

【技术保护点】

1.一种基于知识图谱和注意力机制的虚假新闻检测方法,其特征在于,包括如下步骤:实时获取新闻数据,对新闻数据进行预处理;将预处理后的数据输入到训练好的虚假新闻检测模型中,得到新闻为假的概率,根据概率输出新闻真假的判断结果;所述假新闻检测模型包括知识图谱实体对比模块、以及多头注意力机制模块以及比较聚合层;

2.根据权利要求1所述的一种基于知识图谱和注意力机制的虚假新闻检测方法,其特征在于,所述对数据进行处理的过程包括:

3.根据权利要求1所述的一种基于知识图谱和注意力机制的虚假新闻检测方法,其特征在于,使用Transformer编码器将提取的句子、主题、实体进行文本编码,旨在形成句子内容表示p、主题表示q′、实体表示r′。

4.根据权利要求1所述的一种基于知识图谱和注意力机制的虚假新闻检测方法,其特征在于,将提取的句子、主题、实体进行多层注意力感知:

5.根据权利要求1所述的一种基于知识图谱和注意力机制的虚假新闻检测方法,其特征在于,将实体表示进行知识的结构嵌入,也就是使用知识图谱嵌入方法来获得结构化实体嵌入.

6.根据权利要求1所述的一种基于知识图谱和注意力机制的虚假新闻检测方法,其特征在于,将上述得到的所有嵌入表示进行连接,得到新闻的最终表示z。

...

【技术特征摘要】

1.一种基于知识图谱和注意力机制的虚假新闻检测方法,其特征在于,包括如下步骤:实时获取新闻数据,对新闻数据进行预处理;将预处理后的数据输入到训练好的虚假新闻检测模型中,得到新闻为假的概率,根据概率输出新闻真假的判断结果;所述假新闻检测模型包括知识图谱实体对比模块、以及多头注意力机制模块以及比较聚合层;

2.根据权利要求1所述的一种基于知识图谱和注意力机制的虚假新闻检测方法,其特征在于,所述对数据进行处理的过程包括:

3.根据权利要求1所述的一种基于知识图谱和注意力机制的虚假新闻检测方法,其特征在于,使用transformer编码器将...

【专利技术属性】
技术研发人员:张璞孙玉辰田哲宇
申请(专利权)人:重庆邮电大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1