基于关系网络与注意力机制的假新闻预测方法技术

技术编号:27113871 阅读:14 留言:0更新日期:2021-01-25 19:12
本发明专利技术提供了基于关系网络与注意力机制的假新闻预测方法,该方法包括首先获取新闻的文本特征向量与关系网络特征向量;再通过两层神经网络将文本特征向量与关系网络特征向量进行融合,获取新闻预测函数;最后结合新闻预测函数对分类预测模型进行优化,得到新闻的最终预测分类函数;该方法在多源、多类型特征引入预测假新闻的基础上,通过获取新闻边信息关系网络结构获得关系网络特征向量,将关系网络特征向量与新闻自身文本特征向量进行融合获得新闻预测函数;在关系网络特征向量的获取中引入注意力机制,通过注意力权重获得更准确的关系网络特征向量;采用多任务训练的方式通过对多个任务相互优化获得更好的新闻预测效果。对多个任务相互优化获得更好的新闻预测效果。对多个任务相互优化获得更好的新闻预测效果。

【技术实现步骤摘要】
基于关系网络与注意力机制的假新闻预测方法


[0001]本专利技术涉及信息识别处理
,具体而言,涉及一种基于关系网络与注意力机制的假新闻预测方法。

技术介绍

[0002]随着移动互联网和智能手机技术的飞速发展,网络媒体逐渐代替传统的媒体,由于其便捷性、时效性和开放性,网络媒体为人们提供了丰富的信息来源,受众人群逐年递增。与此同时,由于网络新闻的便捷性和低门槛性等特性,造成网络媒体的新闻质量远低于传统媒体,假新闻便是其中最典型的体现。一些别有用心的作者编撰出包含虚假信息的新闻在网络上非法传播,对用户造成一定程度的误导,同时也给社会和经济造成了影响和损失。假新闻大多具有迷惑性,普通民众识别假新闻具有很大难度,虽然目前大多数的网络媒体都具有举报和澄清机制,但这也不能完全解决假新闻的影响和传播,因此如何自动的判别假新闻成为亟待解决的问题。
[0003]针对以上问题,学术界进行大量的研究和探索。一般来说,虚假新闻与真实新闻相比在文字上存在许多不同,虚假新闻在文字上更偏向于使用大量带有情感性的名词或形容词以博取眼球,因此前期研究大部分的方法尝试从新闻及其评论中提取特征。例如采用传统机器学习的特征工程方法从新闻内容中提取特征,或从新闻评论着手识别虚假新闻,或结合新闻内容和评论进行虚假新闻识别。然而,新闻文字的特征毕竟有限,在有些场景下并不能取的较好效果。
[0004]而新闻的边信息(Side Information)如新闻发布者,主题等,可以帮助模型更准确的识别虚假新闻。例如,曾发布虚假新闻的发布者更可能发布新的虚假新闻。相反,如果发布者的职业是某政府雇员那么其发布新闻的可信度则相对较高。因此,有研究利用这些边信息并结合新闻内容进行虚假新闻识别,最终取得的较好的效果。但这些研究把新闻边信息看作额外的一段文字,例如一条新闻,其主题是“政治”,而模型将“政治“看作单独一个词,并将这个词和内容文字结合进行预测。这种方式使得新闻的文字特征更为丰富多样,提高了虚假新闻的识别效果。但这些方法将边信息视作文字来使用,而忽略边信息与新闻间的网络结构特征。如申请号为202010367249 .1的中国专利技术专利公开了新闻类别检测方法及系统,其进一步的将新闻的内容文本与社会属性文本进行结合来检测新闻,但是其也仅是对新闻的社会属性如作者立场或传播轨迹与内容文字结合进行预测,并未进一步对社会属性信息的网络结构进行剖析以增加检测的准确性。
[0005]新闻及其边信息是一个典型的关系网络,该网络可以通过知识图谱来描述,如图1所示。从图1中我们可以直观的发现不同的新闻在知识图谱中呈现不同的网络特征,例如新闻1的网络特征和新闻2不同,因为其连接的邻居节点不同,相反,新闻2和新闻3的网络特征则较为相似,因为两条新闻拥有共同作者。如果将这种网络特征融入模型中并与文字特征结合,可以辅助识别虚假信息。另外,从图1中也可以发现不同的邻居节点对中心节点的影响权重也不尽相同,例如新闻3和新闻2如果都为虚假新闻时,很有可能的情况就是这两个
新闻的共同邻居节点“作者2”是一个假新闻发布者,此时对于节点“新闻3”而言,邻居节点“作者2”的影响权重应当高于其他节点。
[0006]为有效的利用新闻知识图谱中的网络特征以提高虚假新闻识别的性能,本文提出一种结合新闻边信息关系网络和新闻内容识别虚假新闻的方法。

技术实现思路

[0007]本专利技术的目的在于提供基于关系网络与注意力机制的假新闻预测方法,其能够提供更准确的假新闻预测识别效果。
[0008]本专利技术的实施例通过以下技术方案实现:基于关系网络与注意力机制的假新闻预测方法,该方法包括:根据新闻自身信息构建分类预测模型;获取新闻的文本特征向量与关系网络特征向量;通过两层神经网络将文本特征向量与关系网络特征向量进行融合,获取新闻预测函数;结合新闻预测函数对分类预测模型进行优化,得到新闻的最终预测分类函数。
[0009]进一步的,所述根据新闻自身信息构建分类预测模型之前还包括,获取新闻的文本内容以及边信息;所述边信息包括新闻的作者、主题、作者的所在地和作者的职业,并将新闻的边信息构建成边信息关系网络,将边信息关系网络记为三元组,其中h表示头结点向量,r表示关系向量,t表示尾节点向量,E表示实体向量的集合,K表示所有关系向量的集合, ,s表示当前知识图谱中存在的所有三元组集合;并根据新闻内容与表示边信息关系网络的三元组构建所述分类预测模型。
[0010]进一步的,所述文本特征向量的获取包括,获取新闻i的词组集 ,其中 属于词典V,词典V即所有词汇的集合,表示新闻i的词组集中的任意词;由所述词组集获取新闻的词嵌入矩阵,其中, 表示实数集合,为超参数表示向量的维度;通过对矩阵X进行卷积获取特征提取式(1),
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(1)通过式(1)获得特征矩阵,其中, j表示新闻的第j个特征,h为卷积核尺寸,n为新闻长度,W 是可学习的参数,b1为偏置项;对矩阵C进行最大池化得到文本特征输出向量c
max
,再将c
max
通过卷积神经网络的全连接层得到最终的文本特征向量 ,
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(2)其中, 表示新闻i的文本特征向量,W1是可学习的参数,b2为偏置项。
[0011]进一步的,所述关系网络特征向量的获取包括,获取边信息关系网中节点的网络特征,再根据知识图谱表示学习的方法transH获得边信息关系网中节点的表示向量e
h
,再根据邻居节点的向量来获取表示中心节点的关系网络特征向量 。
[0012]进一步的,所述关系网络特征向量的获取还包括,根据三元组中头节点向量h和关系向量r的和与尾节点向量t的关系,
对transH模型进行优化,获得如式(3)的目标函数优化模型,
ꢀꢀꢀꢀꢀꢀ
(3)其中d(h+r,t)为h+r与t的距离,t

由负采样获取,表示和h,r没有关系的任意尾节点向量。
[0013]进一步的,获取关系网络特征向量时引入注意力权重a
t
,得到式(4),
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(4)其中,e
t
为边信息关系网中邻居节点的表示向量。
[0014]进一步的,获得所述关系网络特征向量后,对关系网络特征向量进行变换加入激活函数tanh,获得新闻的最终关系网络特征向量 ,得到式(5),
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(5)其中,表示新闻i的关系网络特征向量,W2为可学习的参数。
[0015]进一步的,所述通过两层神经网络将文本特征向量与关系网络特征向量进行融合,获取新闻预测函数包括,将所述文本特征向量 与关系网络特征向量 拼接后送入两层神经网络中得到新闻的预测函数p
i
,得到式(6),
ꢀꢀꢀꢀꢀꢀꢀ
(6)其中,‖表示两个向量的拼接,W3、W4为可学习的参数,b3、b4偏置项。
[0016]进一步的,该方法本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.基于关系网络与注意力机制的假新闻预测方法,其特征在于,该方法包括:根据新闻自身信息构建分类预测模型;获取新闻的文本特征向量与关系网络特征向量;通过两层神经网络将文本特征向量与关系网络特征向量进行融合,获取新闻预测函数;结合新闻预测函数对分类预测模型进行优化,得到新闻的最终预测分类函数。2.如权利要求1所述的假新闻预测方法,其特征在于,所述根据新闻自身信息构建分类预测模型之前还包括,获取新闻的文本内容以及边信息;所述边信息包括新闻的作者、主题、作者的所在地和作者的职业,并将新闻的边信息构建成边信息关系网络,将边信息关系网络记为三元组 ,其中h表示头结点向量,r表示关系向量,t表示尾节点向量,E表示实体向量的集合,K表示所有关系向量的集合,,s表示当前知识图谱中存在的所有三元组集合;并根据新闻内容与表示边信息关系网络的三元组构建所述分类预测模型。3.如权利要求2所述的假新闻预测方法,其特征在于,所述文本特征向量的获取包括,获取新闻i的词组集,其中 属于词典V,词典V即所有词汇的集合,表示新闻i的词组集中的任意词;由所述词组集获取新闻的词嵌入矩阵,其中,表示实数集合, 为超参数表示向量的维度;通过对矩阵X进行卷积获取特征提取式(1),(1)通过式(1)获得特征矩阵 ,其中,j表示新闻的第j个特征,h为卷积核尺寸,n为新闻长度,W 是可学习的参数,b1为偏置项;对矩阵C进行最大池化得到文本特征输出向c
max
,再将c
max
通过卷积神经网络的全连接层得到最终的文本特征向量,(2)其中,表示新闻i的文本特征向量,W1是可学习的参数,b2为偏置项。4.如权利要求3所述的假新闻预测方法,其特征在于,所述关系网络特征向量的获取包括,获取边信息关系网中节点的网络特征,再根据知识图谱表示学习的方法transH获得边信息关系网中节点的表示向量e
h
,再根据邻居节点的向量来获取表示中心节点的关系网络特征向量。5.如权利要求4所述的假新闻预测方法,其特征在于,所述关系网络特征向量的获取还
包括,根据三元组中头节点向量h和关系向量r的和与尾节点向量t的关系,对tran...

【专利技术属性】
技术研发人员:王思宇江岭黄鹏
申请(专利权)人:成都晓多科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1