本申请公开了一种基于神经网络模型的虚假新闻检测方法、设备及介质,用以解决现有技术无法及时检测到虚假新闻的技术问题。方法包括:生成新闻数据集并进行预处理得到统一格式的新闻数据集;通过词频逆向文件频率算法对新闻标题和新闻正文进行特征提取;通过肘部法则对特征向量去噪得到对应若干个特征向量并计算若干个特征向量之间的余弦相似度;将若干个特征向量划分为多个特征向量集并将特征向量输入至预先训练好的神经网络模型输出新闻标题和新闻正文对应特征向量是否相符的检测结果并确定是否为虚假新闻;将新闻标题和新闻正文对应特征向量所在特征向量集中的其他新闻对应的检测结果与新闻对应的检测结果保持一致,实现对虚假新闻的检测。实现对虚假新闻的检测。实现对虚假新闻的检测。
【技术实现步骤摘要】
一种基于神经网络模型的虚假新闻检测方法、设备及介质
[0001]本申请涉及智能检测
,尤其涉及一种基于神经网络模型的虚假新闻检测方法、设备及介质。
技术介绍
[0002]近些年来,随着网络信息技术的飞速发展以及手机、平板等移动终端的迭代更新,人们更倾向于从社交媒体、新闻软件上获取最新的新闻。这样的获取方式更加方便快捷,随手转发就能被广泛传播。但是,由于通过社交媒体、新闻软件获取新闻的成本低廉和广泛传播性,随之而来的是新闻消息的真实性引人质疑,每天都会有部分新闻可能是虚假的。这些虚假新闻消息往往流量巨大、博人眼球,但是会对社会和公众产生负面的影响并带来非必要的麻烦。
技术实现思路
[0003]本申请实施例提供了一种基于神经网络模型的虚假新闻检测方法、设备及介质,用以解决现有技术无法自动判断新闻标题与新闻正文是否相符,及时检测到虚假新闻的技术问题。
[0004]一方面,本申请实施例提供了一种基于神经网络模型的虚假新闻检测方法,包括:
[0005]获取若干个新闻数据,以生成对应的新闻数据集,并对所述新闻数据集中的新闻数据进行预处理,以得到统一格式的新闻数据集;
[0006]通过词频逆向文件频率算法,对统一格式的新闻数据集中的新闻标题和新闻正文进行特征提取;
[0007]通过肘部法则对所述新闻数据集的新闻标题和新闻正文对应的特征向量进行去噪,以得到所述新闻数据集的新闻标题和新闻正文对应的若干个特征向量,并计算所述若干个特征向量之间的余弦相似度;
[0008]根据所述若干个特征向量之间余弦相似度,将所述若干个特征向量划分为多个特征向量集,并分别将所述多个特征向量集中新闻标题和新闻正文对应的特征向量输入至预先训练好的神经网络模型中;所述神经网络模型是基于卷积神经网络和深度神经网络相结合得到的;
[0009]通过所述预先训练好的神经网络模型,输出新闻标题和新闻正文对应的特征向量是否相符的检测结果,并根据所述检测结果确定所述新闻标题和新闻正文对应的新闻是否为虚假新闻;
[0010]将所述新闻标题和新闻正文对应特征向量所在特征向量集中的其他新闻对应的检测结果,与所述新闻对应的检测结果保持一致,实现对虚假新闻的检测。
[0011]在本申请的一种实现方式中,所述获取若干个新闻数据,以生成对应的新闻数据集,并对所述新闻数据集中的新闻数据进行预处理,以得到统一格式的新闻数据集,具体包括:
[0012]通过预设方式从网络或应用中获取若干个新闻数据,以生成所述若干个新闻数据对应的新闻数据集,并确定出所述新闻数据集中的新闻标题和新闻正文;
[0013]将所述新闻数据集中与判断新闻标题和新闻正文是否相符的无关词语进行删除,以实现对所述新闻数据集中的新闻标题和新闻正文的清洗;所述无关词语至少包括以下一项或多项:标点符号、停用词和语气词;
[0014]获得清洗后的新闻标题和新闻正文,并将所述清洗后的新闻标题和新闻正文进行格式转换,以得到统一格式的新闻数据集。
[0015]在本申请的一种实现方式中,所述分别将所述多个特征向量集中新闻标题和新闻正文对应的特征向量输入至预先训练好的神经网络模型中之前,所述方法还包括:
[0016]将预先确定为虚假新闻的样本新闻,输入至卷积神经网络中进行训练;
[0017]通过所述卷积神经网络的卷积层,提取所述样本新闻中的属性特征;所述属性特征包括:新闻标题、新闻正文;
[0018]在所述属性特征经过池化层池化的情况下,通过所述卷积神经网络的全连接层,输出所述样本新闻是否为虚假新闻的检测结果,直至输出所述样本新闻是否为虚假新闻的检测结果与预先确定的所述样本新闻为虚假新闻的结果相匹配,得到神经网络模型。
[0019]在本申请的一种实现方式中,所述得到神经网络模型之后,所述方法还包括:
[0020]通过深度神经网络,对所述样本新闻中各属性特征对应的权重进行调整,以得到所述神经网络模型中的目标属性特征权重;
[0021]基于所述目标属性特征权重,对所述神经网络模型进行优化,以完成对所述神经网络模型的训练。
[0022]在本申请的一种实现方式中,所述通过词频逆向文件频率算法,对统一格式的新闻数据集中的新闻标题和新闻正文进行特征提取,具体包括:
[0023]确定出统一格式的新闻数据集中的新闻标题以及对应的新闻正文,并通过词频逆向文件频率算法,对所述新闻标题和所述对应的新闻正文进行编码,以生成所述新闻标题对应的编码列表和所述新闻正文对应的编码列表;
[0024]根据所述新闻标题对应的编码列表,对所述新闻标题进行特征提取,以及根据所述新闻正文对应的编码列表,对所述新闻正文进行特征提取。
[0025]在本申请的一种实现方式中,所述计算所述若干个特征向量之间的余弦相似度,具体包括:
[0026]从所述新闻数据集的新闻标题和新闻正文对应的若干个特征向量中,获取新闻标题对应的特征向量以及所述新闻标题对应新闻正文的特征向量;
[0027]基于余弦相似度计算公式,计算所述新闻标题对应的特征向量以及所述新闻标题对应新闻正文的特征向量与所述新闻数据集中其他新闻标题对应的特征向量以及其他新闻正文对应的特征向量之间的余弦相似度。
[0028]在本申请的一种实现方式中,所述根据所述若干个特征向量之间余弦相似度,将所述若干个特征向量划分为多个特征向量集,具体包括:
[0029]将计算出的余弦相似度与预设相似度阈值进行比较,并确定出余弦相似度大于所述预设相似度阈值的其他新闻;
[0030]将确定出的所述其他新闻与所述新闻标题和所述新闻正文对应的新闻存储于同
一特征向量集中。
[0031]在本申请的一种实现方式中,所述将所述新闻标题和新闻正文对应特征向量所在特征向量集中的其他新闻对应的检测结果,与所述新闻对应的检测结果保持一致,实现对虚假新闻的检测,具体包括:
[0032]若所述新闻对应的检测结果为虚假新闻,则确定所述新闻标题和新闻正文对应特征向量所在特征向量集中的其他新闻为虚假新闻;
[0033]若所述新闻对应的检测结果不是虚假新闻,则确定所述新闻标题和新闻正文对应特征向量所在特征向量集中的其他新闻不是虚假新闻,实现对所述新闻数据集中虚假新闻的检测。
[0034]另一方面,本申请实施例还提供了一种基于神经网络模型的虚假新闻检测设备,所述设备包括:
[0035]至少一个处理器;
[0036]以及,与所述至少一个处理器通信连接的存储器;
[0037]其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行如上述的一种基于神经网络模型的虚假新闻检测方法。
[0038]另一方面,本申请实施例还提供了一种非易失性计算机存储介质,存储有计算机可执行指令,所述计算机可执行指令设置为:
[0039]如上述的一种基于神经网络模型的虚假新闻检测本文档来自技高网...
【技术保护点】
【技术特征摘要】
1.一种基于神经网络模型的虚假新闻检测方法,其特征在于,所述方法包括:获取若干个新闻数据,以生成对应的新闻数据集,并对所述新闻数据集中的新闻数据进行预处理,以得到统一格式的新闻数据集;通过词频逆向文件频率算法,对统一格式的新闻数据集中的新闻标题和新闻正文进行特征提取;通过肘部法则对所述新闻数据集的新闻标题和新闻正文对应的特征向量进行去噪,以得到所述新闻数据集的新闻标题和新闻正文对应的若干个特征向量,并计算所述若干个特征向量之间的余弦相似度;根据所述若干个特征向量之间余弦相似度,将所述若干个特征向量划分为多个特征向量集,并分别将所述多个特征向量集中新闻标题和新闻正文对应的特征向量输入至预先训练好的神经网络模型中;所述神经网络模型是基于卷积神经网络和深度神经网络相结合得到的;通过所述预先训练好的神经网络模型,输出新闻标题和新闻正文对应的特征向量是否相符的检测结果,并根据所述检测结果确定所述新闻标题和新闻正文对应的新闻是否为虚假新闻;将所述新闻标题和新闻正文对应特征向量所在特征向量集中的其他新闻对应的检测结果,与所述新闻对应的检测结果保持一致,实现对虚假新闻的检测。2.根据权利要求1所述的一种基于神经网络模型的虚假新闻检测方法,其特征在于,所述获取若干个新闻数据,以生成对应的新闻数据集,并对所述新闻数据集中的新闻数据进行预处理,以得到统一格式的新闻数据集,具体包括:通过预设方式从网络或应用中获取若干个新闻数据,以生成所述若干个新闻数据对应的新闻数据集,并确定出所述新闻数据集中的新闻标题和新闻正文;将所述新闻数据集中与判断新闻标题和新闻正文是否相符的无关词语进行删除,以实现对所述新闻数据集中的新闻标题和新闻正文的清洗;所述无关词语至少包括以下一项或多项:标点符号、停用词和语气词;获得清洗后的新闻标题和新闻正文,并将所述清洗后的新闻标题和新闻正文进行格式转换,以得到统一格式的新闻数据集。3.根据权利要求1所述的一种基于神经网络模型的虚假新闻检测方法,其特征在于,所述分别将所述多个特征向量集中新闻标题和新闻正文对应的特征向量输入至预先训练好的神经网络模型中之前,所述方法还包括:将预先确定为虚假新闻的样本新闻,输入至卷积神经网络中进行训练;通过所述卷积神经网络的卷积层,提取所述样本新闻中的属性特征;所述属性特征包括:新闻标题、新闻正文;在所述属性特征经过池化层池化的情况下,通过所述卷积神经网络的全连接层,输出所述样本新闻是否为虚假新闻的检测结果,直至输出所述样本新闻是否为虚假新闻的检测结果与预先确定的所述样本新闻为虚假新闻的结果相匹配,得到神经网络模型。4.根据权利要求3所述的一种基于神经网络模型的虚假新闻检测方法,其特征在于,所述得到神经网络模型之后,所述方法还包括:通过深度神经网络,对所述样本新闻中各属性特征对应的权重进行调整,以得到所述
神经网络模型中的目标属性特征权重;基于所...
【专利技术属性】
技术研发人员:李晓瑜,冯落落,李沛,
申请(专利权)人:山东新一代信息产业技术研究院有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。