一种基于人工智能的假新闻识别方法及系统技术方案

技术编号：42215623 阅读：6 留言：0更新日期：2024-07-30 18:56

本发明专利技术公开了一种基于人工智能的假新闻识别方法及系统，方法包括：数据采集、数据预处理、新闻特征提取、构建假新闻识别模型和假新闻识别。本发明专利技术属于新闻识别技术领域，具体是指一种基于人工智能的假新闻识别方法及系统，本方案采用多种注意机制来关注不同层级上的重要特征，综合考虑文本和图像得到新闻特征，基于新闻类型、新闻领域和不同特征的组合构建特征集；设计新闻文本‑图像匹配识别器和同领域内新闻真实性识别器，设计相似层计算文本和图像的相似度，完成新闻的文本和图像的匹配检测，设计图构建层和卷积层更新节点特征，完成同领域内新闻真实性检测，将两个识别器的输出加权求和作为假新闻识别结果，提高假新闻识别的准确性。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于新闻识别，具体是指一种基于人工智能的假新闻识别方法及系统。

技术介绍

1、假新闻识别方法是综合运用自然语言处理和人工智能技术，提取新闻的特征，根据不同的特征进行分类和判断，能够有效地识别假新闻，提高新闻的真实性和可信度。但是现有的假新闻识别方法存在新闻特征提取不够全面、缺乏对文本和图像数据的综合考虑和对文本数据中关键信息的捕捉能力差的问题；现有的假新闻识别方法存在信息源单一、忽略同领域新闻的关联性和缺乏全局性考虑的问题。

技术实现思路

1、针对上述情况，为克服现有技术的缺陷，本专利技术提供了一种基于人工智能的假新闻识别方法及系统，针对现有的假新闻识别方法存在新闻特征提取不够全面、缺乏对文本和图像数据的综合考虑和对文本数据中关键信息的捕捉能力差的问题，本方案引入字符级和句子级的注意机制来关注不同层级上的重要特征来提取文本数据的全局特征，引入局部特征注意机制和卷积神经网络来提取文本数据的局部特征，从而更有效地捕捉文本数据中的关键信息，并提取图像数据的全局特征和局部特征，综合考虑文本数据和图像数据得到新闻特征，能够更全面地描述新闻内容，并基于新闻类型、新闻领域和不同特征的组合构建特征集，使得新闻特征更具有辨识度和区分度；针对现有的假新闻识别方法存在信息源单一、忽略同领域新闻的关联性和缺乏全局性考虑的问题，本方案设计新闻文本-图像匹配识别器和同领域内新闻真实性识别器，设计相似层计算文本和图像之间的相似度，完成新闻的文本数据和图像数据的匹配检测，有助于解决单一信息源导致识别准确

2、本专利技术采取的技术方案如下：本专利技术提供的一种基于人工智能的假新闻识别方法，该方法包括以下步骤：

3、步骤s1：数据采集；

4、步骤s2：数据预处理；

5、步骤s3：新闻特征提取；

6、步骤s4：构建假新闻识别模型；

7、步骤s5：假新闻识别。

8、进一步地，在步骤s1中，所述数据采集是采集历史新闻数据，历史新闻数据包括文本数据、图像数据、新闻领域和新闻类型，新闻类型包括真新闻和假新闻，将新闻类型作为数据标签。

9、进一步地，在步骤s2中，所述数据预处理分别对采集的文本数据和图像数据进行文本预处理和图像预处理，具体包括以下步骤：

10、步骤s21：文本预处理，对采集的文本数据进行去除噪声和去除停用词处理；将文本的长度指定为文本中的句子数量，将句子的长度指定为句子中的字符数量，预先规定文本的长度和句子的长度分别为p和q；若去除噪声和去除停用词后文本中句子的长度小于q，则使用结束符号在句子末尾进行填充，使句子的长度为q；若句子的长度大于q，则对句子进行截断，使句子的长度为q；同样，若去除噪声和去除停用词后文本的长度小于p，则使用结束符号在文本末尾进行填充，使文本的长度为p；若文本的长度大于p，则对文本进行截断，使文本的长度为p；

11、步骤s22：图像预处理，对采集的图像数据进行图像增强、图像分割和图像去噪处理。

12、进一步地，在步骤s3中，所述新闻特征提取分别提取文本数据和图像数据的特征，具体包括以下步骤：

13、步骤s31：文本数据特征提取，提取预处理后的文本数据的全局特征和局部特征，包括以下步骤：

14、步骤s311：文本数据全局特征提取，将预处理后的文本分为字符级和句子级，由字符级特征向量得到句子级特征向量，并使用不同的注意机制来关注在不同级别上的重要特征，包括以下步骤：

15、步骤s3111：计算字符级特征向量，使用word2vec模型将预处理后的文本数据转换为字符级表示向量，将bilstm作为字符级编码器，bilstm包含两个方向的lstm结构，分别用于捕捉字符在每个位置的上下文信息，通过字符级编码器获得文本的第i句第j个字符的前向隐藏层结果和后向隐藏层结果，结合前向和后向隐藏层结果，得到文本的第i句第j个字符的特征向量；所用公式如下：

16、；

17、；

18、；

19、式中，和分别是文本的第i句第j个字符的前向隐藏层结果和后向隐藏层结果，是文本的第i句第j个字符的特征向量，和分别是bilstm的前向隐藏层函数和后向隐藏层函数，是文本的第i句第j个字符的表示向量；

20、步骤s3112：计算字符级重要性权重，使用字符级注意机制计算每个字符的特征向量对构建当前句子的语义的重要性权重；所用公式如下：

21、；

22、；

23、式中，是的隐藏表示，tanh（·）是激活函数，是的字符级重要性权重，wf、bf和rf分别是字符级注意机制的权重矩阵、偏置项和查询向量，t是转置操作；

24、步骤s3113：计算句子级特征向量，基于字符级特征向量和字符级重要性权重得到句子级表示向量，将bilstm作为词级编码器，通过字符级编码器获得文本的第i句的前向隐藏层结果和后向隐藏层结果，结合前向和后向隐藏层结果，得到文本的第i句的特征向量；所用公式如下：

25、；

26、；

27、；

28、式中，和分别是文本的第i句的前向隐藏层结果和后向隐藏层结果，是文本的第i句的特征向量，是文本的第i句的表示向量；

29、步骤s3114：计算句子级重要性权重，使用句子级注意机制计算每个句子的特征向量对构建当前文本的语义的重要性权重；所用公式如下：

30、；

31、；

32、式中，是的隐藏表示，是的句子级重要性权重，wv、bv和rv分别是句子级注意机制的权重矩阵、偏置项和查询向量；

33、步骤s3115：计算文本数据的全局特征，基于句子级特征向量和句子级重要性权重得到文本数据的全局特征，和分别是文本的第1句和第p句的特征向量，和分别是和的句子级重要性权重；

34、步骤s312：文本数据局部特征提取，包括以下步骤：

35、步骤s3121：卷积，使用1d卷积神经网络从字符级特征向量中提取局部特征，卷积核we∈d×l，l是卷积核的长度，等于编码器bilstm单元输出的维数，d是卷积核的高度，将卷积核应用于不同的字符间隔得到每个句子的局部特征映射={m1，…，mj，…，mq-d+1}；1d卷积神经网络所用公式如下：

36、；

37、式中，be是卷积核的偏置项，、和分别是文本的第i句第1个字符到第d个字符、第j个字符到第j+d+1个字符和第q-d+1个字符到第q个字符的间隔区间，m1、mj和mq-d+1分别是、和的局部特征映射；

38、步骤s3122：计算局部特征重要性权重，使用局部特征注意机制计算每个句子的特征映射对构建当前文本的语义的重要性权重；本文档来自技高网...

【技术保护点】

1.一种基于人工智能的假新闻识别方法，其特征在于：该方法包括以下步骤：

2.根据权利要求1所述的一种基于人工智能的假新闻识别方法，其特征在于：在步骤S3中，所述新闻特征提取分别提取文本数据和图像数据的特征，具体包括以下步骤：

3.根据权利要求2所述的一种基于人工智能的假新闻识别方法，其特征在于：在步骤S311中，所述文本数据全局特征提取具体包括以下步骤：

4.根据权利要求1所述的一种基于人工智能的假新闻识别方法，其特征在于：在步骤S4中，所述构建假新闻识别模型具体包括以下步骤：

5.根据权利要求4所述的一种基于人工智能的假新闻识别方法，其特征在于：在步骤S42中，所述设计同领域内新闻真实性识别器具体包括以下步骤：

6.根据权利要求1所述的一种基于人工智能的假新闻识别方法，其特征在于：在步骤S2中，所述数据预处理分别对采集的文本数据和图像数据进行文本预处理和图像预处理，具体包括以下步骤：

7.根据权利要求1所述的一种基于人工智能的假新闻识别方法，其特征在于：在步骤S1中，所述数据采集是采集历史新闻数据，历史新闻

8.根据权利要求1所述的一种基于人工智能的假新闻识别方法，其特征在于：在步骤S5中，所述假新闻识别是采集待识别的新闻数据，待识别的新闻数据包括文本数据、图像数据和新闻领域，对待识别的新闻数据进行数据预处理和新闻特征提取后，输入至假新闻识别模型中，基于模型的输出得到新闻类型，实现假新闻识别。

9.一种基于人工智能的假新闻识别系统，用于实现如权利要求1-8中任一项所述的一种基于人工智能的假新闻识别方法，其特征在于：包括数据采集模块、数据预处理模块、新闻特征提取模块、构建假新闻识别模型模块和假新闻识别模块；

...

【技术特征摘要】

1.一种基于人工智能的假新闻识别方法，其特征在于：该方法包括以下步骤：

2.根据权利要求1所述的一种基于人工智能的假新闻识别方法，其特征在于：在步骤s3中，所述新闻特征提取分别提取文本数据和图像数据的特征，具体包括以下步骤：

3.根据权利要求2所述的一种基于人工智能的假新闻识别方法，其特征在于：在步骤s311中，所述文本数据全局特征提取具体包括以下步骤：

4.根据权利要求1所述的一种基于人工智能的假新闻识别方法，其特征在于：在步骤s4中，所述构建假新闻识别模型具体包括以下步骤：

5.根据权利要求4所述的一种基于人工智能的假新闻识别方法，其特征在于：在步骤s42中，所述设计同领域内新闻真实性识别器具体包括以下步骤：

6.根据权利要求1所述的一种基于人工智能的假新闻识别方法，其特征在于：在步骤s2中，所述数据预处理分别对采集的文本数据和图像数据进行...

【专利技术属性】
技术研发人员：孙涛涛，
申请(专利权)人：东营科技职业学院，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人