一种面向食品安全舆情的字词双维度微博谣言识别方法技术

技术编号:28376265 阅读:29 留言:0更新日期:2021-05-08 00:03
本发明专利技术涉及一种面向食品安全舆情的字词双维度微博谣言识别方法,包括:对互联网爬取数据进行预处理、结合开放域word embedding资源库构建食品安全领域word embedding资源库、爬取多级别百度百科语料对word embedding资源库进行增量训练、基于BERT网络的字维度文本特征提取、基于BLSTM网络并加入位置注意力机制的词维度文本特征提取、最终得到字词双维度文本特征向量并进行微博文本是否为谣言的分类识别。本发明专利技术解决了食品安全舆情领域微博文本语料口语化严重、结构性弱、领域性强、难以向量化的难题,通过构建领域词库和多粒度向量化方法,更加充分提取语料特征,提高谣言识别准确性。

【技术实现步骤摘要】
一种面向食品安全舆情的字词双维度微博谣言识别方法
本专利技术涉及人工智能领域,尤其是指一种面向食品安全舆情的字词双维度微博谣言识别方法。
技术介绍
微博因为其便捷、开放、及时、匿名等的特点而深受大众喜爱,越来越多的人选择使用微博来发表观点、分享故事。但是由于微博用户注册的低门槛性和使用群体的多样性,使其发布的信息质量难以监管和控制,从而使其成为网络谣言滋长的传播的温床,这不仅会对民众生活造成严重干扰,还会扰乱社会秩序。食品领域关系国计民生,所以食品安全相关微博谣言的影响是尤为严重、恶劣的。因此,利用自然语言处理技术,建立起谣言识别模型对食品安全微博谣言的识别是具有重大意义的。文本分类识别是自然语言处理的一个重要且实用的研究方向。在深度学习兴起之前,传统机器学习方法被应用在文本分类领域,如朴素贝叶斯模型与支持向量机模型。然而传统机器学习模型依赖人工语料标注,不仅耗费大量人力物力,而且文本特征提取结果也不尽如人意。近年来随着深度学习、云计算、人工智能等技术的发展,深度神经网络在各个领域实现应用并取得了较好的成果。在自然语言处理领域,基于大规模语料的情况下,多层次的网络模型实现了自动挖掘文本特征信息,深度神经网络成为了自然语言处理领域的关键技术之一,其在文本语义分类任务中也取得了良好的效果。其中,长短时记忆网络以及注意力机制在自然语言处理领域的发展及使用为本专利技术奠定了基础。此外,在文本语义分类中,关于字符级和词语级两种嵌入粒度是否对分类效果有影响,不少研究者对此进行了研究。Kim提出了一种通过字符级CNN提取文本语义信息的模型,刘龙飞等证明了字符级特征表示在中文文本处理中的优越性。由于微博文本多为非结构化的、缺少规范的文本语料,向量化难度高,单一使用词维度或字维度提取文本语义特征,会造成特征提取不全面而损失分类精度,且现有语言模型难以精确处理食品安全领域文本。因此本专利技术采用字词双维度神经网络模型结合构建的食品领域词库来进行食品安全领域的微博文本处理。
技术实现思路
本专利技术技术解决问题:克服现有技术的不足,提供一种面向食品安全舆情的字词双维度微博谣言识别方法,以解决目前微博上的食品安全相关的谣言识别监管需求,能够快速准确的对谣言进行识别判断,大幅提高监管者的工作效率,辅助监管者做出判断。本专利技术一种面向食品安全舆情的字词双维度微博谣言识别方法,包括以下步骤:步骤1、对从互联网上网络爬虫获取到的原始文本数据进行预处理,包括去除原始文本数据的含有大量特殊符号,停用词等;步骤2、在开放域wordembedding资源库基础上,构建食品安全领域wordembedding资源库并进行增量训练;步骤3、构建基于融合位置感知注意力机制的双向长短时记忆网络作为获得文本词向量维度文本特征的神经网络模型端,首先通过结合步骤2构建的领域词库判断领域关键词语义角色和位置,生成基于位置感知的注意力。然后将文本语料经过词嵌入生成的词向量输入BLSTM模型,将词向量参与中间隐藏层的计算,之后经过隐层计算的向量在注意力机制的影响下进一步计算得到词语级别文本语义特征。步骤4、独立于步骤3构建的BLSTM模型,构建BERT神经网络模型作为获得文本字向量维度文本特征的神经网络模型端,BERT模型通过查询字向量表将文本中的每个字转换为向量,作为模型输入;模型输出则是输入各字对应的融合全文语义信息后的向量表示。步骤5、使用SoftMax作为分类器,语料经BERT与BLSTM双路神经网络处理输出后,在连接层合并步骤3中得到的词维度文本特征信息与步骤4中得到的字维度文本特征信息,然后输入分类器进行分类识别,得到最终的谣言分类识别结果。进一步的,所述步骤2中,在开放域wordembedding资源库基础上,结合skip-gram模型和字词语义表示,构建食品安全领域wordembedding资源库,并在此基础上进行语料扩充,增加公开的百度百科语料,并从网络爬取食品领域词汇百科、新闻语料,进行词向量模型的训练。此后每隔一段时间,当积累了一定的食品安全舆情语料时,对词向量模型再进行增量训练。进一步的,所述步骤3中,训练基于融合位置感知注意力机制的双向长短时记忆网络模型作为词维度文本特征提取模型。将微博文本语料转换为向量表示,作为网络的输入,训练神经网络模型,利用融合位置注意力感知机制的双向长短时记忆网络搭建构成整体模型的双路网络模型之一,通过已有的微博文本语料训练得到本路输出结果:词维度文本特征向量表示。进一步的,所述步骤4中,训练BERT网络模型作为字维度文本特征提取模型。模型输入除了字向量(TokenEmbedding),还包含两部分,其一是分割嵌入(SegmentEmbedding):该向量的取值在模型训练过程中自动学习,用于刻画文本的全局语义信息,并与单字的语义信息相融合;其二是位置嵌入(PositionEmbedding):由于出现在文本不同位置的字所携带的语义信息存在差异,因此,BERT模型对不同位置的字分别附加一个不同的向量以作区分。最后,BERT模型将TokenEmbedding、SegmentEmbedding和PositionEmbedding的加和作为句向量,得到整体模型的双路网络输出之一:字维度文本特征向量表示。进一步的,BERT网络作为预训练模型,在文本分类任务中,BERT网络中的TokenEmbedding层对于输入要求句子头部标记为[CLS],多句话之间标记[SEP]。SegmentEmbedding和PositionEmbedding层利用了预训练好的模型参数参与计算。进一步的,所述步骤5中,训练两个神经网络模型,包括提取词维度文本特征向量的融合位置感知注意力机制的双向长短时记忆网络模型,以及用于提取字维度文本特征向量的BERT模型;在开始训练时,随机初始化权重,在通过神经网络计算得到双路网络计算结果后,通过连接层对双路网络计算结果进行连接,使用SoftMax函数作为损失函数,将神经网络的数值型输出转化为分类的概率型输出;在训练过程中为避免过拟合,设置一定概率的Dropout,即在模型训练过程中随机归零隐含层的部分权重或输出,从而降低各节点间的相互依赖,提高模型泛化性。本专利技术与现有技术相比的优点在于:够通过基于融合位置感知attention机制的LSTM网络与BERT网络的字词双路文本语义分类模型快速判断出食品安全相关微博是否为谣言,并针对食品安全舆情领域谣言识别构建更全面、针对性更强的食品安全领域舆情Embedding资源库,将字符级和词语级两种嵌入粒度作为模型输入,最后结合双路网络的特征提取结果对文本进行分类。本专利技术提出的模型充分利用BLSTM的特性,从词向量级别挖掘文本的语义特征,并与位置注意力机制相结合,通过BLSTM的训练获取微博文本中详细的特征信息,使用位置注意力机制计算,使食品安全领域相关的词语对整个文本起决定性的作用。同时,BERT网络能够从字向量级别对文本语义进行进一步挖掘,避免因为非结构化的、缺少规范的文本语料本文档来自技高网
...

【技术保护点】
1.一种面向食品安全舆情的字词双维度微博谣言识别方法,其特征在于,包括以下步骤:/n步骤1、对从互联网上网络爬虫获取到的原始文本数据进行预处理,包括去除原始文本数据中含有的特殊符号和停用词;/n步骤2、在开放域word embedding资源库基础上,构建食品安全领域word embedding资源库,并进行增量训练;/n步骤3、构建基于融合位置感知注意力机制的双向长短时记忆网络作为获得文本词向量维度文本特征的神经网络模型端,具体实现为:首先通过结合步骤2构建的领域词库判断领域关键词语义角色和位置,生成基于位置感知的注意力,然后将文本语料经过词嵌入生成的词向量输入BLSTM模型,将词向量参与中间隐藏层的计算,再经过隐层计算的向量在注意力机制的影响下进一步计算得到词语级别文本语义特征;/n步骤4、独立于步骤3构建的BLSTM模型,构建BERT神经网络模型作为获得文本字向量维度文本特征的神经网络模型端,BERT模型通过查询字向量表将文本中的每个字转换为向量,作为模型输入;模型输出则是输入各字对应的融合全文语义信息后的向量表示;/n步骤5、使用SoftMax作为分类器,语料经BERT与BLSTM双路神经网络处理输出后,在连接层合并步骤3中得到的词维度文本特征信息与步骤4中得到的字维度文本特征信息,然后输入分类器进行分类识别,得到最终的谣言分类识别结果。/n...

【技术特征摘要】
1.一种面向食品安全舆情的字词双维度微博谣言识别方法,其特征在于,包括以下步骤:
步骤1、对从互联网上网络爬虫获取到的原始文本数据进行预处理,包括去除原始文本数据中含有的特殊符号和停用词;
步骤2、在开放域wordembedding资源库基础上,构建食品安全领域wordembedding资源库,并进行增量训练;
步骤3、构建基于融合位置感知注意力机制的双向长短时记忆网络作为获得文本词向量维度文本特征的神经网络模型端,具体实现为:首先通过结合步骤2构建的领域词库判断领域关键词语义角色和位置,生成基于位置感知的注意力,然后将文本语料经过词嵌入生成的词向量输入BLSTM模型,将词向量参与中间隐藏层的计算,再经过隐层计算的向量在注意力机制的影响下进一步计算得到词语级别文本语义特征;
步骤4、独立于步骤3构建的BLSTM模型,构建BERT神经网络模型作为获得文本字向量维度文本特征的神经网络模型端,BERT模型通过查询字向量表将文本中的每个字转换为向量,作为模型输入;模型输出则是输入各字对应的融合全文语义信息后的向量表示;
步骤5、使用SoftMax作为分类器,语料经BERT与BLSTM双路神经网络处理输出后,在连接层合并步骤3中得到的词维度文本特征信息与步骤4中得到的字维度文本特征信息,然后输入分类器进行分类识别,得到最终的谣言分类识别结果。


2.根据权利要求1所述的面向食品安全舆情的字词双维度微博谣言识别方法,其特征在于:所述步骤2中,在开放域wordembedding资源库基础上,结合skip-gram模型和字词语义表示,构建食品安全领域wordembedding资源库,并在此基础上进行语料扩充,增加公开的百度百科语料,并从网络爬取食品领域词汇百科、新闻语料,进行词向量模型的训练,此后每隔一段时间,当积累一定的食品安全舆情语料时,对词向量模型再进行增量训练。


3.根据权利要求1所述的面向食品安全舆情的字词双维度微博谣言识别方法,其特征在于:所述步骤3中,训练基于融合位置感知注意力机制的双向长短时记忆网络模型作为词维度文本特征提取模型,将微博文本语料转换为向量表示,作为网络的输入,...

【专利技术属性】
技术研发人员:左敏何思宇张青川颜文婧
申请(专利权)人:北京工商大学
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1