【技术实现步骤摘要】
一种面向食品安全舆情的字词双维度微博谣言识别方法
本专利技术涉及人工智能领域,尤其是指一种面向食品安全舆情的字词双维度微博谣言识别方法。
技术介绍
微博因为其便捷、开放、及时、匿名等的特点而深受大众喜爱,越来越多的人选择使用微博来发表观点、分享故事。但是由于微博用户注册的低门槛性和使用群体的多样性,使其发布的信息质量难以监管和控制,从而使其成为网络谣言滋长的传播的温床,这不仅会对民众生活造成严重干扰,还会扰乱社会秩序。食品领域关系国计民生,所以食品安全相关微博谣言的影响是尤为严重、恶劣的。因此,利用自然语言处理技术,建立起谣言识别模型对食品安全微博谣言的识别是具有重大意义的。文本分类识别是自然语言处理的一个重要且实用的研究方向。在深度学习兴起之前,传统机器学习方法被应用在文本分类领域,如朴素贝叶斯模型与支持向量机模型。然而传统机器学习模型依赖人工语料标注,不仅耗费大量人力物力,而且文本特征提取结果也不尽如人意。近年来随着深度学习、云计算、人工智能等技术的发展,深度神经网络在各个领域实现应用并取得了较好的成果。在自然语言处理领域,基于大规模语料的情况下,多层次的网络模型实现了自动挖掘文本特征信息,深度神经网络成为了自然语言处理领域的关键技术之一,其在文本语义分类任务中也取得了良好的效果。其中,长短时记忆网络以及注意力机制在自然语言处理领域的发展及使用为本专利技术奠定了基础。此外,在文本语义分类中,关于字符级和词语级两种嵌入粒度是否对分类效果有影响,不少研究者对此进行了研究。Kim提出了一 ...
【技术保护点】
1.一种面向食品安全舆情的字词双维度微博谣言识别方法,其特征在于,包括以下步骤:/n步骤1、对从互联网上网络爬虫获取到的原始文本数据进行预处理,包括去除原始文本数据中含有的特殊符号和停用词;/n步骤2、在开放域word embedding资源库基础上,构建食品安全领域word embedding资源库,并进行增量训练;/n步骤3、构建基于融合位置感知注意力机制的双向长短时记忆网络作为获得文本词向量维度文本特征的神经网络模型端,具体实现为:首先通过结合步骤2构建的领域词库判断领域关键词语义角色和位置,生成基于位置感知的注意力,然后将文本语料经过词嵌入生成的词向量输入BLSTM模型,将词向量参与中间隐藏层的计算,再经过隐层计算的向量在注意力机制的影响下进一步计算得到词语级别文本语义特征;/n步骤4、独立于步骤3构建的BLSTM模型,构建BERT神经网络模型作为获得文本字向量维度文本特征的神经网络模型端,BERT模型通过查询字向量表将文本中的每个字转换为向量,作为模型输入;模型输出则是输入各字对应的融合全文语义信息后的向量表示;/n步骤5、使用SoftMax作为分类器,语料经BERT与BLS ...
【技术特征摘要】
1.一种面向食品安全舆情的字词双维度微博谣言识别方法,其特征在于,包括以下步骤:
步骤1、对从互联网上网络爬虫获取到的原始文本数据进行预处理,包括去除原始文本数据中含有的特殊符号和停用词;
步骤2、在开放域wordembedding资源库基础上,构建食品安全领域wordembedding资源库,并进行增量训练;
步骤3、构建基于融合位置感知注意力机制的双向长短时记忆网络作为获得文本词向量维度文本特征的神经网络模型端,具体实现为:首先通过结合步骤2构建的领域词库判断领域关键词语义角色和位置,生成基于位置感知的注意力,然后将文本语料经过词嵌入生成的词向量输入BLSTM模型,将词向量参与中间隐藏层的计算,再经过隐层计算的向量在注意力机制的影响下进一步计算得到词语级别文本语义特征;
步骤4、独立于步骤3构建的BLSTM模型,构建BERT神经网络模型作为获得文本字向量维度文本特征的神经网络模型端,BERT模型通过查询字向量表将文本中的每个字转换为向量,作为模型输入;模型输出则是输入各字对应的融合全文语义信息后的向量表示;
步骤5、使用SoftMax作为分类器,语料经BERT与BLSTM双路神经网络处理输出后,在连接层合并步骤3中得到的词维度文本特征信息与步骤4中得到的字维度文本特征信息,然后输入分类器进行分类识别,得到最终的谣言分类识别结果。
2.根据权利要求1所述的面向食品安全舆情的字词双维度微博谣言识别方法,其特征在于:所述步骤2中,在开放域wordembedding资源库基础上,结合skip-gram模型和字词语义表示,构建食品安全领域wordembedding资源库,并在此基础上进行语料扩充,增加公开的百度百科语料,并从网络爬取食品领域词汇百科、新闻语料,进行词向量模型的训练,此后每隔一段时间,当积累一定的食品安全舆情语料时,对词向量模型再进行增量训练。
3.根据权利要求1所述的面向食品安全舆情的字词双维度微博谣言识别方法,其特征在于:所述步骤3中,训练基于融合位置感知注意力机制的双向长短时记忆网络模型作为词维度文本特征提取模型,将微博文本语料转换为向量表示,作为网络的输入,...
【专利技术属性】
技术研发人员:左敏,何思宇,张青川,颜文婧,
申请(专利权)人:北京工商大学,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。