新闻舆情识别方法、设备及存储介质技术

技术编号:24497904 阅读:22 留言:0更新日期:2020-06-13 03:47
本发明专利技术涉及互联网舆情识别领域,公开了一种新闻舆情识别方法、设备及存储介质,其中,一种新闻舆情识别方法包括:获取新闻报道;从新闻报道中提取多维度特征,多维度特征包括非结构化数据特征和结构化数据特征;建立新闻舆情文本语义理解模型;根据非结构化数据特征和新闻舆情文本语义理解模型,获取语义识别结果;对结构化数据特征进行时效检测,获取时效检测结果;对结构化数据特征进行影响力检测,获取影响力检测结果;根据语义识别结果、时效检测结果,及影响力检测结果,获取新闻舆情识别结果。本发明专利技术能够准确地区分舆情与非舆情新闻,并提升了新闻舆情识别的效果和效率。

Methods, equipment and storage media of news and public opinion identification

【技术实现步骤摘要】
新闻舆情识别方法、设备及存储介质
本专利技术涉及互联网舆情识别领域,尤其是涉及一种新闻舆情识别方法、设备及存储介质。
技术介绍
舆情是指在一定的社会空间内,围绕中介性社会事件的发生、发展和变化,作为主体的民众对作为客体的社会管理者、企业、个人及其他各类组织及其政治、社会、道德等方面的取向产生和持有的社会态度。现有的新闻舆情识别技术,是将新闻信息标题和文本拼接成一个文本,然后用关键词匹配的方式将这条新闻特征化,输入到深度学习基本模型中,结合文本的标签进行分类学习,学习出分类器参数,然后用来预测新文本的类别,判断是否属于舆情事件。现有的新闻舆情识别技术无法准确地区分舆情与非舆情新闻,且舆情识别的速度较慢,无法满足新闻舆情的时效性要求。
技术实现思路
本专利技术的目的是至少在一定程度上解决现有技术中存在的技术问题之一。为此,本专利技术提出一种新闻舆情识别方法,能够准确地区分舆情与非舆情新闻,并提升了新闻舆情识别的效果和效率。本专利技术还提出一种新闻舆情识别设备。本专利技术还提出一种计算机可读存储介质。第一方面,本专利技术的一个实施例提供了一种新闻舆情识别方法,包括:获取新闻报道;从新闻报道中提取多维度特征,多维度特征包括非结构化数据特征和结构化数据特征;建立新闻舆情文本语义理解模型;根据非结构化数据特征和新闻舆情文本语义理解模型,获取语义识别结果;对结构化数据特征进行时效检测,获取时效检测结果;对结构化数据特征进行影响力检测,获取影响力检测结果;根据语义识别结果、时效检测结果,及影响力检测结果,获取新闻舆情识别结果。本专利技术实施例的一种新闻舆情识别方法至少具有如下有益效果:1.将非结构化数据和结构化数据结合到一起,多维度地识别新闻舆情,在语义理解新闻报道的同时,智能地分析新闻报道的时效性与影响力,从而提升了新闻舆情识别的效果;2.建立新闻舆情文本语义理解模型,从语义理解出发,能避免关键词匹配方法的机械性缺陷,还能提升新闻舆情识别的效率;3.将新闻报道的多维度特征与文本语义理解模型相结合,能够准确地区分舆情与非舆情新闻,提高了新闻舆情识别的可靠性。根据本专利技术的另一些实施例的一种新闻舆情识别方法,非结构化数据特征包括新闻报道的标题和正文,结构化数据特征包括新闻报道的时间特征和来源网站。本专利技术实施例的一种新闻舆情识别方法,综合考虑了非结构化的文本数据和结构化的时间信息及来源信息,不仅能从语义上理解新闻报道,还能从时效性及来源的可靠性和影响力方面去做舆情识别,从而提升了新闻舆情识别的效果。根据本专利技术的另一些实施例的一种新闻舆情识别方法,根据非结构化数据特征和新闻舆情文本语义理解模型,获取语义识别结果,包括:采用双向长短期记忆神经网络(Bi-LSTM)算法对标题进行处理,获取标题语义向量;采用卷积神经网络(CNN)算法对正文进行处理,获取正文语义向量;对标题语义向量和正文语义向量进行权重学习,获取所述语义识别结果。本专利技术实施例的一种新闻舆情识别方法至少具有如下有益效果:1.采用双向长短期记忆神经网络算法处理信息量极大的标题,采用卷积神经网络算法处理信息量不大的长文本,同时兼顾了语义理解和语义特征捕捉,能够提升新闻舆情识别的效果和效率;2.在文本语义理解模型中引入权重因子,使用注意力机制来模拟人的注意力,让模型主动学习新闻标题和新闻正文,确定两者的重要性优先级,从而提升了模型性能。根据本专利技术的另一些实施例的一种新闻舆情识别方法,采用双向长短期记忆神经网络算法对标题进行处理,获取标题语义向量,包括:将标题中的文字转换成词向量;采用双向长短期记忆神经网络算法提取标题的正向语义和反向语义;对正向语义、反向语义和词向量进行向量拼接,得到上下文语义向量;对上下文语义向量进行压缩,得到标题语义向量。本专利技术实施例的一种新闻舆情识别方法,采用双向长短期记忆神经网络算法分别学习上下文序列语义信息,并综合到一起去理解新闻标题,能够减小从单一方向提取语义信息带来的误差。根据本专利技术的另一些实施例的一种新闻舆情识别方法,采用卷积神经网络算法对正文进行处理,获取正文语义向量,包括:将正文中的文字转换成词向量;采用卷积神经网络算法对词向量进行处理,得到正文语义向量。本专利技术实施例的一种新闻舆情识别方法,采用卷积神经网络算法捕捉长文本中的语义特征,由于卷积神经网络结构是可并行的架构,因此能够提升正文语义特征捕捉的效率,还能解决超长文本在循环神经网络(RNN)中的梯度消失问题。根据本专利技术的另一些实施例的一种新闻舆情识别方法,对标题语义向量和正文语义向量进行权重学习,获取语义识别结果,包括:对标题语义向量进行处理,获取标题语义向量的第一关注度权重;对正文语义向量进行处理,获取正文语义向量的第二关注度权重;将标题语义向量与第一关注度权重相乘,得到第一语义向量;将正文语义向量与第二关注度权重相乘,得到第二语义向量;将第一语义向量和第二语义向量相加,得到语义识别结果。本专利技术实施例的一种新闻舆情识别方法,在文本语义理解模型中引入权重因子,使用注意力机制来模拟人的注意力,让模型主动学习新闻标题和新闻正文,确定两者的重要性优先级,从而提升了模型性能。其中,注意力机制的作用在于自动调整文本语义理解模型对于标题和正文的关注度权重。根据本专利技术的另一些实施例的一种新闻舆情识别方法,对结构化数据特征进行时效检测,获取时效检测结果,包括:采用正则匹配方法对时间特征进行处理,得到时间节点;获取时间节点的偏差值;对偏差值进行独热处理,得到偏差值的各位特征值;对各位特征值进行向量拼接,得到时效检测结果。本专利技术实施例的一种新闻舆情识别方法,综合考虑新闻时间特征的复杂性和相对偏移,能够提升时效检测的可靠性。根据本专利技术的另一些实施例的一种新闻舆情识别方法,对结构化数据特征进行影响力检测,获取影响力检测结果,包括:获取高频重点舆论网站特征;根据高频重点舆论网站特征,对来源网站进行影响力检测,得到影响力检测结果。本专利技术实施例的一种新闻舆情识别方法,将来源网站的特征与高频重点舆论网站的特征进行匹配,自动识别和判断新闻的来源重要性,让重要网站的新闻,得到更高的评分,更接近人的正常理解判断。第二方面,本专利技术的一个实施例提供了一种新闻舆情识别设备,包括:至少一个处理器,以及,与至少一个处理器通信连接的存储器;其中,存储器存储有可被至少一个处理器执行的指令,指令被至少一个处理器执行,以使至少一个处理器能够执行本专利技术实施例中一些具体实施例的新闻舆情识别方法。本专利技术实施例的一种新闻舆情识别设备至少具有如下有益效果:1.将非结构化数据和结构化数据结合到一起,多维度地识别新闻舆情,在语义理解新闻报道的同时,智能本文档来自技高网...

【技术保护点】
1.一种新闻舆情识别方法,其特征在于,包括:/n获取新闻报道;/n从所述新闻报道中提取多维度特征,所述多维度特征包括非结构化数据特征和结构化数据特征;/n建立新闻舆情文本语义理解模型;/n根据所述非结构化数据特征和所述新闻舆情文本语义理解模型,获取语义识别结果;/n对所述结构化数据特征进行时效检测,获取时效检测结果;/n对所述结构化数据特征进行影响力检测,获取影响力检测结果;/n根据所述语义识别结果、所述时效检测结果,及所述影响力检测结果,获取新闻舆情识别结果。/n

【技术特征摘要】
1.一种新闻舆情识别方法,其特征在于,包括:
获取新闻报道;
从所述新闻报道中提取多维度特征,所述多维度特征包括非结构化数据特征和结构化数据特征;
建立新闻舆情文本语义理解模型;
根据所述非结构化数据特征和所述新闻舆情文本语义理解模型,获取语义识别结果;
对所述结构化数据特征进行时效检测,获取时效检测结果;
对所述结构化数据特征进行影响力检测,获取影响力检测结果;
根据所述语义识别结果、所述时效检测结果,及所述影响力检测结果,获取新闻舆情识别结果。


2.根据权利要求1所述的一种新闻舆情识别方法,其特征在于,所述非结构化数据特征包括所述新闻报道的标题和正文,所述结构化数据特征包括所述新闻报道的时间特征和来源网站。


3.根据权利要求2所述的一种新闻舆情识别方法,其特征在于,所述根据所述非结构化数据特征和所述新闻舆情文本语义理解模型,获取语义识别结果,包括:
采用双向长短期记忆神经网络算法对所述标题进行处理,获取标题语义向量;
采用卷积神经网络算法对所述正文进行处理,获取正文语义向量;
对所述标题语义向量和所述正文语义向量进行权重学习,获取所述语义识别结果。


4.根据权利要求3所述的一种新闻舆情识别方法,其特征在于,所述采用双向长短期记忆神经网络算法对所述标题进行处理,获取标题语义向量,包括:
将所述标题中的文字转换成词向量;
采用双向长短期记忆神经网络算法提取所述标题的正向语义和反向语义;
对所述正向语义、所述反向语义和所述词向量进行向量拼接,得到上下文语义向量;
对所述上下文语义向量进行压缩,得到所述标题语义向量。


5.根据权利要求3或4所述的一种新闻舆情识别方法,其特征在于,所述采用卷积神经网络算法对所述正文进行处理,获取正文语义向量,包括:
将所述正文中的文字转换成词向量;
采用卷积神经网络算法对所述...

【专利技术属性】
技术研发人员:赖文波陈志群刘晓靓陈锦冰
申请(专利权)人:深圳中泓在线股份有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1