一种海量新闻热点话题提取方法和系统技术方案

技术编号:24010860 阅读:15 留言:0更新日期:2020-05-02 01:41
本发明专利技术提供了一种海量新闻热点话题提取方法和系统。所述方法,包括采用并行化的训练模型获取得到新闻文本数据间的相似度,再采用改进后的卷积神经网络模型根据相似度获取得到新闻文本数据的分类,然后,采用聚类算法对分类后的新闻文本数据进行话题聚类,进而从海量的新闻数据中检测出各类别下的热点话题,以保证新闻热点话题提取的准确性,并且,整个新闻热点话题的提取过程均是基于并行化的方式,这就能够进一步提高新闻热点话题的提取效率。

A hot topic extraction method and system for mass news

【技术实现步骤摘要】
一种海量新闻热点话题提取方法和系统
本专利技术涉及大数据处理分析
,特别是涉及一种海量新闻热点话题提取方法和系统。
技术介绍
近年来,随着互联网的迅猛发展,面临着互联网信息的爆炸式的增加,人们对于如何能够从海量的网络新闻信息中快速并且准确的获取自己感兴趣的和当前社会中较为大众关注的新闻事件话题显得尤为重视,为了解决这一问题,对于互联网络中的新闻信息,如何利用当前的技术方法去分门别类,寻找出其中包含社会动态和社会焦点的热门新闻信息,如何快速简捷的从杂乱无章的互联网络信息中获取人们较为关注的,与人们的生活密切相关的,能够反应当前大众生活动向和社会动向的新闻信息来越来越成为当前各个领域的研究者们关注关心的问题。在互联网信息急剧增长的同时,网络中的新闻信息逐渐变得臃肿庞大,各种信息交错分布,毫无章法。由于这些方面的原因,给人们从海量的网络信息中获取自己感兴趣的新闻事件带来了巨大的挑战和困难。因此,如何从海量的网络新闻中快速的提取人们感兴趣的焦点事件以及相关的事件发展动态的新闻信息,从浩瀚的网络新闻中过滤掉无用的信息,有组织、条理清楚的帮助用户及时挖掘出社会热点事件,帮助人们获取当前社会的热点动态,成为现今研究的热点。网络信息的爆炸式增长给数据的计算和处理带来了很大的困难,传统的数据处理方式己经远远不能满足大规模数据处理的需求,海量数据的处理成为了当前生产和科技发展的瓶颈。随着网络中新闻信息的日益增长,面对海量信息处理带来的巨大压力,传统的TDT技术在处理海量新闻数据中显得越来越困难,而分布式计算技术的兴起,使得这一问题缓解了许多,利用这一技术在处理海量数据中的优势,将分布式技术引入到对海量网络新闻数据的处理中,能够极大的提升对网络热点话题分析的效率。从相关的调研结果看,目前应用于网络新闻热点话题检测与发现的方法己经逐步取得一些成就,但仍不能解决在对新闻热点数据进行准确提取的同时,提高新闻热点数据提取效率的问题。
技术实现思路
本专利技术的目的是提供一种海量新闻热点话题提取方法和系统,能够在提高海量新闻热点话题提取准确性的同时,提高新闻热点话题的提取效率。为实现上述目的,本专利技术提供了如下方案:一种海量新闻热点话题提取方法,包括:获取新闻文本数据;对所获取的新闻文本数据进行预处理;获取并行化的训练模型;所述并行化的训练模型为以预处理后的新闻文本数据为输入,以新闻文本数据间的相似度为输出的网络训练模型;利用所述并行化的训练模型,根据所述预处理后的新闻文本数据,得到新闻文本数据间的相似度;获取改进后的卷积神经网络模型;所述改进后的卷积神经网络模型为以新闻文本数据间的相似度为输入,以新闻文本数据的分类为输出的神经网络模型;利用所述改进后的卷积神经网络模型,根据所述新闻文本数据间的相似度,得到新闻文本数据的分类;采用聚类算法对分类后的新闻文本数据进行话题聚类,得到新闻热点话题。可选的,所述并行化的训练模型为并行化的词向量模型和并行化的主题模型的线性组合模型。可选的,所述获取并行化的训练模型之前,还包括:获取训练样本,对所述训练样本中的新闻文本数据进行标定采样,得到训练样本集;对所述训练样本集进行并行化训练,得到所述训练样本集中新闻文本数据间的相似度。可选的,所述利用所述改进后的卷积神经网络模型,根据所述新闻文本数据间的相似度,得到新闻文本数据的分类之后,还包括:对所述分类得到的新闻文本数据进行词频分布分析、地域分布分析和站点分布分析;分别对所述词频分布相同的新闻文本数据、地域分布相同的新闻文本数据和站点分布相同的新闻文本数据进行统计。可选的,所述采用聚类算法对分类后的新闻文本数据进行话题聚类,得到新闻热点话题,包括:采用聚类算法对单位窗口内的分类后的新闻文本数据进行话题聚类,得到第一热点话题集合;采用聚类算法对特定时间段内的所述第一热点话题集合进行聚类,得到第二热点话题集合;所述第二热点话题集合中的新闻文本数据即为所提取的新闻热点话题。一种海量新闻热点话题提取系统,包括:数据获取模块,用于获取新闻文本数据;预处理模块,用于对所获取的新闻文本数据进行预处理;训练模型获取模块,用于获取并行化的训练模型;所述并行化的训练模型为以预处理后的新闻文本数据为输入,以新闻文本数据间的相似度为输出的网络训练模型;第一相似度确定模块,用于利用所述并行化的训练模型,根据所述预处理后的新闻文本数据,得到新闻文本数据间的相似度;卷积神经网络模型获取模块,用于获取改进后的卷积神经网络模型;所述改进后的卷积神经网络模型为以新闻文本数据间的相似度为输入,以新闻文本数据的分类为输出的神经网络模型;数据分类模块,用于利用所述改进后的卷积神经网络模型,根据所述新闻文本数据间的相似度,得到新闻文本数据的分类;新闻热点话题获取模块,用于采用聚类算法对分类后的新闻文本数据进行话题聚类,得到新闻热点话题。可选的,所述并行化的训练模型为并行化的词向量模型和并行化的主题模型的线性组合模型。可选的,所述系统还包括:训练样本集获取模块,用于获取训练样本,对所述训练样本中的新闻文本数据进行标定采样,得到训练样本集;第二相似度确定模块,用于对所述训练样本集进行并行化训练,得到所述训练样本集中新闻文本数据间的相似度。可选的,所述系统还包括:分析模块,用于对所述分类得到的新闻文本数据进行词频分布分析、地域分布分析和站点分布分析;统计模块,用于分别对所述词频分布相同的新闻文本数据、地域分布相同的新闻文本数据和站点分布相同的新闻文本数据进行统计。可选的,所述新闻热点话题获取模块包括:第一热点话题集合获取单元,用于采用聚类算法对单位窗口内的分类后的新闻文本数据进行话题聚类,得到第一热点话题集合;第二热点话题集合获取单元,用于采用聚类算法对特定时间段内的所述第一热点话题集合进行聚类,得到第二热点话题集合;所述第二热点话题集合中的新闻文本数据即为所提取的新闻热点话题。根据本专利技术提供的具体实施例,本专利技术公开了以下技术效果:本专利技术提供的海量新闻热点话题提取方法和系统,通过采用并行化的训练模型获取得到新闻文本数据间的相似度,再采用改进后的卷积神经网络模型根据相似度获取得到新闻文本数据的分类,然后,采用Single-Pass聚类算法对分类后的新闻文本数据进行话题聚类,进而从海量的新闻数据中检测出各类别下的热点话题,以保证新闻热点话题提取的准确性,并且,整个新闻热点话题的提取过程均是基于并行化的方式,这就能够进一步提高新闻热点话题的提取效率。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的本文档来自技高网
...

【技术保护点】
1.一种海量新闻热点话题提取方法,其特征在于,包括:/n获取新闻文本数据;/n对所获取的新闻文本数据进行预处理;/n获取并行化的训练模型;所述并行化的训练模型为以预处理后的新闻文本数据为输入,以新闻文本数据间的相似度为输出的网络训练模型;/n利用所述并行化的训练模型,根据所述预处理后的新闻文本数据,得到新闻文本数据间的相似度;/n获取改进后的卷积神经网络模型;所述改进后的卷积神经网络模型为以新闻文本数据间的相似度为输入,以新闻文本数据的分类为输出的神经网络模型;/n利用所述改进后的卷积神经网络模型,根据所述新闻文本数据间的相似度,得到新闻文本数据的分类;/n采用聚类算法对分类后的新闻文本数据进行话题聚类,得到新闻热点话题。/n

【技术特征摘要】
1.一种海量新闻热点话题提取方法,其特征在于,包括:
获取新闻文本数据;
对所获取的新闻文本数据进行预处理;
获取并行化的训练模型;所述并行化的训练模型为以预处理后的新闻文本数据为输入,以新闻文本数据间的相似度为输出的网络训练模型;
利用所述并行化的训练模型,根据所述预处理后的新闻文本数据,得到新闻文本数据间的相似度;
获取改进后的卷积神经网络模型;所述改进后的卷积神经网络模型为以新闻文本数据间的相似度为输入,以新闻文本数据的分类为输出的神经网络模型;
利用所述改进后的卷积神经网络模型,根据所述新闻文本数据间的相似度,得到新闻文本数据的分类;
采用聚类算法对分类后的新闻文本数据进行话题聚类,得到新闻热点话题。


2.根据权利要求1所述的一种海量新闻热点话题提取方法,其特征在于,所述并行化的训练模型为并行化的词向量模型和并行化的主题模型的线性组合模型。


3.根据权利要求1所述的一种海量新闻热点话题提取方法,其特征在于,所述获取并行化的训练模型之前,还包括:
获取训练样本,对所述训练样本中的新闻文本数据进行标定采样,得到训练样本集;
对所述训练样本集进行并行化训练,得到所述训练样本集中新闻文本数据间的相似度。


4.根据权利要求1所述的一种海量新闻热点话题提取方法,其特征在于,所述利用所述改进后的卷积神经网络模型,根据所述新闻文本数据间的相似度,得到新闻文本数据的分类之后,还包括:
对所述分类得到的新闻文本数据进行词频分布分析、地域分布分析和站点分布分析;
分别对所述词频分布相同的新闻文本数据、地域分布相同的新闻文本数据和站点分布相同的新闻文本数据进行统计。


5.根据权利要求1所述的一种海量新闻热点话题提取方法,其特征在于,所述采用Single-Pass聚类算法对分类后的新闻文本数据进行话题聚类,得到新闻热点话题,包括:
采用聚类算法对单位窗口内的分类后的新闻文本数据进行话题聚类,得到第一热点话题集合;
采用聚类算法对特定时间段内的所述第一热点话题集合进行聚类,得到第二热点话题集合;所述第二热点话题集合中的新闻文本数据即为所提取的新闻热点话题。


6.一种海量新闻热点话题提取系统,其特征在于...

【专利技术属性】
技术研发人员:宿红毅王军义闫波郑宏
申请(专利权)人:北京理工大学
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1