一种海量新闻热点话题提取方法和系统技术方案

技术编号：24010860 阅读：15 留言：0更新日期：2020-05-02 01:41

本发明专利技术提供了一种海量新闻热点话题提取方法和系统。所述方法，包括采用并行化的训练模型获取得到新闻文本数据间的相似度，再采用改进后的卷积神经网络模型根据相似度获取得到新闻文本数据的分类，然后，采用聚类算法对分类后的新闻文本数据进行话题聚类，进而从海量的新闻数据中检测出各类别下的热点话题，以保证新闻热点话题提取的准确性，并且，整个新闻热点话题的提取过程均是基于并行化的方式，这就能够进一步提高新闻热点话题的提取效率。

A hot topic extraction method and system for mass news

全部详细技术资料下载

【技术实现步骤摘要】
一种海量新闻热点话题提取方法和系统
本专利技术涉及大数据处理分析
，特别是涉及一种海量新闻热点话题提取方法和系统。
技术介绍
近年来，随着互联网的迅猛发展，面临着互联网信息的爆炸式的增加，人们对于如何能够从海量的网络新闻信息中快速并且准确的获取自己感兴趣的和当前社会中较为大众关注的新闻事件话题显得尤为重视，为了解决这一问题，对于互联网络中的新闻信息，如何利用当前的技术方法去分门别类，寻找出其中包含社会动态和社会焦点的热门新闻信息，如何快速简捷的从杂乱无章的互联网络信息中获取人们较为关注的，与人们的生活密切相关的，能够反应当前大众生活动向和社会动向的新闻信息来越来越成为当前各个领域的研究者们关注关心的问题。在互联网信息急剧增长的同时，网络中的新闻信息逐渐变得臃肿庞大，各种信息交错分布，毫无章法。由于这些方面的原因，给人们从海量的网络信息中获取自己感兴趣的新闻事件带来了巨大的挑战和困难。因此，如何从海量的网络新闻中快速的提取人们感兴趣的焦点事件以及相关的事件发展动态的新闻信息，从浩瀚的网络新闻中过滤掉无用的信息，有组织、条理清楚的帮助用户及时挖掘出社会热点事件，帮助人们获取当前社会的热点动态，成为现今研究的热点。网络信息的爆炸式增长给数据的计算和处理带来了很大的困难，传统的数据处理方式己经远远不能满足大规模数据处理的需求，海量数据的处理成为了当前生产和科技发展的瓶颈。随着网络中新闻信息的日益增长，面对海量信息处理带来的巨大压力，传统的TDT技术在处理海量新闻数据中显得越来越困难，而分布式计算...

【技术保护点】
1.一种海量新闻热点话题提取方法，其特征在于，包括：/n获取新闻文本数据；/n对所获取的新闻文本数据进行预处理；/n获取并行化的训练模型；所述并行化的训练模型为以预处理后的新闻文本数据为输入，以新闻文本数据间的相似度为输出的网络训练模型；/n利用所述并行化的训练模型，根据所述预处理后的新闻文本数据，得到新闻文本数据间的相似度；/n获取改进后的卷积神经网络模型；所述改进后的卷积神经网络模型为以新闻文本数据间的相似度为输入，以新闻文本数据的分类为输出的神经网络模型；/n利用所述改进后的卷积神经网络模型，根据所述新闻文本数据间的相似度，得到新闻文本数据的分类；/n采用聚类算法对分类后的新闻文本数据进行话题聚类，得到新闻热点话题。/n

【技术特征摘要】
1.一种海量新闻热点话题提取方法，其特征在于，包括：
获取新闻文本数据；
对所获取的新闻文本数据进行预处理；
获取并行化的训练模型；所述并行化的训练模型为以预处理后的新闻文本数据为输入，以新闻文本数据间的相似度为输出的网络训练模型；
利用所述并行化的训练模型，根据所述预处理后的新闻文本数据，得到新闻文本数据间的相似度；
获取改进后的卷积神经网络模型；所述改进后的卷积神经网络模型为以新闻文本数据间的相似度为输入，以新闻文本数据的分类为输出的神经网络模型；
利用所述改进后的卷积神经网络模型，根据所述新闻文本数据间的相似度，得到新闻文本数据的分类；
采用聚类算法对分类后的新闻文本数据进行话题聚类，得到新闻热点话题。

2.根据权利要求1所述的一种海量新闻热点话题提取方法，其特征在于，所述并行化的训练模型为并行化的词向量模型和并行化的主题模型的线性组合模型。

3.根据权利要求1所述的一种海量新闻热点话题提取方法，其特征在于，所述获取并行化的训练模型之前，还包括：
获取训练样本，对所述训练样本中的新闻文本数据进行标定采样，得到训练样本集；
对所述训练样本集进行并行化训练，得到所述训练样本集中新闻文本数据间的相似度。

4.根据权利要求1所述的一种海量新闻热点话题提取方法，其特征在于，所述利用所述改进后的卷积神经网络模型，根据所述新闻文本数据间的相似度，得到新闻文本数据的分类之后，还包括：
对所述分类得到的新闻文本数据进行词频分布分析、地域分布分析和站点分布分析；
分别对所述词频分布相同的新闻文本数据、地域分布相同的新闻文本数据和站点分布相同的新闻文本数据进行统计。

5.根据权利要求1所述的一种海量新闻热点话题提取方法，其特征在于，所述采用Single-Pass聚类算法对分类后的新闻文本数据进行话题聚类，得到新闻热点话题，包括：
采用聚类算法对单位窗口内的分类后的新闻文本数据进行话题聚类，得到第一热点话题集合；
采用聚类算法对特定时间段内的所述第一热点话题集合进行聚类，得到第二热点话题集合；所述第二热点话题集合中的新闻文本数据即为所提取的新闻热点话题。

6.一种海量新闻热点话题提取系统，其特征在于...

【专利技术属性】
技术研发人员：宿红毅，王军义，闫波，郑宏，
申请(专利权)人：北京理工大学，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人