一种基于文本挖掘的热点新闻发现方法技术

技术编号:27742171 阅读:31 留言:0更新日期:2021-03-19 13:35
本发明专利技术公开一种基于文本挖掘的热点新闻发现方法,包括步骤:将预处理后的新闻的标题的权重扩大,在分词及去停用词处理后,获取新闻的TF‑IDF的特征向量;基于所述TF‑IDF的特征向量,利用聚类算法预测新闻的所属类别;将新闻的标题及摘要合并成一句子,然后对句子进行分词、去停用词处理;利用TextRank算法,对新闻标题排序后输出热点新闻。本发明专利技术在聚类时增加了新闻标题权重,以提升其正确率;将新闻的标题、摘要、关键词一并用于排序,一方面增加新闻标题的权重,一方面能减少新闻标题的重复。

【技术实现步骤摘要】
一种基于文本挖掘的热点新闻发现方法
本专利技术涉及新闻发现
,特别是涉及一种基于文本挖掘的热点新闻发现方法。
技术介绍
现有技术热点新闻发现方法比较多:利用LDA主题模型,提出一个多核心活体模型,能够识别同一话题下关注的核心,之后采用划分聚类和层次聚类结合的办法对新闻报道进行精确聚类。采用single-pass聚类思想和凝聚式层次聚类与K-Means聚类算法相结合发现热点新闻。改进关联规则算法,根据互信息来计算文本字符串的相似度,然后得出热点新闻关键词集合,再进行热度计算来研究新闻热点。利用聚类算法得到新闻的类别,然后利用TextRank排序,取前几个新闻即为热点新闻。然而现有热点新闻发现中,没有考虑新闻的结构,导致区分度以及正确率上尚未达到满意的效果,且也存在重复标题的新闻热点发现问题。
技术实现思路
本专利技术的目的是针对现有技术中的缺陷,而提供一种基于文本挖掘的热点新闻发现方法,本专利技术方法增加了区分度,提升了正确率,解决了新闻标题的重复的问题。为实现本专利技术的目的所采用的技术方案是:一种基于文本挖掘的热点新闻发现方法,包括步骤:将预处理后的新闻的标题的权重扩大,在分词及去停用词处理后,获取新闻的TF-IDF的特征向量;基于所述TF-IDF的特征向量,利用聚类算法预测新闻的所属类别;将新闻的标题及摘要合并成一句子,然后对句子进行分词、去停用词处理;利用TextRank算法对句子处理,对新闻标题排序后输出热点新闻。优选的,所述预处理包括去重、清洗的处理步骤。优选的,利用训练TF-IDF模型获取新闻的TF-IDF的特征向量。优选的,利用训练k-means模型预测新闻的所属类别。优选的,TextRank算法顺序的步骤是,计算所述句子间相似度,根据所述相似度计算句子权重,根据所述权重对新闻标题进行排序。本专利技术在热点新闻挖掘中,在聚类时,增加了新闻标题的权重,以提升其正确率;在排序时,将新闻的标题、摘要、关键词一并用于排序,一方面增加新闻标题的权重,一方面能减少新闻标题的重复。附图说明图1是本专利技术的基于文本挖掘的热点新闻发现方法的流程示意图。具体实施方式以下结合附图和具体实施例对本专利技术作进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本专利技术,并不用于限定本专利技术。如图1所示,本专利技术基于文本挖掘的热点新闻发现方法,包括以下步骤:将预处理后的新闻的标题的权重扩大,在分词及去停用词处理后,获取新闻的TF-IDF的特征向量;基于所述TF-IDF的特征向量,利用聚类算法预测新闻的所属类别;将新闻的标题及摘要合并成一句子,然后对句子进行分词、去停用词处理;利用TextRank算法对句子处理,对新闻标题排序后输出热点新闻。为了表示一个文本,需要获取文本的特征。常见方法有词频、TF-IDF、词嵌入(wordembedding)、独热编码(one-hotrepresentation)。本专利技术使用TF-IDF。在TF-IDF表示中,词的重要程度有两个因素有关。一个是词频,一个是逆文档频率。TF-IDF的主要思想是:如果某个词在一篇新闻中出现的频率TF高,并且在其他新闻中很少出现,则认为此词具有很好的类别区分能力。TF-IDF实际上是:TF×IDF,TF词频(TermFrequency),IDF逆文档频率(InverseDocumentFrequency)。TF表示词条在文档D中出现的频率。IDF的主要思想是:如果包含词条t的文档越少,也就是n越小,IDF越大,则说明词条t具有很好的类别区分能力。如果某一类文档C中包含词条t的文档数为m,而其它类包含t的文档总数为k,显然所有包含t的文档数n=m+k,当m大的时候,n也大,按照IDF公式得到的IDF的值会小,就说明该词条t类别区分能力不强。但是实际上,如果一个词条在一个类的文档中频繁出现,则说明该词条能够很好代表这个类的文本的特征,这样的词条应该给它们赋予较高的权重,并选来作为该类文本的特征词以区别与其它类文档。这就是IDF的不足之处.在一份给定的文件里,词频(termfrequency,TF)指的是某一个给定的词语在该文件中出现的频率。这个数字是对词数(termcount)的归一化,以防止它偏向长的文件。(同一个词语在长文件里可能会比短文件有更高的词数,而不管该词语重要与否。)对于在某一特定文档里的词语来说,它的重要性可表示为:以上式子中分子是该词在文档中的出现次数,而分母则是在文档中所有字词的出现次数之和。逆文档频率(inversedocumentfrequency,IDF)是一个词语普遍重要性的度量。某一特定词语的IDF,可以由总文件数目除以包含该词语之文件的数目,再将得到的商取以10为底的对数得到:其中:|D|:语料库中的文件总数。分母:表示包含词语的文档数目,如果该词语不在语料库中,就会导致分母为零,因此一般情况下使用作为分母。1+|{d∈D:t∈d}|最后,TF-IDF的公式是:tfidfi,j=tfi,j×idfi。聚类,是一种无监督的学习方式,与监督学习不同的是它不需要对原来的数据打上标签,不用打上标签的数据来训练一种分类的模型,它仅仅利用某种距离计算将多个数据对象划分成集合的过程,使得每个集合便是一个簇,簇中的对象距离较小,彼此相似;但与其他的簇的对象之间的距离较大,相差较大。使用聚类往往是因为数据中没有类标号信息,但是仍需对其进行分类。正因为如此,聚类方法在数据分析上很常用也很好用,它可以发现数据中事先未知的类别信息。本专利技术中,所使用的热点新型分类模型的训练和预测都是基于SparkML开源机器学习库完成。其中,模型训练的主要步骤:针对新闻的训练集,去重,清洗,将标题重复一次,即将标题的权重扩大一倍;分词;去停用词;训练TF-IDF模型;训练k-means模型。对应的,所述的热点新型分类模型预测的主要步骤如下:针对新闻,去重,清洗,将标题重复一次,即将标题的权重扩大一倍;分词;去停用词;利用训练的TF-IDF模型,求新闻的TF-IDF的特征向量。利用训练的k-means模型和TF-IDF的特征向量,预测新闻的所属的类别。所述的TextRank其思想来源于PageRank算法,PageRank算法的核心思想比较直观,如果一个网页被很多其它网页链接到,说明这个网页很重要,对应的PR(PageRank)值也越高;如果一个PR值较高的网页链接了某个网页,则该网页的PR值也会相应提高。PageRank算法与TextRank算法的区别,PageRank算法根据网页之间的链接关系构造网络,TextRank算法根据词之间的共现关系构造网络;PageRank算法构造的网络中的边是有向无权边,TextRank算法构造的网络中的边是无向有权边。TextRank算法计算公式:其中WS(本文档来自技高网...

【技术保护点】
1.基于文本挖掘的热点新闻发现方法,其特征在于,包括步骤:/n将预处理后的新闻的标题的权重扩大,在分词及去停用词处理后,获取新闻的TF-IDF的特征向量;/n基于所述TF-IDF的特征向量,利用聚类算法预测新闻的所属类别;/n将新闻的标题及摘要合并成一句子,对句子进行分词、去停用词处理;/n利用TextRank算法对句子处理,对新闻标题排序后输出热点新闻。/n

【技术特征摘要】
1.基于文本挖掘的热点新闻发现方法,其特征在于,包括步骤:
将预处理后的新闻的标题的权重扩大,在分词及去停用词处理后,获取新闻的TF-IDF的特征向量;
基于所述TF-IDF的特征向量,利用聚类算法预测新闻的所属类别;
将新闻的标题及摘要合并成一句子,对句子进行分词、去停用词处理;
利用TextRank算法对句子处理,对新闻标题排序后输出热点新闻。


2.根据权利要求1所述基于文本挖掘的热点新闻发现方法,其特征在于,所述预处理包括去重、清洗的处理...

【专利技术属性】
技术研发人员:张大朋赵晓玲孙哲南张堃博薛文芳
申请(专利权)人:天津中科智能识别产业技术研究院有限公司
类型:发明
国别省市:天津;12

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1