当前位置: 首页 > 专利查询>天津中科智能识别产业技术研究院有限公司专利>正文

一种基于文本挖掘的热点新闻发现方法技术

技术编号：27742171 阅读：31 留言：0更新日期：2021-03-19 13:35

本发明专利技术公开一种基于文本挖掘的热点新闻发现方法，包括步骤：将预处理后的新闻的标题的权重扩大，在分词及去停用词处理后，获取新闻的TF‑IDF的特征向量；基于所述TF‑IDF的特征向量，利用聚类算法预测新闻的所属类别；将新闻的标题及摘要合并成一句子，然后对句子进行分词、去停用词处理；利用TextRank算法，对新闻标题排序后输出热点新闻。本发明专利技术在聚类时增加了新闻标题权重，以提升其正确率；将新闻的标题、摘要、关键词一并用于排序，一方面增加新闻标题的权重，一方面能减少新闻标题的重复。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于文本挖掘的热点新闻发现方法
本专利技术涉及新闻发现
，特别是涉及一种基于文本挖掘的热点新闻发现方法。
技术介绍
现有技术热点新闻发现方法比较多：利用LDA主题模型，提出一个多核心活体模型，能够识别同一话题下关注的核心，之后采用划分聚类和层次聚类结合的办法对新闻报道进行精确聚类。采用single-pass聚类思想和凝聚式层次聚类与K-Means聚类算法相结合发现热点新闻。改进关联规则算法，根据互信息来计算文本字符串的相似度，然后得出热点新闻关键词集合，再进行热度计算来研究新闻热点。利用聚类算法得到新闻的类别，然后利用TextRank排序，取前几个新闻即为热点新闻。然而现有热点新闻发现中，没有考虑新闻的结构，导致区分度以及正确率上尚未达到满意的效果，且也存在重复标题的新闻热点发现问题。
技术实现思路
本专利技术的目的是针对现有技术中的缺陷，而提供一种基于文本挖掘的热点新闻发现方法，本专利技术方法增加了区分度，提升了正确率，解决了新闻标题的重复的问题。为实现本专利技术的目的所采用的技术方案是：一种基于文本挖掘的热点新闻发现方法，包括步骤：将预处理后的新闻的标题的权重扩大，在分词及去停用词处理后，获取新闻的TF-IDF的特征向量；基于所述TF-IDF的特征向量，利用聚类算法预测新闻的所属类别；将新闻的标题及摘要合并成一句子，然后对句子进行分词、去停用词处理；利用TextRank算法对句子处理，对新闻标题排序后输出热点新闻。优选的...

【技术保护点】
1.基于文本挖掘的热点新闻发现方法，其特征在于，包括步骤：/n将预处理后的新闻的标题的权重扩大，在分词及去停用词处理后，获取新闻的TF-IDF的特征向量；/n基于所述TF-IDF的特征向量，利用聚类算法预测新闻的所属类别；/n将新闻的标题及摘要合并成一句子，对句子进行分词、去停用词处理；/n利用TextRank算法对句子处理，对新闻标题排序后输出热点新闻。/n

【技术特征摘要】
1.基于文本挖掘的热点新闻发现方法，其特征在于，包括步骤：
将预处理后的新闻的标题的权重扩大，在分词及去停用词处理后，获取新闻的TF-IDF的特征向量；
基于所述TF-IDF的特征向量，利用聚类算法预测新闻的所属类别；
将新闻的标题及摘要合并成一句子，对句子进行分词、去停用词处理；
利用TextRank算法对句子处理，对新闻标题排序后输出热点新闻。

2.根据权利要求1所述基于文本挖掘的热点新闻发现方法，其特征在于，所述预处理包括去重、清洗的处理...

【专利技术属性】
技术研发人员：张大朋，赵晓玲，孙哲南，张堃博，薛文芳，
申请(专利权)人：天津中科智能识别产业技术研究院有限公司，
类型：发明
国别省市：天津;12

全部详细技术资料下载我是这个专利的主人