基于关键词匹配的文本聚类方法、系统、储存介质及终端技术方案

技术编号：28295648 阅读：15 留言：0更新日期：2021-04-30 16:19

本发明专利技术公开一种基于关键词匹配的文本聚类方法、系统、储存介质及终端，涉及数据处理技术领域。对分析数据进行清洗，采用TextRank算法计算文本关键词；根据不同文本间关键词的重复占比判断文本相似度，实现初步聚类；对文本簇中不同文本关键词依据汇总计算得出文本簇的关键词；文本簇聚类后形成新的文本簇同时通过相同方式再进行聚类，直至满足设定聚类轮数。本发明专利技术在不将文本转化为向量的情况下，基于不同文本间关键词的重复占比判断不同文本的相似度，实现文本聚类，简化了文本相似度的计算过程，提升了计算效率。本方法能够根据文本内容自动判断聚类个数k，无需预先指定，具有较强适用性。

全部详细技术资料下载

【技术实现步骤摘要】
基于关键词匹配的文本聚类方法、系统、储存介质及终端
本专利技术涉及数据处理
，尤其公开一种基于关键词匹配的文本聚类方法、系统、储存介质及终端。
技术介绍
目前，聚类是一种无监督学习方式，目的是把一个数据根据某种规则划分为多个子数据，一个子数据就称为一个聚类。文本聚类则是将聚类的方法应用于文本类数据，通过对不同文本进行相似度比较，将相似度高的文本归为一类的计算方法。由于数据应用场合不同，不同的聚类方式侧重点不同，各有优势和缺陷，因此目前没有一个通用的聚类算法，目前聚类算法主要分为以下几类：基于划分的聚类算法、基于层次的聚类算法、基于密度的聚类算法、基于网格的聚类算法、基于模型的聚类算法以及基于模糊的聚类算法。现有技术方案所采用的聚类算法属于凝聚式层次聚类算法(HierarchicalAgglomerativeClustering，HAC)，凝聚式层次聚类顾名思义是凝聚数据样本，它的聚类方向是从子数据向上不断合并，该算法经常运用于话题检测中。凝聚式层次聚类首先从底部分散的单个样本开始依次计算与其他样本的距离，然后选择距离最小样本并与其合并成一个新的样本集，再重复上述过程直到形成一个包含所有样本的簇，或者达到迭代次数。通过上述分析，现有技术存在的问题及缺陷为：(1)现有技术所采用的聚类算法属于凝聚式层次聚类算法，判断不同文本相似度的主要思路是将文本分词后转化为词向量，并进一步计算不同向量间的距离(欧式距离、夹角余弦距离等)，通过向量距离大小判断不同文本的相似度，最终达到文本聚类的目的。将文本转...

【技术保护点】
1.一种基于文本关键词匹配度的文本聚类方法，其特征在于，应用于信息数据处理终端，所述基于文本关键词匹配度的文本聚类方法包括：/n在不将目标文本转化为向量的情况下，通过不同文本间关键词的重复度评估所述文本的相似度，实现文本聚类；/n并根据聚类文本内容及设定的文本相似度阈值，自动判断聚类个数，无需预先指定。/n

【技术特征摘要】
1.一种基于文本关键词匹配度的文本聚类方法，其特征在于，应用于信息数据处理终端，所述基于文本关键词匹配度的文本聚类方法包括：
在不将目标文本转化为向量的情况下，通过不同文本间关键词的重复度评估所述文本的相似度，实现文本聚类；
并根据聚类文本内容及设定的文本相似度阈值，自动判断聚类个数，无需预先指定。

2.根据权利要求1所述的基于文本关键词匹配度的文本聚类方法，其特征在于，所述实现文本聚类包括：
文本数据清洗；
文本关键词计算；
初步聚类；
文本簇筛选；
多轮聚类。

3.根据权利要求2所述的基于文本关键词匹配度的文本聚类方法，其特征在于，所述文本数据清洗具体包括：首先对分析数据进行清洗，通过编写正则表达式方式剔除广告、网址、表情噪声数据；
在聚类结果质量要求相对较低或时间紧迫的情况下跳过文本数据清洗步骤，直接执行文本关键词计算步骤。

4.根据权利要求2所述的基于文本关键词匹配度的文本聚类方法，其特征在于，所述文本关键词计算包括：对所有文本进行逐条分析，并采用TextRank算法计算文本关键词，指定所需提取关键词的数量，计算结果同时生成关键词的权重值，值越大所述关键词重要度越高；
所述初步聚类具体包括：根据不同文本间关键词的重复占比判断文本相似度，实现初步聚类；文本相似度计算式为：
文本相似度＝相同关键词数量/提取关键词数量。

5.根据权利要求2所述的基于文本关键词匹配度的文本聚类方法，其特征在于，所述文本簇筛选具体包括：在完成初步聚类后会形成多个文本簇，通过文本簇中文本的数量对文本簇进行初步筛选，剔除无法聚类到文本簇中的文本，文本簇中文本的数量最小为2；通过对文本簇中不同文本关键词依据汇总计算得出文本簇的关键词，即将同一文本簇中不同文本的关键词依据权重进行加合后排序，排名前N的关键词即为文本簇关键词，N为文本簇关键词的数量。

6.根据权利要求2所述的基于文本关键词匹配度的文本聚类方法，其特征在于，所述多轮聚类具体包括：通过文本簇关键词的重复度判断不同文本簇的相似度，实现针对文本簇的聚类。
...

【专利技术属性】
技术研发人员：吴哲，李志鹏，石珺，单方明，张斌，杨阳朝，
申请(专利权)人：深圳市网联安瑞网络科技有限公司，
类型：发明
国别省市：广东;44

全部详细技术资料下载我是这个专利的主人