基于关键词匹配的文本聚类方法、系统、储存介质及终端技术方案

技术编号:28295648 阅读:15 留言:0更新日期:2021-04-30 16:19
本发明专利技术公开一种基于关键词匹配的文本聚类方法、系统、储存介质及终端,涉及数据处理技术领域。对分析数据进行清洗,采用TextRank算法计算文本关键词;根据不同文本间关键词的重复占比判断文本相似度,实现初步聚类;对文本簇中不同文本关键词依据汇总计算得出文本簇的关键词;文本簇聚类后形成新的文本簇同时通过相同方式再进行聚类,直至满足设定聚类轮数。本发明专利技术在不将文本转化为向量的情况下,基于不同文本间关键词的重复占比判断不同文本的相似度,实现文本聚类,简化了文本相似度的计算过程,提升了计算效率。本方法能够根据文本内容自动判断聚类个数k,无需预先指定,具有较强适用性。

【技术实现步骤摘要】
基于关键词匹配的文本聚类方法、系统、储存介质及终端
本专利技术涉及数据处理
,尤其公开一种基于关键词匹配的文本聚类方法、系统、储存介质及终端。
技术介绍
目前,聚类是一种无监督学习方式,目的是把一个数据根据某种规则划分为多个子数据,一个子数据就称为一个聚类。文本聚类则是将聚类的方法应用于文本类数据,通过对不同文本进行相似度比较,将相似度高的文本归为一类的计算方法。由于数据应用场合不同,不同的聚类方式侧重点不同,各有优势和缺陷,因此目前没有一个通用的聚类算法,目前聚类算法主要分为以下几类:基于划分的聚类算法、基于层次的聚类算法、基于密度的聚类算法、基于网格的聚类算法、基于模型的聚类算法以及基于模糊的聚类算法。现有技术方案所采用的聚类算法属于凝聚式层次聚类算法(HierarchicalAgglomerativeClustering,HAC),凝聚式层次聚类顾名思义是凝聚数据样本,它的聚类方向是从子数据向上不断合并,该算法经常运用于话题检测中。凝聚式层次聚类首先从底部分散的单个样本开始依次计算与其他样本的距离,然后选择距离最小样本并与其合并成一个新的样本集,再重复上述过程直到形成一个包含所有样本的簇,或者达到迭代次数。通过上述分析,现有技术存在的问题及缺陷为:(1)现有技术所采用的聚类算法属于凝聚式层次聚类算法,判断不同文本相似度的主要思路是将文本分词后转化为词向量,并进一步计算不同向量间的距离(欧式距离、夹角余弦距离等),通过向量距离大小判断不同文本的相似度,最终达到文本聚类的目的。将文本转换为向量并针对不同向量进行距离计算需要占用大量计算资源,导致文本聚类算法计算效率相对较低。(2)将文本转换为向量进行计算会增加模型的复杂度,且对文本质量要求相对较高,否则会影响聚类结果的准确性。解决以上问题及缺陷的难度为:如何在不将文本转换为向量的情况下计算不同文本间相似度,实现文本聚类,以简化计算复杂度,提升模型计算效率与鲁棒性。这是业内急需要解决的技术难题。解决以上问题及缺陷的意义为:能够提供一种判断不同文本的相似度的新方法,降低计算复杂度,提升计算效率,为研究人员实现文本聚类提供新的思路;能够提升模型计算的鲁棒性,适度降低对分析文本质量的要求,具有更好的适用性。
技术实现思路
为克服相关技术中存在的问题,本专利技术公开实施例提供了一种基于关键词匹配的文本聚类方法、系统、储存介质及终端。所述技术方案如下:根据本专利技术公开实施例的第一方面,提供一种基于文本关键词匹配度的文本聚类方法,应用于信息数据处理终端,所述基于文本关键词匹配度的文本聚类方法包括:在不将目标文本转化为向量的情况下,通过不同文本间关键词的重复度评估所述文本的相似度,实现文本聚类;能够根据聚类文本内容及设定的文本相似度阈值,自动判断聚类个数,无需预先指定。优选地,所述实现文本聚类包括:文本数据清洗;文本关键词计算;初步聚类;文本簇筛选;多轮聚类。所述文本数据清洗具体包括:首先对分析数据进行清洗,主要方式为通过编写正则表达式方式(通过规则进行文本筛选的一种方式方法)剔除广告、网址、表情等噪声数据;在聚类结果质量要求相对较低或时间紧迫的情况下可跳过文本数据清洗步骤,直接执行文本关键词计算步骤。优选地,所述文本关键词计算包括:对所有文本进行逐条分析,并采用TextRank算法计算文本关键词,可指定所需提取关键词的数量,计算结果同时会生成关键词的权重值,值越大说明该关键词重要度越高;所述初步聚类具体包括:根据不同文本间关键词的重复占比判断文本相似度,实现初步聚类;文本相似度计算式为:文本相似度=相同关键词数量/提取关键词数量。所述文本簇筛选具体包括:在完成初步聚类后会形成多个文本簇,通过文本簇中文本的数量对文本簇进行初步筛选,剔除无法聚类到文本簇中的文本,文本簇中文本的数量最小为2;通过对文本簇中不同文本关键词进行汇总计算得出文本簇的关键词,即将同一文本簇中不同文本的关键词依据权重进行加合后排序,排名前N的关键词即为文本簇关键词,N为文本簇关键词的数量。所述多轮聚类具体包括:通过文本簇关键词的重复度判断不同文本簇的相似度,实现针对文本簇的聚类。所述根据聚类文本内容自动判断聚类个数包括:文本簇聚类后形成新的文本簇同时通过相同方式再进行聚类,直至满足设定聚类轮数,默认多轮聚类次数为3,每次聚类文本簇关键词数量及文本簇相似度阈值可采用默认设定参数或根据需求进行指定,满足不同分析需求;在完成多轮聚类后,根据不同文本簇中文本的数量进行汇总排序得到最终的文本聚类结果,根据排名或文本数量对聚类结果进行筛选。根据本专利技术公开实施例的第二方面,提供一种基于文本关键词匹配度的文本聚类系统,所述基于文本关键词匹配度的文本聚类系统包括:文本数据清洗模块,用于对分析数据进行清洗,主要方式为通过编写正则表达式方式剔除广告、网址、表情等噪声数据;文本关键词计算模块,用于对所有文本进行逐条分析,并采用TextRank算法计算文本关键词,可指定所需提取关键词的数量,计算结果同时会生成关键词的权重值,值越大说明该关键词重要度越高;初步聚类模块,用于根据不同文本间关键词的重复占比判断文本相似度,实现初步聚类;文本簇筛选模块,用于在完成初步聚类后会形成多个文本簇,通过文本簇中文本的数量对文本簇进行初步筛选,剔除无法聚类到文本簇中的文本,通过对文本簇中不同文本关键词进行汇总计算得出文本簇的关键词;多轮聚类模块,用于通过文本簇关键词的重复度判断不同文本簇的相似度,实现针对文本簇的聚类;判断聚类个数模块,用于文本簇聚类后形成新的文本簇同时通过相同方式再进行聚类,直至满足设定聚类轮数。根据本专利技术公开实施例的第三方面,提供一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器执行如下步骤:(1)文本数据清洗;(2)文本关键词计算;(3)初步聚类;(4)文本簇筛选;(5)多轮聚类;(6)结果生成。根据本专利技术公开实施例的第四方面,提供一种信息数据处理终端,所述信息数据处理终端包括存储器和处理器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行所述的基于文本关键词匹配度的文本聚类方法。本专利技术公开的实施例提供的技术方案可以包括以下有益效果:本专利技术在不将文本转化为向量的情况下,基于不同文本间关键词的重复占比判断不同文本的相似度,实现文本聚类,简化了文本相似度的计算过程,提升了计算效率。本方法能够根据聚类文本内容及设定的文本相似度阈值,自动判断聚类个数k,无需预先指定,具有较强适用性。本方法支持在聚类文本质量相对较低的情况进行文本聚类,在对聚类结果精度要求相对较低或时间受限的情况下,可跳过数据清洗的步骤,具有更广的适用范围。当理解的是,以本文档来自技高网
...

【技术保护点】
1.一种基于文本关键词匹配度的文本聚类方法,其特征在于,应用于信息数据处理终端,所述基于文本关键词匹配度的文本聚类方法包括:/n在不将目标文本转化为向量的情况下,通过不同文本间关键词的重复度评估所述文本的相似度,实现文本聚类;/n并根据聚类文本内容及设定的文本相似度阈值,自动判断聚类个数,无需预先指定。/n

【技术特征摘要】
1.一种基于文本关键词匹配度的文本聚类方法,其特征在于,应用于信息数据处理终端,所述基于文本关键词匹配度的文本聚类方法包括:
在不将目标文本转化为向量的情况下,通过不同文本间关键词的重复度评估所述文本的相似度,实现文本聚类;
并根据聚类文本内容及设定的文本相似度阈值,自动判断聚类个数,无需预先指定。


2.根据权利要求1所述的基于文本关键词匹配度的文本聚类方法,其特征在于,所述实现文本聚类包括:
文本数据清洗;
文本关键词计算;
初步聚类;
文本簇筛选;
多轮聚类。


3.根据权利要求2所述的基于文本关键词匹配度的文本聚类方法,其特征在于,所述文本数据清洗具体包括:首先对分析数据进行清洗,通过编写正则表达式方式剔除广告、网址、表情噪声数据;
在聚类结果质量要求相对较低或时间紧迫的情况下跳过文本数据清洗步骤,直接执行文本关键词计算步骤。


4.根据权利要求2所述的基于文本关键词匹配度的文本聚类方法,其特征在于,所述文本关键词计算包括:对所有文本进行逐条分析,并采用TextRank算法计算文本关键词,指定所需提取关键词的数量,计算结果同时生成关键词的权重值,值越大所述关键词重要度越高;
所述初步聚类具体包括:根据不同文本间关键词的重复占比判断文本相似度,实现初步聚类;文本相似度计算式为:
文本相似度=相同关键词数量/提取关键词数量。


5.根据权利要求2所述的基于文本关键词匹配度的文本聚类方法,其特征在于,所述文本簇筛选具体包括:在完成初步聚类后会形成多个文本簇,通过文本簇中文本的数量对文本簇进行初步筛选,剔除无法聚类到文本簇中的文本,文本簇中文本的数量最小为2;通过对文本簇中不同文本关键词依据汇总计算得出文本簇的关键词,即将同一文本簇中不同文本的关键词依据权重进行加合后排序,排名前N的关键词即为文本簇关键词,N为文本簇关键词的数量。


6.根据权利要求2所述的基于文本关键词匹配度的文本聚类方法,其特征在于,所述多轮聚类具体包括:通过文本簇关键词的重复度判断不同文本簇的相似度,实现针对文本簇的聚类。
...

【专利技术属性】
技术研发人员:吴哲李志鹏石珺单方明张斌杨阳朝
申请(专利权)人:深圳市网联安瑞网络科技有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1