一种数据驱动的文本增量聚类方法技术

技术编号:34515339 阅读:24 留言:0更新日期:2022-08-13 21:02
本发明专利技术公开了一种数据驱动的文本增量聚类方法,属于自然语言处理领域,包括以下步骤:根据已有聚类类别判断是否需要增量聚类,并根据判断结果进行初始化聚类生成聚类类别,或对已有聚类类别进行簇心调整,更新已有聚类类别,实现文本增量聚类。本发明专利技术实现对对增量文本的自动聚类,保持已有聚类结果的延续性,提高了文本聚类的准确性。高了文本聚类的准确性。高了文本聚类的准确性。

【技术实现步骤摘要】
一种数据驱动的文本增量聚类方法


[0001]本专利技术涉及自然语言处理领域,更为具体的,涉及一种数据驱动的文本增量聚类方法。

技术介绍

[0002]文本聚类是文本处理领域的一个研究方向,能够应用于舆情分析等领域,其主要目标是将给定的文本数据按照一定的相似性原则划分为不同的类别,其中同一类别内的数据相似度较大,而不同类别的数据相似性较小。当文本数据集合处于动态变化的过程中,需要通过修改文本数据集合的聚类结果来反映这种变化,此时就需要文本增量聚类。
[0003]文本增量聚类的方法主要分为两类:一是每次将所有数据进行迭代聚类,间隔一段时间重新对所有数据进行一次性聚类,优点是精度高,缺点是不能利用前面的聚类结果,浪费资源,每次聚类结果不能保证一致性;二是利用之前的聚类结果,将新增数据划入已有类簇中离它最近的类簇中,并重新计算该簇簇心,优点是不需要每次对所有数据重新计算聚类,缺点是随着类簇的不断增大,类簇容易发生簇新漂移,且因为是将新数据与已有类簇进行相似性比对,因此无法产生新的类簇,生成话题准确率低。同时,文本聚类算法属于一种无监督学习的方法,在聚类之前需要指定初始聚类个数、文本相似度阈值、密度阈值等参数。聚类的数据特征不同,需要的参数往往不一样,基于经验值设定的参数往往不适用于实际聚类的文本。
[0004]现有技术存在如下技术问题:1)现有聚类方法存在资源浪费的问题,且多次聚类不能保证每次聚类结果的一致性;2)现有聚类方法存在类簇容易发生簇新漂移,生成话题准确率低;3)现有聚类方法在聚类之前需要指定参数,基于经验值设定的参数往往不适用于实际聚类的文本。

技术实现思路

[0005]本专利技术的目的在于克服现有技术的不足,提供一种数据驱动的文本增量聚类方法,实现对对增量文本的自动聚类,保持已有聚类结果的延续性,提高了文本聚类的准确性。
[0006]本专利技术的目的是通过以下方案实现的:
[0007]一种数据驱动的文本增量聚类方法,包括以下步骤:
[0008]根据已有聚类类别判断是否需要增量聚类,并根据判断结果进行初始化聚类生成聚类类别,或对已有聚类类别进行簇心调整,更新已有聚类类别,实现文本增量聚类。
[0009]进一步地,包括子步骤:对提取的聚类文本特征判断是否存在已有聚类类别;若不存在则生成轮廓系数最优的情况下的聚类类别数,生成聚类类别;若存在则判断增量文本集合中的文本是否能够加入到已有聚类类别中,若能则将该文本加入已有聚类类别中,同时调整该已有聚类类别的簇心;若不能则将该文本加入设置的离散文本列表中,判断离散文本列表是否存在需聚类文本,若不存在,表明文本增量聚类结束,输出增量聚类后的结
果;若存在则从已有聚类类别簇心和离散文本列表中选择使已有簇新节点和离散文本列表聚类结果的轮廓系数最优的情况下的聚类类别数,生成聚类簇新,再将已有聚类类别中的文本加入到聚类簇新的聚类类别中。
[0010]进一步地,所述提取的聚类文本特征为采用统计或神经网络的文本预处理模型生成的特征表示向量。
[0011]进一步地,所述生成轮廓系数最优的情况下的聚类类别数,包括子步骤:采用基于K

Means方法、dbscan方法、普聚类方法中的任一种。
[0012]进一步地,所述调整该已有聚类类别的簇心,包括子步骤:采用欧式距离和投票结合的方法,或采用基于轮廓系数的方法。
[0013]进一步地,所述采用基于K

Means方法,包括子步骤:设定K

Means聚类的初始类别数为和下降梯度,基于梯度下降法生成轮廓系数最大的情况下的聚类类别数。
[0014]进一步地,所述采用欧式距离和投票结合的方法,包括子步骤:
[0015]S1,基于提取的聚类文本特征依次计算文本与已有聚类类别簇心之间的欧式距离,选取对应欧式距离计算结果最小的已有聚类类别;
[0016]S2,基于投票判断文本在加入S1中已有聚类类别条件下,已有其他聚类类别内的所有节点选择的簇心是否会发生变化。
[0017]进一步地,在步骤S2中,包括子步骤:
[0018]S21,将文本加入到S1中得到的已有聚类类别,投票选取该类别的新簇心,具体为:在将文本加入到该类别的条件下,依次选择该类别中的每一个文档节点,计算其他节点与本节点之间的距离,选择距离最小的节点作为节点选择的簇心,将该节点加入到簇心列表中;选择簇心列表中节点的众数作为该类别的新簇心。
[0019]进一步地,所述文本预处理模型包括bert

chinese模型。
[0020]进一步地,在步骤S21之后,包括步骤:
[0021]S22,判断该类别的新簇心是否会影响该类别的簇外文本节点选择簇心,具体为:将该类别的簇外节点加入到离散文本列表中,依次计算离散文本列表中节点与其所在簇的簇心间的第一欧式距离和其与该类别的新簇心间的第二欧式距离;若对于离散文本列表中所有节点,计算得到的第二欧式距离均小于第一欧式距离,则表明该类别的新簇心不会影响第二欧式距离的簇外文本节点选择簇心,将文本加入到该类别,更新第二欧式距离的簇心;否则,文本无法加入到该类别,将文本加入到离散文本列表。
[0022]本专利技术的有益效果包括:
[0023]本专利技术基于聚类结果的轮廓系数指标,从数据本身特征出发,实现文本聚类中的初始类别生成,其不需要指定初始聚类个数,实现了真正的数据驱动。
[0024]本专利技术首先单独处理增量聚类中的文本,基于文本本身的特征,在能够加入已有类别的基础上,自动修改了已有聚类结果的簇心。
[0025]本专利技术针对无法加入现有类别的文本,自动调整现有聚类结果的类别,生成原有类别的自动更新,实现了文本增量聚类。
附图说明
[0026]为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现
有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
[0027]图1为本专利技术实施例一种数据驱动的文本增量聚类方法的处理流程示意图;
[0028]图2为本专利技术实施例的文本初始聚类类别k值选择流程示意图;
[0029]图3为本专利技术实施例的判断增量聚类文本是否加入现有聚类类别流程示意图;
[0030]图4为本专利技术实施例的判断增量文本d是否加入现有类别c流程示意图;
[0031]图5为本专利技术实施例的文本聚类类别更新流程示意图。
具体实施方式
[0032]本说明书中所有实施例公开的所有特征,或隐含公开的所有方法或过程中的步骤,除了互相排斥的特征和/或步骤以外,均可以以任何方式组合和/或扩展、替换。
[0033]在本专利技术实施例的具体实现过程中,包括如下实施过程:设定需要增量聚类的文本集合为D,如图1所示,本专利技术实施例提供一种数据驱动的文本本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种数据驱动的文本增量聚类方法,其特征在于,包括以下步骤:根据已有聚类类别判断是否需要增量聚类,并根据判断结果进行初始化聚类生成聚类类别,或对已有聚类类别进行簇心调整,更新已有聚类类别,实现文本增量聚类。2.根据权利要求1所述的数据驱动的文本增量聚类方法,其特征在于,包括子步骤:对提取的聚类文本特征判断是否存在已有聚类类别;若不存在则生成轮廓系数最优的情况下的聚类类别数,生成聚类类别;若存在则判断增量文本集合中的文本是否能够加入到已有聚类类别中,若能则将该文本加入已有聚类类别中,同时调整该已有聚类类别的簇心;若不能则将该文本加入设置的离散文本列表中,判断离散文本列表是否存在需聚类文本,若不存在,表明文本增量聚类结束,输出增量聚类后的结果;若存在则从已有聚类类别簇心和离散文本列表中选择使已有簇新节点和离散文本列表聚类结果的轮廓系数最优的情况下的聚类类别数,生成聚类簇新,再将已有聚类类别中的文本加入到聚类簇新的聚类类别中。3.根据权利要求2所述的数据驱动的文本增量聚类方法,其特征在于,所述提取的聚类文本特征为采用统计或神经网络的文本预处理模型生成的特征表示向量。4.根据权利要求2所述的数据驱动的文本增量聚类方法,其特征在于,所述生成轮廓系数最优的情况下的聚类类别数,包括子步骤:采用基于K

Means方法、dbscan方法、普聚类方法中的任一种。5.根据权利要求2所述的数据驱动的文本增量聚类方法,其特征在于,所述调整该已有聚类类别的簇心,包括子步骤:采用欧式距离和投票结合的方法,或采用基于轮廓系数的方法。6.根据权利要求4所述的数据驱动的文本增量聚类方法,其特征在于,所述采用基于K

Means方法,包括子步骤:设定K

【专利技术属性】
技术研发人员:杨露崔莹代翔黄细凤
申请(专利权)人:中国电子科技集团公司第十研究所
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1