一种数据驱动的文本增量聚类方法技术

技术编号：34515339 阅读：27 留言：0更新日期：2022-08-13 21:02

本发明专利技术公开了一种数据驱动的文本增量聚类方法，属于自然语言处理领域，包括以下步骤：根据已有聚类类别判断是否需要增量聚类，并根据判断结果进行初始化聚类生成聚类类别，或对已有聚类类别进行簇心调整，更新已有聚类类别，实现文本增量聚类。本发明专利技术实现对对增量文本的自动聚类，保持已有聚类结果的延续性，提高了文本聚类的准确性。高了文本聚类的准确性。高了文本聚类的准确性。

全部详细技术资料下载

【技术实现步骤摘要】
一种数据驱动的文本增量聚类方法

[0001]本专利技术涉及自然语言处理领域，更为具体的，涉及一种数据驱动的文本增量聚类方法。

技术介绍

[0002]文本聚类是文本处理领域的一个研究方向，能够应用于舆情分析等领域，其主要目标是将给定的文本数据按照一定的相似性原则划分为不同的类别，其中同一类别内的数据相似度较大，而不同类别的数据相似性较小。当文本数据集合处于动态变化的过程中，需要通过修改文本数据集合的聚类结果来反映这种变化，此时就需要文本增量聚类。
[0003]文本增量聚类的方法主要分为两类：一是每次将所有数据进行迭代聚类，间隔一段时间重新对所有数据进行一次性聚类，优点是精度高，缺点是不能利用前面的聚类结果，浪费资源，每次聚类结果不能保证一致性；二是利用之前的聚类结果，将新增数据划入已有类簇中离它最近的类簇中，并重新计算该簇簇心，优点是不需要每次对所有数据重新计算聚类，缺点是随着类簇的不断增大，类簇容易发生簇新漂移，且因为是将新数据与已有类簇进行相似性比对，因此无法产生新的类簇，生成话题准确率低。同时，文本聚类算法属于一种无监督学习的方法，在聚类之前需要指定初始聚类个数、文本相似度阈值、密度阈值等参数。聚类的数据特征不同，需要的参数往往不一样，基于经验值设定的参数往往不适用于实际聚类的文本。
[0004]现有技术存在如下技术问题：1)现有聚类方法存在资源浪费的问题，且多次聚类不能保证每次聚类结果的一致性；2)现有聚类方法存在类簇容易发生簇新漂移，生成话题准确率低；3)现有聚类方法在聚类之前需要指定参数，基...

【技术保护点】

【技术特征摘要】
1.一种数据驱动的文本增量聚类方法，其特征在于，包括以下步骤：根据已有聚类类别判断是否需要增量聚类，并根据判断结果进行初始化聚类生成聚类类别，或对已有聚类类别进行簇心调整，更新已有聚类类别，实现文本增量聚类。2.根据权利要求1所述的数据驱动的文本增量聚类方法，其特征在于，包括子步骤：对提取的聚类文本特征判断是否存在已有聚类类别；若不存在则生成轮廓系数最优的情况下的聚类类别数，生成聚类类别；若存在则判断增量文本集合中的文本是否能够加入到已有聚类类别中，若能则将该文本加入已有聚类类别中，同时调整该已有聚类类别的簇心；若不能则将该文本加入设置的离散文本列表中，判断离散文本列表是否存在需聚类文本，若不存在，表明文本增量聚类结束，输出增量聚类后的结果；若存在则从已有聚类类别簇心和离散文本列表中选择使已有簇新节点和离散文本列表聚类结果的轮廓系数最优的情况下的聚类类别数，生成聚类簇新，再将已有聚类类别中的文本加入到聚类簇新的聚类类别中。3.根据权利要求2所述的数据驱动的文本增量聚类方法，其特征在于，所述提取的聚类文本特征为采用统计或神经网络的文本预处理模型生成的特征表示向量。4.根据权利要求2所述的数据驱动的文本增量聚类方法，其特征在于，所述生成轮廓系数最优的情况下的聚类类别数，包括子步骤：采用基于K
‑
Means方法、dbscan方法、普聚类方法中的任一种。5.根据权利要求2所述的数据驱动的文本增量聚类方法，其特征在于，所述调整该已有聚类类别的簇心，包括子步骤：采用欧式距离和投票结合的方法，或采用基于轮廓系数的方法。6.根据权利要求4所述的数据驱动的文本增量聚类方法，其特征在于，所述采用基于K
‑
Means方法，包括子步骤：设定K
‑

【专利技术属性】
技术研发人员：杨露，崔莹，代翔，黄细凤，
申请(专利权)人：中国电子科技集团公司第十研究所，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人