一种基于改进谱聚类算法的文本聚类方法技术

技术编号：27588523 阅读：11 留言：0更新日期：2021-03-10 10:05

本发明专利技术涉及一种基于改进谱聚类算法的文本聚类方法，包括：对待聚类文档集依次进行分词、去停用词以及提取关键词处理；创建文本相似度矩阵、邻接矩阵、度矩阵以及拉普拉斯矩阵；计算拉普拉斯矩阵的特征值和特征向量，得到特征矩阵；采用经典聚类方法对特征矩阵进行聚类，得到对应的聚类结果；若已知类别个数，则结合聚类结果以及提取的关键词，基于TF

全部详细技术资料下载

【技术实现步骤摘要】
一种基于改进谱聚类算法的文本聚类方法

[0001]本专利技术涉及文本分析
，尤其是涉及一种基于改进谱聚类算法的文本聚类方法。

技术介绍

[0002]文本聚类主要是依据著名的聚类假设：同类的文档相似度较大，而不同类的文档相似度较小。作为一种无监督的机器学习方法，聚类由于不需要训练过程，以及不需要预先对文档手工标注类别，因此具有一定的灵活性和较高的自动化处理能力，已经成为对文本信息进行有效组织、摘要和导航的重要手段，也被越来越多的研究人员所关注。
[0003]目前，文本聚类主要有几个方法：1、划分法；2、密度法；3、层次法，常用的聚类算法包括属于划分法中的kmeans、kmean++，属于密度法的DBscan以及属于层次方法的BIRCH算法，谱聚类算法是一种建立在谱图理论基础上的方法，与传统的聚类算法相比，它具有能在任意形状的样本空间上聚类且收敛于全局最优解的优点。谱聚类算法将数据集中的每个对象看作是图的顶点V，将顶点间的相似度量化作为相应顶点连接边E的权值，这样就得到一个基于相似度的无向加权图G(V,E)，于是聚类问题就可以转化为图的划分问题。基于图论的最优划分准则就是使划分成的子图内部相似度最大，子图之间的相似度最小。谱聚类算法有着不同的具体实现方法，但是这些实现方法都可以归纳为下面三个主要步骤：
[0004]1)构建表示对象集的相似度矩阵S；
[0005]2)计算度矩阵和拉普拉斯矩阵，构建特征向量空间；
[0006]3)利用Kmeans或其它经典聚类算法对特征向量空间中的特征向...

【技术保护点】

【技术特征摘要】
1.一种基于改进谱聚类算法的文本聚类方法，其特征在于，包括以下步骤：S1、对待聚类文档集依次进行分词、去停用词以及提取关键词处理；S2、根据提取的关键词，创建文本相似度矩阵；S3、基于文本相似度矩阵构建邻接矩阵，基于邻接矩阵构建度矩阵；S4、结合邻接矩阵和度矩阵构建拉普拉斯矩阵；S5、计算拉普拉斯矩阵的特征值和特征向量，得到对应于待聚类文档集的特征矩阵；S6、采用经典聚类方法对特征矩阵进行聚类，得到对应的聚类结果；S7、若已知聚类的类别个数，则执行步骤S9；若未知聚类的类别个数，则执行步骤S8；S8、依次调整聚类参数，以确定对应的类别个数，之后返回执行步骤S3～S6，得到多个调整聚类结果，并对多个调整聚类结果进行评估，选取得到最优的聚类结果；S9、结合步骤S6或步骤S8得到的聚类结果以及步骤S1提取的关键词，基于TF-IDF算法提取出类别关键词；S10、输出聚类结果及对应的类别关键词。2.根据权利要求1所述的一种基于改进谱聚类算法的文本聚类方法，其特征在于，所述步骤S1提取的关键词的词性包括名词、动词、动名词、人名、地名以及机构名词。3.根据权利要求1所述的一种基于改进谱聚类算法的文本聚类方法，其特征在于，所述步骤S2具体包括以下步骤：S21、计算不同文本中各关键词的TF-IDF值，并将所有文本中各关键词的TF-IDF值放入词袋中；S22、根据词袋中存入的所有文本中各关键词的TF-IDF值，计算得到各文本之间的相似度，利用各文本之间的相似度构建文本相似度矩阵。4.根据权利要求3所述的一种基于改进谱聚类算法的文本聚类方法，其特征在于，所述文本相似度矩阵具体为一个N*N的矩阵，该矩阵中的每个元素分别为不同文本之间的相似度。5.根据权利要求4所述的一种基于改进谱聚类算法的文本聚类方法，其特征在于，所述步骤S3具体包括以下步骤：S31、基于文本相似度矩阵，采用∈-邻近法、K邻近法或全连接法构建邻接矩阵W；S32、根据邻接...

【专利技术属性】
技术研发人员：张校源，马祥祥，
申请(专利权)人：上海爱数信息技术股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人