一种基于改进谱聚类算法的文本聚类方法技术

技术编号:27588523 阅读:11 留言:0更新日期:2021-03-10 10:05
本发明专利技术涉及一种基于改进谱聚类算法的文本聚类方法,包括:对待聚类文档集依次进行分词、去停用词以及提取关键词处理;创建文本相似度矩阵、邻接矩阵、度矩阵以及拉普拉斯矩阵;计算拉普拉斯矩阵的特征值和特征向量,得到特征矩阵;采用经典聚类方法对特征矩阵进行聚类,得到对应的聚类结果;若已知类别个数,则结合聚类结果以及提取的关键词,基于TF

【技术实现步骤摘要】
一种基于改进谱聚类算法的文本聚类方法


[0001]本专利技术涉及文本分析
,尤其是涉及一种基于改进谱聚类算法的文本聚类方法。

技术介绍

[0002]文本聚类主要是依据著名的聚类假设:同类的文档相似度较大,而不同类的文档相似度较小。作为一种无监督的机器学习方法,聚类由于不需要训练过程,以及不需要预先对文档手工标注类别,因此具有一定的灵活性和较高的自动化处理能力,已经成为对文本信息进行有效组织、摘要和导航的重要手段,也被越来越多的研究人员所关注。
[0003]目前,文本聚类主要有几个方法:1、划分法;2、密度法;3、层次法,常用的聚类算法包括属于划分法中的kmeans、kmean++,属于密度法的DBscan以及属于层次方法的BIRCH算法,谱聚类算法是一种建立在谱图理论基础上的方法,与传统的聚类算法相比,它具有能在任意形状的样本空间上聚类且收敛于全局最优解的优点。谱聚类算法将数据集中的每个对象看作是图的顶点V,将顶点间的相似度量化作为相应顶点连接边E的权值,这样就得到一个基于相似度的无向加权图G(V,E),于是聚类问题就可以转化为图的划分问题。基于图论的最优划分准则就是使划分成的子图内部相似度最大,子图之间的相似度最小。谱聚类算法有着不同的具体实现方法,但是这些实现方法都可以归纳为下面三个主要步骤:
[0004]1)构建表示对象集的相似度矩阵S;
[0005]2)计算度矩阵和拉普拉斯矩阵,构建特征向量空间;
[0006]3)利用Kmeans或其它经典聚类算法对特征向量空间中的特征向量进行聚类。
[0007]上述这些聚类方法只能在已知类别数的情况下进行文本聚类,并且无法给出聚类后的类别关键词,使得用户无法根据关键词直接获知此类别所要表达的主题内容,此外,现有的聚类方法计算得到的聚类结果大多存在精确率和召回率较低的问题,即聚类结果的准确度较低。

技术实现思路

[0008]本专利技术的目的就是为了克服上述现有技术存在的缺陷而提供一种基于改进谱聚类算法的文本聚类方法,针对已知或未知类别数的情况,能够对文本进行聚类,同时能够输出对应于各类别的关键词。
[0009]本专利技术的目的可以通过以下技术方案来实现:一种基于改进谱聚类算法的文本聚类方法,包括以下步骤:
[0010]S1、对待聚类文档集依次进行分词、去停用词以及提取关键词处理;
[0011]S2、根据提取的关键词,创建文本相似度矩阵;
[0012]S3、基于文本相似度矩阵构建邻接矩阵,基于邻接矩阵构建度矩阵;
[0013]S4、结合邻接矩阵和度矩阵构建拉普拉斯矩阵;
[0014]S5、计算拉普拉斯矩阵的特征值和特征向量,得到对应于待聚类文档集的特征矩
阵;
[0015]S6、采用经典聚类方法对特征矩阵进行聚类,得到对应的聚类结果;
[0016]S7、若已知聚类的类别个数,则执行步骤S9;
[0017]若未知聚类的类别个数,则执行步骤S8;
[0018]S8、依次调整聚类参数,以确定对应的类别个数,之后返回执行步骤S3~S6,得到多个调整聚类结果,并对多个调整聚类结果进行评估,选取得到最优的聚类结果;
[0019]S9、结合步骤S6或步骤S8得到的聚类结果以及步骤S1提取的关键词,基于TF-IDF算法提取出类别关键词;
[0020]S10、输出聚类结果及对应的类别关键词。
[0021]进一步地,所述步骤S1提取的关键词的词性包括名词、动词、动名词、人名、地名以及机构名词。
[0022]进一步地,所述步骤S2具体包括以下步骤:
[0023]S21、计算不同文本中各关键词的TF-IDF值,并将所有文本中各关键词的TF-IDF值放入词袋中;
[0024]S22、根据词袋中存入的所有文本中各关键词的TF-IDF值,计算得到各文本之间的相似度,利用各文本之间的相似度构建文本相似度矩阵。
[0025]进一步地,所述文本相似度矩阵具体为一个N*N的矩阵,该矩阵中的每个元素分别为不同文本之间的相似度。
[0026]进一步地,所述步骤S3具体包括以下步骤:
[0027]S31、基于文本相似度矩阵,采用∈-邻近法、K邻近法或全连接法构建邻接矩阵W;
[0028]S32、根据邻接矩阵中的元素,构建一个对角矩阵,即得到度矩阵D。
[0029]进一步地,所述步骤S31中,若采用∈-邻近法,则邻接矩阵W具体为:
[0030][0031][0032]其中,w
ij
为邻接矩阵W中第i行第j列元素,s
ij
为文本相似度矩阵中元素x
i
与元素x
j
之间的欧式距离,∈为设定的距离阈值;
[0033]若采用K邻近法,则邻接矩阵W具体为:
[0034][0035]其中,KNN(x
i
)为元素x
i
的K个近邻,KNN(x
j
)为元素x
j
的K个近邻,σ为方差;
[0036]若采用全连接法,则邻接矩阵W具体为:
[0037][0038]进一步地,所述步骤S32中,度矩阵D具体为:
[0039][0040]其中,d
i
为度矩阵D中第i行位于主对角线上的元素,n为文本个数。
[0041]进一步地,所述步骤S4中拉普拉斯矩阵具体为:
[0042]L=D-W
[0043]其中,L为拉普拉斯矩阵,D为度矩阵,W为邻接矩阵。
[0044]进一步地,所述步骤S5具体包括以下步骤:
[0045]S51、根据拉普拉斯矩阵的特征多项式,求解得到特征值;
[0046]S52、根据特征值,求解得到特征向量;
[0047]S53、根据类别个数,筛选出满足预设条件的特征值的数量为k,将特征向量降维到k,从而构建得到降维处理后的特征矩阵,其中,预设条件具体为特征值的数值小于(1-1/m)*0.95,m为类别个数。
[0048]进一步地,所述步骤S8具体是采用计算直方图的方式,以对多个调整聚类结果进行评估。
[0049]与现有技术相比,本专利技术具有以下优点:
[0050]一、本专利技术通过设置调整聚类参数的过程,实现对谱聚类算法的改进,以自主给出对应的类别个数,并通过对相应的调整聚类结果进行评估,能够选取出最优的聚类结果,从而确定对应的类别个数,以此实现对未知类别个数的文档集进行聚类的目的,使得用户只需提供文档集数据,基于本专利技术提出的方法,即可完成对文档集的类别区分工作。
[0051]二、本专利技术结合聚类结果以及提取的关键词,采用TF-IDF算法能够提取出对应于聚类结果的类别关键词,使得用户能够直观查看到不同类别文本对应的类别关键词,无需翻看文件内容即可获知该文本的主题内容。
[0052]三、本专利技术基于类别个数对特征值进行筛选,以将筛选的特征值个数作为降维的维度数,从而本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于改进谱聚类算法的文本聚类方法,其特征在于,包括以下步骤:S1、对待聚类文档集依次进行分词、去停用词以及提取关键词处理;S2、根据提取的关键词,创建文本相似度矩阵;S3、基于文本相似度矩阵构建邻接矩阵,基于邻接矩阵构建度矩阵;S4、结合邻接矩阵和度矩阵构建拉普拉斯矩阵;S5、计算拉普拉斯矩阵的特征值和特征向量,得到对应于待聚类文档集的特征矩阵;S6、采用经典聚类方法对特征矩阵进行聚类,得到对应的聚类结果;S7、若已知聚类的类别个数,则执行步骤S9;若未知聚类的类别个数,则执行步骤S8;S8、依次调整聚类参数,以确定对应的类别个数,之后返回执行步骤S3~S6,得到多个调整聚类结果,并对多个调整聚类结果进行评估,选取得到最优的聚类结果;S9、结合步骤S6或步骤S8得到的聚类结果以及步骤S1提取的关键词,基于TF-IDF算法提取出类别关键词;S10、输出聚类结果及对应的类别关键词。2.根据权利要求1所述的一种基于改进谱聚类算法的文本聚类方法,其特征在于,所述步骤S1提取的关键词的词性包括名词、动词、动名词、人名、地名以及机构名词。3.根据权利要求1所述的一种基于改进谱聚类算法的文本聚类方法,其特征在于,所述步骤S2具体包括以下步骤:S21、计算不同文本中各关键词的TF-IDF值,并将所有文本中各关键词的TF-IDF值放入词袋中;S22、根据词袋中存入的所有文本中各关键词的TF-IDF值,计算得到各文本之间的相似度,利用各文本之间的相似度构建文本相似度矩阵。4.根据权利要求3所述的一种基于改进谱聚类算法的文本聚类方法,其特征在于,所述文本相似度矩阵具体为一个N*N的矩阵,该矩阵中的每个元素分别为不同文本之间的相似度。5.根据权利要求4所述的一种基于改进谱聚类算法的文本聚类方法,其特征在于,所述步骤S3具体包括以下步骤:S31、基于文本相似度矩阵,采用∈-邻近法、K邻近法或全连接法构建邻接矩阵W;S32、根据邻接...

【专利技术属性】
技术研发人员:张校源马祥祥
申请(专利权)人:上海爱数信息技术股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1