一种文本聚类方法,用于对潜在狄利克雷分布模型的文档集进行文本挖掘,其至少包括如下步骤:在第一文档集D1中对预设了主题数量K的潜在狄利克雷分布算法进行训练,得到参数β和φ;根据参数φ,利用信息熵理论对所述第一文档集D1进行过滤,得到第二文档集D2;根据参数β,对第二文档集D2进行分组,生成包含分组信息的第三文档集D3;以及在第三文档集D3上运行FG-Kmeans算法,得到最终聚类的聚类中心集合C以及标记矩阵U。本发明专利技术提供的文本聚类方法,通过潜在狄利克雷分布模型对文本进行分组,再利用FG-Kmeans算法处理分组后的文本,很好地应对文本挖掘中数据的高维和稀疏的问题,而且把特征分组的概念引入了特征空间,使得特征空间包含的信息更为丰富。
【技术实现步骤摘要】
文本聚类方法
本专利技术涉及数据挖掘领域,尤其涉及一种文本聚类方法。
技术介绍
随着大数据时代的到来,人们面临着在高维数据上做数据聚类的严峻挑战。维度过高直接带来的是数据的稀疏,这一现象在文本挖掘中尤为明显。聚类算法是一类对高维稀疏数据进行聚类的有效方法,作为一种聚类算法,FG-Kmeans算法(Chen,X.,Ye,Y.,Xu,X.,Huang,J.Z.:Afeaturegroupweightingmethodforsubspaceclusteringofhigh-dimensionaldata.PatternRecognition45(1)(2012))成功的将组的概念引入到软聚类当中,在FG-Kmeans算法中,特征根据相似性被分为若干个组,该算法同时对特征和组进行加权,找出聚类完成之后每个簇中比较重要的特征组以及特征组比较重要的特征。实验证明FG-Kmeans相比于其他软聚类算法可以更有效地面对数据的稀疏问题。然而,FG-Kmeans需要事先对数据集的特征进行分组,才能将FG-Kmeans算法应用于数据集上。而到目前为止还没有一种算法可以对数据集上的特征进行自动的分组,这在很大程度上限制了该算法的推广应用。
技术实现思路
针对上述问题,本专利技术的目的在于提供一种文本聚类方法,其利用潜在狄利克雷分布(LatentDirichletAllocation,LDA)模型对文本进行过滤和分组,然后利用FG-Kmeans算法对过滤和分组后的文本做进一步的聚类处理,很好地解决了文本挖掘中数据的高维和稀疏的特点,而且把分组的概念引入了特征空间,使得特征空间包含的信息更为丰富。为了解决上述技术问题,本专利技术提供了一种文本聚类方法,用潜在狄利克雷分布模型对文档集进行文本挖掘,其特征在于,所述文本聚类方法至少包括如下步骤:在第一文档集D1中对预设了主题数量K的潜在狄利克雷分布算法进行训练,得到参数β和φ,其中,所述第一文档集D1包括N个不重复的特征,分别记为V1…VN,所述K和N均为自然数;根据参数φ,利用信息熵理论对所述第一文档集D1进行过滤,得到第二文档集D2;根据参数β,对第二文档集D2进行分组,生成包含分组信息的第三文档集D3;以及在第三文档集D3上运行FG-Kmeans算法,得到最终聚类的聚类中心集合C以及标记矩阵U。其中,所述K个主题分别记为Z1…ZK,所述第一文档集D1包括M个文档,分别记为d1…dM,所述第一文档集D1的每个文档dm(1≤m≤M)由这K个主题Zk(1≤k≤K)按照一定的比例分布而成,如此通过所述潜在狄利克雷分布算法将所述第一文档集D1降维成一M×K的主题分布矩阵θ,θ的每一行θm(1≤m≤M)表示文档dm在K个主题下的概率分布,满足约束其中,M为自然数。其中,所述文档dm的主题分布θm服从参数为α的狄利克雷分布,即θm~Dirichlet(α),其中,α为超参数,由经验值获得。其中,所述参数β通过最大期望算法或吉布斯算法获得,所述参数β为一K×N矩阵,矩阵元βkn(1≤k≤K,1≤n≤N)表示所述第一文档集D1中第n个特征Wn在第k个主题Zk下出现的概率,满足约束条件其中,在利用所述最大期望算法或吉布斯算法求解所述参数β的过程中,还引入另一参数φ,所述参数φ为一K维列向量,所述文档dm(1≤m≤M)中包含Lm个特征,将所述文档dm中的特征记为Wm1…WmLm,则每一个特征Wml(1≤l≤Lm)具有一个K维列向量φml,φml的向量元φmlk(1≤k≤K)表示文档dm的第l个特征Wml在主题Zk下的概率分布且满足约束条件其中,所述利用信息熵理论对所述第一文档集D1进行过滤包括:设定留下特征量的百分比P,其中0%<P≤100%;统计第一文档集D1里每个特征Vn(1≤n≤N)的在每个主题下出现的次数;计算第一文档集D1里每个特征Vn的信息熵;以及对每个特征Vn的信息熵进行升序排序,留下前百分比P的特征,生成第二文档集D2,其中,所述第二文档集D2包括NP个特征。其中,所述过滤的特征为不具有分组价值的特征,其在各个主题下的出现概率均匀。其中,所述对第二文档集D2进行分组包括,利用参数β将每个特征归入其出现概率最大的主题下,其中,第二文档集D2的第j个特征属于主题Zk的条件为βij|∀1≤i,k≤K,i≠k}.]]>其中,所述特征为单词或文字。本专利技术实施例提供的文本聚类方法,通过利用在第一文档集D1上运行LDA算法留下的模型参数得到参数β和φ,利用参数φ对第一文档集D1里的特征进行过滤得到第二文档集D2,再利用参数β对第二文档集D2进行分组得到第三文档集D3,最后应用FG-Kmeans软子空间聚类算法对包含分组信息的第三文档集D3进行聚类,得到最终聚类的聚类中心集合C以及每个文档隶属于对应的聚类中心的标记矩阵U。基于LDA模型的FG-Kmeans算法相比于传统的矢量空间模型增加了组(即主题)信息,不仅可以很好地应对文本挖掘中数据的高维和稀疏的特点,而且把特征分组的概念引入了特征空间,使得特征空间包含的信息更为丰富。附图说明为了更清楚地说明本专利技术的技术方案,下面将对实施方式中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1是本专利技术实施例提供的文本聚类方法的流程示意图。图2是本专利技术实施例提供的潜在狄利克雷分布算法的图模型表示图。具体实施方式下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。请参阅图1,本专利技术实施例提供一种文本聚类方法,其至少包括如下步骤。S101,在第一文档集D1中对预设了主题数目K的潜在狄利克雷分布(LatentDirichletAllocation,LDA)算法进行训练,获得参数β和φ。在本专利技术的实施例中,所述第一文档集D1包括N个不重复的特征,分别记为V1…VN,所述第一文档集D1包含M个文档,所述M个文档分别记为d1…dM。其中第m(1≤m≤M)个文档dm包含Lm个特征,所述文档dm中的特征分别记为Wm1、Wm2…WmLm,所述文档dm中的特征集合Wm可能出现重复且所有文档dm中的特征都选择自所述第一文档集D1的特征集合V,其中,所述第一文档集D1的特征量N服从泊松分布,所述特征可为单词或文字。LDA模型假设,所述第一文档集D1包括若干个主题,而第一文档集D1中的每一个文档dm都是由这些主题按照一定的比例混合而成,每个主题都是由一些特征按照一定的概率分布形成。基于上面的假设,首先设定所述LDA算法的主题数量K,且所述K个主题分别记为Z1、Z2…ZK。在第一文档集D1上利用该包含K个主题的LDA算法对所述第一文档集D1进行降维,得到一个D×K的主题分布矩阵θ,其中,θ的每一行θm(1≤m≤M)表示文档dm在K个主题下的概率分布,满足约束...
【技术保护点】
一种文本聚类方法,用潜在狄利克雷分布模型对文档集进行文本挖掘,其特征在于,所述文本聚类方法至少包括如下步骤:在第一文档集D1中对预设了主题数量K的潜在狄利克雷分布算法进行训练,得到参数β和φ,其中,所述第一文档集D1包括N个不重复的特征,分别记为V1…VN,所述K和N均为自然数;根据参数φ,利用信息熵理论对所述第一文档集D1进行过滤,得到第二文档集D2;根据参数β,对第二文档集D2进行分组,生成包含分组信息的第三文档集D3;以及在第三文档集D3上运行FG?Kmeans算法,得到最终聚类的聚类中心集合C以及标记矩阵U。
【技术特征摘要】
1.一种文本聚类方法,用潜在狄利克雷分布模型对文档集进行文本挖掘,其特征在于,所述文本聚类方法至少包括如下步骤:在第一文档集D1中对预设了主题数量K的潜在狄利克雷分布算法进行训练,得到参数β和φ,其中,所述第一文档集D1包括N个不重复的特征,分别记为V1…VN,所述K和N均为自然数;根据参数φ,利用信息熵理论对所述第一文档集D1进行过滤,得到第二文档集D2;根据参数β,对第二文档集D2进行分组,生成包含分组信息的第三文档集D3;以及在第三文档集D3上运行软子空间聚类FG-Kmeans算法,将相似的特征分配到相同的主题当中,并将权重分配到每个特征上和每个主题上,进而通过数学表达式得到最终聚类的聚类中心集合C以及标记矩阵U。2.根据权利要求1所述的文本聚类方法,其特征在于,所述K个主题分别记为Z1…ZK,所述第一文档集D1包括M个文档,分别记为d1…dM,所述第一文档集D1的每个文档dm(1≤m≤M)由这K个主题Zk(1≤k≤K)按照一定的比例分布而成,如此通过所述潜在狄利克雷分布算法将所述第一文档集D1降维成一M×K的主题分布矩阵θ,θ的每一行θm(1≤m≤M)表示文档dm在K个主题下的概率分布,满足约束其中,M为自然数。3.根据权利要求2所述的文本聚类方法,其特征在于,所述文档dm的主题分布θm服从参数为α的狄利克雷分布,即θm~Dirichlet(α),其中,α为超参数,由经验值获得。4.根据权利要求1所述的文本聚类方法,其特征在于,所述参数β通过最大期望算法或吉布斯算法获得,所述参...
【专利技术属性】
技术研发人员:蔡业首,陈小军,管婷婷,黄哲学,
申请(专利权)人:深圳先进技术研究院,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。