一种基于信息瓶颈理论的文档聚类方法技术

技术编号:3848355 阅读:235 留言:0更新日期:2012-04-11 18:40
本发明专利技术公开了一种基于信息瓶颈理论的文档聚类方法,该方法首先利用信息瓶颈理论计算文档之间的相似性,采用增量式的聚类算法对文档进行聚类,并对聚类结果进行最小共有信息损失计算,如果最小共有信息损失满足规定阈值,则将该文档合并到距离最近簇,否则新建一个簇存放该文档;为了提高聚类准确性,采用序列聚类方法对聚类结果进行调整,在调整过程中,对每个文档依次进行取样,并规定对所有文档的取样次数来控制调整的强度。这种调整策略涵盖了所有的样本文档,有助于提高聚类的准确率。

【技术实现步骤摘要】

【技术保护点】
一种基于信息瓶颈理论的文档聚类方法,其特征在于:该方法一方面利用信息瓶颈理论计算文档之间的相似度d,另一方面利用增量式的聚类方法对文档进行聚类获得聚类结果C;在聚类过程中的处理步骤有: 步骤一,采用建簇方法对待聚类文档T={t↓[1] ,t↓[2],t↓[3],……,t↓[m]}中的全部文档进行簇处理,从而获得一个簇集合CT={ct↓[1],ct↓[2],ct↓[3],……,ct↓[m]}; 第一文档t1的簇记为第一簇ct↓[1]; 第二文档t↓[2]的簇记为 第一簇ct↓[2]; 第三文档t↓[3]的簇记为第一簇ct↓[3]; ……; 第m文档t↓[m]的簇记为第一簇ct↓[m]; 步骤二,将第二文档t↓[2]与簇集合CT进行最小共有信息损失的计算,如果最小共有信息损失满 足规定阈值ε=α×aver,则将该第二文档t↓[2]合并到簇集合CT中相似度最高的哪个簇中,否则新建一个簇c↓[i]来存放该第二文档t↓[2]; 步骤三,采用与步骤二相同的方式对第三文档t↓[3]、……、第m文档t↓[m]进行聚类处理 ,得到聚类结果C=c↓[1],……,c↓[n],新建簇ci属于聚类结果C中; 步骤四,对聚类结果C采用序列聚类方法进行调整,得到最终的聚类结果C↓[final],该最终聚类结果C↓[final]能够将所有待聚类文档T依据相似度d自动化 分为若干个簇c↓[n],并保证簇内的相似度尽可能大,簇间的相似度尽可能小。...

【技术特征摘要】

【专利技术属性】
技术研发人员:刘永利熊璋任捷欧阳元新
申请(专利权)人:北京航空航天大学
类型:发明
国别省市:11[中国|北京]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1