【技术实现步骤摘要】
【技术保护点】
一种基于信息瓶颈理论的文档聚类方法,其特征在于:该方法一方面利用信息瓶颈理论计算文档之间的相似度d,另一方面利用增量式的聚类方法对文档进行聚类获得聚类结果C;在聚类过程中的处理步骤有: 步骤一,采用建簇方法对待聚类文档T={t↓[1] ,t↓[2],t↓[3],……,t↓[m]}中的全部文档进行簇处理,从而获得一个簇集合CT={ct↓[1],ct↓[2],ct↓[3],……,ct↓[m]}; 第一文档t1的簇记为第一簇ct↓[1]; 第二文档t↓[2]的簇记为 第一簇ct↓[2]; 第三文档t↓[3]的簇记为第一簇ct↓[3]; ……; 第m文档t↓[m]的簇记为第一簇ct↓[m]; 步骤二,将第二文档t↓[2]与簇集合CT进行最小共有信息损失的计算,如果最小共有信息损失满 足规定阈值ε=α×aver,则将该第二文档t↓[2]合并到簇集合CT中相似度最高的哪个簇中,否则新建一个簇c↓[i]来存放该第二文档t↓[2]; 步骤三,采用与步骤二相同的方式对第三文档t↓[3]、……、第m文档t↓[m]进行聚类处理 ...
【技术特征摘要】
【专利技术属性】
技术研发人员:刘永利,熊璋,任捷,欧阳元新,
申请(专利权)人:北京航空航天大学,
类型:发明
国别省市:11[中国|北京]
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。