一种基于信息瓶颈理论的文档聚类方法技术

技术编号：3848355 阅读：235 留言：0更新日期：2012-04-11 18:40

本发明专利技术公开了一种基于信息瓶颈理论的文档聚类方法，该方法首先利用信息瓶颈理论计算文档之间的相似性，采用增量式的聚类算法对文档进行聚类，并对聚类结果进行最小共有信息损失计算，如果最小共有信息损失满足规定阈值，则将该文档合并到距离最近簇，否则新建一个簇存放该文档；为了提高聚类准确性，采用序列聚类方法对聚类结果进行调整，在调整过程中，对每个文档依次进行取样，并规定对所有文档的取样次数来控制调整的强度。这种调整策略涵盖了所有的样本文档，有助于提高聚类的准确率。

全部详细技术资料下载

【技术实现步骤摘要】

【技术保护点】
一种基于信息瓶颈理论的文档聚类方法，其特征在于：该方法一方面利用信息瓶颈理论计算文档之间的相似度ｄ，另一方面利用增量式的聚类方法对文档进行聚类获得聚类结果Ｃ；在聚类过程中的处理步骤有：　步骤一，采用建簇方法对待聚类文档Ｔ＝｛ｔ↓［１］，ｔ↓［２］，ｔ↓［３］，……，ｔ↓［ｍ］｝中的全部文档进行簇处理，从而获得一个簇集合ＣＴ＝｛ｃｔ↓［１］，ｃｔ↓［２］，ｃｔ↓［３］，……，ｃｔ↓［ｍ］｝；　第一文档ｔ１的簇记为第一簇ｃｔ↓［１］；　第二文档ｔ↓［２］的簇记为第一簇ｃｔ↓［２］；　第三文档ｔ↓［３］的簇记为第一簇ｃｔ↓［３］；　……；　第ｍ文档ｔ↓［ｍ］的簇记为第一簇ｃｔ↓［ｍ］；　步骤二，将第二文档ｔ↓［２］与簇集合ＣＴ进行最小共有信息损失的计算，如果最小共有信息损失满足规定阈值ε＝α×ａｖｅｒ，则将该第二文档ｔ↓［２］合并到簇集合ＣＴ中相似度最高的哪个簇中，否则新建一个簇ｃ↓［ｉ］来存放该第二文档ｔ↓［２］；　步骤三，采用与步骤二相同的方式对第三文档ｔ↓［３］、……、第ｍ文档ｔ↓［ｍ］进行聚类处理 ...

【技术特征摘要】

【专利技术属性】
技术研发人员：刘永利，熊璋，任捷，欧阳元新，
申请(专利权)人：北京航空航天大学，
类型：发明
国别省市：11[中国|北京]

全部详细技术资料下载我是这个专利的主人