一种基于Canopy聚类和BIRCH层次聚类的连续属性离散化方法技术

技术编号:11374804 阅读:73 留言:0更新日期:2015-04-30 12:45
本发明专利技术涉及一种基于Canopy聚类和BIRCH层次聚类的连续属性离散化方法,与现有技术相比解决了离散化效果差、离散化不合理的缺陷。本发明专利技术包括以下步骤:利用Canopy聚类实现连续属性数据初始聚类;以初始聚类中心为样本,通过BIRCH层次聚类进行二次聚类;对断点集任一样本找出其所在维各聚类中心的最近邻,以此作为离散微调依据,实现连续属性的离散化。本发明专利技术可解决高维、大数据样本的连续属性离散化方法,减少连续属性值的数目,降低系统对存储空间的依赖,使离散化后的数据更规约和简化,便于理解、使用和解释,扩大了适用范围。

【技术实现步骤摘要】

【技术保护点】
一种基于Canopy聚类和BIRCH层次聚类的连续属性离散化方法,其特征在于,包括以下步骤:11)利用Canopy聚类实现连续属性数据初始聚类;设置合理的距离阈值T1、T2,其中阈值T1、T2为划分Canopy大小的度量;利用Canopy聚类方法,将相似对象放在一个子集Cluster中;经处理后获取各个Cluster的质心,完成数据初始聚类;12)以初始聚类中心为样本,通过BIRCH层次聚类进行二次聚类;利用Canopy聚类输出的Cluster质心,结合聚类特征可加性原理构建聚类特征CF和聚类特征树CF树;通过BIRCH聚类方法把稀疏的簇当做离群点删除,将稠密的簇合并为更大的簇,实现数据集的二次聚类;13)对断点集任一样本找出其所在维各聚类中心的最近邻,以此作为离散微调依据,实现连续属性的离散化;以BIRCH聚类算法的聚类中心为断点集,以轮廓系数作为聚类效果评价指标,以不相容度作为离散效果评价指标,对数据集任一样本找出其所在维各聚类中心的最近邻,以此作为离散微调依据,将聚类微调的结果作为最终连续属性离散结果。

【技术特征摘要】

【专利技术属性】
技术研发人员:闫永刚陶刚刘俊张小兵张晓花
申请(专利权)人:安徽科力信息产业有限责任公司
类型:发明
国别省市:安徽;34

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1