面向海量数据近似快速聚类和索引方法技术

技术编号：2820975 阅读：756 留言：0更新日期：2012-04-11 18:40

本发明专利技术公开了一种面向海量数据的递归分块信息传递聚类和索引方法。利用该方法可以实现各种海量数据的准确，快速的聚类和适用于查询，更新的索引结构。用户可以将海量的无序数据进行处理，快速的进行聚类并索引，有利于以后的查询，检索，维护和更新。此方法可以应用于面向互联网的海量文本，图像，音频，视频等快速聚类和索引，也可以应用于海量生物基因序列的相似度比较，同源蛋白质检测。本发明专利技术还公开了一种近似的快速海量数据的聚类方法，利用该方法可以在保证聚类效果损失不大的情况下，能够呈指数级的加快聚类的速度。并且还能较好有利于训练集以外数据进行聚类，插入和更新，因此该方法可以普遍适用于各种复杂的海量数据的快速聚类和索引。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及一种面向海量数据的近似快速聚类和索引方法。该方法通过对局部区域数据之间的相似度信息传递，为海量复杂数据的聚类分析提供判断依据，从而实现海量数据的近似快速聚类和索引，属于多媒体信息处理，数据挖掘算法领域。
技术介绍
在当今科学技术高度发展的今天，人们往往要面临海量的各种数据需要来进行处理，例如互联网上数以亿记的网页，图片，视频，音频等等，各种生物体测序出来的基因序列，都是包含海量数据信息的浩大工程，并且这些数据还在动态急速增长的过程中。我们面对如此浩大的数据需要处理时，数据挖掘就显得尤为重要了，聚类就是数据挖掘中最重要的方向之一。传统聚类方法可以分为两种:监督式聚类和非监督式聚类。其中监督式聚类的代表方法是K平均聚类。在这种方法中，聚类的最终结果与用户初始指定的初始聚类中心有关。用户需要指定聚类数目、初始质心和评判某个成员归属某个聚类集合的阈值大小。这种方法本质上不是根据聚类元素的分布进行自适应聚类，且其聚类精度和效率依赖于初始质心选取等预设参数。非监督聚类中代表性的聚类方法有支持向量聚类(Support Vector Clustering),是基于支持向量机的聚类算法。在支持向量聚类中，聚类数据通过高斯核函数从低维空间被映射到高维特征空间，于是可以在这个高维特征空间找到一个最小的超球体将这些数据包围起来(虽然在低维空间无法找到这样的最小超球体将被聚类数据包围起来)，这个超球体接着被映射回原始低维数据空间，被看作是包围被聚类数据点的轮廓，这些轮廓就认为是聚类簇的边界，在同一个轮廓中被包围的数据点认为属于同一个...

【技术保护点】
一种基于分块递归信息传递的聚类方法，其特征在于包括如下步骤：　输入包括Ｎ个数据对象的集合，这些对象之间的相似度矩阵Ｓ↓［Ｎ×Ｎ］，其中Ｓ［ｉ，ｊ］≤０（ｉ＝１Λ　Ｎ，ｊ＝１Λ　Ｎ），我们对其进行基于分块递归信息传递的聚类：　１）将相似度矩阵Ｓ↓［Ｎ×Ｎ］平均分成ｋ部分，接着对每部分再平均分成ｍ部分，…并照此类推下去：　＊＊＊　２）把子矩阵Ｓ↓［１１］，Ｓ↓［２２］，Ｌ　Ｓ↓［ｍｍ］，Ｌ　Ｓ↓［ｋｋ］通过基于消息传播的ＡＰ聚类方法迭代计算，得到ｋ个消息传播子矩阵Ａ↓［１１］，Ａ↓［２２］，Ｌ，Ａ↓［ｍｍ］，Ｌ　Ａ↓［ｋｋ］；　３）将步骤２）中的消息传播子矩阵Ａ↓［１１］，Ａ↓［２２］，Ｌ，Ａ↓［ｍｍ］，Ｌ　Ａ↓［ｋｋ］在对角线上合并，将其余部分设为０，得到整个数据集的消息传播矩阵Ａ′：　＊＊＊　除Ａ↓［１１］，Ａ↓［２２］，Ｌ，Ａ↓［ｍｍ］，Ｌ　Ａ↓［ｋｋ］以外，消息传播矩阵Ａ′的其余部分为０；　４）以Ａ′作为递归分块信息传递的聚类方法的起始信息传递矩阵Ａ↓［Ｎ×Ｎ］，作为迭代起点再利用ＡＰ聚类方法得到最终聚类结果。

【技术特征摘要】

【专利技术属性】
技术研发人员：庄越挺，吴飞，夏丁胤，郭同强，张绪青，
申请(专利权)人：浙江大学，
类型：发明
国别省市：86[中国|杭州]

全部详细技术资料下载我是这个专利的主人