当前位置: 首页 > 专利查询>浙江大学专利>正文

面向海量数据近似快速聚类和索引方法技术

技术编号:2820975 阅读:748 留言:0更新日期:2012-04-11 18:40
本发明专利技术公开了一种面向海量数据的递归分块信息传递聚类和索引方法。利用该方法可以实现各种海量数据的准确,快速的聚类和适用于查询,更新的索引结构。用户可以将海量的无序数据进行处理,快速的进行聚类并索引,有利于以后的查询,检索,维护和更新。此方法可以应用于面向互联网的海量文本,图像,音频,视频等快速聚类和索引,也可以应用于海量生物基因序列的相似度比较,同源蛋白质检测。本发明专利技术还公开了一种近似的快速海量数据的聚类方法,利用该方法可以在保证聚类效果损失不大的情况下,能够呈指数级的加快聚类的速度。并且还能较好有利于训练集以外数据进行聚类,插入和更新,因此该方法可以普遍适用于各种复杂的海量数据的快速聚类和索引。

【技术实现步骤摘要】

本专利技术涉及一种面向海量数据的近似快速聚类和索引方法。该方法通过对 局部区域数据之间的相似度信息传递,为海量复杂数据的聚类分析提供判断依 据,从而实现海量数据的近似快速聚类和索引,属于多媒体信息处理,数据挖 掘算法领域。
技术介绍
在当今科学技术高度发展的今天,人们往往要面临海量的各种数据需要来 进行处理,例如互联网上数以亿记的网页,图片,视频,音频等等,各种生物 体测序出来的基因序列,都是包含海量数据信息的浩大工程,并且这些数据还 在动态急速增长的过程中。我们面对如此浩大的数据需要处理时,数据挖掘就 显得尤为重要了,聚类就是数据挖掘中最重要的方向之一。传统聚类方法可以分为两种:监督式聚类和非监督式聚类。其中监督式聚类 的代表方法是K平均聚类。在这种方法中,聚类的最终结果与用户初始指定的 初始聚类中心有关。用户需要指定聚类数目、初始质心和评判某个成员归属某 个聚类集合的阈值大小。这种方法本质上不是根据聚类元素的分布进行自适应 聚类,且其聚类精度和效率依赖于初始质心选取等预设参数。非监督聚类中代表性的聚类方法有支持向量聚类(Support Vector Clustering),是基于支持向量机的聚类算法。在支持向量聚类中,聚类数据通过 高斯核函数从低维空间被映射到高维特征空间,于是可以在这个高维特征空间 找到一个最小的超球体将这些数据包围起来(虽然在低维空间无法找到这样的 最小超球体将被聚类数据包围起来),这个超球体接着被映射回原始低维数据空 间,被看作是包围被聚类数据点的轮廓,这些轮廓就认为是聚类簇的边界,在 同一个轮廓中被包围的数据点认为属于同一个聚类集合,从而完成聚类。但是, 支持向量聚类也不是基于聚类数据物理分布的,难以反映数据全局分布。近来, 一种叫做AP聚类(Affinity Propagation Clustering)的方法被提出, 其基本思想就是通过消息传递,实现数据点的自动聚类。它将数据对象之间的 相似度作为输入,而且此相似度可以是非对称的,即数据对象^到数据对象A 的相似度可以不等于数据对象B到数据对象^的相似度。实值信息在数据对象 之间交换传播直至一组高质量的聚类中心和相应的聚类产生。假设/和t是任意两个节点,s^卩是按照下面式子计算得到的设/和A:<formula>formula see original document page 5</formula>之间距,,W是节点形成的聚类集合数目,则AP聚类可以看作使得£(c) = —Zl:J"c,)值最小的计算结果。在AP聚类中,节点和节点之间相互 传递两类信息,分别是r (responsibility)和a (availability)。其中^,^)表示A:作为 节点/的聚类质心的可信度,""&表示节点/选择A:作为其聚类质心的可信度。AP聚类过程如下所示。(l)根据以下公式更新节点之间的及<formula>formula see original document page 5</formula>(2)根据以下公式更新节点之「|^1:<formula>formula see original document page 5</formula>(3) 将矩阵^和矩阵7 组咨在一起来监督聚类中心的变化对于对象/, 找出使+ r",^最大化的A:,如果A: = z',那么/是一个候选聚类中心,否则A: 就是/所在的聚类的候选聚类中心。(4) 不断重复(1)到(3),直至(3)监督到的结果不变,或达到了最大 迭代次数。但是,针对数据点之间形成的距离是稠密矩阵(Dense Matrix),用基于信 息传递的聚类方法AP进行聚类时,其运行时间会随着数据量的增大程指数增 长。因此我们需要对此信息传递的聚类方法进行改进。
技术实现思路
本专利技术的目的是提供一种面向海量数据的近似快速聚类和索引方法。 为实现上述的专利技术目的,本专利技术采用如下技术方案 第一种基于近似计算的海量数据聚类方法包括如下步骤输入包括N个数据对象的集合,这些对象之间的相似度矩阵5Vxw,其中 邓,力S G(/ = 1A W,y' = 1A A0 ,我们对其进行基于分块递归信息传递的聚类1)将相似度矩阵&^;v平均分成t部分,接着对每部分再平均分成m部分,... 并照此类推下去-<formula>formula see original document page 5</formula>2) 把子矩阵Sii,^2,L S,,L Sm通过基于消息传播的AP聚类方法迭代计 算,得到Ar个消息传播子矩阵^i,勘,L J目,L血;3) 将步骤2)中的消息传播子矩阵^,^,L ,厶 L J"在对角线上合并,将其 余部分设为0,得到整个数据集的消息传播矩阵A':<formula>formula see original document page 6</formula>除A11,A22, L, Amm, L, Akk以外,消息传播矩阵j'的其余部分为O;4)以^作为递归分块信息传递的聚类方法的起始信息传递矩阵^vxw ,作为 迭代起点再利用AP聚类方法得到最终聚类结果。所述的对相似度矩阵&xw划分成为A:部分其中,t或m必须是大于l, 小于LiV/(4xC)」,C是所期望类的数目的最大值,子矩阵Su,S22,L ;,L &都是方阵, 子矩阵Sn…的大小都是L^A」xL^A」,子矩阵&的大小是 。所述的基于消息传播的AP聚类方法迭代计算方法的步骤如下(1) 根据以下公式更新节点之间的(2) 根据以下公式更新节点之间的A<formula>formula see original document page 6</formula>(3)不断重复步骤(1)和fg (2)过程,直到收敛,或达到了最大迭代次数。第二种基于近似计算的海量数据聚类方法包括如下步骤输入包括TV个数据对象的集合,这些对象之间的相似度矩阵为&xw,其中 S O(!' = l八AT J = 1A AT)。我们对其进行近似的快速信息传递的聚类 l)给定大规模数据集合义,其中包含p个数据点,根据代表性最大的原则随 机挑选^个综合能力强的数据点,g远小于p,对这^个节点之间的形成的距离矩阵应用AP聚类算法,得到其聚类结果;2) 通过步骤l)得到了 w个聚类集合,分别为G,C2,L ,C",在每个聚类集合 中计算节点离聚类质心最小距离m/"—J^""^/b(/,对于剩下的p -g个节点再进 行分类,数据集中其余数据点/划分到某个q类的规则如下,当该节点离开"个 聚类质心的距离小于某个m/"—^stowce/^;/时,则将这个节点纳入"'聚类集合;3) 如果还有m个节点通过步骤2)无法纳入任何聚类集合,当m小于设定 阈值,则对m个节点直接应用原始的AP聚类算法;当m大于设定阈值,则 重复递归调用使用步骤l)和步骤2),分别得到聚类结果;4) 将步骤2)和步骤3)得到的聚类结果进行合并,对每个类中的结果重新计 算,从而得到每个类的最佳聚类中心。本文档来自技高网
...

【技术保护点】
一种基于分块递归信息传递的聚类方法,其特征在于包括如下步骤: 输入包括N个数据对象的集合,这些对象之间的相似度矩阵S↓[N×N],其中S[i,j]≤0(i=1Λ N,j=1Λ N),我们对其进行基于分块递归信息传递的聚类: 1)将相似度矩阵S↓[N×N]平均分成k部分,接着对每部分再平均分成m部分,…并照此类推下去: *** 2)把子矩阵S↓[11],S↓[22],L S↓[mm],L S↓[kk]通过基于消息传播的AP聚类方法迭代计算,得到k个消息传播子矩阵A↓[11],A↓[22],L,A↓[mm],L A↓[kk]; 3)将步骤2)中的消息传播子矩阵A↓[11],A↓[22],L,A↓[mm],L A↓[kk]在对角线上合并,将其余部分设为0,得到整个数据集的消息传播矩阵A′: *** 除A↓[11],A↓[22],L,A↓[mm],L A↓[kk]以外,消息传播矩阵A′的其余部分为0; 4)以A′作为递归分块信息传递的聚类方法的起始信息传递矩阵A↓[N×N],作为迭代起点再利用AP聚类方法得到最终聚类结果。

【技术特征摘要】

【专利技术属性】
技术研发人员:庄越挺吴飞夏丁胤郭同强张绪青
申请(专利权)人:浙江大学
类型:发明
国别省市:86[中国|杭州]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1