当前位置: 首页 > 专利查询>塔莱斯公司专利>正文

用于对产生于数据库的数据群集的方法和系统技术方案

技术编号:7168776 阅读:291 留言:0更新日期:2012-04-11 18:40
一种用于对采取阵列S的形式的数据或对象Oi、Oj群集的方法,所述阵列S的每一个元对应于存在于所述对象Oi、Oj之间的相似性sij的值,所述方法是在与含有所要群集的数据或对象的数据库(6)链接的包括工作存储器(2)和处理器(3)的计算机(1)内实施的,所述方法的特征在于其至少包括下述步骤:1)通过考虑在对象Oj和先前建立的前一类别之间计算的关系的值确定数量为k个对象类别,2)对于在步骤1)中找到的κ个类别中的每者而言,确定类别Ck和其他类别Ck′之间的每一关系的值,因而k’不同于k,并合并某些类别,3)逐一取得每一类别Cl的每一对象Oj,确定每一对象Oi与类别Cl中不同于在初始步骤中该对象被划归的索引为k的类别的每一类别的关系的值,如果与索引为m的类别的关系的值大于关系的值,那么将该对象从其索引为k的类别转移至新的索引为m的类别,继续这一操作直到所有的关系的值均为负为止。

【技术实现步骤摘要】
【国外来华专利技术】用于对产生于数据库的数据群集的方法和系统本专利技术的主题特别地涉及使得对采取关系矩阵的形式的数据实施群集成为可能的方法和系统,也就是说在这一数据库的对象Oi或数据之间存在关系。本专利技术还可以对矩形阵列进行处理,其生效的范围是总是有可能通过计算原始阵列的对象之间的相似性的测量值而由矩形阵列(对象X属性)导出方阵列。可以将本专利技术用于自动分类(更为人熟知的称谓是“群集(clustering) ”)领域。 由其可以将其应用于这样的情况,其中,有待群集的数据采取关系矩阵(有待群集的对象之间的关系)的形式并且实际上允许非常灵活的图形或相依性网络的表现形式。在自动数据分类领域,所要解决的问题在于,从含有与η个对象或个体Oi相关的非常大的量的数据(数量级为数十万或数百万)的数据库开始对这些数据非常快速地分类。这些数据通常采取两种类型的阵列(或矩阵)的形式矩形矩阵(对象X针对这些对象测得的属性)或方形矩阵(对象X对象),后者表现了对象之间的关系。群集的目的在于,在这些矩阵的基础上构建具有强描述(对个体的描述)相似性和/或行为相似性的相干对象的群。在数据采取方形矩阵的形式时,它们往往表示数据库的对象之间的相似性或接近性的测度。其后的目的在于寻求发现由总体到数量有限得多的对象(相似的或者具有相同的行为的)类别(或群集)的最佳自动分解,尔后根据所涉及的领域定义动作(action)策略。例如,可能的动作之一是找到故障,从而使得预测计算机网络中的其他故障成为可能。 另一个例子在于找到银行的客户集合,对于所述客户有可能向其推荐某些产品并且他们具有很高的做出肯定答复的概率。另一个动作是找到保险公司客户的适当定位,对于所述客户有可能建立特殊保险政策,这些政策是非先验的、无法明显界定的等等。找到这些类别的主要困难之一是由这样一个事实导致的,即,尽管在处理器的计算能力和当前计算机的存储容量方面取得了进展,但是所存储的数据也具有前所未见的规模,或者占据日见庞大的存储空间,因此以合理的处理时间对数据库的对象进行群集是非常困难的。当可用数据采取表现对象之间的关系的方形矩阵时,这一点更为现实。现有技术中已知各种自动分类过程。因而,有可能引用k-means、分级群集或其他关系分析过程。由本申请人提交的专利申请EP 1960916描述了一种群集方法,其中,原始数据采取表格的形式,表格的行是有待群集的个体,列是针对这些个体测量的变量。尽管现有技术过程提供了良好的结果,但是值得注意的是它们显露出了下述缺点。1)出现对所要采用以初始化划分的分类和引用(中心)的数量是固定的问题。实际上,k-means型的过程(例如)按照先验的任意方式固定要在数据中找到的类别的数量以及被认为是初始类别的中心的几个初始个体;2)对于分级群集过程而言,以先验的任意方式固定树状图表的截止限幅的问题,3)在数据采取关系数据的方式时不可能在合理的时间内按照线性的方式处理巨量的数据。因而,通常的群集过程一方面不可能按照线性的方式处理图形或关系类型的数据,另一方面它们严重依赖于参数的固定,例如,所述参数是所要找到的类别的数量或者中心(根据任意数学绘图(draw)或按照任意方式从总体中选出的对象)。根据本专利技术的方法特别地基于一种关系分析理论,其体现出了这样一种优点,即, 无需做出与群集处理的预期结果相关的任意先验假设。根据本专利技术的系统和方法提出了一种新的采用所要处理的关系矩阵的行的方案, 并且有可能凭借这些表示在快速的时间内处理非常大的量的数据,同时既降低必要的存储空间又减少计算时间。本专利技术涉及一种用于对采取了阵列S的形式的数据或对象0” A进行群集的方法,所述阵列中的每一个元对应于存在于所述对象(^ 之间的相似性的值,所述方法是在与含有所要群集的数据或对象的数据库链接的包括工作存储器、处理器的计算机内实现的,所述方法的特征在于其至少包括下述步骤1)按照下述方式确定对象类别的数量k 取得与其他对象A相比具有最少的可能的相似性Su的对象Oi,也就是说,对于该对象而言其剖析(profile)的分量之和是最小的,将个体Oi放到第一类别C1中,考虑所有其他的与OiF同的对象,并从其中取得第二对象Op对于该第二对象而言其剖析的分量之和在其余对象中是最小的,如果在新的对象A和由单个个体构成的前一类别C1之间计算出的关系仏是负的,那么建立新的类别C2并将对象A放到这一新的类别C2中,否则(即,如果这一关系为正),那么将对象Oj放到类别C1中,重复上述操作直到所有的对象A均属于了索引为k的类别为止,在完成了这一第一步骤时,所述方法具有了 K个类别构成的集合(并非预定的先验值)2)对于在步骤1)中找到的κ个类别中的每者而言,确定类别Ck和其他类别Ck, 之间的关系的值,因而k'不同于k,如果所确定的所有关系.都是负的,那么不使类别Ck与其他类别合并,否则将所考虑的类别Ck与类别Ck,合并,其中所考虑的类别Ck与类别ck,具有最强的关系,即最高的值/ 将这一值加到准则权利要求1.一种用于对采取阵列S的形式的数据或对象0” Oj进行群集的方法,所述阵列S的每一个元对应于存在于所述对象之间的相似性的值,所述方法是在与含有所要群集的所述数据或对象的数据库(6)链接的、包括工作存储器( 和处理器C3)的计算机(1) 内实施的,所述方法的特征在于其至少包括下述步骤1)按照下述方式确定数量为k个对象类别取得与其他对象A相比具有最少的可能相似性的对象Oi,也就是说,对于该对象而η言,其剖析的分量之和Σ~是最小的,将个体Oi放到第一类别C1中,考虑其余的对象Op Oj/■=1不同于Oi,并在其中取得第二对象Op对于所述第二对象而言,其剖析的分量之和是所述其余的对象中最小的,如果在新的对象A和含有单个个体的前一类别C1之间计算出的关系Gc1是负的,那么创建新的类别C2,并将对象A放到这一新的类别中,否则,即如果这一关系为正的,将对象 Oj放到类别C1中,重复上述操作,直到所有的对象Α均属于了索引为k的类别为止,在完成了该第一步骤后,所述方法具备了 K个类别构成的集合,2)对于在步骤1)中找到的κ个类别中的每一个而言,确定类别Ck和其他类别Ck,之间的关系的值,因而k'不同于k,如果所确定的所有关系,为负的,那么不使类别Ck与另一类别合并,否则,使所考虑的类别Ck和与其具有最强关系即最高值的类别Ck,合并,并将该值加到准则tlcA 上,直到获得了这一准则的稳定性为止,在完成了步骤hA2)之后,所述方法具备了 L个类别,其中LS3)逐一取得每一类别C1的每一对象Op其中1< L,确定这一对象与类别&中的除了在初始步骤中该对象被划归的索引为k的类别之外的每一类别的关系Gm的值,如果与索引为m的类别的关系、的值大于关系k的值,那么将所述对象从其索引为k的类别转移到新的索引为m的类别,继续这一操作直到所有的关系的值均为负为止。2.根据权利要求1所述的方法,其特征在于,采用了表示nXn个对象的方形阵列。3.根据权利要求1所述的方法,其特征在于,采用了表示η个对象Xa个属性的矩形阵列,并执行将阵列η个对象Xa个属性转换为含有存在于所述对象Oi之间的相似性Sij的值的阵列S的步骤。4.一种使得能够对采取阵列S的形式的数据本文档来自技高网...

【技术保护点】
1.一种用于对采取阵列S的形式的数据或对象Oi、Oj进行群集的方法,所述阵列S的每一个元对应于存在于所述对象Oi、Oj之间的相似性sij的值,所述方法是在与含有所要群集的所述数据或对象的数据库(6)链接的、包括工作存储器(2)和处理器(3)的计算机(1)内实施的,所述方法的特征在于其至少包括下述步骤:1)按照下述方式确定数量为k个对象类别:取得与其他对象Oj相比具有最少的可能相似性sij的对象Oi,也就是说,对于该对象而言,其剖析的分量之和是最小的,将个体Oi放到第一类别C1中,考虑其余的对象Oj,Oj不同于Oi,并在其中取得第二对象Oj,对于所述第二对象而言,其剖析的分量之和是所述其余的对象中最小的,如果在新的对象Oj和含有单个个体的前一类别C1之间计算出的关系是负的,那么创建新的类别C2,并将对象Oj放到这一新的类别中,否则,即如果这一关系为正的,将对象Oj放到类别C1中,重复上述操作,直到所有的对象Oj均属于了索引为k的类别为止,在完成了该第一步骤后,所述方法具备了κ个类别构成的集合,2)对于在步骤1)中找到的κ个类别中的每一个而言,确定类别Ck和其他类别Ck′之间的关系的值,因而k′不同于k,如果所确定的所有关系为负的,那么不使类别Ck与另一类别合并,否则,使所考虑的类别Ck和与其具有最强关系即最高值的类别Ck′合并,并将该值加到准则上,直到获得了这一准则的稳定性为止,在完成了步骤2)之后,所述方法具备了L个类别,其中L≤κ,3)逐一取得每一类别Cl的每一对象Oj,其中l≤L,确定这一对象与类别Cj中的除了在初始步骤中该对象被划归的索引为k的类别之外的每一类别的关系的值,如果与索引为m的类别的关系的值大于关系的值,那么将所述对象从其索引为k的类别转移到新的索引为m的类别,继续这一操作直到所有的关系的值均为负为止。...

【技术特征摘要】
【国外来华专利技术】...

【专利技术属性】
技术研发人员:H·本哈达
申请(专利权)人:塔莱斯公司
类型:发明
国别省市:FR

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1