用于检索特征向量数据空间的方法技术

技术编号:2882446 阅读:116 留言:0更新日期:2012-04-11 18:40
提供了一种在特征向量数据空间之内检索特征向量的方法。用于检索特征向量数据空间的方法包括步骤:(a)基于特征向量数据空间中特征向量数据的统计分布,自适应地形成特征向量的近似值。本发明专利技术的用于检索特征向量数据空间的方法可以有效地检索特征向量通常不是均匀分布的多维向量空间。该检索特征向量数据空间的方法还具有一个优点就是,当添加新的特征向量数据时可以方便地更新索引。(*该技术在2021年保护过期,可自由使用*)

【技术实现步骤摘要】

本专利技术涉及一种检索特征向量数据空间的方法,更具体地说涉及一种在特征向量不是均匀分布的多维向量空间中有效地执行检索的。典型的多媒体数据描述符的多维数在设计有效的检索方案时引起挑战性的问题。因此,近来已经提出了几个新的检索结构。一个通常的假设是在一个向量空间之内特征向量均匀分布。但是,象图象纹理描述符之类的许多媒体描述符并不是均匀分布的。举例来说,在使用众所周知的向量近似(VA)文件(files)的方法中,该方法的特性取决于特征向量的均匀分布性,并且通常该方法有一个问题,就是当在特征向量不是均匀分布的多维向量空间中检索特征向量数据时,其特性明显下降。为了解决上述问题,本专利技术的目的是提供一种在特征向量不是均匀分布的多维向量空间中有效地执行检索的。于是,为了达到上述目的,提供了一种依照本专利技术的检索特征向量数据空间的方法,该方法包括(a)基于特征向量数据空间中特征向量数据的统计分布通过自适应地近似特征向量来检索特征向量空间的步骤。同样,步骤(a)包括步骤(a-1)计算特征向量数据空间中特征向量数据的统计分布;(a-2)使用统计分布估计数据的边界分布;(a-3)将估计的分布划分为多个网格,其中在每个网格中处理数据的分布变为均匀;和(a-4)使用划分的网格检索特征向量数据空间。同样,在步骤(a-4)之前,最好进一步包括当新数据加入时基于前一个概率分布函数和更新的概率分布函数来更新网格的步骤。同样,最好步骤(a-4)进一步包括使用向量近似(VA)文件的检索步骤。同样,最好多个网格的数目由分配给该维的比特数来确定。同样,最好步骤(a-2)进一步包括步骤(a-2-1)使用预定分布函数的加权和来定义概率分布函数;和(a-2-2)通过使用在步骤(a-2-1)中定义的概率分布函数估计预定参数来获得估计的概率分布函数。同样,最好步骤(a-2-2)包括使用在步骤(a-2-1)中定义的概率分布函数基于最大似然算法通过每次都使用所有N个预定数据来估计预定参数而获得估计的概率分布函数的步骤,其中N为一个正整数。同样,最好预定的分布函数为高斯函数。同样,在步骤(a-2-1)中包括假设单维信号的概率分布函数p(x)为p(x)=Σj=1Np(x|j)P(j)]]>的步骤,其中p(x|j)定义为p(x|j)=12πσj2exp{-(x-μj)22σj2},]]>并且混合参数P(j)满足条件。同样,最好步骤(a-2-2)进一步包括通过找到使φ(φ1,...,φM)=Πl=0Np(v|(φl,...,φM))]]>最大的Φj来获得被估计的概率分布函数的步骤,其中将被估计的参数为j=1,...M和l=1,...N,以及v为给定的数据集合。同样,最好步骤(a-2-2)进一步包括根据μjt+1=Σl=1Np(j|v)tvΣl=1Np(j|v)t,]]>(σj2)t+1=Σl=1Np(j|vt(v-μjt)2Σl=1Np(j|v)t]]>P(j)t+1=1NΣl=1Np(j|v)t]]>来获得被估计的参数的步骤,其中t为代表迭代次数的正整数。同样,最好步骤(a-2-2)进一步包括以下步骤如果当使用N个数据V估计的参数集合{P(j)N,μjN,(σj2)N}]]>给定时新数据v加入,则通过计算 (σj2)N+1=(σj2)N+θjN+1-μjN)2-(σj2)N],]]>P(j)N+1=P(j)N+1N+1(p(j|v-P(j)N)]]>和(θjN+1)-1=p(j|v)p(j|)(θjN)-1+1]]>来获得更新的参数集合。同样,最好步骤(a-2-2)进一步包括以下步骤对于各维,度量定义为ρ=∫(P^old(x)-P^new(x))2dx∫P^old(x)2dx]]>的概率分布函数的变化,其中前一个概率分布函数为 更新后的概率分布函数为 以及如果ρ大于预定的阈值,则更新针对该维的近似值。同样,最好步骤(a-3)包括以下步骤划分概率分布函数,以使使用通过满足条件的边界点c确定的多个网格时每个网格所覆盖的面积∫ccp^(x)dx=12b∫ccp^(x)dx]]>相同,其中估计概率分布函数为 本专利技术的上述目的和优点通过结合附图对其优选实施例的详细描述将变的更加清楚,其中附图说明图1为说明依照本专利技术优选实施例的检索方法主要步骤的流程图;图2说明即使在各维上数据的边界分布都是均匀的,但数据联合分布仍旧是不均匀的而是已经聚合的情况;图3A为说明特征向量数据空间内的特征向量数据的频谱图;图3B为说明对频谱图概率分布函数估计图;图4A为说明数据集合的特征向量值的图;图4B为说明图4A的数据集合频谱的计算结果图;图4C、图4D和图4E为当用于估计的元素个数分别为1700、3400和5000时的估计概率分布函数图;图5A和图5B为说明使用常规索引方法和本专利技术的索引方法在第一和第二筛选步骤中所访问的特征向量个数的对比图。下面将结合附图阐述本专利技术的优选实施例。图1为说明依照本专利技术优选实施例的检索方法的主要步骤的流程图。依照本专利技术,基于特征向量数据空间内的特征向量数据的统计分布自适应地生成向量近似(VA)文件。也就是说,因为密度分布单元(cell)可能使索引特性恶化,所以在本专利技术中根据数据的统计特征自适应地生成特征向量的近似值。为达到此目的,在依照本专利技术的索引方法中,计算特征向量数据空间之内的特征向量数据的统计分布(步骤102)。然后,使用统计分布估计边界分布(步骤104)。接下来,将估计的边界分布划分为多个网格,其中处理每个网格中数据概率变为均匀(步骤106)。网格的个数由分配给维数的比特数确定。然后,使用划分的网格索引特征向量数据空间(步骤108)。步骤108可以基于使用公知的向量近似(VA)文件索引方法来实现。通过上述方法生成的近似值减少了具有密度分布单元的可能性。因此,索引特性得到提高。这里,应该注意数据的边界分布只能跟踪多维分布的部分信息的事实。图2说明了即使在各维上数据的边界分布都是均匀的,但数据联合分布仍旧是不均匀的而是已经聚合的情况。参照图2,在整个特征向量数据空间20内各维数据的边界分布是均匀的。但是,如果考虑到作为维数的属性在不同的维中的数据相关性降低,并且图象/视频数据库增加,仍然可以将通过跟踪多维数据的统计特性来估计边界分布作为有效的方法。下面,将更加详细地阐述实现本专利技术方法的方法。首先,i维上的数据的概率分布函数表示为pi(x)。通过假定各维上的数据是相互本文档来自技高网...

【技术保护点】
一种检索特征向量数据空间的方法,包括步骤:(a)基于特征向量数据空间中特征向量数据的统计分布通过自适应地近似特征向量来检索特征向量数据空间。

【技术特征摘要】
...

【专利技术属性】
技术研发人员:崔良林BS曼朱纳思吴澎
申请(专利权)人:三星电子株式会社加利福尼亚大学董事会
类型:发明
国别省市:KR[韩国]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1
相关领域技术
  • 暂无相关专利