对大规模高维数据集进行快速的基于相似性的查询、自连接以及连接的方法和设备技术

技术编号:5430776 阅读:315 留言:0更新日期:2012-04-11 18:40
一种利用相似性索引(400)对大规模高维数据集进行快速的、基于相似性的查询、自连接和连接的方法和设备。

【技术实现步骤摘要】
【国外来华专利技术】
本专利技术涉及数据集。更具体地,本专利技术涉及对大规模高维数据集进行快速的基于相似性的查询、自连接(self-join)以及连接的方法和设备。
技术介绍
基于相似性(Similarity)的大规模数据集的连接是许多重要问题的核心。例如,在信息检索领域内的一个重要的问题是数据挖掘,数据挖掘寻找在例如文档、图像或其它非结构化(unstmctured)的内容的项(item)的集合之间识别模式。 一般地,有某种准则来衡量在数据成员之间的相似性,其可作为数学公式表达。 一般地,我们有两个大规模数据集,并且我们想"连接"数据集以识别对(pair)或集群(cluster),其中每个数据集至少有一个成员与来自其他数据集的另一个成员相似。 一个重要的特殊情形是"自连接",识别在单个数据集内的副本、近副本或非常相似的项。 一个重要应12用是内容可寻址存储和智能文件存储的出现区域,其中,或者相对于参考 集合,或者相对于其自身,连接目标数据集,以识别副本和近副本。虽然 计算机变得更迅速,存储变得更广泛,且内容变得更多样,但是对大规模数据集进行有效判断(effective sense)的能力并没有跟上。这就出现了问题。附图筒述通过实施例的方式说明本专利技术,并不限于附图的图形,其中附图说明图1说明了其中可实现本专利技术的方法和设备的网络环境;图2是其中可实现本专利技术的一些实施方式以及可使用本专利技术的一些实 施方式的计算机系统的结构图3说明了显示建立大量相似性索引(bulk similarity index)的本专利技术 的一种实施方式;图4说明了显示相似性索引树的实施例的本专利技术的一种实施方式;图5说明了显示查询的本专利技术的一种实施方式;图6说明了显示自连接的本专利技术的一种实施方式;图7说明了本专利技术的一种实施方式,显示自连接树的实施例;以及图8说明了显示常规连接(general join)的本专利技术的实施方式。详细描迷 介绍为了描述本专利技术,下述内容可帮助读者。非结构化的内容项是信息的 单元(unit),例如文本、图像、音频、视频、基因组(genomic)序列或能由计 算机存储器中的比特表示的任何实体。数据集是非结构化的内容项的集 合。 一般地,数据集里的项不是具有就是被认为具有某种关联。例如,它 们可以是来自照片集合的静止图像,或在数据集里的项可以是来自法律文档或来自小说的段落。作为附带说明,我们指出,想探究项是否有关联时, 可在数据集里插入项,例如当我们组合来自各种各样不同物种的DNA序 列的片段,或组合来自监视视频的帧时。将非结构化的内容表示为向量形式上,我们将内容项x指示为来自内积空间的元素,我们也将内积空间称为向量空间。此外,我们将有时将内容项称为来自这个向量空间的向量。作为快速回顾,内积空间S所具有的属性列在附录1。我们使用在 之前的申请参考R. Nakano的日期为2005年2月的美国专利申请第 11/361166号的 "Method and apparatus for efficient indexed storage for unstructured content"里的内积空间的属性。内积空间具有距离函数D (x,y),其表示在空间里两个元素之间距离 的实数。这对我们非常重要,因为我们感兴趣的是两个内容项是如何相似 或相异的。例如,我们可能对两个网页的内部结构的相似性感兴趣,以最 有效率地表示逻辑,从而从大集合的网页提取内容。或者我们想在企业政 策报告的资料库里或法律条款的系统信息中心库(repository)里识别副本和 近副本文本项。在我们挑选的内积空间里,我们把内容项和它的具体表示区分开。例 如,在文本应用中,我们选定把在特定序列的每个词分配给记号(token)的 文本的表示。 一种4是耳又符号策略(tokenization strategy)是"断词(stem)", 以便将复数的词尾和其它不同词尾分配给相同的记号。或者,我们可决定 数量映射到相同的记号,以便"3 bears"和"100 bears"是等价的,也就 是一个数量跟着是记号"bear"。在向量表示方面,两个向量可能相等,但 是所隐含的内容项可不同。另外的实施例衡量文档相似性,其包括由出现 在文档内的关键词和每个关键词出现的数量来对文档进行表示。这是术语 (term)文档向量。用这种表示形式,例如"like an arrow"和"an arrow like" 的文本序列包含每个关键词"arrow"和"like"的一次出现。它们的向量 是相等的,且因此在向量空间意义里它们是相等的。但是所隐含的内容项 是不同的。我们引入这个特性,是因为我们使用数据集成员的向量空间表示,但是我们允许内容项维持它们隐含的特征。事实上,我们可对单个项 选择引入多种向量表示。内积、距离、相似性为了我们的目的,假定我们已经选定了表示形式,其将内容项映射到 向量。明确的,给定内容项的集合,我们选定一种表示形式,其将每个项分配到在内积空间S里的向量x。给定S内的两个元素x、 y,我们将内积 记为〈x,y〉。附录1总结了内积空间的属性。3巨离(Distance ) d(x,y) = sqrt(〈x - y, x - y>)。从这个定义,我们看出如果两个向量x和y相等,那么在它们之间的距离 也是零。记住,我们允许两个向量相等,但是相应的内容项可以不同。具有内积是方便的,因为它给我们提供了对数据集里两个项的相似性 进行表示的方式。当我们具有其对应向量表示非零的两个内容项时,我们 引入相似性的概念相似性(Similarity) (x,y) = <x,y>/sqrt(<x,x〉 * <y,y>)。相似性是有用的概念,因为相似性是在0和1之间的数字。当在它们之间 的距离为零时,两个向量具有一的相似性或100%相似性。相似性是吸引人的,因为它理解简单。给定数据目标的族,可以有表 达相似性的数学方式,其容易掌握、计算直接,且最重要的是,与人们关 于两个目标相似程度的直觉一致。然而,在实践中,将相似性应用到大型数据集变得有问题。假设数据集包含N个项,且我们想在数据集里寻找相似的项。当向量空间S的维数小时,例如,在一维的情形,向量空间减小到严 格有序的集合,且我们能够在O (n*log(n))时间里对数据集分类,并简单 计算在有序集里的邻近项的受限集的相似性,。对于最感兴趣的非结构化的内容数据集,维度为高。例如,在术语文 档表示里,向量空间的维度与可能的关键词的数量相等,其能容易排列到数百或更多。除了简单关键词的方法,更复杂的表示可使用在文档内的词序列。在这些情况,向量空间的维数与邻近的词的不同的n元文法(n-gram) 的数量成比例,并且维度扩展到好几万。对于基因组序列数据集, 一般考虑16连续核苷酸的n元文法,其中, 在n元文法内的每个位置有4个可能的选择。 一般地,如果数据集由长度 为k的核苷酸序列组成,则向量空间的理论维数大概是1^八4八16,或者k升 高到四十亿幂。考虑到几百核苷酸的序列被认为是短的,我们正在处理巨 大维数的问题。定义为了描述本专利技术的目的,术语的下述定义(在括号里)可帮助读者。(一致的)我们说当它们的向量表示是向量空间S的成员,且存在空 间S本文档来自技高网...

【技术保护点】
一种计算机实现的方法,其包括: (a)指定叶节点的上限为G项; (b)输入n个输入内容项并指示所述n个输入项为当前集合; (c)确定是否n>G;以及 (d)如果不是,那么 (d1)建立叶节点;   (d2)用所述n个输入内容项填充所述叶节点;以及 (d3)接通从父辈到所述叶节点的链接,所述叶节点能够被储存在所述计算机的硬件里并能够显示给用户; (e)如果是,那么 (e1)对所述当前集合的所有项计算向量和 ,其中所述向量和是vsplit=sum(i;x.i)/n; (e2)为在所述当前集合里的每一项计算向量差,其中所述向量差是d.i=x.i-vsplit; (e3)为在所述当前集合里的每一项计算标量值,其中所述标量值是p. i=,并构成为每一项所计算出的所述标量值的集合; (e4)确定是否p.i<3;以及 (f)如果不是,那么 (f1)从所述集合移除最大的p.i (f2)从所述集合移除最小的p.i;以及 (f3 )在(e3)重新开始; (g)如果是,那么 (g1)确定1个还是2个计算的值剩余在所述集合里;以及 (h)如果是1个,那么 (h1)让p.split成为所述1个计算的剩余值;以及 (h2)在 (j)重新开始; (i)如果是2个,那么 (i1)让p.split成为所述2个计算的剩余值的平均值;以及 (i2)在(j)重新开始; (j)定义由所述vsplit和所述p.split组成的分离器; (k)对 于所述当前集合里的所述内容项的每一个,如果p.i>p.split,则将其指示为“上部”名称,否则为“下部”名称; (l)建立由所述分离器组成的内部节点,并定义到所述“下部”节点和所述“上部”节点的链接; (m)将所述“下 部”节点作为项输入到新的“下部”当前集合,让新的“下部”n指示在所述新的“下部”当前集合中的项的数量,用所述新的“下部”当前集合代替所述当前集合,用所述新的“下部”n代替所述n,并在(c)重新开始; (n)将所述“上部”节点作为项 输入到新的“上部”当前集合,让新的“上部”n指示在所述新的“上部”当前集合中的项的数量,用所述新的“上部”当前集合代替所述当前...

【技术特征摘要】
【国外来华专利技术】...

【专利技术属性】
技术研发人员:中野利夫斯坦利郑
申请(专利权)人:那哈瓦有限公司
类型:发明
国别省市:US[美国]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1