对大规模高维数据集进行快速的基于相似性的查询、自连接以及连接的方法和设备技术

技术编号：5430776 阅读：330 留言：0更新日期：2012-04-11 18:40

一种利用相似性索引（４００）对大规模高维数据集进行快速的、基于相似性的查询、自连接和连接的方法和设备。

全部详细技术资料下载

【技术实现步骤摘要】
【国外来华专利技术】
本专利技术涉及数据集。更具体地，本专利技术涉及对大规模高维数据集进行快速的基于相似性的查询、自连接(self-join)以及连接的方法和设备。
技术介绍
基于相似性(Similarity)的大规模数据集的连接是许多重要问题的核心。例如，在信息检索领域内的一个重要的问题是数据挖掘，数据挖掘寻找在例如文档、图像或其它非结构化(unstmctured)的内容的项(item)的集合之间识别模式。一般地，有某种准则来衡量在数据成员之间的相似性，其可作为数学公式表达。一般地，我们有两个大规模数据集，并且我们想"连接"数据集以识别对(pair)或集群(cluster),其中每个数据集至少有一个成员与来自其他数据集的另一个成员相似。一个重要的特殊情形是"自连接"，识别在单个数据集内的副本、近副本或非常相似的项。一个重要应12用是内容可寻址存储和智能文件存储的出现区域，其中，或者相对于参考集合，或者相对于其自身，连接目标数据集，以识别副本和近副本。虽然计算机变得更迅速，存储变得更广泛，且内容变得更多样，但是对大规模数据集进行有效判断(effective sense)的能力并没有跟上。这就出现了问题。附图筒述通过实施例的方式说明本专利技术，并不限于附图的图形，其中附图说明图1说明了其中可实现本专利技术的方法和设备的网络环境；图2是其中可实现本专利技术的一些实施方式以及可使用本专利技术的一些实施方式的计算机系统的结构图3说明了显示建立大量相似性索引(bulk similarity index)的本专利技术的一种实施方式；图4说明了显示相似性索引树的实施例的本专...

【技术保护点】
一种计算机实现的方法，其包括：　（ａ）指定叶节点的上限为Ｇ项；　（ｂ）输入ｎ个输入内容项并指示所述ｎ个输入项为当前集合；　（ｃ）确定是否ｎ＞Ｇ；以及　（ｄ）如果不是，那么　（ｄ１）建立叶节点；　　（ｄ２）用所述ｎ个输入内容项填充所述叶节点；以及　（ｄ３）接通从父辈到所述叶节点的链接，所述叶节点能够被储存在所述计算机的硬件里并能够显示给用户；　（ｅ）如果是，那么　（ｅ１）对所述当前集合的所有项计算向量和，其中所述向量和是ｖｓｐｌｉｔ＝ｓｕｍ（ｉ；ｘ．ｉ）／ｎ；　（ｅ２）为在所述当前集合里的每一项计算向量差，其中所述向量差是ｄ．ｉ＝ｘ．ｉ－ｖｓｐｌｉｔ；　（ｅ３）为在所述当前集合里的每一项计算标量值，其中所述标量值是ｐ．ｉ＝，并构成为每一项所计算出的所述标量值的集合；　（ｅ４）确定是否ｐ．ｉ＜３；以及　（ｆ）如果不是，那么　（ｆ１）从所述集合移除最大的ｐ．ｉ　（ｆ２）从所述集合移除最小的ｐ．ｉ；以及　...

【技术特征摘要】
【国外来华专利技术】...

【专利技术属性】
技术研发人员：中野利夫，斯坦利郑，
申请(专利权)人：那哈瓦有限公司，
类型：发明
国别省市：US[美国]

全部详细技术资料下载我是这个专利的主人