一种基于高维数据过滤器的近似成员查询方法技术

技术编号：11115180 阅读：162 留言：0更新日期：2015-03-05 20:33

本发明专利技术公开了一种基于过滤器的高维数据近似成员查询方法，通过定义新的距离敏感哈希函数支持的新结构分别来表征目标数据集合中的多维数据和待查询的多维数据，不需要重新构造过滤器，能够支持更多的过滤距离参数的近似成员查询，大幅度减少了空间代价，本发明专利技术使用了多个函数组数，且每个函数组数包含多个函数，在最终确认是否目标数据集合Ω的近似成员时使用“与－或”结合的方式进行判断，能够降低过滤器的假阴性率。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及一种近似成员查询方法，尤其是涉及一种基于高维数据过滤器的近似成员查询方法。
技术介绍
在很多应用领域中，如果查询数据与目标数据的距离越近，数据的价值就越高。例如，安全官员想要检查某未知的物质(具有某些可检测的高维特征)是否属于清单所列的危险化学品；网络管理员想要知道某用户的行为特征是否有害；摄影比赛裁判想检查提交的照片是否与某一张大型数据库中的照片类似。这些查询都需要判断查询数据与(目标数据)集合中数据的距离。如果是低维的小数据集，可通过线性查找解决，但是对一个海量的高维数据集采用线性查找匹配的话，会非常耗时，很多情况下无法满足实时的需要。为提高处理的速度，可以设置一个高维数据过滤器代表目标数据集合，根据距离过滤掉大部分查询数据，少量剩下的数据可以再通过常规方法进一步处理，可显著提高系统的整体性能。这个过滤器完成的就是近似成员查询(Approximate Membership Query,AMQ)，即回答“查询数据是否接近于数据集合中的某个数据”。现有AMQ过滤器主要是结合LSH(距离敏感哈希，Locality-Sensitive Hashing)和Bloom filter(布鲁姆过滤器)技术的，其主要代表有DSBF(Distance-sensitive Bloom filters)和LSBF(Locality-sensitive Bloom filters)。DSBF首次综合LSH和Bloom f...
一种基于高维数据过滤器的近似成员查询方法

【技术保护点】
一种基于过滤器的高维数据近似成员查询方法，其特征在于将目标数据集合定义为Ω，并将距离敏感哈希函数H定义为其中t＝1,2,…,k，j＝1,2,…,L，L为函数组数，k为每一函数组中的函数个数，o是多维数据，at,j是与o维数相同的随机向量，其每一维的数据符合标准正态分布，·是点积运算，2θw是距离过滤参数，θ＝0,1,2,…,S‑1，S为过滤距离的种类数，w是正实数定义的最小距离过滤参数，是下取整运算，然后进行以下步骤的操作：(1)构建一个容量为m，地址为0到m‑1的位向量，定义为BMLBF，并设定BMLBF[i]＝0，i＝0,1,2,…,m‑1；(2)对目标数据集合Ω中的任意一个多维的数据oy，用θ＝0时的距离敏感哈希函数进行表征，即其中y＝1,2,…,n，并在BMLBF中k×L个位置置1，即(3)将待查询的多维数据定义为q，然后用上述的距离敏感哈希函数进行表征，即(4)将第j组的k个哈希值，即分别转换成2进制数据，并在其后接上θ个0成为k个地址，定义为A1,j，A2,j，…，Ak,j；(5)如BMLBF[A1,j]，BMLBF[A1,j+1]，…，BMLBF[A1,j+2θ‑1]中有...

【技术特征摘要】
1.一种基于过滤器的高维数据近似成员查询方法，其特征在于将目标数据集合定
义为Ω，并将距离敏感哈希函数H定义为其中t＝1,2,…,k，
j＝1,2,…,L，L为函数组数，k为每一函数组中的函数个数，o是多维数据，at,j是与o
维数相同的随机向量，其每一维的数据符合标准正态分布，·是点积运算，2θw是距离
过滤参数，θ＝0,1,2,…,S-1，S为过滤距离的种类数，w是正实数定义的最小距离过
滤参数，是下取整运算，然后进行以下步骤的操作：
(1)构建一个容量为m，地址为0到m-1的位向量，定义为BMLBF，并设定
BMLBF[i]＝0，i＝0,1,2,…,m-1；
(2)对目标数据集合Ω...

【专利技术属性】
技术研发人员：陈叶芳，钱江波，陈华辉，
申请(专利权)人：宁波大学，
类型：发明
国别省市：浙江;33

全部详细技术资料下载我是这个专利的主人