基于稀疏哈希的大数据检索方法技术

技术编号：9718709 阅读：388 留言：0更新日期：2014-02-27 05:26

本发明专利技术为大数据近似检索方法，具体是基于稀疏哈希的大数据检索方法。主要针对大数据的存储和大数据的检索进行应用开发。首先使用抽样的方法按照理论和计算机内存决定训练集的大小。接着对训练集进行学习，学习出大数据编码的哈希函数和训练集的二进制编码。接着按照学到的哈希函数对大数据进行二进制编码。此时，可以进行在线的检索应用，即对一个测试实例，首先根据得到的哈希函数得到它的二进制代码，然后在对大数据的二进制代码进行实时检索。本方法对大数据检索的时间复杂度为线性，能解决流形学习无显式函数的问题，而且降低大数据的存储量到上万倍，易于实施，编写代码时只涉及到一些简单的数学模型。

全部详细技术资料下载

【技术实现步骤摘要】
基于稀疏哈希的大数据检索方法
本专利技术涉及计算机科学与
和信息
，具体涉及大数据，特别是一种使用稀疏哈希进行图片、文本、音乐等大数据检索方法。
技术介绍
大数据是指无法在当前条件下使用常规的工具对数据内容进行检索和管理的数据集。数据量大、数据类型繁多、价值密度低和处理速度快是大数据四个非常显著的特点。目前大数据知识发现的研究主要集中在划分、聚类、检索、增量（批量、在线或平行）学习这4个方面。目前对大数据检索问题处理的研究比较少。检索的时候用户通常希望能快速的从所有资料中得到自己所需要的东西。这就涉及到一个速度和准确率如何选取的问题。在二十年甚至十年前，研究者追求的是准确率。因此，设计了各种树形结果KD-tree，M-tree等准确的进行数据库检索，而且取得了很大的应用。近十年，随着网络的日益普及，大数据的产生，准确检索已经满足不了用户的需要。大量文献显示，如果数据的维度小于10维，准确检索能很好的满足用户实际需要。但是维数一旦超过这个阈值或者更高，准确检索的复杂度就非常高，最坏情况达到遍历整个数据库的复杂度，这在实际应用中显然是不可行的。近年来，近似检索已经取得了显著的发展，特别是网络检索，用户追求的是快速而近似的多媒体检索。在众多的近似检索方法中，哈希方法最为突出。哈希方法的原理是把高维的实数值数据降低到低维二进制数据而且保存数据间的相似性，然后尽量把大数据集保存在计算机内存或者外磁盘，以此达到快速检索的目的。
技术实现思路
本专利技术研究大数据近似检索问题。本专利技术的目的在于提供简单而有效的大数据近似检索算法。该方法可解决大数据检索高复杂度...
基于稀疏哈希的大数据检索方法

【技术保护点】
基于稀疏哈希的大数据检索方法，包括下述步骤：(1)从大数据中抽样数据当做训练集X；(2)用X训练哈希函数；(3)对大数据集中还没得到二进制代码的实例进行二进制编码，并将编码后的大数据储存在计算机内存或者外磁盘；(4)对新来的测试实例，首先得到它的低维实数值，然后得到它的低维二进制代码，最后，把测试实例的二进制代码跟大数据的二进制代码进行相似性搜索，得到它的相似实例。

【技术特征摘要】
1.基于稀疏哈希的大数据检索方法，包括下述步骤：(1)从大数据中抽样数据当做训练集X；(2)用X训练哈希函数；(3)对大数据集中还没得到二进制代码的实例进行二进制编码，并将编码后的大数据储存在计算机内存或者外磁盘；(4)对新来的测试实例，首先得到它的低维实数值，然后得到它的低维二进制代码，最后，把测试实例的二进制代码跟大数据的二进制代码进行相似性搜索，得到它的相似实例；所述步骤(1)的训练集X的训练集大小n由确定，其中tα/2表示置信度的值，通过t分布临界值获得，ε表示设定的最大的允许误差；所述步骤(2)包括下述过程：A).建立目标函数：其中X为训练集，B是基空间，B的每一个向量是从训练集X中训练出来的基向量，S是X被投影在基空间B上的低维实数值，λ1和λ2是通过十折交叉验证方法取得的可调参数，wi,j是X中两个实例xi和xj之间的欧式距离在高斯核上的投影，si和sj是矩阵S中的两个向量，Bi,j是矩阵B中的第i行和第j列元素，i＝1,…,n表示实例的记号，j＝1,…,k表示基向量的标号，n是实...

【专利技术属性】
技术研发人员：朱晓峰，张师超，刘星毅，
申请(专利权)人：广西师范大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人