System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术属于隐私保护和数据存储的,尤其涉及一种基于分布式键值存储的连接关键词搜索方法及系统。
技术介绍
1、在大规模数据存储和处理场景下,传统的关系型数据库可能面临性能瓶颈。分布式系统允许数据分片存储在多台服务器上,可以提供更好的扩展性和性能,适应大规模数据处理的需求。但在分布式环境下执行搜索操作也可能面临数据隐私泄露的严重问题。目前,在分布式键值存储系统,仅支持单关键字搜索,但随着信息爆炸式增长,用户需要能够更精确地定位所需信息的检索方式。
技术实现思路
1、本专利技术的主要目的在于克服现有技术的缺点与不足,提供一种基于分布式键值存储的连接关键词搜索方法及系统,在保证搜索精密性的前提下,保护用户数据隐私,提高搜索效率,节约存储空间,减轻服务器的压力。
2、根据本专利技术的一个方面,本专利技术提供了一种基于分布式键值存储的连接关键词搜索方法,所述方法包括以下步骤:
3、分布式服务器接收客户端发送的第一查询索引和最低频关键词与其他关键词的交叉令牌,所述最低频关键词为满足包含该关键词的文件数量最少的关键词;所述交叉令牌用于判断包含最低频关键词的文件是否同时包含其他所有关键词;
4、分布式服务器根据所述第一查询索引生成文件标识符密文与文件标识符盲值;根据所述交叉令牌和所述盲值生成连接标识,根据所述文件标识符密文和所述连接标识构建第二查询索引;根据所述第二查询索引进行查询;
5、分布式服务器将包含所有关键词的文件标识符密文作为连接关键词查找
6、优选地,在所述分布式服务器进行查询之前,所述方法还包括:
7、客户端对对存储在分布式数据库上的关键词和文件标识符通过倒排索引进行预处理,得到关键词和文件标识元组;
8、对关键词和文件标识元组进行盲化操作,生成文件标识符的盲值和第一搜索索引;所述第一搜索索引用于查询包含最低频关键词的文件;
9、对关键词和文件标识符进行运算得到连接标识,基于所述连接标识生成第二搜索索引,所述第二搜索索引用来判断目标文件是否包含其他关键词;
10、确定第一搜索索引在分布式数据库中存放的服务器节点位置,将所述第一搜索索引存入对应节点。
11、优选地,所述生成文件标识符的盲值包括:
12、y=xind*z-1
13、xind=fp(k,ind)
14、z=fp(kz,w||c)
15、其中,y表示盲值,xind表示文件标识符的伪随机值,z表示盲因子,fp表示伪随机函数,k、kz为密钥,i nd为包含关键字w的文件标识符,c为计数器值,||表示级联运算。
16、优选地,所述第一搜索索引为:
17、α1=g1(ke,w||p||c)
18、
19、其中,α1、β1为搜索索引,g1、g2为伪随机函数,ke为密钥,w为关键词,p为节点位置,e为文件标识符密文,表示二进制数按位异或运算。
20、优选地,所述第二搜索索引为:
21、α2=h1(ke,e||xtag)
22、xtag=gfp(kx,w).xind
23、其中,α2为搜索索引,h1为伪随机函数,xtag为连接标识,g表示求幂运算,得到的结果为fp(kx,w)的xind次幂,kx为密钥。
24、优选地,所述交叉令牌为:
25、xtoken[c,i]=gfp(kx,wi)·zc
26、c=1,2,…,|db(w1)|,i=2,3,…,m}
27、其中,|db(w1)|表示w1的倒排索引长度,即包含w1的文件个数,wi为第i个关键词。
28、根据本专利技术的另一方面,本专利技术还提供了一种基于分布式键值存储的连接关键词搜索系统,所述系统包括分布式服务器和客户端;其中,
29、分布式服务器接收客户端发送的第一查询索引和最低频关键词与其他关键词的交叉令牌,所述最低频关键词为满足包含该关键词的文件数量最少的关键词;所述交叉令牌用于判断包含最低频关键词的文件是否同时包含其他所有关键词;
30、分布式服务器根据所述第一查询索引生成文件标识符密文与文件标识符盲值;根据所述交叉令牌和所述盲值生成连接标识,根据所述文件标识符密文和所述连接标识构建第二查询索引;根据所述第二查询索引进行查询;
31、分布式服务器将包含所有关键词的文件标识符密文作为连接关键词查找的结果返回给客户端;客户端对文件标识符密文进行解密,输出文件标识符的明文作为查询结果。
32、优选地,在所述分布式服务器进行查询之前:
33、客户端对对存储在分布式数据库上的关键词和文件标识符通过倒排索引进行预处理,得到关键词和文件标识元组;
34、对关键词和文件标识元组进行盲化操作,生成文件标识符的盲值和第一搜索索引;所述第一搜索索引用于查询包含最低频关键词的文件;
35、对关键词和文件标识符进行运算得到连接标识,基于所述连接标识生成第二搜索索引,所述第二搜索索引用来判断目标文件是否包含其他关键词;
36、确定第一搜索索引在分布式数据库中存放的服务器节点位置,将所述第一搜索索引存入对应节点。
37、优选地,所述生成文件标识符的盲值包括:
38、y=xind*z-1
39、xind=fp(k,ind)
40、z=fp(kz,w||c)
41、其中,y表示盲值,xind表示文件标识符的伪随机值,z表示盲因子,fp表示伪随机函数,k、kz为密钥,i nd为包含关键字w的文件标识符,c为计数器值,||表示级联运算。
42、优选地,所述第一搜索索引为:
43、α1=g1(ke,w||p||c)
44、
45、其中,α1、β1为搜索索引,g1、g2为伪随机函数,ke为密钥,w为关键词,p为节点位置,e为文件标识符密文,表示二进制数按位异或运算。
46、有益效果:本专利技术在分布式键值存储系统中使用可搜索加密技术,实现了连接关键词搜索功能,允许在多个存储节点上执行加密数据的搜索和匹配操作,以提高查询效率和系统的扩展性,提升了单机效率和可靠性。本专利技术设计和实现分布式倒排索引,将倒排索引数据分布存储在多个节点上。每个节点负责维护部分关键词的倒排索引信息。这种方式可以实现数据的分片存储和并行查询,提高查询的并发性和吞吐量,是一个较为轻量级的系统。本专利技术使用一致性哈希算法将数据均匀地分布到多个节点上,实现数据的负载均衡和扩展性,同时在节点动态变化时最小化数据的迁移量,保持系统的稳定性和性能。当节点添加或删除时,可进行数据迁移以避免隐私泄露。本专利技术改进了现有的连接关键词搜索方案,设置文件标识符密文为一致性哈希的部署方式,将包含不同关键词的同一文件保存在本文档来自技高网...
【技术保护点】
1.一种基于分布式键值存储的连接关键词搜索方法,其特征在于,所述方法包括以下步骤:
2.根据权利要求1所述的方法,其特征在于,在所述分布式服务器进行查询之前,所述方法还包括:
3.根据权利要求2所述的方法,其特征在于,所述生成文件标识符的盲值包括:
4.根据权利要求3所述的方法,其特征在于,所述第一搜索索引为:
5.根据权利要求4所述的方法,其特征在于,所述第二搜索索引为:
6.根据权利要求5所述的方法,其特征在于,所述交叉令牌为:
7.一种基于分布式键值存储的连接关键词搜索系统,其特征在于,所述系统包括分布式服务器和客户端;其中,
8.根据权利要求7所述的系统,其特征在于,在所述分布式服务器进行查询之前:
9.根据权利要求8所述的系统,其特征在于,所述生成文件标识符的盲值包括:
10.根据权利要求9所述的系统,其特征在于,所述第一搜索索引为:
【技术特征摘要】
1.一种基于分布式键值存储的连接关键词搜索方法,其特征在于,所述方法包括以下步骤:
2.根据权利要求1所述的方法,其特征在于,在所述分布式服务器进行查询之前,所述方法还包括:
3.根据权利要求2所述的方法,其特征在于,所述生成文件标识符的盲值包括:
4.根据权利要求3所述的方法,其特征在于,所述第一搜索索引为:
5.根据权利要求4所述的方法,其特征在于,所述第二搜索索引为:
...【专利技术属性】
技术研发人员:黄海平,颜逸扬,窦轶,刘星晨,肖甫,高汉成,戴华,徐剑,
申请(专利权)人:南京邮电大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。