System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种隐私保护的多方联合向量知识库检索方法及系统技术方案_技高网

一种隐私保护的多方联合向量知识库检索方法及系统技术方案

技术编号:40659975 阅读:10 留言:0更新日期:2024-03-18 18:52
本发明专利技术提供一种隐私保护的多方联合向量知识库检索方法及系统,包括:多方文本语料构建索引并分别上传至可信第三方,可信第三方分发随机防护秘密参数,各方结合本地随机参数生成辅助数据;各方获取语料的嵌入向量,经过降维处理、随机齐次变换后的数据连同辅助数据上传至联合向量数据库服务端;用户将查询请求文本进行语料嵌入后进行降维和随机齐次变换,生成待检索向量;所述待检索向量在联合向量数据库内与辅助数据运算后进行相似度检索,返回索引结果;完成向量相似度检索后,根据索引在可信第三方查询到相应文本内容,完成检索。本发明专利技术解决了现有知识库难以在不暴露各方知识库信息的情形下完成多方安全检索的问题。

【技术实现步骤摘要】

本专利技术涉及数据库检索安全,尤其涉及一种隐私保护的多方联合向量知识库检索方法及系统


技术介绍

1、生成式大语言模型(large language model,llm)在各个行业已经广泛应用和开展,不同的技术落地尝试也不断涌现,而在构建应用的具体实践中为了克服大模型自身所具有的“大模型幻觉”问题,并充分利用大模型对语言的理解与抽象能力,于是,结合大语言模型的“检索增强生成”(retrieval augmented generation,rag)方式受到广泛关注。

2、rag的核心思想在于,通过构建向量知识库,并利用问题在知识库中的检索到的相关信息作为下游大模型的提示内容(prompt)输入。在这一过程中,检索的向量知识库往往是独立构建、或多个不同的知识库信息直接汇总进行嵌入后完成构建。

3、而当前的使用方式存在隐私暴露的风险,一方面,知识库构建时其内部包含的隐私信息所对应嵌入向量会直接暴露给向量知识库的服务方。另一方面,在进行检索时,查询内容(query)的嵌入向量同样会直接暴露。并且现有的语料进行嵌入后的特征向量很容易通过“字典攻击”而被推知原始的嵌入文本。因此,rag中向量知识库构建与检索的步骤中是具有较高隐私泄露风险的。进一步地,当前支持大语言模型的知识信息逐渐汇聚,而具有内容相关联且分属不同提供方的知识库,出于潜在的隐私信息保护要求(比如:数据不允许出域等),往往不能进行直接的相互检索,从而造成知识库检索时的信息局限性,这也进一步限制了大模型的实际表现。

4、向量知识库的构建,一般要经过几个步骤,首先,对原始文本语料进行嵌入(即,将文本作为嵌入模型的输入,获得输出向量),之后构建索引映射(索引对应语料和向量),将嵌入向量上传到向量数据库服务端,待所有语料全部操作完成则向量数据库构建结束。如前所述,向量数据库服务端在接收到嵌入向量数据后,直接对该数据进行存储或检索等操作,这将直接引起敏感信息面向数据库服务端的暴露(或被攻击)风险。在检索环节,用户对query文本进行嵌入后,对嵌入向量(vec-q)在数据库中进行检索,数据库服务端返回相似性检索结果(对应相似向量的内容哈希索引)。在多知识库情形下,除了嵌入向量面向数据库服务端的隐私暴露外,检索请求方在获得检索哈希索引后,进行原始文本搜索时,由于原始文本只存在于各个知识库提供方本地,必然需要其他提供方提供原始文本并与其进行通信,一方面,会造成潜在的敏感信息泄露,体现为检索请求方会推知哪一方拥有哪些知识信息,同时被查询的知识库提供方会推知检索请求方的可能检索内容,另一方面,当有更多知识库提供方参与时,各方之家的通信会导致检索效率大大降低。已有的sbe(secure binaryembedding)关注了语料嵌入向量的安全性,但其编码后相似度搜索(使用汉明距离)与原始向量的相似性(l2距离或cosine距离)存在不匹配区间,而且不匹配程度与sbe算法本身的参数以及数据的特性决定,因此在实际中,面向复杂数据嵌入数据集,可能导致相似性搜索失败。


技术实现思路

1、本专利技术提供一种隐私保护的多方联合向量知识库检索方法及系统,用以解决了现有知识库难以在不暴露各方知识库信息的情形下完成多方安全检索的问题、克服了维度过高引起的检索效率低下的问题。

2、本专利技术提供一种隐私保护的多方联合向量知识库检索方法,包括:

3、多方文本语料构建索引并分别上传至可信第三方,可信第三方分发随机防护秘密参数,各方结合本地随机参数生成辅助数据,辅助数据包括可信第三方随机防护秘密参数以及各方本地随机变换参数;

4、各方获取语料的嵌入向量,经过降维处理、随机齐次变换后的数据连同辅助数据上传至联合向量数据库服务端;

5、用户将查询请求文本进行语料嵌入后进行降维和随机齐次变换,生成待检索向量;

6、所述待检索向量在联合向量数据库内与辅助数据运算后进行相似度检索,返回索引结果;

7、完成向量相似度检索后,根据索引在可信第三方查询到相应文本内容,完成检索。

8、根据本专利技术提供的一种隐私保护的多方联合向量知识库检索方法,

9、多方文本语料构建索引并分别上传至可信第三方,可信第三方分发随机防护秘密参数,各方结合本地随机参数生成辅助数据,辅助数据包括可信第三方随机防护秘密参数以及各方本地随机变换参数,具体包括:

10、每一方的文本语料构建索引,并分别上传至可信第三方;

11、各方接收可信第三方分发的随机防护秘密参数,结合本地随机参数生成辅助数据。

12、根据本专利技术提供的一种隐私保护的多方联合向量知识库检索方法,

13、所述各方获取语料的嵌入向量,经过降维处理、随机齐次变换后的数据连同辅助数据上传至联合向量数据库服务端,具体包括:

14、各方对语料进行嵌入操作获取嵌入向量,对向量数据进行降维、并采用本地随机参数进行随机齐次变换;

15、基于随机齐次变换结果,连同辅助数据上传至联合向量数据库服务端。

16、根据本专利技术提供的一种隐私保护的多方联合向量知识库检索方法,所述用户将查询请求文本进行语料嵌入后进行降维和随机齐次变换,生成待检索向量,具体包括:

17、用户输入查询请求文本并将所述查询请求文本发送至联合向量数据库服务端;

18、对所述查询请求文本进行语料嵌入,生成初始向量;

19、对所述初始向量进行降维映射和随机齐次变换操作,生成待检索向量。

20、根据本专利技术提供的一种隐私保护的多方联合向量知识库检索方法,所述待检索向量在联合向量数据库内与辅助数据运算后进行相似度检索,返回索引结果,具体包括:

21、将所述待检索向量与辅助数据进行运算,运算后的向量数据与联合向量数据库中的向量进行相似度距离判断;

22、在相似度距离小于设定距离的情况下,则符合相似性要求,确定为具有语义联系或语义相关性的语料,并返回索引。

23、根据本专利技术提供的一种隐私保护的多方联合向量知识库检索方法,所述完成向量相似度检索后,根据索引在可信第三方查询到相应文本内容,完成检索,具体包括:

24、向量相似度检索完成后,用户获取数据服务器端返回的检索哈希索引集合;

25、用户根据检索哈希索引集合在可信三方查询到相应的文本内容,完成一次检索。

26、本专利技术还提供一种隐私保护的多方联合向量知识库检索系统,所述系统包括:

27、联合向量数据库构建模块,用于多方文本语料构建索引并分别上传至可信第三方,可信第三方分发随机防护秘密参数,各方结合本地随机参数生成辅助数据,辅助数据包括可信第三方随机防护秘密参数以及各方本地随机变换参数;

28、语料处理模块,用于各方获取语料的嵌入向量,经过降维处理、随机齐次变换后的数据连同辅助数据上传至联合向量数据库服务端;

29、降维齐次变换模块,用于用户将查询请求文本进行本文档来自技高网...

【技术保护点】

1.一种隐私保护的多方联合向量知识库检索方法,其特征在于,包括:

2.根据权利要求1所述的隐私保护的多方联合向量知识库检索方法,其特征在于,所述多方文本语料构建索引并分别上传至可信第三方,可信第三方分发随机防护秘密参数,各方结合本地随机参数生成辅助数据,辅助数据包括可信第三方随机防护秘密参数以及各方本地随机变换参数,具体包括:

3.根据权利要求1所述的隐私保护的多方联合向量知识库检索方法,其特征在于,所述各方获取语料的嵌入向量,经过降维处理、随机齐次变换后的数据连同辅助数据上传至联合向量数据库服务端,具体包括:

4.根据权利要求1所述的隐私保护的多方联合向量知识库检索方法,其特征在于,所述用户将查询请求文本进行语料嵌入后进行降维和随机齐次变换,生成待检索向量,具体包括:

5.根据权利要求1所述的隐私保护的多方联合向量知识库检索方法,其特征在于,所述待检索向量在联合向量数据库内与辅助数据运算后进行相似度检索,返回索引结果,具体包括:

6.根据权利要求1所述的隐私保护的多方联合向量知识库检索方法,其特征在于,所述完成向量相似度检索后,根据索引在可信第三方查询到相应文本内容,完成检索,具体包括:

7.一种隐私保护的多方联合向量知识库检索系统,其特征在于,所述系统包括:

8.一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至6任一项所述隐私保护的多方联合向量知识库检索方法。

9.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至6任一项所述隐私保护的多方联合向量知识库检索方法。

10.一种计算机程序产品,包括计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至6任一项所述隐私保护的多方联合向量知识库检索方法。

...

【技术特征摘要】

1.一种隐私保护的多方联合向量知识库检索方法,其特征在于,包括:

2.根据权利要求1所述的隐私保护的多方联合向量知识库检索方法,其特征在于,所述多方文本语料构建索引并分别上传至可信第三方,可信第三方分发随机防护秘密参数,各方结合本地随机参数生成辅助数据,辅助数据包括可信第三方随机防护秘密参数以及各方本地随机变换参数,具体包括:

3.根据权利要求1所述的隐私保护的多方联合向量知识库检索方法,其特征在于,所述各方获取语料的嵌入向量,经过降维处理、随机齐次变换后的数据连同辅助数据上传至联合向量数据库服务端,具体包括:

4.根据权利要求1所述的隐私保护的多方联合向量知识库检索方法,其特征在于,所述用户将查询请求文本进行语料嵌入后进行降维和随机齐次变换,生成待检索向量,具体包括:

5.根据权利要求1所述的隐私保护的多方联合向量知识库检索方法,其特征在于,所述待检索向量在联合向量数据库内与辅助数据运算后进行...

【专利技术属性】
技术研发人员:陈欣李闯肖骞宇高金超
申请(专利权)人:中金金融认证中心有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1