System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术涉及数据库检索安全,尤其涉及一种隐私保护的多方联合向量知识库检索方法及系统。
技术介绍
1、生成式大语言模型(large language model,llm)在各个行业已经广泛应用和开展,不同的技术落地尝试也不断涌现,而在构建应用的具体实践中为了克服大模型自身所具有的“大模型幻觉”问题,并充分利用大模型对语言的理解与抽象能力,于是,结合大语言模型的“检索增强生成”(retrieval augmented generation,rag)方式受到广泛关注。
2、rag的核心思想在于,通过构建向量知识库,并利用问题在知识库中的检索到的相关信息作为下游大模型的提示内容(prompt)输入。在这一过程中,检索的向量知识库往往是独立构建、或多个不同的知识库信息直接汇总进行嵌入后完成构建。
3、而当前的使用方式存在隐私暴露的风险,一方面,知识库构建时其内部包含的隐私信息所对应嵌入向量会直接暴露给向量知识库的服务方。另一方面,在进行检索时,查询内容(query)的嵌入向量同样会直接暴露。并且现有的语料进行嵌入后的特征向量很容易通过“字典攻击”而被推知原始的嵌入文本。因此,rag中向量知识库构建与检索的步骤中是具有较高隐私泄露风险的。进一步地,当前支持大语言模型的知识信息逐渐汇聚,而具有内容相关联且分属不同提供方的知识库,出于潜在的隐私信息保护要求(比如:数据不允许出域等),往往不能进行直接的相互检索,从而造成知识库检索时的信息局限性,这也进一步限制了大模型的实际表现。
4、向量知识库的构建,一般要
技术实现思路
1、本专利技术提供一种隐私保护的多方联合向量知识库检索方法及系统,用以解决了现有知识库难以在不暴露各方知识库信息的情形下完成多方安全检索的问题、克服了维度过高引起的检索效率低下的问题。
2、本专利技术提供一种隐私保护的多方联合向量知识库检索方法,包括:
3、多方文本语料构建索引并分别上传至可信第三方,可信第三方分发随机防护秘密参数,各方结合本地随机参数生成辅助数据,辅助数据包括可信第三方随机防护秘密参数以及各方本地随机变换参数;
4、各方获取语料的嵌入向量,经过降维处理、随机齐次变换后的数据连同辅助数据上传至联合向量数据库服务端;
5、用户将查询请求文本进行语料嵌入后进行降维和随机齐次变换,生成待检索向量;
6、所述待检索向量在联合向量数据库内与辅助数据运算后进行相似度检索,返回索引结果;
7、完成向量相似度检索后,根据索引在可信第三方查询到相应文本内容,完成检索。
8、根据本专利技术提供的一种隐私保护的多方联合向量知识库检索方法,
9、多方文本语料构建索引并分别上传至可信第三方,可信第三方分发随机防护秘密参数,各方结合本地随机参数生成辅助数据,辅助数据包括可信第三方随机防护秘密参数以及各方本地随机变换参数,具体包括:
10、每一方的文本语料构建索引,并分别上传至可信第三方;
11、各方接收可信第三方分发的随机防护秘密参数,结合本地随机参数生成辅助数据。
12、根据本专利技术提供的一种隐私保护的多方联合向量知识库检索方法,
13、所述各方获取语料的嵌入向量,经过降维处理、随机齐次变换后的数据连同辅助数据上传至联合向量数据库服务端,具体包括:
14、各方对语料进行嵌入操作获取嵌入向量,对向量数据进行降维、并采用本地随机参数进行随机齐次变换;
15、基于随机齐次变换结果,连同辅助数据上传至联合向量数据库服务端。
16、根据本专利技术提供的一种隐私保护的多方联合向量知识库检索方法,所述用户将查询请求文本进行语料嵌入后进行降维和随机齐次变换,生成待检索向量,具体包括:
17、用户输入查询请求文本并将所述查询请求文本发送至联合向量数据库服务端;
18、对所述查询请求文本进行语料嵌入,生成初始向量;
19、对所述初始向量进行降维映射和随机齐次变换操作,生成待检索向量。
20、根据本专利技术提供的一种隐私保护的多方联合向量知识库检索方法,所述待检索向量在联合向量数据库内与辅助数据运算后进行相似度检索,返回索引结果,具体包括:
21、将所述待检索向量与辅助数据进行运算,运算后的向量数据与联合向量数据库中的向量进行相似度距离判断;
22、在相似度距离小于设定距离的情况下,则符合相似性要求,确定为具有语义联系或语义相关性的语料,并返回索引。
23、根据本专利技术提供的一种隐私保护的多方联合向量知识库检索方法,所述完成向量相似度检索后,根据索引在可信第三方查询到相应文本内容,完成检索,具体包括:
24、向量相似度检索完成后,用户获取数据服务器端返回的检索哈希索引集合;
25、用户根据检索哈希索引集合在可信三方查询到相应的文本内容,完成一次检索。
26、本专利技术还提供一种隐私保护的多方联合向量知识库检索系统,所述系统包括:
27、联合向量数据库构建模块,用于多方文本语料构建索引并分别上传至可信第三方,可信第三方分发随机防护秘密参数,各方结合本地随机参数生成辅助数据,辅助数据包括可信第三方随机防护秘密参数以及各方本地随机变换参数;
28、语料处理模块,用于各方获取语料的嵌入向量,经过降维处理、随机齐次变换后的数据连同辅助数据上传至联合向量数据库服务端;
29、降维齐次变换模块,用于用户将查询请求文本进行本文档来自技高网...
【技术保护点】
1.一种隐私保护的多方联合向量知识库检索方法,其特征在于,包括:
2.根据权利要求1所述的隐私保护的多方联合向量知识库检索方法,其特征在于,所述多方文本语料构建索引并分别上传至可信第三方,可信第三方分发随机防护秘密参数,各方结合本地随机参数生成辅助数据,辅助数据包括可信第三方随机防护秘密参数以及各方本地随机变换参数,具体包括:
3.根据权利要求1所述的隐私保护的多方联合向量知识库检索方法,其特征在于,所述各方获取语料的嵌入向量,经过降维处理、随机齐次变换后的数据连同辅助数据上传至联合向量数据库服务端,具体包括:
4.根据权利要求1所述的隐私保护的多方联合向量知识库检索方法,其特征在于,所述用户将查询请求文本进行语料嵌入后进行降维和随机齐次变换,生成待检索向量,具体包括:
5.根据权利要求1所述的隐私保护的多方联合向量知识库检索方法,其特征在于,所述待检索向量在联合向量数据库内与辅助数据运算后进行相似度检索,返回索引结果,具体包括:
6.根据权利要求1所述的隐私保护的多方联合向量知识库检索方法,其特征在于,所述完成向量相似
7.一种隐私保护的多方联合向量知识库检索系统,其特征在于,所述系统包括:
8.一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至6任一项所述隐私保护的多方联合向量知识库检索方法。
9.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至6任一项所述隐私保护的多方联合向量知识库检索方法。
10.一种计算机程序产品,包括计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至6任一项所述隐私保护的多方联合向量知识库检索方法。
...【技术特征摘要】
1.一种隐私保护的多方联合向量知识库检索方法,其特征在于,包括:
2.根据权利要求1所述的隐私保护的多方联合向量知识库检索方法,其特征在于,所述多方文本语料构建索引并分别上传至可信第三方,可信第三方分发随机防护秘密参数,各方结合本地随机参数生成辅助数据,辅助数据包括可信第三方随机防护秘密参数以及各方本地随机变换参数,具体包括:
3.根据权利要求1所述的隐私保护的多方联合向量知识库检索方法,其特征在于,所述各方获取语料的嵌入向量,经过降维处理、随机齐次变换后的数据连同辅助数据上传至联合向量数据库服务端,具体包括:
4.根据权利要求1所述的隐私保护的多方联合向量知识库检索方法,其特征在于,所述用户将查询请求文本进行语料嵌入后进行降维和随机齐次变换,生成待检索向量,具体包括:
5.根据权利要求1所述的隐私保护的多方联合向量知识库检索方法,其特征在于,所述待检索向量在联合向量数据库内与辅助数据运算后进行...
【专利技术属性】
技术研发人员:陈欣,李闯,肖骞宇,高金超,
申请(专利权)人:中金金融认证中心有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。