System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 基于多层知识库的检索问题优化方法、介质及系统技术方案_技高网

基于多层知识库的检索问题优化方法、介质及系统技术方案

技术编号:44411336 阅读:0 留言:0更新日期:2025-02-25 10:25
本申请涉及基于多层知识库的检索问题优化方法、介质及系统,包括:对知识数据进行分级管理,构建多层知识库;根据用户查询,检索多层知识库生成初始向量块集;再对查询进行第一次查询重写,再次检索多层知识库生成更新向量块集;根据初始向量块集和更新向量块集在多层数据块中的来源统计结果,确定检索的强弱方向;根据检索的强弱方向,对查询进行第二次查询重写,输出查询问题。因此该检索的强弱方向定位,能够生成兼具专业性和全面性的查询问题。本方法通过两轮优化,显著减少了查询的歧义,增强了生成内容的精准度和多样性,为RAG系统在复杂任务中的应用提供更高效、更精准的解决方案。

【技术实现步骤摘要】

本申请属于大语言模型处理领域,尤其涉及基于多层知识库的检索问题优化方法、介质及系统


技术介绍

1、在检索增强型大型语言模型(retrieval-augmented generation, rag)的应用中,用户通过自然语言进行问答交互已成为主流。然而,由于用户查询的口语化表达、模糊描述以及上下文引用的歧义,rag系统往往难以准确理解用户意图,从而导致检索结果不够精准,生成回答难以满足用户需求。这种情况在复杂任务中表现尤为突出,例如需要多轮信息整合、深度分析或领域专业知识支持的场景。为了解决这一问题,查询重写技术被广泛应用,旨在通过对用户查询进行优化和语义精炼,消除歧义并明确信息需求。然而,现有的方法通常只进行单次查询重写,无法充分捕获用户语义的多层次特性,也难以在多维度上平衡查询问题的专业性与全面性。

2、因此,如何通过多轮精准的查询重写,优化回答的多样性和专业性、提升检索结果的相关性,成为一个亟待解决的关键挑战。


技术实现思路

1、为解决上述技术问题的至少一个,本申请实施例提供了一种基于多层知识库的检索问题优化方法,所述方法包括:

2、s1:对知识数据进行分级管理,构建多层知识库;

3、s2:根据用户查询,检索多层知识库生成初始向量块集;再对查询进行第一次查询重写,再次检索多层知识库生成更新向量块集;

4、s3:根据初始向量块集和更新向量块集在多层数据块中的来源统计结果,确定检索的强弱方向;

5、s4:根据检索的强弱方向,对查询进行第二次查询重写,输出查询问题。

6、进一步地,步骤s3,包括:

7、s31:确定初始向量块集和更新向量块集中,各向量块在多层知识库中的来源位置;

8、s32:统计各来源位置处包括的向量块数量;

9、s33:根据统计结果,排序确定检索的强弱方向。

10、进一步地,步骤s33,包括:

11、s331:根据各来源位置处包括的向量块数量,确定各来源位置处的位置系数;

12、s332:若位置系数大于第一设定阈值或位置系数排名为前第一设定名次,则确定为检索的强方向;否则确定为弱方向。

13、进一步地,步骤s332,还包括:

14、在确定为弱方向的来源位置中,判断其位置系数是否小于第二设定阈值;或排名是否大于第二设定名次,若是则筛除对应的来源位置;第二设定阈值小于第一设定阈值;第二设定名次大于第一设定名次。

15、进一步地,步骤s31,还包括:

16、s31a:对比初始向量块集和更新向量块集中各向量块,确定相同向量块和不同向量块;

17、s32b:为相同向量块配置比不同向量块,更高的数量系数;

18、步骤s32,具体为:根据数量系数,依权重统计各来源位置处包括的向量块数量。

19、进一步地,步骤s331,包括:

20、s3311:在多层知识库中,根据第一层级的各来源位置处包括的向量块数量,确定第一层级的各来源位置处的位置系数;

21、s3312:对于除第一层级以外的各来源位置,根据该来源位置处包括的向量块数量和其所有上属层级的位置系数,确定除第一层级以外的各来源位置处的位置系数。

22、进一步地,步骤s3312,还包括:

23、s33121:对于除第一层级以外的各来源位置,统计同一层级包括的向量块数量的总和;

24、s33122:根据该来源位置处包括的向量块数量和同一层级包括的向量块数量的总和的比值,确定该来源位置处的层级系数;

25、s33123:根据该来源位置处包括的向量块数量和其所有上属层级的位置系数,以及该来源位置处的层级系数,确定除第一层级以外的各来源位置处的位置系数。

26、进一步地,还包括:

27、p1:采用上述任意的检索问题优化方法,优化查询问题;

28、p2:根据上述任意的检索问题优化方法中确定的检索的强弱方向,确定多层知识库的权重;

29、p3:根据优化后的查询问题和权重设定的多层知识库,生成最终向量块集。

30、第二方面,本申请实施例提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述任意的方法。

31、第三方面,本申请实施例提供了一种电子系统,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述任意的方法。

32、本申请实施例与现有技术相比存在的有益效果是:

33、本专利技术提供基于多层知识库的检索问题优化方法、介质及系统,关键在于通过统计两次检索的初始向量块集和更新向量块集,识别重复和独立的知识库,确定检索的强弱方向,对查询进行第二次查询重写,输出更为精准的查询问题。一方面,对检索确定的强方向,看检索结果重复来源于哪个知识库,并非所有知识库都统一对待,可兼顾查询问题的专业性;另一方面,对检索确定的弱方向,看检索结果独立来源于哪个知识库,并非直接舍弃,可兼顾查询问题的全面性;因此该检索的强弱方向定位,优选的对检索的侧重点和知识库的权重调整,能够生成兼具专业性和全面性的查询问题。本方法通过两轮优化,显著减少了查询的歧义,增强了生成内容的精准度和多样性,为rag系统在复杂任务中的应用提供更高效、更精准的解决方案。

本文档来自技高网...

【技术保护点】

1.一种基于多层知识库的检索问题优化方法,其特征在于,所述方法包括:

2.根据权利要求1所述的检索问题优化方法,其特征在于,步骤S3,包括:

3.根据权利要求2所述的检索问题优化方法,其特征在于,步骤S33,包括:

4.根据权利要求3所述的检索问题优化方法,其特征在于,步骤S332,还包括:

5.根据权利要求4所述的检索问题优化方法,其特征在于,步骤S31,还包括:

6.根据权利要求5所述的检索问题优化方法,其特征在于,步骤S331,包括:

7.根据权利要求6所述的检索问题优化方法,其特征在于,步骤S3312,还包括:

8.根据权利要求1-7任意一项所述的检索问题优化方法,其特征在于,包括:

9.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至8任一项所述的方法。

10.一种电子系统,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至8任一项所述的方法。

...

【技术特征摘要】

1.一种基于多层知识库的检索问题优化方法,其特征在于,所述方法包括:

2.根据权利要求1所述的检索问题优化方法,其特征在于,步骤s3,包括:

3.根据权利要求2所述的检索问题优化方法,其特征在于,步骤s33,包括:

4.根据权利要求3所述的检索问题优化方法,其特征在于,步骤s332,还包括:

5.根据权利要求4所述的检索问题优化方法,其特征在于,步骤s31,还包括:

6.根据权利要求5所述的检索问题优化方法,其特征在于,步骤s331,包括:

【专利技术属性】
技术研发人员:聂笑一李晓雨张艺张海涛朱幸辉
申请(专利权)人:湖南农业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1