System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种用于RAG的多知识粒度的文本检索方法及装置制造方法及图纸_技高网

一种用于RAG的多知识粒度的文本检索方法及装置制造方法及图纸

技术编号:44255334 阅读:1 留言:0更新日期:2025-02-14 22:02
本发明专利技术提供一种用于RAG的多知识粒度的文本检索方法及装置,将原始文本整理为JSON文件,并进行递归字符和语义切块处理,生成目标JSON文件存储至BM25数据库和向量数据库。当用户查询时,预处理生成关键词列表和查询嵌入向量;查找BM25数据库中的目标文本,计算与关键词的相关性得分以确定第一待选文本;根据查询嵌入向量确定第二待选文本;对所有第一待选文本和第二待选文本进行去重处理,利用排序模型确定最终推荐文本并输出。通过考虑不同搜索粒度的问题,采用BM25算法解决关键词粒度。结合句粒度和段粒度的语义检索策略,有效应对文本信息长度不一及不同检索目的的挑战,从而充分利用传统检索与语义检索的优势。

【技术实现步骤摘要】

本专利技术涉及数据处理,尤其涉及一种用于rag的多知识粒度的文本检索方法及装置。


技术介绍

1、随着信息技术的快速发展,文档数量庞大且形式多样,传统检索方法已难以满足高效、准确的信息获取需求。这推动了文本检索技术的发展,成为信息管理的重要组成部分。文本检索通过计算机对自然语言中的词汇进行匹配,实现文献的快速查找。

2、当前,文本检索系统采用各种先进算法和模型,如关键词匹配、布尔检索、向量空间模型以及深度学习技术。尽管这些方法取得了一定进展,但仍存在局限性。例如,基于关键词的检索往往依赖用户输入的准确性,可能导致相关信息被遗漏。不同检索方法在处理信息时设定的搜索粒度也有所不同:布尔检索可能过于严格,而宽松的关键词匹配则可能返回大量无关结果,使用户难以找到所需信息。此外,许多检索系统使用的基于相关性的排序算法,在特定领域或用户偏好下,可能无法充分反映结果的真实价值。

3、因此,提高文本检索的准确性和灵活性,提升用户体验是当前亟需解决的问题。


技术实现思路

1、有鉴于此,本专利技术实施例提供一种用于rag的多知识粒度的文本检索方法及装置,以解决目前文本检索系统存在的准确性较低、灵活性较差的问题。

2、为实现上述目的,本专利技术实施例提供如下技术方案:

3、本专利技术第一方面公开一种用于rag的多知识粒度的文本检索方法,所述方法包括:

4、获取原始文本,并进行结构化整理,得到json文件;

5、对所述json文件中的json数据进行递归字符切块处理和语义切块处理,得到多个包含子索引的文本块,并基于文本块生成目标json文件;

6、将所有目标json文件存储至bm25数据库,和将进行递归字符切块处理后的所述json文件存储至向量数据库;

7、当接收到用户输入的查询语句时,对所述查询语句进行预处理,得到所述查询语句相应的关键词列表和查询嵌入向量;

8、针对所述关键词列表中的每个关键词,查找所述bm25数据库中所有包含所述关键词的目标文本,并计算每个所述目标文本与所述关键词的相关性得分;

9、将所有相关性得分从大到小进行排序,将前n个所述相关性得分对应的目标文本确定为第一待选文本;

10、将所述查询嵌入向量分别与所述向量数据库中的句子层级嵌入向量和段落层级嵌入向量计算余弦相似度;

11、根据所有余弦相似度确定第二待选文本;

12、对所有第一待选文本和所有第二待选文本进行去重处理,并利用排序模型确定最终推荐文本,输出所述最终推荐文本。

13、优选的,所述获取原始文本,并进行结构化整理,得到json文件,包括:

14、获取原始文本;

15、根据所述原始文本中的每个段落将所述原始文本进行分割,得到多个段落;

16、根据每个所述段落所属的章节序列位置,为每个所述段落创建位置索引;

17、基于每个所述段落和其对应的位置索引生成json文件。

18、优选的,所述对所述json文件中的json数据进行递归字符切块处理和语义切块处理,得到多个包含子索引的文本块,并基于文本块生成目标json文件,包括:

19、对所述json文件中的json数据进行递归字符切块处理,得到多个初步文本块,并创建每个所述初步文本块在其所属段落中的第一子索引;

20、对于每个所述初步文本块,创建所述初步文本块的副本,并识别所述副本中的语义单元;

21、根据所述语义单元,基于预设的切块策略将所述副本进行切块,得到语义文本块,并创建每个所述语义文本块在其所属段落中的第二子索引;

22、基于每个所述初步文本块和其对应的第一子索引生成目标json文件,并基于每个所述语义文本块和其对应的第二子索引生成目标json文件。

23、优选的,所述将所有目标json文件存储至bm25数据库,和将进行递归字符切块处理后的所述json文件存储至向量数据库,包括:

24、针对每个所述目标json文件,对所述目标json文件进行预处理,并计算所述目标json文件中每个词的词频,和所述词在所有目标json文件中出现的频率,得到逆文档频率;

25、基于所述词频和所述逆文档频率,计算所述词的bm25权重;

26、根据所述词的bm25权重构建倒排索引列表;

27、将预处理后的所述目标json文件和相应的所述倒排索引列表存储至bm25数据库;

28、针对每个进行递归字符切块处理后的所述json文件,利用句子嵌入模型对进行递归字符切块处理后的所述json文件进行向量化处理,生成多个高维向量;

29、识别每个所述高维向量对应的每个句子,生成细粒度向量并存储至向量数据库;

30、识别每个所述高维向量相应的语义,并根据预设聚类规则将每个所述高维向量对应的每个句子进行聚类分组,得到多个粗粒度类别集合并存储至所述向量数据库。

31、优选的,所述当接收到用户输入的查询语句时,对所述查询语句进行预处理,得到所述查询语句相应的关键词列表和查询嵌入向量,包括:

32、当接收到用户输入的查询语句时,对所述查询语句进行分词和去噪处理,得到所述查询语句相应的关键词列表;

33、利用句子嵌入模型对所述查询语句进行向量化处理,得到所述查询语句相应的查询嵌入向量。

34、优选的,所述余弦相似度包括句子层级余弦相似度和段落层级余弦相似度;

35、所述根据所有余弦相似度确定第二待选文本,包括:

36、按照从大到小的顺序将所有句子层级余弦相似度进行排序;

37、从排序后的所有句子层级余弦相似度中提取前m个句子层级余弦相似度,将前m个句子层级余弦相似度对应的文本确定为句子层级待选文本;

38、按照从大到小的顺序将所有段落层级余弦相似度进行排序;

39、从排序后的所有段落层级余弦相似度中提取前m个段落层级余弦相似度,将前m个段落层级余弦相似度对应的文本确定为段落层级待选文本;

40、将所述句子层级待选文本和所述段落层级待选文本确定为第二待选文本。

41、本专利技术第二方面公开一种用于rag的多知识粒度的文本检索装置,所述装置包括:

42、获取单元,用于获取原始文本,并进行结构化整理,得到json文件;

43、处理单元,用于对所述json文件中的json数据进行递归字符切块处理和语义切块处理,得到多个包含子索引的文本块,并基于文本块生成目标json文件;

44、存储单元,用于将所有目标json文件存储至bm25数据库,和将进行递归字符切块处理后的所述json文件存储至向量数据库;

45、预处理单元,用于当接收到用户输入的查询语句时,对所述查询语句进行预处理,得到所述查询语句相应的关键词列表和查询嵌入向量;

46本文档来自技高网...

【技术保护点】

1.一种用于RAG的多知识粒度的文本检索方法,其特征在于,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,所述获取原始文本,并进行结构化整理,得到JSON文件,包括:

3.根据权利要求1所述的方法,其特征在于,所述对所述JSON文件中的JSON数据进行递归字符切块处理和语义切块处理,得到多个包含子索引的文本块,并基于文本块生成目标JSON文件,包括:

4.根据权利要求1所述的方法,其特征在于,所述将所有目标JSON文件存储至BM25数据库,和将进行递归字符切块处理后的所述JSON文件存储至向量数据库,包括:

5.根据权利要求1所述的方法,其特征在于,所述当接收到用户输入的查询语句时,对所述查询语句进行预处理,得到所述查询语句相应的关键词列表和查询嵌入向量,包括:

6.根据权利要求1所述的方法,其特征在于,所述余弦相似度包括句子层级余弦相似度和段落层级余弦相似度;

7.一种用于RAG的多知识粒度的文本检索装置,其特征在于,所述装置包括:

8.根据权利要求7所述的装置,其特征在于,所述获取单元,包括:

9.根据权利要求7所述的装置,其特征在于,所述处理单元,包括:

10.根据权利要求7所述的装置,其特征在于,所述存储单元,包括:

...

【技术特征摘要】

1.一种用于rag的多知识粒度的文本检索方法,其特征在于,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,所述获取原始文本,并进行结构化整理,得到json文件,包括:

3.根据权利要求1所述的方法,其特征在于,所述对所述json文件中的json数据进行递归字符切块处理和语义切块处理,得到多个包含子索引的文本块,并基于文本块生成目标json文件,包括:

4.根据权利要求1所述的方法,其特征在于,所述将所有目标json文件存储至bm25数据库,和将进行递归字符切块处理后的所述json文件存储至向量数据库,包括:

5.根据...

【专利技术属性】
技术研发人员:张旻政鲁昊纯耿浩杰
申请(专利权)人:中国建设银行股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1