System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 文档检索方法、装置及存储介质制造方法及图纸_技高网

文档检索方法、装置及存储介质制造方法及图纸

技术编号:44146665 阅读:7 留言:0更新日期:2025-01-29 10:21
本申请公开了一种文档检索方法、装置及存储介质,涉及自然语言处理的技术领域,方法包括:对获取的多个待处理文档进行预处理,以得到对应的目标文本数据;按照预设字符间隔对目标文本数据包括的段落执行递归切分操作,以将目标文本数据划分成多个母分片;将每个母分片切分成多个子分片,并生成与每个子分片对应的子分片向量,并存入向量数据库;在向量数据库中搜索与用户输入的检索数据匹配的目标子分片向量,以根据目标子分片向量对应的母分片确定与检索数据对应的检索结果。通过以段落为基数,以预设字符间隔作为切分间隔的依据,将目标文本数据划分成合适大小的分片,既可以保留更多的上下文信息,又可以提升计算效率,提高检索精度。

【技术实现步骤摘要】

本申请涉及自然语言处理的,具体地涉及一种文档检索方法、装置及存储介质


技术介绍

1、在人工智能和机器学习的演进过程中,自然语言处理(natural languageprocessing,nlp)始终是一个关键领域。大语言模型(large language model,llm)作为nlp中的一种强大工具,通过大规模语料库的训练,能够生成高质量的自然语言文本。然而,随着数据量的增加和用户需求的多样化,llm在某些专业领域的知识回答方面遇到了瓶颈。为了解决这一问题,检索增强生成(retrieval augmented generation,rag)技术应运而生。rag将信息检索和语言生成结合,通过检索相关文档并将其整合到生成模型中,从而提高回答的准确性和相关性。虽然rag技术在回答特定问题方面的效果提升了许多,如果文档分片的文本块较大,用户在利用问题进行相似性搜索匹配时,会造成计算量大,检索缓慢的问题。而如果文档分片的文本块较小,查找到的分片的信息含量很少,缺乏对上下文的敏感性,导致生成的答案不够准确,相关性不高的情况出现,限制了信息回答的质量。


技术实现思路

1、本申请实施例的目的是提供一种文档检索方法、装置及存储介质,用以解决现有技术中检索太慢、检索片段不对、生成内容不全或者生成内容重复等。

2、为了实现上述目的,本申请第一方面提供一种文档检索方法,方法包括:

3、获取多个待处理文档;

4、对多个待处理文档进行预处理,以得到对应的目标文本数据;</p>

5、获取针对目标文本数据进行分片的预设字符间隔;

6、按照预设字符间隔对目标文本数据包括的段落执行递归切分操作,以将目标文本数据划分成多个母分片;

7、将每个母分片切分成多个子分片,并生成与每个子分片对应的子分片向量;

8、将全部子分片向量存入向量数据库;

9、获取用户输入的检索数据;

10、在向量数据库中搜索与检索数据匹配的目标子分片向量,以根据目标子分片向量对应的母分片确定与检索数据对应的检索结果。

11、在本申请的实施例中,按照预设字符间隔对目标文本数据包括的段落执行递归切分操作,以将目标文本数据划分成多个母分片包括:对目标文本数据包括的段落进行递归,确定递归的当前段落包括的第一字符数量;在第一字符数量小于预设字符间隔的情况下,从当前段落开始递归目标文本数据包括的段落;实时确定从当前段落开始递归的段落中是否存在预设分隔符,并实时确定从当前段落开始递归的多个段落包括的第二字符数量;在从当前段落开始递归的段落中存在预设分隔符的情况下,将当前段落与存在预设分隔符对应的段落之间包括的全部段落进行切分,以得到对应的母分片;在第二字符数量大于预设字符间隔的情况下,将从当前段落开始递归的多个段落进行切分,以得到对应的母分片。

12、在本申请的实施例中,方法还包括:在第一字符数量大于或等于预设字符间隔的情况下,将当前段落切分为对应的母分片。

13、在本申请的实施例中,对多个待处理文档进行预处理,以得到对应的目标文本数据包括:对多个待处理文档进行数据清洗,以得到与每个待处理文档对应的文本数据;基于预设分隔符对全部文本数据进行叠加,以得到对应的目标文本数据。

14、在本申请的实施例中,在向量数据库中搜索与检索数据匹配的目标子分片向量,以根据目标子分片向量对应的母分片确定与检索数据对应的检索结果包括:生成与检索数据对应的检索向量;在向量数据库中查找与检索向量匹配的多个目标子分片向量;根据多个目标子分片向量对应的母分片确定检索向量对应的第一目标母分片;将多个母分片按照顺序存储于母分片列表;针对每个第一目标母分片,将母分片列表中与第一目标母分片邻近的母分片与第一目标母分片合并,以生成第二目标母分片;根据全部第二目标母分片和检索数据生成提示词;将提示词输入至预设大语言模型,以通过预设大语言模型输出与提示词对应的检索结果,以作为检索数据对应的检索结果。

15、在本申请的实施例中,根据多个目标子分片向量对应的母分片确定检索向量对应的第一目标母分片包括:确定每个目标子分片向量对应的母分片的母分片内容和母分片位置;将全部目标子分片向量对应的母分片中存在相同的母分片内容和/或相同的母分片位置的母分片进行去重处理,以得到与检索向量对应的第一目标母分片。

16、在本申请的实施例中,生成与检索数据对应的检索向量包括:对检索数据进行重写,以生成与检索数据对应的多个相似检索数据;分别将检索数据和每个相似检索数据输入至预设嵌入模型,以通过预设嵌入模型分别输出对应的检索向量。

17、在本申请的实施例中,根据全部第二目标母分片和检索数据生成提示词包括:将全部第二目标母分片和检索数据输入至预设重排模型,以通过预设重排模型确定每个第二目标母分片与检索数据之间的相似度;将全部的第二目标母分片按照相似度从大到小进行排序,以通过预设重排模型输出前n个第二目标母分片,其中,n为正整数;根据前n个第二目标母分片和检索数据输入至预设提示工程,以通过预设提示工程生成提示词。

18、在本申请的实施例中,第一目标母分片邻近的母分片为在母分片列表中排在第一目标母分片后的两个母分片。

19、在本申请的实施例中,在向量数据库中查找与检索向量匹配的多个目标子分片向量包括:确定向量数据库中包括的每个子分片向量与检索向量之间的余弦相似度;将全部子分片向量按照余弦相似度从大到小进行排序,以将前m个子分片向量确定为与检索向量匹配的目标子分片向量,其中,m为正整数。

20、本申请第二方面提供一种文档检索装置,包括:

21、存储器,被配置成存储指令;

22、处理器,被配置成从存储器调用指令以及在执行指令时能够实现根据上述的文档检索方法。

23、本申请第三方面提供一种机器可读存储介质,该机器可读存储介质上存储有指令,该指令用于使得机器执行根据上述的文档检索方法。

24、通过上述技术方案,按照预设字符间隔对目标文本数据包括的段落执行递归切分操作,以将不同的文档结合生成的目标文本数据划分成多个母分片,进而将每个母分片划分成多个子分片,生成与每个子分片对应的子分片向量,并存入向量数据库。从而在检索过程中,通过在向量数据库查找匹配的目标子分片向量,以根据目标子分片向量对应的母分片确定与检索数据对应的检索结果。通过以段落为基数,以预设字符间隔作为切分间隔的依据,将目标文本数据划分成合适大小的分片,既可以保留更多的上下文信息,又可以提升计算效率,提高检索精度。

25、本申请实施例的其它特征和优点将在随后的具体实施方式部分予以详细说明。

本文档来自技高网...

【技术保护点】

1.一种文档检索方法,其特征在于,所述方法包括:

2.根据权利要求1所述的文档检索方法,其特征在于,所述按照所述预设字符间隔对所述目标文本数据包括的段落执行递归切分操作,以将目标文本数据划分成多个母分片包括:

3.根据权利要求2所述的文档检索方法,其特征在于,所述方法还包括:

4.根据权利要求1所述的文档检索方法,其特征在于,所述对所述多个待处理文档进行预处理,以得到对应的目标文本数据包括:

5.根据权利要求1所述的文档检索方法,其特征在于,所述在所述向量数据库中搜索与所述检索数据匹配的目标子分片向量,以根据所述目标子分片向量对应的母分片确定与所述检索数据对应的检索结果包括:

6.根据权利要求5所述的文档检索方法,其特征在于,所述根据所述多个目标子分片向量对应的母分片确定所述检索向量对应的第一目标母分片包括:

7.根据权利要求5所述的文档检索方法,其特征在于,所述生成与所述检索数据对应的检索向量包括:

8.根据权利要求5所述的文档检索方法,其特征在于,所述根据全部第二目标母分片和所述检索数据生成提示词包括:

9.根据权利要求5所述的文档检索方法,其特征在于,所述第一目标母分片邻近的母分片为在所述母分片列表中排在所述第一目标母分片后的两个母分片。

10.根据权利要求5所述的文档检索方法,其特征在于,在所述向量数据库中查找与所述检索向量匹配的多个目标子分片向量包括:

11.一种文档检索装置,其特征在于,包括:

12.一种机器可读存储介质,其特征在于,该机器可读存储介质上存储有指令,该指令用于使得机器执行根据权利要求1至10中任一项所述的文档检索方法。

...

【技术特征摘要】

1.一种文档检索方法,其特征在于,所述方法包括:

2.根据权利要求1所述的文档检索方法,其特征在于,所述按照所述预设字符间隔对所述目标文本数据包括的段落执行递归切分操作,以将目标文本数据划分成多个母分片包括:

3.根据权利要求2所述的文档检索方法,其特征在于,所述方法还包括:

4.根据权利要求1所述的文档检索方法,其特征在于,所述对所述多个待处理文档进行预处理,以得到对应的目标文本数据包括:

5.根据权利要求1所述的文档检索方法,其特征在于,所述在所述向量数据库中搜索与所述检索数据匹配的目标子分片向量,以根据所述目标子分片向量对应的母分片确定与所述检索数据对应的检索结果包括:

6.根据权利要求5所述的文档检索方法,其特征在于,所述根据所述多个目标子分片向量对应的母分片确定所述检索向...

【专利技术属性】
技术研发人员:周志忠谢少东童兴
申请(专利权)人:中科云谷科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1