System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本申请涉及自然语言处理的,具体地涉及一种文档检索方法、装置及存储介质。
技术介绍
1、在人工智能和机器学习的演进过程中,自然语言处理(natural languageprocessing,nlp)始终是一个关键领域。大语言模型(large language model,llm)作为nlp中的一种强大工具,通过大规模语料库的训练,能够生成高质量的自然语言文本。然而,随着数据量的增加和用户需求的多样化,llm在某些专业领域的知识回答方面遇到了瓶颈。为了解决这一问题,检索增强生成(retrieval augmented generation,rag)技术应运而生。rag将信息检索和语言生成结合,通过检索相关文档并将其整合到生成模型中,从而提高回答的准确性和相关性。虽然rag技术在回答特定问题方面的效果提升了许多,如果文档分片的文本块较大,用户在利用问题进行相似性搜索匹配时,会造成计算量大,检索缓慢的问题。而如果文档分片的文本块较小,查找到的分片的信息含量很少,缺乏对上下文的敏感性,导致生成的答案不够准确,相关性不高的情况出现,限制了信息回答的质量。
技术实现思路
1、本申请实施例的目的是提供一种文档检索方法、装置及存储介质,用以解决现有技术中检索太慢、检索片段不对、生成内容不全或者生成内容重复等。
2、为了实现上述目的,本申请第一方面提供一种文档检索方法,方法包括:
3、获取多个待处理文档;
4、对多个待处理文档进行预处理,以得到对应的目标文本数据;<
...【技术保护点】
1.一种文档检索方法,其特征在于,所述方法包括:
2.根据权利要求1所述的文档检索方法,其特征在于,所述按照所述预设字符间隔对所述目标文本数据包括的段落执行递归切分操作,以将目标文本数据划分成多个母分片包括:
3.根据权利要求2所述的文档检索方法,其特征在于,所述方法还包括:
4.根据权利要求1所述的文档检索方法,其特征在于,所述对所述多个待处理文档进行预处理,以得到对应的目标文本数据包括:
5.根据权利要求1所述的文档检索方法,其特征在于,所述在所述向量数据库中搜索与所述检索数据匹配的目标子分片向量,以根据所述目标子分片向量对应的母分片确定与所述检索数据对应的检索结果包括:
6.根据权利要求5所述的文档检索方法,其特征在于,所述根据所述多个目标子分片向量对应的母分片确定所述检索向量对应的第一目标母分片包括:
7.根据权利要求5所述的文档检索方法,其特征在于,所述生成与所述检索数据对应的检索向量包括:
8.根据权利要求5所述的文档检索方法,其特征在于,所述根据全部第二目标母分片和所述检索数据生成提
9.根据权利要求5所述的文档检索方法,其特征在于,所述第一目标母分片邻近的母分片为在所述母分片列表中排在所述第一目标母分片后的两个母分片。
10.根据权利要求5所述的文档检索方法,其特征在于,在所述向量数据库中查找与所述检索向量匹配的多个目标子分片向量包括:
11.一种文档检索装置,其特征在于,包括:
12.一种机器可读存储介质,其特征在于,该机器可读存储介质上存储有指令,该指令用于使得机器执行根据权利要求1至10中任一项所述的文档检索方法。
...【技术特征摘要】
1.一种文档检索方法,其特征在于,所述方法包括:
2.根据权利要求1所述的文档检索方法,其特征在于,所述按照所述预设字符间隔对所述目标文本数据包括的段落执行递归切分操作,以将目标文本数据划分成多个母分片包括:
3.根据权利要求2所述的文档检索方法,其特征在于,所述方法还包括:
4.根据权利要求1所述的文档检索方法,其特征在于,所述对所述多个待处理文档进行预处理,以得到对应的目标文本数据包括:
5.根据权利要求1所述的文档检索方法,其特征在于,所述在所述向量数据库中搜索与所述检索数据匹配的目标子分片向量,以根据所述目标子分片向量对应的母分片确定与所述检索数据对应的检索结果包括:
6.根据权利要求5所述的文档检索方法,其特征在于,所述根据所述多个目标子分片向量对应的母分片确定所述检索向...
【专利技术属性】
技术研发人员:周志忠,谢少东,童兴,
申请(专利权)人:中科云谷科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。