System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 基于思维链的动态语义检索方法、装置、设备及介质制造方法及图纸_技高网

基于思维链的动态语义检索方法、装置、设备及介质制造方法及图纸

技术编号:42509304 阅读:24 留言:0更新日期:2024-08-22 14:25
提供了一种基于思维链的动态语义检索方法,可应用于自然语言处理、检索增强生成和大模型技术领域。该方法包括以下步骤:获取复杂问题、大模型和向量检索库;将复杂问题输入大模型中,利用大模型对复杂问题进行分解,得到回复复杂问题的子问题思维链;基于子问题思维链、大模型和向量检索库,获取复杂问题的语义表征、当前子问题的语义表征以及上一子问题的回复的语义表征;将上述三种语义表征输入预先训练的检索模型中,得到当前子问题的回复的语义表示;以及获取子问题思维链中的最后一个子问题的回复的语义表示作为复杂问题的正确回复。本公开还提供了一种基于思维链的动态语义检索装置、设备及介质。

【技术实现步骤摘要】

本公开涉及自然语言处理、检索增强生成和大模型,尤其涉及一种基于思维链的动态语义检索方法、装置、设备及介质


技术介绍

1、基于大模型的对话系统在回答问题时经常产生不准确和误导性的内容(又称“幻觉”),引起了人们的广泛关注和担忧。检索增强生成技术通过从外部知识库中进行检索,将检索到的正确知识输入大模型,以产生更准确、更符合上下文的答案,并减少错误信息的产生。在这一过程中,如何做到检索空间与大模型之间的语义对齐是一个关键问题。当前,研究人员大多利用大模型的反馈信号来改进检索模型,通过联合微调完成二者空间的对齐。对于只需单步推理的简单问题而言,检索模型与大模型之间的联合微调,可以完成二者语义空间的初始对齐。

2、然而,对于无法通过单步推理得出答案的复杂问题而言,单次检索通常无法获取正确信息,往往需要将复杂问题分解为多个子问题,然后利用多次检索过程逐步完成知识的搜集。在每一轮次的检索过程中,需要结合原始复杂问题、当前子问题、上一轮检索答案这三种信息,完成当前轮次答案的检索。可以发现,在多轮动态检索过程中,检索空间与大模型之间的语义空间逐渐偏离,从而导致之前检索到的信息无法被下次检索有效利用。


技术实现思路

1、(一)要解决的技术问题

2、为解决现有技术中多轮动态检索过程中所出现的上述技术问题至少之一,本公开的实施例提供了一种基于思维链的动态语义检索方法、装置、设备及介质,本公开的实施例基于思维链的迭代检索过程,提出了子问题微调策略,根据原始复杂问题、当前子问题及上一子问题的回复进行自动解码,生成更符合当前检索轮次的语义表示,完成对知识的动态精确检索。

3、(二)技术方案

4、鉴于上述问题,本公开的实施例提供了一种基于思维链的动态语义检索方法、装置、设备及介质。

5、根据本公开的第一个方面,提供了一种基于思维链的动态语义检索方法,该方法包括以下步骤:获取复杂问题、大模型和向量检索库;将复杂问题输入大模型中,利用大模型对复杂问题进行分解,得到回复复杂问题的子问题思维链;基于子问题思维链、大模型和向量检索库,获取复杂问题的语义表征、当前子问题的语义表征以及上一子问题的回复的语义表征;将复杂问题的语义表征、当前子问题的语义表征以及上一子问题的回复的语义表征输入预先训练的检索模型中,得到当前子问题的回复的语义表示;以及获取子问题思维链中的最后一个子问题的回复的语义表示作为复杂问题的正确回复,其中,复杂问题包括无法通过单步推理得出答案的问题;向量检索库包含获取复杂问题的正确回复需要的知识;检索模型包括自适应解码模块,自适应解码模块用于对复杂问题的语义表征、当前子问题的语义表征以及上一子问题的回复的语义表征进行自动解码。

6、在一些示例性的实施例中,基于子问题思维链、大模型和向量检索库,获取复杂问题的语义表征、当前子问题的语义表征以及上一子问题的回复的语义表征包括:基于子问题思维链,利用大模型获取复杂问题的语义表征和当前子问题的语义表征;从向量检索库中检索出上一子问题的回复的向量表征;以及基于上一子问题的回复的向量表征,获取上一子问题的回复的语义表征。

7、在一些示例性的实施例中,预先训练检索模型,具体包括:获取复杂问题及正确回复,构建复杂问答数据集;利用复杂问答数据集,构建检索模型的训练数据和训练目标;以及基于训练数据和训练目标对检索模型进行训练,直至检索模型能够实现训练目标。

8、在一些示例性的实施例中,获取复杂问题及正确回复,构建复杂问答数据集,包括:获取使用文本进行描述的复杂问题;获取包含正确答复所需知识的向量检索库,其中,知识以向量的形式进行存储;以及将复杂问题与正确答复进行对齐,得到复杂问答数据集。

9、在一些示例性的实施例中,利用复杂问答数据集,构建检索模型的训练数据和训练目标,包括:利用大模型对复杂问题进行分解,得到回复复杂问题的子问题思维链;基于子问题思维链和向量检索库,构建检索模型的训练数据和训练目标。

10、在一些示例性的实施例中,训练数据包括复杂问题、当前子问题、上一子问题的回复以及当前子问题的正确回复组成的数据集;训练目标为根据训练数据中的复杂问题、当前子问题和上一子问题的回复得到当前子问题的正确回复。

11、在一些示例性的实施例中,基于训练数据和训练目标对检索模型进行训练,包括以下步骤:将训练数据中的复杂问题、当前子问题、上一子问题的回复输入检索模型;利用检索模型中的自适应解码模块对复杂问题、当前子问题和上一子问题的回复进行自动解码,得到解码后的向量表示;基于解码后的向量表示,从向量检索库中检索出当前子问题的回复;更新自适应解码模块的参数,直至实现训练目标,其中,训练过程保持大模型参数冻结。

12、本公开的第二方面提供了一种基于思维链的动态语义检索装置,该装置包括以下模块:第一获取模块,用于获取复杂问题、大模型和向量检索库;问题分解模块,用于将复杂问题输入大模型中,利用大模型对复杂问题进行分解,得到回复复杂问题的子问题思维链;第二获取模块,用于基于子问题思维链、大模型和向量检索库,获取复杂问题的语义表征、当前子问题的语义表征以及上一子问题的回复的语义表征;检索模块,用于将复杂问题的语义表征、当前子问题的语义表征以及上一子问题的回复的语义表征输入预先训练的检索模型中,得到当前子问题的回复的语义表示;以及输出模块,用于获取子问题思维链中的最后一个子问题的回复的语义表示作为复杂问题的正确回复,其中,复杂问题包括无法通过单步推理得出答案的问题;向量检索库包含获取复杂问题的正确回复需要的知识;检索模型包括自适应解码模块,自适应解码模块用于对复杂问题的语义表征、当前子问题的语义表征以及上一子问题的回复的语义表征进行自动解码。

13、本公开的第三方面提供了一种电子设备,包括:一个或多个处理器以及存储器,存储器用于存储一个或多个程序,其中,当一个或多个程序被一个或多个处理器执行时,使得一个或多个处理器执行上述方法。

14、本公开的第四方面还提供了一种计算机可读存储介质,其上存储有可执行指令,该指令被处理器执行时使处理器执行上述方法。

15、(三)有益效果

16、从上述技术方案可以看出,本公开的实施例提供的一种基于思维链的动态语义检索方法、装置、设备及介质至少具有以下有益效果其中之一:

17、(1)本公开的实施例基于思维链的迭代检索过程,提出了子问题微调策略,避免了多轮动态检索过程中,检索空间与大模型之间的语义空间逐渐偏离,确保之前检索到的信息被下次检索有效利用。

18、(2)本公开的实施例根据原始复杂问题、当前子问题及上一子问题的回复进行自动解码,生成更符合当前检索轮次的语义表示,获取知识的动态精确检索结果。可适用于复杂问答场景下,多轮检索过程中检索空间与大模型逐渐偏离的情况,实现知识的动态检索。

本文档来自技高网...

【技术保护点】

1.一种基于思维链的动态语义检索方法,其特征在于,所述方法包括以下步骤:

2.根据权利要求1所述的基于思维链的动态语义检索方法,其特征在于,所述基于所述子问题思维链、所述大模型和所述向量检索库,获取所述复杂问题的语义表征、当前子问题的语义表征以及上一子问题的回复的语义表征包括:

3.根据权利要求1或2所述的基于思维链的动态语义检索方法,其特征在于,预先训练所述检索模型,具体包括:

4.根据权利要求3所述的基于思维链的动态语义检索方法,其特征在于,所述获取复杂问题及正确回复,构建复杂问答数据集,包括:

5.根据权利要求4所述的基于思维链的动态语义检索方法,其特征在于,所述利用所述复杂问答数据集,构建所述检索模型的训练数据和训练目标,包括:

6.根据权利要求5所述的基于思维链的动态语义检索方法,其特征在于,

7.根据权利要求6所述的基于思维链的动态语义检索方法,其特征在于,所述基于所述训练数据和所述训练目标对所述检索模型进行训练,包括以下步骤:

8.一种基于思维链的动态语义检索装置,其特征在于,所述装置包括以下模块:

9.一种电子设备,其中,包括:

10.一种计算机可读存储介质,其上存储有可执行指令,该指令被处理器执行时使处理器执行根据权利要求1~7中任一项所述的方法。

...

【技术特征摘要】

1.一种基于思维链的动态语义检索方法,其特征在于,所述方法包括以下步骤:

2.根据权利要求1所述的基于思维链的动态语义检索方法,其特征在于,所述基于所述子问题思维链、所述大模型和所述向量检索库,获取所述复杂问题的语义表征、当前子问题的语义表征以及上一子问题的回复的语义表征包括:

3.根据权利要求1或2所述的基于思维链的动态语义检索方法,其特征在于,预先训练所述检索模型,具体包括:

4.根据权利要求3所述的基于思维链的动态语义检索方法,其特征在于,所述获取复杂问题及正确回复,构建复杂问答数据集,包括:

5.根据权利要求4所述的基于思维链的动态语...

【专利技术属性】
技术研发人员:周喜杨奉毅杨雅婷马博董瑞艾比布拉·阿塔伍拉鲁凯文蒋同海
申请(专利权)人:中国科学院新疆理化技术研究所
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1