System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术属于人工智能,具体地涉及一种基于长期记忆的检索增强生成方法、系统、电子设备及存储介质。
技术介绍
1、大语言模型是一种强大的人工智能模型,具备出色的文本生成和理解能力。通过训练大量文本数据,它能够学习语言的模式和规律,并根据输入的提示或问题生成连贯、合理的回答或文本。在机器翻译、自动摘要、对话系统和文本生成等领域,大语言模型已得到广泛应用。
2、传统的检索增强生成系统往往依赖于短期、基于查询的直接相关性匹配,这种方法在处理需要深入上下文理解和复杂推理的任务时存在明显不足,不能有效处理长文本和隐含的信息需求。同时,面对跨领域或多步骤的复杂查询,传统方法也难以进行有效的信息整合和推理,导致无法生成准确和全面的答案。
技术实现思路
1、本专利技术实施例的目的是提供一种基于长期记忆的检索增强生成方法、系统、电子设备及存储介质,用于全部或至少部分的解决上述现有技术中存在的不能有效处理长文本和隐含的信息需求,同时,面对跨领域或多步骤的复杂查询,难以进行有效的信息整合和推理,导致无法生成准确和全面的答案技术问题。
2、第一方面,本申请实施例提供一种基于长期记忆的检索增强生成方法,包括:
3、利用大语言模型,将整个数据库的内容进行压缩和语义编码,形成全局记忆;
4、基于用户提出的查询,生成初步答案,并将所述初步答案作为检索信息从数据库中检索出相关信息;
5、基于检索到的相关信息和全局记忆,生成最终答案,提供给用户。
7、对数据库中的数据进行读取和聚合,并使用基于transformer的大语言模型通过多层注意力机制将长文本压缩成较小的记忆单元,同时保留关键语义信息形成全局记忆,其中,所述数据库包括关系型数据库和非关系型数据库。
8、可选的,对数据库中的数据进行读取和聚合,并使用基于transformer的大语言模型通过多层注意力机制将长文本压缩成较小的记忆单元,同时保留关键语义信息形成全局记忆,包括:
9、引入全局记忆构建算法,用于从原始的长文本数据中构建出包含语义信息的全局记忆表示:
10、原始输入token的表示步骤:原始输入token通过transformer模型的处理,转换成查询、键和值矩阵,用于计算查询、键和值矩阵的注意力权重;
11、注意力机制的计算步骤:使用 softmax 函数计算注意力权重,并利用注意力权重获取加权的值;
12、记忆token的初始化步骤:在每个上下文窗口之后,附加预设数量的记忆token,并为记忆token初始化另一组查询、键和值的权重矩阵;
13、记忆token的更新步骤:使用与原始输入token相同的注意力机制和使用记忆token的权重矩阵,计算记忆token的更新表示;
14、记忆形成步骤:经过多层transformer处理后,原始输入token被编码成隐藏状态,并在记忆形成后,丢弃原始token的键值缓存,其中,所述隐藏状态包括原始token的隐藏状态和记忆token的隐藏状态;
15、语义压缩步骤:将长文本压缩成全局记忆;
16、全局记忆构建算法的训练步骤:包括预训练和监督微调阶段,其中,在预训练阶段,全局记忆构建算法使用长上下文数据集来学习从原始上下文中形成记忆,在监督微调阶段,全局记忆构建算法使用预设任务的数据来生成基于形成的记忆的任务线索。
17、可选的,所述全局记忆表征为:
18、;
19、式中,是隐藏状态表示中的第i个向量,是注意力机制输出的注意力权重矩阵中对应第i个词的注意力权重。
20、可选的,基于用户提出的查询,生成初步答案,并将所述初步答案作为检索信息从数据库中检索出相关信息,包括:
21、在接收到用户提出的查询后,对查询进行解析,并根据全局记忆生成初步答案草稿,并将所述初步答案草稿作为检索线索以表征用户查询背后的信息需求;
22、使用大语言模型和提示工程对生成的检索线索进行评估,若不满足需求则重新生成,以确保检索线索的准确度;
23、利用所述检索线索,在数据库中检索与用户查询最相关的信息片段,并对检索到的信息片段进行筛选和整合,以去除冗余和无关的内容,形成用于后续答案生成的证据集合。
24、可选的,基于检索到的相关信息和全局记忆,生成最终答案,提供给用户,包括:
25、利用大语言模型,将用户提出的查询、检索到的证据集合以及全局记忆融合起来,生成初始答案,并对生成的初始答案进行后处理,生成最终答案。
26、可选的,在基于检索到的相关信息和全局记忆,生成最终答案,提供给用户之前,所述基于长期记忆的检索增强生成方法还包括:
27、基于收集到的数据对基于transformer的大语言模型进行微调,以使所述基于transformer的大语言模型更好地理解用户的查询意图。
28、第二方面,本申请实施例还提供一种基于长期记忆的检索增强生成系统,包括:
29、全局记忆构建模块,用于利用大语言模型,将整个数据库的内容进行压缩和语义编码,形成全局记忆;
30、检索线索生成与信息检索模块,用于基于用户提出的查询,生成初步答案,并将所述初步答案作为检索信息从数据库中检索出相关信息;
31、答案生成模块,用于基于检索到的相关信息和全局记忆,生成最终答案,提供给用户。
32、第三方面,本申请实施例还提供一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述程序时实现上述所述基于长期记忆的检索增强生成方法的步骤。
33、第四方面,本申请实施例还提供一种存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述所述基于长期记忆的检索增强生成方法的步骤。
34、从以上技术方案可以看出,本专利技术具有以下优点:
35、本申请提供的基于长期记忆的检索增强生成方法、系统、电子设备及存储介质中,首先利用轻量级的大语言模型,将整个数据库的内容进行压缩和语义编码,形成全局记忆,随后,基于用户提出的查询,系统生成初步答案,这些答案作为检索线索从全局记忆中检索相关信息。同时,结合检索到的信息,利用重量级的大语言模型进行深度分析和答案生成,利用其强大的表达能力来优化答案的质量和准确性。而且还通过设计一套精细化的线索生成和检索策略,通过调整检索线索的详细程度和相关性,确保能够快速准确地定位到最有价值的信息。最终,结合检索到的详细证据和初步答案,生成最终的详细回答,提供给用户。具有高效性、准确性和灵活性等优点,针对需要处理大量文本数据和复杂查询的应用场景,提供了一种有效的解决方案。
本文档来自技高网...【技术保护点】
1.一种基于长期记忆的检索增强生成方法,其特征在于,包括:
2.根据权利要求1所述的基于长期记忆的检索增强生成方法,其特征在于,利用大语言模型,将整个数据库的内容进行压缩和语义编码,形成全局记忆,包括:
3.根据权利要求2所述的基于长期记忆的检索增强生成方法,其特征在于,对数据库中的数据进行读取和聚合,并使用基于Transformer的大语言模型通过多层注意力机制将长文本压缩成记忆单元,同时保留关键语义信息形成全局记忆,包括:
4.根据权利要求3所述的基于长期记忆的检索增强生成方法,其特征在于,所述全局记忆表征为:
5.根据权利要求1所述的基于长期记忆的检索增强生成方法,其特征在于,基于用户提出的查询,生成初步答案,并将所述初步答案作为检索信息从数据库中检索出相关信息,包括:
6.根据权利要求5所述的基于长期记忆的检索增强生成方法,其特征在于,基于检索到的相关信息和全局记忆,生成最终答案,提供给用户,包括:
7.根据权利要求1所述的基于长期记忆的检索增强生成方法,其特征在于,在基于检索到的相关信息和全局记忆,
8.一种基于长期记忆的检索增强生成系统,其特征在于,包括:
9.一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至7任一项所述基于长期记忆的检索增强生成方法的步骤。
10.一种存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述基于长期记忆的检索增强生成方法的步骤。
...【技术特征摘要】
1.一种基于长期记忆的检索增强生成方法,其特征在于,包括:
2.根据权利要求1所述的基于长期记忆的检索增强生成方法,其特征在于,利用大语言模型,将整个数据库的内容进行压缩和语义编码,形成全局记忆,包括:
3.根据权利要求2所述的基于长期记忆的检索增强生成方法,其特征在于,对数据库中的数据进行读取和聚合,并使用基于transformer的大语言模型通过多层注意力机制将长文本压缩成记忆单元,同时保留关键语义信息形成全局记忆,包括:
4.根据权利要求3所述的基于长期记忆的检索增强生成方法,其特征在于,所述全局记忆表征为:
5.根据权利要求1所述的基于长期记忆的检索增强生成方法,其特征在于,基于用户提出的查询,生成初步答案,并将所述初步答案作为检索信息从数据库中检索出相关信息,包括:
6.根据权...
【专利技术属性】
技术研发人员:段强,张吉臣,黄登蓉,张其来,
申请(专利权)人:山东浪潮科学研究院有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。