System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 大语言模型的训练方法、问答方法、设备、介质及产品技术_技高网

大语言模型的训练方法、问答方法、设备、介质及产品技术

技术编号:43061230 阅读:6 留言:0更新日期:2024-10-22 14:40
本申请提供了一种大语言模型的训练方法、问答方法、设备、介质及产品,涉及人工智能技术领域,训练方法包括:获取长文本训练数据,长文本训练数据的序列长度大于预训练的大语言模型的输入文本序列的最大长度;增大预训练的大语言模型的旋转位置编码的旋转角底数,得到修改后的预训练的大语言模型;利用长文本训练数据,对修改后的预训练的大语言模型进行训练,得到训练完成的大语言模型。本实施例中,通过获取长文本训练数据以及增大旋转位置编码的旋转角底数,对预训练的大语言模型进行训练,实现输入文本序列的长度扩增,使训练完成的大语言模型可以处理长文本序列,提升大语言模型在长文本依赖和多文档对比依赖的问题上的回答完整性和准确性。

【技术实现步骤摘要】

本申请涉及人工智能,尤其涉及一种大语言模型的训练方法、问答方法、设备、介质及产品


技术介绍

1、检索增强生成(retrieval-augmented generation,rag)技术是大语言模型的一种非常广泛的应用方案,通过检索召回相关的资料,然后按照预设的指令进行拼装,输入给大语言模型进行理解,最终回答用户的问题,常用于各种知识问答助手。相比于大语言模型直接回答,rag方式的回答利用了搜索的知识,可以保证知识的时效性,并且减少了大语言模型自我编造导致结果不准确的问题。

2、相关技术中的rag方案是将收集到的文档按照特定分块方式拆分成多个文本块(chunk),并存入向量库、搜索引擎库(例如,elasticsearch库)等数据库中,当获取到用户提出的问题之后,通过多个库的并行查询分别检索到最相关的若干个文本块,调用排序模型对多路召回的文本块进行排序,将排序靠前的文本块输入大语言模型中,基于大语言模型的推理得到问题的答案。然而,由于输入大语言模型的文本序列长度是有限制的,导致需要长文档的总结或者需要多文档进行对比总结才能回答的问题推理效果不佳。


技术实现思路

1、本申请实施例提供了一种大语言模型的训练方法、问答方法、设备、介质及产品,以实现扩充输入大语言模型的最大文本序列长度,提升大语言模型在长文本依赖和多文档对比依赖的问题上的回答完整性和准确性。

2、第一方面,本申请实施例提供了一种大语言模型的训练方法,包括:获取长文本训练数据,长文本训练数据的序列长度大于预训练的大语言模型的输入文本序列的最大长度;增大预训练的大语言模型的旋转位置编码的旋转角底数,得到修改后的预训练的大语言模型;利用长文本训练数据,对修改后的预训练的大语言模型进行训练,得到训练完成的大语言模型。

3、第二方面,本申请实施例提供了一种基于大语言模型的问答方法,包括:获取问题信息和任务指令,查询与问题信息相关的多个文本块;将问题信息、任务指令和多个文本块进行拼接,得到拼接文本;拼接文本的序列长度大于预训练的大语言模型的输入文本序列的最大长度;将拼接文本输入训练完成的大语言模型,得到训练完成的大语言模型输出的回复信息;其中,训练完成的大语言模型是利用本申请实施例中的训练方法训练得到的。

4、第三方面,本申请实施例提供了一种电子设备,包括存储器、处理器及存储在存储器上的计算机程序,处理器在执行计算机程序时实现上述任一项的方法。

5、第四方面,本申请实施例提供了一种计算机可读存储介质,计算机可读存储介质内存储有计算机程序,计算机程序被处理器执行时实现上述任一项的方法。

6、第五方面,本申请实施例提供了一种计算机程序产品,计算机程序产品包括计算机程序,计算机程序被处理器执行时实现上述任一项的方法。

7、与现有技术相比,本申请具有如下优点:

8、本申请提供了一种大语言模型的训练方法、问答方法、设备、介质及产品,获取长文本训练数据,长文本训练数据的序列长度大于预训练的大语言模型的输入文本序列的最大长度;增大预训练的大语言模型的旋转位置编码的旋转角底数,得到修改后的预训练的大语言模型;利用长文本训练数据,对修改后的预训练的大语言模型进行训练,得到训练完成的大语言模型。本实施例中,通过获取长文本训练数据以及增大旋转位置编码的旋转角底数,对预训练的大语言模型进行训练,由于旋转位置编码通过数学变换来生成位置编码向量,增大旋转位置编码的旋转角底数,可以改变数学变换的方式,进而影响位置编码向量的生成,使得训练完成的大语言模型在处理更长的序列时,仍然能够有效地捕获到位置信息,从而允许大语言模型处理更长的输入文本序列,实现了输入文本序列的长度扩增,提升大语言模型在长文本依赖和多文档对比依赖的问题上的回答完整性和准确性。

9、上述说明仅是本申请技术方案的概述,为了能够更清楚了解本申请的技术手段,可依照说明书的内容予以实施,并且为了让本申请的上述和其他目的、特征和优点能够更明显易懂,以下特举本申请的具体实施方式。

本文档来自技高网...

【技术保护点】

1.一种大语言模型的训练方法,其特征在于,包括:

2.根据权利要求1所述的方法,其特征在于,所述方法还包括:

3.根据权利要求2所述的方法,其特征在于,所述方法还包括:

4.一种基于大语言模型的问答方法,其特征在于,包括:

5.根据权利要求4所述的方法,其特征在于,所述将所述问题信息、所述任务指令和所述多个文本块进行拼接,得到拼接文本,包括:

6.根据权利要求5所述的方法,其特征在于,所述将所述多个文本块按照与所述问题信息的相关性得分进行排序,将排序后的多个文本块添加到所述任务指令和所述问题信息之间,得到拼接文本,包括:

7.根据权利要求4-6任一项所述的方法,其特征在于,在将所述问题信息、所述任务指令和所述多个文本块进行拼接,得到拼接文本之后,所述方法还包括:

8.一种电子设备,其特征在于,所述电子设备包括存储器、处理器及存储在存储器上的计算机程序,所述处理器在执行所述计算机程序时实现权利要求1-7中任一项所述的方法。

9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现权利要求1-7中任一项所述的方法。

10.一种计算机程序产品,其特征在于,所述计算机程序产品包括计算机程序,所述计算机程序被处理器执行时实现权利要求1-7中任一项所述的方法。

...

【技术特征摘要】

1.一种大语言模型的训练方法,其特征在于,包括:

2.根据权利要求1所述的方法,其特征在于,所述方法还包括:

3.根据权利要求2所述的方法,其特征在于,所述方法还包括:

4.一种基于大语言模型的问答方法,其特征在于,包括:

5.根据权利要求4所述的方法,其特征在于,所述将所述问题信息、所述任务指令和所述多个文本块进行拼接,得到拼接文本,包括:

6.根据权利要求5所述的方法,其特征在于,所述将所述多个文本块按照与所述问题信息的相关性得分进行排序,将排序后的多个文本块添加到所述任务指令和所述问题信息之间,得到拼接文本,包括:

7.根据权利要求...

【专利技术属性】
技术研发人员:冯文锋张跃伟曾震宇
申请(专利权)人:阿里云飞天杭州云计算技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1