System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本申请涉及人工智能,尤其涉及基于多级投机采样的大语言模型推理方法、装置及设备。
技术介绍
1、大型语言模型的推理通常需要使用自回归采样,自回归采样的推理过程相当缓慢,需要逐个token地进行串行解码。因此,大型语言模型的推理过程往往受制于访存速度,生成每个标记都需要将所有参数从存储单元传输到计算单元,因此内存访问带宽成为严重的瓶颈。投机采样是一种可以从根本上解码计算访存比的方案,投机采样方案的草稿模型能够使用与原始模型完全相同的采样分布。
2、然而,现有的投机采样方案仍存在效率较低的问题。
技术实现思路
1、本申请实施例的主要目的在于提出基于多级投机采样的大语言模型推理方法、装置及设备,以提高投机采样方案的效率。
2、为实现上述目的,本申请实施例的一方面提出了一种基于多级投机采样的大语言模型推理方法,所述方法包括以下步骤:
3、若与输入文本匹配的第一草稿经过修改,则将所述第一草稿输入到生成所述第一草稿的目标层级草稿模型;其中,所述目标层级草稿模型为总草稿模型中的任意一层草稿模型,所述总草稿模型包括多个依次层级相连的所述草稿模型,当前层级的所述草稿模型的输出作为下一层级的所述草稿模型的输入;
4、利用所述第一草稿当前所处层级的所述草稿模型根据所述第一草稿生成第二草稿;
5、将所述第二草稿输入到下一层级草稿模型,并判断所述下一层级草稿模型是否对所述第二草稿作出修改;
6、若所述第二草稿经过修改,则返回所述利用所述第
7、若所述第二草稿未经过修改,则返回所述将所述第二草稿输入到下一层级草稿模型,并判断所述下一层级草稿模型是否对所述第二草稿作出修改的步骤,直至所述总草稿模型中的最后层级草稿模型生成的所述第二草稿通过原始模型的评估。
8、在一些实施例中,在所述若与输入文本匹配的第一草稿经过修改,则将所述第一草稿输入到生成所述第一草稿的目标层级草稿模型之前,所述方法还包括以下步骤:
9、获取与所述输入文本匹配的所述第一草稿;
10、所述获取与所述输入文本匹配的所述第一草稿,包括以下步骤:
11、获取输入文本,并将所述输入文本进行预处理进而转化为向量数据;
12、在向量数据库中检索所述向量数据进而判断是否存在与所述输入文本匹配的检索文本;
13、当检索到所述检索文本时,将所述检索文本确定为所述第一草稿。
14、在一些实施例中,所述在向量数据库中检索所述向量数据进而判断是否存在与所述输入文本匹配的检索文本,包括以下步骤:
15、在向量数据库中检索是否存在与所述向量数据的余弦相似度达到预设阈值的文本;或者,在向量数据库中通过匹配模型检索是否存在与所述向量数据匹配的文本;
16、若存在,则将检索到的所述文本判断为与所述输入文本匹配的所述检索文本。
17、在一些实施例中,在所述利用所述第一草稿当前所处层级的所述草稿模型根据所述第一草稿生成第二草稿之前,所述方法还包括以下步骤:
18、若所述第一草稿未经过修改,则将所述第一草稿输入到所述总草稿模型中的第一层级草稿模型。
19、在一些实施例中,所述方法还包括以下步骤:
20、将所述输入文本、各个层级的所述草稿模型对输入的草稿的修改记录和各个层级的所述草稿模型输出结果存储到向量数据库。
21、在一些实施例中,所述方法还包括以下步骤:
22、在所述向量数据库中查找与当前所述输入文本匹配的所述第一草稿。
23、在一些实施例中,所述方法还包括以下步骤:
24、将通过所述原始模型评估的所述第二草稿对应的向量转换为目标文本;
25、输出所述目标文本。
26、为实现上述目的,本申请实施例的另一方面提出了一种基于多级投机采样的大语言模型推理装置,所述装置包括:
27、跳跃输入单元,用于若与输入文本匹配的第一草稿经过修改,则将所述第一草稿输入到生成所述第一草稿的目标层级草稿模型;其中,所述目标层级草稿模型为总草稿模型中的任意一层草稿模型,所述总草稿模型包括多个依次层级相连的所述草稿模型,当前层级的所述草稿模型的输出作为下一层级的所述草稿模型的输入;
28、草稿生成单元,用于利用所述第一草稿当前所处层级的所述草稿模型根据所述第一草稿生成第二草稿;
29、草稿评估单元,用于将所述第二草稿输入到下一层级草稿模型,并判断所述下一层级草稿模型是否对所述第二草稿作出修改;
30、第一推理单元,用于若所述第二草稿经过修改,则返回所述利用所述第一草稿当前所处层级的所述草稿模型根据所述第一草稿生成第二草稿的步骤,直至所述总草稿模型中的最后层级草稿模型生成的所述第二草稿通过原始模型的评估;
31、第二推理单元,用于若所述第二草稿未经过修改,则返回所述将所述第二草稿输入到下一层级草稿模型,并判断所述下一层级草稿模型是否对所述第二草稿作出修改的步骤,直至所述总草稿模型中的最后层级草稿模型生成的所述第二草稿通过原始模型的评估。
32、为实现上述目的,本申请实施例的另一方面提出了一种电子设备,所述电子设备包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述的一种基于多级投机采样的大语言模型推理方法。
33、为实现上述目的,本申请实施例的另一方面提出了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述的一种基于多级投机采样的大语言模型推理方法。
34、本申请实施例至少包括以下有益效果:
35、本申请通过若与输入文本匹配的第一草稿经过修改,则将第一草稿输入到生成第一草稿的目标层级草稿模型;其中,目标层级草稿模型为总草稿模型中的任意一层草稿模型,总草稿模型包括多个依次层级相连的草稿模型,当前层级的草稿模型的输出作为下一层级的草稿模型的输入;利用第一草稿当前所处层级的草稿模型根据第一草稿生成第二草稿;将第二草稿输入到下一层级草稿模型,并判断下一层级草稿模型是否对第二草稿作出修改;若第二草稿经过修改,则返回利用第一草稿当前所处层级的草稿模型根据第一草稿生成第二草稿的步骤,直至总草稿模型中的最后层级草稿模型生成的第二草稿通过原始模型的评估;若第二草稿未经过修改,则返回将第二草稿输入到下一层级草稿模型,并判断下一层级草稿模型是否对第二草稿作出修改的步骤,直至总草稿模型中的最后层级草稿模型生成的第二草稿通过原始模型的评估。本申请对于经过修改的第一草稿,直接跳跃到生成第一草稿的目标层级草稿模型进行推理,无需从第一层级草稿模型开始逐级推理,提高了推理效率;而且,通过多个层级的草稿模型增强最终草稿的生成质量,即利用下本文档来自技高网...
【技术保护点】
1.一种基于多级投机采样的大语言模型推理方法,其特征在于,所述方法包括以下步骤:
2.根据权利要求1所述的一种基于多级投机采样的大语言模型推理方法,其特征在于,在所述若与输入文本匹配的第一草稿经过修改,则将所述第一草稿输入到生成所述第一草稿的目标层级草稿模型之前,所述方法还包括以下步骤:
3.根据权利要求2所述的一种基于多级投机采样的大语言模型推理方法,其特征在于,所述在向量数据库中检索所述向量数据进而判断是否存在与所述输入文本匹配的检索文本,包括以下步骤:
4.根据权利要求1所述的一种基于多级投机采样的大语言模型推理方法,其特征在于,在所述利用所述第一草稿当前所处层级的所述草稿模型根据所述第一草稿生成第二草稿之前,所述方法还包括以下步骤:
5.根据权利要求1所述的一种基于多级投机采样的大语言模型推理方法,其特征在于,所述方法还包括以下步骤:
6.根据权利要求5所述的一种基于多级投机采样的大语言模型推理方法,其特征在于,所述方法还包括以下步骤:
7.根据权利要求1至6任一项所述的一种基于多级投机采样的大语言模
8.一种基于多级投机采样的大语言模型推理装置,其特征在于,所述装置包括:
9.一种电子设备,其特征在于,所述电子设备包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现如权利要求1至7任一项所述的一种基于多级投机采样的大语言模型推理方法。
10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7中任一项所述的一种基于多级投机采样的大语言模型推理方法。
...【技术特征摘要】
1.一种基于多级投机采样的大语言模型推理方法,其特征在于,所述方法包括以下步骤:
2.根据权利要求1所述的一种基于多级投机采样的大语言模型推理方法,其特征在于,在所述若与输入文本匹配的第一草稿经过修改,则将所述第一草稿输入到生成所述第一草稿的目标层级草稿模型之前,所述方法还包括以下步骤:
3.根据权利要求2所述的一种基于多级投机采样的大语言模型推理方法,其特征在于,所述在向量数据库中检索所述向量数据进而判断是否存在与所述输入文本匹配的检索文本,包括以下步骤:
4.根据权利要求1所述的一种基于多级投机采样的大语言模型推理方法,其特征在于,在所述利用所述第一草稿当前所处层级的所述草稿模型根据所述第一草稿生成第二草稿之前,所述方法还包括以下步骤:
5.根据权利要求1所述的一种基于多级投机采样的大语言模型推理方法,其特...
【专利技术属性】
技术研发人员:刘欣璋,王超,宋双永,李永翔,何忠江,
申请(专利权)人:中电信人工智能科技北京有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。