一种大语言模型的Token处理方法技术

技术编号：42526181 阅读：21 留言：0更新日期：2024-08-27 19:36

本发明专利技术公开一种大语言模型的Token处理方法，涉及人工智能领域；包括：将用户输入的问题转化为问题的Token序列，根据问题的Token序列使用推测模型进行自回归解码推理，生成推测输出Token序列，将问题的Token序列和推测输出Token序列拼接为原模型的输入Token序列，使用原模型根据输入Token序列进行一次推理，通过原模型推理产生输出Token序列，将输出Token序列与推测输出Token序列进行对比验证，如果Token序列相同，则将推测输出Token序列作为最终输出Token序列，否则在不同位置将原模型的输出Token序列替换掉相应位置的推测输出Token序列，再将替换后的Token序列输入推测模型进行自回归解码推理，重复推测和验证过程，直至对比验证的Token序列相同，将推测输出Token序列作为最终输出Token序列，根据最终输出Token序列构建用户问题的回答结果。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术公开一种方法，涉及人工智能领域，具体地说是一种大语言模型的token处理方法。

技术介绍

1、基于transformer的大语言模型，如gpt-3/4、llama，已经在各种实际应用中得到广泛采用。然而，随着模型参数越来越大，大语言模型的推理成本引起了人们的严重担忧，特别是对于延迟敏感的场景。

2、目前，大语言模型在自回归解码的推理过程中，需要按顺序解码每个输出token，而每次token的解码通常受到内存带宽的限制，导致计算效率较低，增加了计算成本。

技术实现思路

1、本专利技术针对现有技术的问题，提供一种大语言模型的token处理方法，针对大语言模型在解码文本输出token时，加速大语言模型推理过程，提高大语言模型输出token效率并降低了计算成本。

2、本专利技术提出的具体方案是：

3、本专利技术提供一种大语言模型的token处理方法，包括：

4、步骤1：将参数量较大的大语言模型作为原模型，将对应原模型的参数量较小的大语言模型作为推测模型，

5、步骤2：将用户输入的问题转化为问题的token序列，根据问题的token序列使用推测模型进行自回归解码推理，生成推测输出token序列，

6、步骤3：将问题的token序列和推测输出token序列拼接为原模型的输入token序列，使用原模型根据输入token序列进行一次推理，

7、通过原模型推理产生输出token序列，将输出token序列与推

8、步骤4：输出token序列与推测输出token序列存在不同，则在不同位置将原模型的输出token序列替换掉相应位置的推测输出token序列，再将替换后的token序列输入推测模型进行自回归解码推理，获得推测输出token序列并输入原模型，通过原模型进行一次推理获得输出token序列，再将输出token序列与推测输出token序列进行对比验证，若token序列相同，则将推测输出token序列作为最终输出token序列，否则重复步骤4，直至对比验证的token序列相同，将推测输出token序列作为最终输出token序列，

9、根据最终输出token序列构建用户问题的回答结果。

10、进一步，所述的一种大语言模型的token处理方法中步骤1中将参数量较大的llama-2-70b模型作为原模型，将对应原模型的参数量较小的llama-2-7b模型作为推测模型。

11、进一步，所述的一种大语言模型的token处理方法中步骤1：将参数量较大的llama-2-70b模型作为原模型，将对应原模型的参数量较小的llama-2-7b模型作为推测模型，

12、步骤2：使用tokenizer将用户输入的问题转化为问题的token序列，根据问题的token序列使用推测模型进行自回归解码推理，生成推测输出token序列包含k个token，其中k值是一个超参数，根据推测模型输出与原模型输出的相似度确定k值，

13、步骤3：将问题的token序列和推测输出token序列拼接为原模型的输入token序列，使用原模型根据输入token序列进行一次推理，

14、通过原模型推理产生输出token序列，将输出token序列与推测输出token序列进行对比验证，如果token序列相同，则将推测输出token序列作为最终输出token序列，否则进行步骤4，

15、步骤4：输出token序列与推测输出token序列存在不同，则在不同位置将原模型的输出token序列替换掉相应位置的推测输出token序列，再将替换后的token序列输入推测模型进行自回归解码推理，获得推测输出token序列包含k个token，将推测输出token序列输入原模型，通过原模型进行一次推理获得输出token序列，再将输出token序列与推测输出token序列进行对比验证，若token序列相同，则将推测输出token序列作为最终输出token序列，否则重复步骤4，直至对比验证的token序列相同，将推测输出token序列作为最终输出token序列，

16、根据最终输出token序列构建用户问题的回答结果。

17、进一步，所述的一种大语言模型的token处理方法中步骤2中根据推测模型输出与原模型输出的相似度确定k值，包括：若原模型生成的前i个token与推测模型生成的前i个token相同的概率比其它情况下概率值高，则将i作为k值。

18、本专利技术还提供一种大语言模型的token处理装置，包括模型选取模块、推测模型推测模块、原模型推测模块、验证模块和答案生成模块，

19、模型选取模块将参数量较大的大语言模型作为原模型，将对应原模型的参数量较小的大语言模型作为推测模型，

20、推测模型推测模块将用户输入的问题转化为问题的token序列，根据问题的token序列使用推测模型进行自回归解码推理，生成推测输出token序列，

21、原模型推测模块将问题的token序列和推测输出token序列拼接为原模型的输入token序列，使用原模型根据输入token序列进行一次推理，通过原模型推理产生输出token序列，验证模块将输出token序列与推测输出token序列进行对比验证，如果token序列相同，则将推测输出token序列作为最终输出token序列，否则存在输出token序列与推测输出token序列不同，则在不同位置将原模型的输出token序列替换掉相应位置的推测输出token序列，再将替换后的token序列输入推测模型，推测模型推测模块进行自回归解码推理，获得推测输出token序列并输入原模型，原模型推测模块通过原模型进行一次推理获得输出token序列，验证模块再将输出token序列与推测输出token序列进行对比验证，若token序列相同，则将推测输出token序列作为最终输出token序列，否则重复推测和验证过程，直至对比验证的token序列相同，将推测输出token序列作为最终输出token序列，

22、答案生成模块根据最终输出token序列构建用户问题的回答结果。

23、进一步，所述的一种大语言模型的token处理装置中模型选取模块将参数量较大的llama-2-70b模型作为原模型，将对应原模型的参数量较小的llama-2-7b模型作为推测模型。

24、进一步，所述的一种大语言模型的token处理装置中模型选取模块将参数量较大的llama-2-70b模型作为原模型，将对应原模型的参数量较小的llama-2-7b模型作为推测模型，

25、推测模型推测模块使用tokenizer将用户输入的问题转化为问题的token序列，根据问题的token序列使用推测模型进行自回归解码推理，生成推测输出tok本文档来自技高网...

【技术保护点】

1.一种大语言模型的Token处理方法，其特征是包括：

2.根据权利要求1所述的一种大语言模型的Token处理方法，其特征是步骤1中将参数量较大的Llama-2-70b模型作为原模型，将对应原模型的参数量较小的Llama-2-7b模型作为推测模型。

3.根据权利要求1或2所述的一种大语言模型的Token处理方法，其特征是步骤1：将参数量较大的Llama-2-70b模型作为原模型，将对应原模型的参数量较小的Llama-2-7b模型作为推测模型，

4.根据权利要求3所述的一种大语言模型的Token处理方法，其特征是步骤2中根据推测模型输出与原模型输出的相似度确定k值，包括：若原模型生成的前i个Token与推测模型生成的前i个Token相同的概率比其它情况下概率值高，则将i作为k值。

5.一种大语言模型的Token处理装置，其特征是包括模型选取模块、推测模型推测模块、原模型推测模块、验证模块和答案生成模块，

6.根据权利要求5所述的一种大语言模型的Token处理装置，其特征是模型选取模块将参数量较大的Llama-2-70b模型

7.根据权利要求6所述的一种大语言模型的Token处理装置，其特征是模型选取模块将参数量较大的Llama-2-70b模型作为原模型，将对应原模型的参数量较小的Llama-2-7b模型作为推测模型，

8.根据权利要求7所述的一种大语言模型的Token处理装置，其特征是推测模型推测模块根据推测模型输出与原模型输出的相似度确定k值，包括：若原模型生成的前i个Token与推测模型生成的前i个Token相同的概率比其它情况下概率值高，则将i作为k值。

...

【技术特征摘要】

1.一种大语言模型的token处理方法，其特征是包括：

2.根据权利要求1所述的一种大语言模型的token处理方法，其特征是步骤1中将参数量较大的llama-2-70b模型作为原模型，将对应原模型的参数量较小的llama-2-7b模型作为推测模型。

3.根据权利要求1或2所述的一种大语言模型的token处理方法，其特征是步骤1：将参数量较大的llama-2-70b模型作为原模型，将对应原模型的参数量较小的llama-2-7b模型作为推测模型，

4.根据权利要求3所述的一种大语言模型的token处理方法，其特征是步骤2中根据推测模型输出与原模型输出的相似度确定k值，包括：若原模型生成的前i个token与推测模型生成的前i个token相同的概率比其它情况下概率值高，则将i作为k值。

5.一种大语言模型的token处理...

【专利技术属性】
技术研发人员：仝其胜，陈其宾，姜凯，李锐，
申请(专利权)人：山东浪潮科学研究院有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人