一种生成式模型的训练方法及装置制造方法及图纸

技术编号：42073173 阅读：16 留言：0更新日期：2024-07-19 16:53

申请实施例公开了一种生成式模型的训练方法及装置，涉及人工智能技术领域。主要技术方案包括：获取包括多个第一训练语料和第二训练语料的训练数据；基于所述第一训练语料，进行从第一语言模型到第二语言模型的知识蒸馏，所述第一语言模型为大语言模型；基于所述第二训练语料，进行从所述知识蒸馏得到的第二语言模型到第三语言模型的知识蒸馏，所述第三语言模型为生成式模型；其中，所述第一语言模型、第二语言模型和第三语言模型的规模依次递减。本申请能够在保留大语言模型能力的同时，减小生成式模型的参数规模，从而降低对计算资源的消耗，提高响应速度。

全部详细技术资料下载

【技术实现步骤摘要】

本申请涉及人工智能，特别是涉及一种生成式模型的训练方法及装置。

技术介绍

1、大型语言模型(llm，large language model)，是指利用大量文本数据训练的深度学习模型，可以生成自然语言文本或理解语言文本的含义。大语言模型提出之后，在各项任务中展示出更好的性能，大语言模型通常能够更好地捕捉数据中的复杂关系，从而提升模型的性能。另外，大语言模型通常具有更强的泛化能力，能够更好地适应新的数据和情境，从而提高模型的实用性和稳定性。由于模型能力提升和参数量的增加，它能够学习到更抽象、更深层次的特征和表示，从而帮助模型更好地理解数据背后的规律和含义。基于大语言模型的这些优势，利用大语言模型实现的生成式模型得到了广泛的应用和发展，例如，文生文、文生图、文生视频等生成式模型被广泛地应用于智能问答、机器翻译、摘要生成、图像创作等等领域。

2、然而，利用大语言模型直接进行线上推理和使用是非常消耗计算资源的，同时线上用户响应时效比较慢。因此，需要考虑如何在保留大语言模型能力的同时，又要减小生成式模型的参数规模，从而降低对计算资源的消耗，提高响应速度。

技术实现思路

1、有鉴于此，本申请提供了一种生成式模型的训练方法及装置，以便于在保留大语言模型能力的同时，减小生成式模型的参数规模，从而降低对计算资源的消耗，提高响应速度。

2、本申请提供了如下方案：

3、第一方面，提供了一种生成式模型的训练方法，所述方法包括：

4、获取包括多个第一训练语料和第二训练语料的训练数据；

5、基于所述第一训练语料，进行从第一语言模型到第二语言模型的知识蒸馏，所述第一语言模型为大语言模型；

6、基于所述第二训练语料，进行从所述知识蒸馏得到的第二语言模型到第三语言模型的知识蒸馏，所述第三语言模型为生成式模型；

7、其中，所述第一语言模型、第二语言模型和第三语言模型的规模依次递减。

8、根据本申请实施例中一可实现的方式，所述第一训练语料包括第一文本样本；

9、基于所述第一训练语料，进行从第一语言模型到第二语言模型的知识蒸馏包括：

10、将所述第一文本样本输入第一语言模型，得到所述第一语言模型针对所述第一文本样本的第一预测结果；

11、将所述第一文本样本输入第二语言模型，得到所述第二语言模型针对所述第一文本样本的第二预测结果；

12、基于第一训练目标对应的第一损失函数，对所述第二语言模型的模型参数进行优化，所述第一训练目标包括：最小化所述第一预测结果与第二预测结果之间的差异。

13、根据本申请实施例中一可实现的方式，所述第一损失函数采用所述第一预测结果所对应概率分布与所述第二预测结果所对应概率分布之间的反向kl散度。

14、根据本申请实施例中一可实现的方式，所述第二训练语料包括多个第二文本样本和多个第三文本样本；

15、基于所述训练数据，进行从所述知识蒸馏得到的第二语言模型到第三语言模型的知识蒸馏包括：

16、将所述第三文本样本输入第二语言模型，得到所述第二语言模型针对所述第三文本样本的第三预测结果；

17、将所述第三文本样本输入第三语言模型，得到所述第三语言模型针对所述第三文本样本的第四预测结果；

18、将所述第二文本样本输入第三语言模型，得到所述第三语言模型针对所述第二文本样本的第五预测结果；

19、基于第二损失函数，对所述第三语言模型的模型参数进行优化，所述第二损失函数是基于第三损失函数和第二训练目标对应的第四损失函数得到的，所述第二训练目标包括：最小化所述第三预测结果与第四预测结果之间的差异，所述第三损失函数包括所述第三语言模型的生成式训练任务对应的损失函数。

20、根据本申请实施例中一可实现的方式，所述第四损失函数采用第三预测结果所对应概率分布与第四预测结果所对应概率分布之间的反向kl散度。

21、根据本申请实施例中一可实现的方式，所述生成式训练任务包括：因果语言建模clm任务；将所述第二文本样本输入第三语言模型，得到所述第三语言模型针对所述第二文本样本的第五预测结果包括：将所述第二文本样本中的前n个文本单元token输入所述第三语言模型，得到所述第三语言模型对所述第二文本样本中第n+1个token的预测结果，所述n为小于l的正整数，所述l为所述第二文本样本的长度；或者，

22、所述生成式训练任务包括：掩码语言建模mlm任务；所述将所述第二文本样本输入第三语言模型，得到所述第三语言模型针对所述第二文本样本的第五预测结果包括：将所述第二文本样本中的部分文本单元token进行掩码后输入所述第三语言模型，得到所述第三语言模型对被掩码token的预测结果；或者，

23、所述生成式训练任务包括翻译任务；所述第二训练语料还包括所述第二文本样本对应的另一语种的第四文本样本；将所述第二文本样本输入第三语言模型，得到所述第三语言模型针对所述第二文本样本的第五预测结果包括：将所述第二文本样本输入第三语言模型，翻译到所述另一语种得到第一翻译结果；或者，

24、所述生成式训练任务包括反向翻译任务；所述第二训练样本还包括所述第二文本样本对应的另一语种的第四文本样本；将所述第二文本样本输入第三语言模型，得到所述第三语言模型针对所述第二文本样本的第五预测结果包括：将所述第二文本样本输入第三语言模型，翻译到所述另一语种得到第一翻译结果，将所述第一翻译结果再输入第三语言模型，翻译回所述第二文本样本所对应语种，得到第二翻译结果。

25、根据本申请实施例中一可实现的方式，所述训练数据中包括多个语种对应的第一训练语料和第二训练语料。

26、根据本申请实施例中一可实现的方式，从所述训练数据采样属于相同语系的第一训练语料作为一个批batch，用以进行从第一语言模型到第二语言模型的知识蒸馏；

27、从所述训练数据采样属于相同语系的第二训练语料作为一个batch，用以进行从第二语言模型到第三语言模型的知识蒸馏。

28、根据本申请实施例中一可实现的方式，所述第二文本样本对应的语种为所述第一语言模型擅长的语种。

29、第二方面，提供了一种翻译模型的训练方法，所述方法包括：

30、获取包括第一训练语料和第二训练语料的训练数据，所述第一训练语料和第二训练语料分别包括多个语种对应的文本样本；

31、基于所述第一训练语料，进行从第一语言模型到第二语言模型的知识蒸馏，所述第一语言模型为大语言模型；

32、基于所述第二训练语料，进行从所述知识蒸馏得到的第二语言模型到第三语言模型的知识蒸馏，所述第三语言模型为翻译模型；

33、其中，所述第一语言模型、第二语言模型和第三语言模型的规模依次递减。

34、第三方面，提供了一种生成式模型的训练装置，所述装置包括：

35、样本获取单元，被配置为获取包本文档来自技高网...

【技术保护点】

1.一种生成式模型的训练方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述第一训练语料包括第一文本样本；基于所述第一训练语料，进行从第一语言模型到第二语言模型的知识蒸馏包括：

3.根据权利要求2所述的方法，其特征在于，所述第一损失函数采用所述第一预测结果所对应概率分布与所述第二预测结果所对应概率分布之间的反向KL散度。

4.根据权利要求1所述的方法，其特征在于，所述第二训练语料包括多个第二文本样本和多个第三文本样本；

5.根据权利要求4所述的方法，其特征在于，所述第四损失函数采用第三预测结果所对应概率分布与第四预测结果所对应概率分布之间的反向KL散度。

6.根据权利要求4所述的方法，其特征在于，所述生成式训练任务包括：因果语言建模CLM任务；将所述第二文本样本输入第三语言模型，得到所述第三语言模型针对所述第二文本样本的第五预测结果包括：将所述第二文本样本中的前n个文本单元Token输入所述第三语言模型，得到所述第三语言模型对所述第二文本样本中第n+1个Token的预测结果，所述n为小于L的正

7.根据权利要求1至6中任一项所述的方法，其特征在于，所述训练数据中包括多个语种对应的第一训练语料和第二训练语料。

8.根据权利要求7所述的方法，其特征在于，从所述训练数据采样属于相同语系的第一训练语料作为一个批Batch，用以进行从第一语言模型到第二语言模型的知识蒸馏；

9.根据权利要求6所述的方法，其特征在于，所述第二文本样本对应的语种为所述第一语言模型擅长的语种。

10.一种翻译模型的训练方法，其特征在于，所述方法包括：

11.一种生成式模型的训练装置，其特征在于，所述装置包括：

12.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现权利要求1至10中任一项所述的方法的步骤。

13.一种电子设备，其特征在于，包括：

14.一种计算机程序产品，包括计算机程序，其特征在于，该计算机程序被处理器执行时实现权利要求1至10中任一项所述方法的步骤。

...

【技术特征摘要】

1.一种生成式模型的训练方法，其特征在于，所述方法包括：

3.根据权利要求2所述的方法，其特征在于，所述第一损失函数采用所述第一预测结果所对应概率分布与所述第二预测结果所对应概率分布之间的反向kl散度。

4.根据权利要求1所述的方法，其特征在于，所述第二训练语料包括多个第二文本样本和多个第三文本样本；

5.根据权利要求4所述的方法，其特征在于，所述第四损失函数采用第三预测结果所对应概率分布与第四预测结果所对应概率分布之间的反向kl散度。

6.根据权利要求4所述的方法，其特征在于，所述生成式训练任务包括：因果语言建模clm任务；将所述第二文本样本输入第三语言模型，得到所述第三语言模型针对所述第二文本样本的第五预测结果包括：将所述第二文本样本中的前n个文本单元token输入所述第三语言模型，得到所述第三语言模型对所述第二文本样本中第n+1个toke...

【专利技术属性】
技术研发人员：张涛林，周翔，凯文·吕·卡崔拉，黄龙涛，薛晖，
申请(专利权)人：阿里巴巴中国有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人