语言模型的训练方法、装置和非易失性存储介质制造方法及图纸

技术编号：45026093 阅读：4 留言：0更新日期：2025-04-18 17:06

本发明专利技术公开了一种语言模型的训练方法、装置和非易失性存储介质。其中，该方法包括：将多个初始序列数据分别输入至预设的目标稀疏预测器中，输出多个初始序列数据各自对应的预测参数子集，预测参数子集中包括预设的原始语言模型中的多个层级各自对应的预测参数子集，原始语言模型用于生成文本；基于多个初始序列数据各自对应的预测参数子集，确定目标参数子集；基于预设的训练样本，调整预设的原始语言模型中对应的目标参数子集中包括的参数，得到目标语言模型，其中，训练样本中包括样本文本和与样本文本对应的生成文本。本发明专利技术解决了目前在进行语言模型训练的时候因为存在参数数量较多导致模型训练过程耗时长，效率较低的技术问题。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及大模型，具体而言，涉及一种语言模型的训练方法、装置和非易失性存储介质。

技术介绍

1、大型语言模型中加大模型的参数可以对模型的上下文学习能力有很好的提升，常常广泛应用于文本生成、分类等领域。然而，因为参数的数量较多，导致它们在训练推理时成本非常昂贵，效率较低。

2、针对上述的问题，目前尚未提出有效的解决方案。

技术实现思路

1、本专利技术实施例提供了一种语言模型的训练方法、装置和非易失性存储介质，以至少解决目前在进行语言模型训练的时候因为存在参数数量较多导致模型训练过程耗时长，效率较低的技术问题。

2、根据本专利技术实施例的一个方面，提供了一种语言模型的训练方法，包括：将多个初始序列数据分别输入至预设的目标稀疏预测器中，输出多个初始序列数据各自对应的预测参数子集，其中，预测参数子集中包括预设的原始语言模型中的多个层级各自对应的预测参数子集，原始语言模型用于生成文本；基于多个初始序列数据各自对应的预测参数子集，确定目标参数子集；基于预设的训练样本，调整预设的原始语言模型中对应的目标参数子集中包括的参数，得到目标语言模型，其中，训练样本中包括样本文本和与样本文本对应的生成文本。

3、可选地，将多个初始序列数据分别输入至预设的目标稀疏预测器中，输出多个初始序列数据各自对应的预测参数子集，包括：获取多个初始文本；将多个初始文本输入至原始语言模型中的多个层级，输出多个初始文本各自对应的多个层级的输出数据，其中，多个层级中包括感知机层和注意力机

4、可选地，在将多个初始序列数据分别输入至预设的目标稀疏预测器中，输出多个初始序列数据各自对应的预测参数子集之前，包括：获取训练文本；从训练文本中提取文本特征；基于文本特征和预设的多个样本参数子集，对预设的原始稀疏训练器进行训练，得到目标稀疏预测器。

5、可选地，基于多个初始序列数据各自对应的预测参数子集，确定目标参数子集，包括：确定多个初始序列文本各自对应的预测参数子集中参数各自对应的出现概率；根据出现概率超过预设阈值的参数，确定目标参数子集。

6、可选地，将多个初始序列数据分别输入至预设的目标稀疏预测器中，输出多个初始序列数据各自对应的预测参数子集，还包括：将初始序列数据分别输入至目标稀疏预测器和预设的异步预测器中，输出多个初始序列数据各自对应的预测参数子集，其中，异步预测器用于预测目标稀疏预测器预测的层级对应的下一层级的预测参数子集。

7、可选地，目标稀疏预测器基于隐马尔可夫模型和经典维特比算法设置。

8、根据本专利技术实施例的另一方面，还提供了一种语言模型的训练装置，包括：输入模块，用于将多个初始序列数据分别输入至预设的目标稀疏预测器中，输出多个初始序列数据各自对应的预测参数子集，其中，预测参数子集中包括预设的原始语言模型中的多个层级各自对应的预测参数子集，原始语言模型用于生成文本；确定模块，用于基于多个初始序列数据各自对应的预测参数子集，确定目标参数子集；调整模块，用于基于预设的训练样本，调整预设的原始语言模型中对应的目标参数子集中包括的参数，得到目标语言模型，其中，训练样本中包括样本文本和与样本文本对应的生成文本。

9、根据本专利技术实施例的又一方面，还提供了一种非易失性存储介质，非易失性存储介质包括存储的程序，其中，在程序运行时控制非易失性存储介质所在设备执行上述中任意一项语言模型的训练方法。

10、根据本专利技术实施例的再一方面，还提供了一种计算机设备，计算机设备包括处理器，处理器用于运行程序，其中，程序运行时执行上述中任意一项语言模型的训练方法。

11、根据本专利技术实施例的再一方面，还提供了一种计算机程序产品，包括计算机程序，计算机程序被处理器执行时实现上述中任意一项语言模型的训练方法。

12、在本专利技术实施例中，采用语言模型的训练方法的方式，通过将多个初始序列数据分别输入至预设的目标稀疏预测器中，输出多个初始序列数据各自对应的预测参数子集，其中，预测参数子集中包括预设的原始语言模型中的多个层级各自对应的预测参数子集，原始语言模型用于生成文本；基于多个初始序列数据各自对应的预测参数子集，确定目标参数子集；基于预设的训练样本，调整预设的原始语言模型中对应的目标参数子集中包括的参数，得到目标语言模型，其中，训练样本中包括样本文本和与样本文本对应的生成文本，达到了选择合适的参数来进行模型训练的目的，从而实现了提高模型训练效率的技术效果，进而解决了目前在进行语言模型训练的时候因为存在参数数量较多导致模型训练过程耗时长，效率较低的技术问题。

本文档来自技高网...

【技术保护点】

1.一种语言模型的训练方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述将多个初始序列数据分别输入至预设的目标稀疏预测器中，输出所述多个初始序列数据各自对应的预测参数子集，包括：

3.根据权利要求1所述的方法，其特征在于，在所述将多个初始序列数据分别输入至预设的目标稀疏预测器中，输出所述多个初始序列数据各自对应的预测参数子集之前，包括：

4.根据权利要求1所述的方法，其特征在于，所述基于所述多个初始序列数据各自对应的预测参数子集，确定目标参数子集，包括：

5.根据权利要求1所述的方法，其特征在于，所述将多个初始序列数据分别输入至预设的目标稀疏预测器中，输出所述多个初始序列数据各自对应的预测参数子集，还包括：

6.根据权利要求1至5任意一项所述的方法，其特征在于，所述目标稀疏预测器基于隐马尔可夫模型和经典维特比算法设置。

7.一种语言模型的训练装置，其特征在于，包括：

8.一种非易失性存储介质，其特征在于，所述非易失性存储介质包括存储的程序，其中，在所述程序运行时控制所述非易失

9.一种计算机设备，其特征在于，包括：存储器和处理器，

10.一种计算机程序产品，包括计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至6中任意一项所述语言模型的训练方法。

...

【技术特征摘要】

1.一种语言模型的训练方法，其特征在于，包括：

4.根据权利要求1所述的方法，其特征在于，所述基于所述多个初始序列数据各自对应的预测参数子集，确定目标参数子集，包括：

5.根据权利要求1所述的方法，其特征在于，所述将多个初始序列数据分别输入至预设的目标稀疏预测器中，输出所述多个...

【专利技术属性】
技术研发人员：高香香，谢巍盛，徐小龙，
申请(专利权)人：天翼电子商务有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人