System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() BERT模型的训练方法、系统、计算机设备、存储介质及程序产品技术方案_技高网
当前位置: 首页 > 专利查询>苏州大学专利>正文

BERT模型的训练方法、系统、计算机设备、存储介质及程序产品技术方案

技术编号:44294563 阅读:0 留言:0更新日期:2025-02-18 20:14
本发明专利技术提供一种BERT模型的训练方法、系统、计算机设备、存储介质及程序产品,属于自然语言处理技术领域。其中方法包括利用预先构建的BERT模型以多个解码路径分别生成多个序列;将多个序列划分为正样本和负样本;利用参考模型对正样本和负样本进行采样,以构建偏好学习损失函数;构建正则惩罚项损失函数;构建掩码预测损失函数;根据偏好学习损失函数、正则惩罚项损失函数和掩码预测损失函数确定BERT模型的总损失,得到训练好的BERT模型。采用上述方案指导BERT模型学习不同解码路径对输出的影响,增强BERT模型在复杂解码空间中选择路径并生成更高质量序列的能力。

【技术实现步骤摘要】

本专利技术属于自然语言处理,尤其涉及一种bert模型的训练方法、系统、计算机设备、存储介质及程序产品。


技术介绍

1、随着大语言模型的发展,如llama、gemini、gpt-4等,人文社科等领域均发展迅速。bert模型在语言理解任务中的卓越表现早已为人所知,但近年来这些模型的发展相对缓慢,这可能是由于它们原始模型缺乏生成能力。生成任务需要模型能够在序列生成过程中进行高质量的推断,而bert模型在这方面的性能受到限制,主要原因在于其训练和推理过程之间的解码路径不匹配问题。

2、现有bert模型在生成任务中表现不佳的主要原因可以归结为模型在训练和推理过程中,序列分解格式的显著差异性。具体来说,自回归模型在语言建模时能够自然地分解为从左到右依次预测下一个标记的任务,并在推理过程中按照相同顺序依次生成序列。相比之下,bert模型在训练期间采用随机分解方法,即随机选择一部分标记并将其替换为掩码标记(例如[mask]标记),来训练模型预测这些掩盖后的标记内容。然而,在推理过程中,这些模型往往遵循某些给定的标准来确定解码路径,从完全掩盖的序列中逐步生成目标序列。这种训练-推理过程中的不一致导致了显著的性能差距。


技术实现思路

1、本专利技术针对现有技术中的不足,提供一种bert模型的训练方法、系统、计算机设备、存储介质及程序产品。

2、第一方面,本专利技术提供一种bert模型的训练方法,包括:

3、利用预先构建的bert模型以多个解码路径分别生成多个序列;</p>

4、将多个序列划分为正样本和负样本;

5、利用参考模型对正样本和负样本进行采样,以构建偏好学习损失函数;

6、构建正则惩罚项损失函数;

7、构建掩码预测损失函数;

8、根据偏好学习损失函数、正则惩罚项损失函数和掩码预测损失函数确定bert模型的总损失,得到训练好的bert模型。

9、可选地,所述将多个序列划分为正样本和负样本,包括:

10、对任意两个序列进行评分,两个序列包括第一目标序列和第二目标序列,当第一目标序列的分值大于第二目标序列的分值时,将第一目标序列作为正样本,第二目标序列作为负样本;当第一目标序列的分值小于第二目标序列的分值时,将第一目标序列作为负样本,第二目标序列作为正样本。

11、可选地,所述利用参考模型对正样本和负样本进行采样,以构建偏好学习损失函数,包括:

12、构建偏好学习损失函数表达式:

13、

14、其中,ld为偏好学习损失值;σ表示sigmoid函数;β表示控制偏好学习损失的超参数;πθ(·)表示策略模型;πref(·)表示参考模型;yp表示正样本;yn表示负样本;yobs1表示正样本中未屏蔽的部分;x1表示正样本对应的源序列;yobs2表示负样本中未屏蔽的部分;x2表示负样本对应的源序列。

15、可选地,所述构建正则惩罚项损失函数,包括:

16、构建正则惩罚项损失函数表达式:

17、

18、其中,lp为正则惩罚项损失值;πref(·)表示参考模型;πθ(·)表示策略模型;yp表示正样本;yn表示负样本;yobs1表示正样本中未屏蔽的部分;x1表示正样本对应的源序列;yobs2表示负样本中未掩码的部分;x2表示负样本对应的源序列。

19、可选地,所述构建掩码预测损失函数,包括:

20、构建掩码预测损失函数的表达式:

21、

22、其中,lm为掩码预测损失值;ymask表示在输入序列中被掩码的标记的集合;yi为ymask中单个元素,表示第i个被掩码的标记;yobs表示输入序列中未被掩码的标记的集合;x表示输入到模型中的源序列;θ表示训练过程中需要学习的权重和偏置。

23、可选地,所述根据偏好学习损失函数、正则惩罚项损失函数和掩码预测损失函数确定bert模型的总损失,得到训练好的bert模型,包括:

24、根据以下公式计算bert模型的总损失l:

25、l=λ1ld+λ2lp+lm;

26、其中,ld为偏好学习损失值;lp为正则惩罚项损失值;lm为掩码预测损失值;λ1为偏好学习损失的超参数;λ2为正则惩罚项损失的超参数。

27、第二方面,本专利技术提供一种bert模型的训练系统,包括:

28、生成模块,用于利用预先构建的bert模型以多个解码路径分别生成多个序列;

29、划分模块,用于将多个序列划分为正样本和负样本;

30、第一构建模块,用于利用参考模型对正样本和负样本进行采样,以构建偏好学习损失函数;

31、第二构建模块,用于构建正则惩罚项损失函数;

32、第三构建模块,用于构建掩码预测损失函数;

33、确定模块,用于根据偏好学习损失函数、正则惩罚项损失函数和掩码预测损失函数确定bert模型的总损失,得到训练好的bert模型。

34、第三方面,本专利技术提供一种计算机设备,包括处理器和存储器;其中,处理器执行存储器中保存的计算机程序时实现第一方面所述的bert模型的训练方法的步骤。

35、第四方面,本专利技术提供一种计算机可读存储介质,其特征在于,用于存储计算机程序;计算机程序被处理器执行时实现第一方面所述的bert模型的训练方法的步骤。

36、第五方面,本专利技术提供一种计算机程序产品,包括计算机可执行指令或计算机程序,计算机可执行指令或计算机程序被处理器执行时,实现第一方面所述的bert模型的训练方法的步骤。

37、本专利技术提供一种bert模型的训练方法、系统、计算机设备、存储介质及程序产品,其中方法包括利用预先构建的bert模型以多个解码路径分别生成多个序列;将多个序列划分为正样本和负样本;利用参考模型对正样本和负样本进行采样,以构建偏好学习损失函数;构建正则惩罚项损失函数;构建掩码预测损失函数;根据偏好学习损失函数、正则惩罚项损失函数和掩码预测损失函数确定bert模型的总损失,得到训练好的bert模型。采用上述方案指导bert模型学习不同解码路径对输出的影响,增强bert模型在复杂解码空间中选择路径并生成更高质量序列的能力。

本文档来自技高网...

【技术保护点】

1.一种BERT模型的训练方法,其特征在于,包括:

2.根据权利要求1所述的BERT模型的训练方法,其特征在于,所述将多个序列划分为正样本和负样本,包括:

3.根据权利要求1所述的BERT模型的训练方法,其特征在于,所述利用参考模型对正样本和负样本进行采样,以构建偏好学习损失函数,包括:

4.根据权利要求1所述的BERT模型的训练方法,其特征在于,所述构建正则惩罚项损失函数,包括:

5.根据权利要求1所述的BERT模型的训练方法,其特征在于,所述构建掩码预测损失函数,包括:

6.根据权利要求1所述的BERT模型的训练方法,其特征在于,所述根据偏好学习损失函数、正则惩罚项损失函数和掩码预测损失函数确定BERT模型的总损失,得到训练好的BERT模型,包括:

7.一种BERT模型的训练系统,其特征在于,包括:

8.一种计算机设备,其特征在于,包括处理器和存储器;其中,处理器执行存储器中保存的计算机程序时实现权利要求1-6任一项所述的BERT模型的训练方法的步骤。

9.一种计算机可读存储介质,其特征在于,用于存储计算机程序;计算机程序被处理器执行时实现权利要求1-6任一项所述的BERT模型的训练方法的步骤。

10.一种计算机程序产品,其特征在于,包括计算机可执行指令或计算机程序,计算机可执行指令或计算机程序被处理器执行时,实现权利要求1-6所述的BERT模型的训练方法的步骤。

...

【技术特征摘要】

1.一种bert模型的训练方法,其特征在于,包括:

2.根据权利要求1所述的bert模型的训练方法,其特征在于,所述将多个序列划分为正样本和负样本,包括:

3.根据权利要求1所述的bert模型的训练方法,其特征在于,所述利用参考模型对正样本和负样本进行采样,以构建偏好学习损失函数,包括:

4.根据权利要求1所述的bert模型的训练方法,其特征在于,所述构建正则惩罚项损失函数,包括:

5.根据权利要求1所述的bert模型的训练方法,其特征在于,所述构建掩码预测损失函数,包括:

6.根据权利要求1所述的bert模型的训练方法,其特征在于,所述根据偏好学习损失函数、正则惩罚项损失函数和掩...

【专利技术属性】
技术研发人员:肖义胜梁小波贾科航李俊涛张民
申请(专利权)人:苏州大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1