System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 大模型优化方法、装置及介质制造方法及图纸_技高网

大模型优化方法、装置及介质制造方法及图纸

技术编号:44718487 阅读:13 留言:0更新日期:2025-03-21 17:47
本公开提供一种大模型优化方法、装置及介质,涉及计算机技术领域,所述方法包括:获取基础大模型底座,基础大模型底座包括基础大模型和对基础大模型的输出进行奖励的基础奖励模型;使用目标领域多个专业场景的优质样本组成泛化数据,对基础大模型进行泛化训练,以获得目标领域的泛化大模型;使用目标领域每个专业场景的优质样本和非优质样本组成专业数据,对基础奖励模型和泛化大模型进行垂直训练,以获得目标领域每个专业场景的特生大模型;将特生大模型各自部署至目标领域的各个专业场景中进行应用。本公开采用元学习的思想提升大模型的泛化能力,加入奖励模型增加垂直训练时的可用样本量,避免优质样本量较少带来的训练不平衡问题。

【技术实现步骤摘要】

本公开至少涉及计算机,尤其涉及一种大模型优化方法、大模型优化装置以及计算机可读存储介质。


技术介绍

1、目前大模型的开发和应用受到了广泛关注。大模型通过通用数据集训练,能够理解和生成人类语言,提供决策支持,优化业务流程,从而在多个行业中发挥重要作用。然而,尽管现有的大模型智能助手在自然语言处理、图像识别、数据分析等方面取得了显著成就,但仍面临一些挑战和局限性。

2、例如,某些目标领域具有多个专业场景,期望通过训练获得在目标领域中能够泛化应用的模型,同时可以基于泛化模型改进获得专业场景的特生模型,而多个专业场景可能存在数据不平衡性,即某些偏好类别样本较少,采用传统的模型训练手段,可能会导致这些专业场景的模型表现性能差。因此,需要设计机制来处理这种不平衡,以防止模型偏向样本量大的类别。


技术实现思路

1、本公开所要解决的技术问题是针对上述不足,提供一种大模型优化方法、大模型优化装置以及计算机可读存储介质,以解决某些专业场景优质样本量较少带来的训练不平衡的问题。

2、第一方面,本公开提供一种大模型优化方法,所述方法包括:

3、获取基础大模型底座,基础大模型底座包括基础大模型和对基础大模型的输出进行奖励的基础奖励模型;

4、使用目标领域多个专业场景的优质样本组成泛化数据,对基础大模型进行泛化训练,以获得目标领域的泛化大模型;

5、使用目标领域每个专业场景的优质样本和非优质样本组成专业数据,对基础奖励模型和泛化大模型进行垂直训练,以获得目标领域每个专业场景的特生大模型;

6、将特生大模型各自部署至目标领域的各个专业场景中进行应用。

7、进一步地,获取基础大模型底座,基础大模型底座包括基础大模型和对基础大模型的输出进行奖励的基础奖励模型,具体包括:

8、获取通用领域的通用数据,通用数据至少包括第一用户问题;

9、采用通用大模型作为基础大模型,将第一用户问题输入基础大模型,以使基础大模型输出第一输出回答;

10、将第一输出回答和对应的第一用户问题输入原始奖励模型,以使原始奖励模型输出对第一输出回答的第一预测奖励;

11、获取对第一输出回答的第一真实奖励,获取第一预测奖励与第一真实奖励的第一差值;

12、根据第一差值优化原始奖励模型的参数,以获得基础奖励模型。

13、进一步地,所述方法还包括:

14、获取目标领域多个专业场景的目标数据,

15、目标数据包括第二用户问题、与第二用户问题对应的第二真实回答和使用第二真实回答回答对应的第二用户问题在每个专业场景中的第二真实奖励,

16、第二真实奖励通过采集每个专业场景中的用户对使用第二真实回答回答对应的第二用户问题的评分或选择频次获得。

17、进一步地,使用目标领域多个专业场景的优质样本组成泛化数据,对基础大模型进行泛化训练,以获得目标领域的泛化大模型,具体包括:

18、从第二真实奖励值高于第一阈值的目标数据中,获取第二用户问题和对应的第二真实回答作为泛化数据;

19、将泛化数据中的第二用户问题输入基础大模型,以使基础大模型输出第二输出回答;

20、根据第二输出回答与第二真实回答的损失值优化基础大模型,以获得目标领域的泛化大模型。

21、进一步地,使用目标领域每个专业场景的优质样本和非优质样本组成专业数据,对基础奖励模型和泛化大模型进行垂直训练,以获得目标领域每个专业场景的特生大模型,具体包括:

22、获取目标领域每个专业场景的目标数据作为各专业数据,分别采用各专业数据进行如下垂直训练:

23、将专业数据中的第二用户问题输入泛化大模型,以使泛化大模型输出第三输出回答;

24、将第三输出回答和对应的第二用户问题输入基础奖励模型,以使基础奖励模型输出对第三输出回答的第二预测奖励;

25、获取对第三输出回答的第三真实奖励,获取第二预测奖励与第三真实奖励的第二差值;

26、根据第二差值优化基础奖励模型,以获得目标领域每个专业场景的特生奖励模型;

27、将第三输出回答和对应的第二用户问题输入特生奖励模型,以使特生奖励模型输出对第三输出回答的第三预测奖励;

28、根据第三预测奖励优化泛化大模型,以获得目标领域每个专业场景的特生大模型。

29、进一步地,获取对第三输出回答的第三真实奖励,获取第二预测奖励与第三真实奖励的第二差值,具体包括:

30、获取目标领域对应专业场景的用户对第三输出回答的第三真实奖励;和/或,

31、获取第三输出回答和对应的第二真实回答的相似度,根据相似度和对应的第二真实奖励,获取对第三输出回答的第三真实奖励。

32、进一步地,其中:

33、根据下式优化基础奖励模型:

34、

35、式中,φ表示基础奖励模型的参数,j表示基础奖励模型优化的迭代次数,β表示基础奖励模型的学习率,表示优化φ的梯度,l(φ)表示用于衡量第二差值的损失函数;

36、根据下式优化泛化大模型:

37、

38、式中,θ表示泛化大模型的参数,i表示泛化大模型优化的迭代次数,α表示泛化大模型的学习率,表示优化θ的梯度,j(θ,r)表示用于基于第三预测奖励r的目标函数。

39、进一步地,将特生大模型各自部署至目标领域的各个专业场景中进行应用,具体包括:

40、将特生大模型和特生奖励模型各自以第一容器docker和第二容器docker部署至目标领域的各个专业场景中;

41、在目标领域的各个专业场景中各自以第三容器docker部署数据采集功能;

42、通过数据采集功能采集用户新提出的第三用户问题、特生大模型根据第三用户问题输出的第三真实回答、用户对第三真实回答的评分或选择频次;

43、根据用户对第三真实回答的评分或选择次数,获取第四真实奖励;

44、响应于第四真实奖励值低于第二阈值,根据第三用户问题、第三真实回答和第三真实奖励值更新本专业场景的专业数据;

45、使用更新的专业数据,对本专业场景的特生奖励模型和特生大模型进行二次垂直训练,以改进本专业场景的特生大模型。

46、第二方面,本公开提供一种大模型优化装置,所述装置包括:

47、底座模块,用于获取基础大模型底座,基础大模型底座包括基础大模型和对基础大模型的输出进行奖励的基础奖励模型;

48、泛化模块,与底座模块连接,用于使用目标领域多个专业场景的优质样本组成泛化数据,对基础大模型进行泛化训练,以获得目标领域的泛化大模型;

49、垂直模块,与泛化模块连接,用于使用目标领域每个专业场景的优质样本和非优质样本组成专业数据,对基础奖励模型和泛化大模型进行垂直训练,以获得目标领域每个专业场景的特本文档来自技高网...

【技术保护点】

1.一种大模型优化方法,其特征在于,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,获取基础大模型底座,基础大模型底座包括基础大模型和对基础大模型的输出进行奖励的基础奖励模型,具体包括:

3.根据权利要求1或2所述的方法,其特征在于,所述方法还包括:

4.根据权利要求3所述的方法,其特征在于,使用目标领域多个专业场景的优质样本组成泛化数据,对基础大模型进行泛化训练,以获得目标领域的泛化大模型,具体包括:

5.根据权利要求3所述的方法,其特征在于,使用目标领域每个专业场景的优质样本和非优质样本组成专业数据,对基础奖励模型和泛化大模型进行垂直训练,以获得目标领域每个专业场景的特生大模型,具体包括:

6.根据权利要求5所述的方法,其特征在于,获取对第三输出回答的第三真实奖励,获取第二预测奖励与第三真实奖励的第二差值,具体包括:

7.根据权利要求5所述的方法,其特征在于,其中:

8.根据权利要求5-7任一项所述的方法,其特征在于,将特生大模型各自部署至目标领域的各个专业场景中进行应用,具体包括:

9.一种大模型优化装置,其特征在于,所述装置包括:

10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有计算机程序,当所述计算机程序被处理器运行时,实现如权利要求1-8任一项所述的大模型优化方法。

...

【技术特征摘要】

1.一种大模型优化方法,其特征在于,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,获取基础大模型底座,基础大模型底座包括基础大模型和对基础大模型的输出进行奖励的基础奖励模型,具体包括:

3.根据权利要求1或2所述的方法,其特征在于,所述方法还包括:

4.根据权利要求3所述的方法,其特征在于,使用目标领域多个专业场景的优质样本组成泛化数据,对基础大模型进行泛化训练,以获得目标领域的泛化大模型,具体包括:

5.根据权利要求3所述的方法,其特征在于,使用目标领域每个专业场景的优质样本和非优质样本组成专业数据,对基础奖励模型和泛化大模型进行垂直训练,以获得目标...

【专利技术属性】
技术研发人员:徐锐景小芃周克勤李岩张润民张欢欢陆文斌姚辉茹陈子昂李钦郝宝亚张冉张杰李中阳朱东森孙犇
申请(专利权)人:中国联合网络通信集团有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1