System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本申请涉及人工智能,尤其涉及一种模型训练方法、装置、存储介质及计算机设备。
技术介绍
1、随着人工智能(artificial intelligence,ai)技术的飞速进步和广泛应用,人工智能逐渐发展成了可以实现多种任务的多模态模型,例如一个多模态大型语言模型,它可以执行图像描述任务、视觉问答任务以及视觉定位任务等。
2、相关技术中,由于任务的多样性会导致任务异质性,在基于联邦学习的模型训练场景中,传统的联邦指令微调(federated instruction tuning,fedit)方法无法充分解决这种任务异质性,使得多模态模型无法学习到每个任务特有的模式和特征,导致模型性能下降,故相关技术亟待提出一种模型训练方法来解决上述技术问题。
技术实现思路
1、本申请的主要目的在于提供一种模型训练方法、装置、存储介质及计算机设备,可以提高对象在不同的视角下的外观的精确性以及一致性。
2、第一方面,本申请实施例提供了一种模型训练方法,包括:
3、获取指定计算机设备发送的待训练的多模态语言模型中每个任务对应任务视觉适配器的聚合参数,以及语言模型的聚合参数;
4、按照所述语言模型的聚合参数更新本地的语言模型;
5、从每个所述任务视觉适配器的聚合参数中,筛选出本地对应目标任务的目标任务视觉适配器的目标聚合参数,并按照所述目标聚合参数更新本地的目标任务视觉适配器;
6、基于每个任务对应任务视觉适配器的聚合参数,构建任务混合适
7、通过本地的样本数据集对所述待训练的任务混合适配器中的所述概率预测器、所述目标任务视觉适配器以及所述语言模型进行训练,得到训练后的多模态语言模型。
8、第二方面,本申请实施例提供了一种模型训练方法,包括:
9、接收每个计算机设备发送的对应任务的任务视觉适配器的初步训练参数以及语言模型的初步训练参数;
10、对相同任务的任务视觉适配器的初步训练参数进行参数聚合,得到每个任务对应的任务视觉适配器的聚合参数;
11、对多个所述语言模型的初步训练参数进行参数聚合,得到每个所述计算机设备对应的所述语言模型的聚合参数;
12、向每个所述计算机设备发送每个任务对应的任务视觉适配器的聚合参数,以及对应的所述语言模型的聚合参数。
13、第三方面,本申请实施例提供一种模型训练装置,包括:
14、获取单元,用于获取指定计算机设备发送的待训练的多模态语言模型中每个任务对应任务视觉适配器的聚合参数,以及语言模型的聚合参数;
15、更新单元,用于按照所述语言模型的聚合参数更新本地的语言模型;
16、筛选单元,用于从每个所述任务视觉适配器的聚合参数中,筛选出本地对应目标任务的目标任务视觉适配器的目标聚合参数,并按照所述目标聚合参数更新本地的目标任务视觉适配器;
17、构建单元,用于基于每个任务对应任务视觉适配器的聚合参数,构建任务混合适配器,所述任务混合适配器包括概率预测器、目标任务视觉适配器、每个其它任务对应其它任务适配器,以及在每个所述其它任务适配器上构建的待训练的跨任务适配器;
18、训练单元,用于通过本地的样本数据集对所述待训练的任务混合适配器中的所述概率预测器、所述目标任务视觉适配器以及所述语言模型进行训练,得到训练后的多模态语言模型。
19、第四方面,本申请实施例提供一种模型训练装置,包括:
20、接收单元,用于接收每个计算机设备发送的对应任务的任务视觉适配器的初步训练参数以及语言模型的初步训练参数;
21、第一参数聚合单元,用于对相同任务的任务视觉适配器的初步训练参数进行参数聚合,得到每个任务对应的任务视觉适配器的聚合参数;
22、第二参数聚合单元,用于对多个所述语言模型的初步训练参数进行参数聚合,得到每个所述计算机设备对应的所述语言模型的聚合参数;
23、发送单元,用于向每个所述计算机设备发送每个任务对应的任务视觉适配器的聚合参数,以及对应的所述语言模型的聚合参数。
24、第五方面,本申请实施例提供一种存储介质,计算机可读存储介质存储有多条指令,该指令适于处理器进行加载,以执行如上任一项的模型训练方法。
25、第六方面,本申请实施例提供一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可以在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如上任一项的模型训练方法。
26、在本申请实施例中,通过获取指定计算机设备发送的待训练的多模态语言模型中每个任务对应任务视觉适配器的聚合参数,以及语言模型的聚合参数;按照所述语言模型的聚合参数更新本地的语言模型;从每个所述任务视觉适配器的聚合参数中,筛选出本地对应目标任务的目标任务视觉适配器的目标聚合参数,并按照所述目标聚合参数更新本地的目标任务视觉适配器;基于每个任务对应任务视觉适配器的聚合参数,构建任务混合适配器,并将所述目标任务视觉适配器替换为所述任务混合适配器,所述任务混合适配器包括概率预测器、目标任务视觉适配器、每个其它任务对应其它任务适配器,以及在每个所述其它任务适配器构建的待训练的跨任务适配器;通过本地的样本数据集对所述待训练的任务混合适配器中的所述概率预测器、所述目标任务视觉适配器以及所述语言模型进行训练,得到训练后的多模态语言模型,相对于相关技术中,无法充分解决不同任务之间的任务异质性而言,本申请实施例通过训练概率预测器以及跨任务适配器的方式来适配不同任务,使得多模态模型可以学习到每个任务特有的模式和特征,提高模型性能。
27、本公开的其他特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本公开而了解。本公开的目的和其他优点可通过在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。
本文档来自技高网...【技术保护点】
1.一种模型训练方法,其特征在于,包括:
2.根据权利要求1所述的模型训练方法,其特征在于,所述基于每个任务对应任务视觉适配器的聚合参数,在本地的多模态语言模型中构建待训练的任务混合适配器,包括:
3.根据权利要求2所述的模型训练方法,其特征在于,所述样本数据集中包括多个数据对,每个数据对由样本图像、样本生成指令以及文本标签构成,所述通过本地的样本数据集对所述待训练的任务混合适配器中的所述概率预测器、所述目标任务视觉适配器以及所述语言模型进行训练,得到训练后的多模态语言模型,包括:
4.根据权利要求3所述的模型训练方法,其特征在于,所述基于每个所述任务视觉适配器的命中概率、所述第一目标任务视觉特征表示、每个所述其它任务的其它任务视觉特征表示以及对应的补充任务视觉特征表示,确定任务混合特征表示,包括:
5.根据权利要求3所述的模型训练方法,其特征在于,所述多模态语言模型中还包括图像视觉适配器,所述基于所述任务混合特征表示、所述第一数据对中的第一文本标签以及所述第一数据对中的第一样本生成指令的第一指令特征,确定第一语言建模损失,包括:<
...【技术特征摘要】
1.一种模型训练方法,其特征在于,包括:
2.根据权利要求1所述的模型训练方法,其特征在于,所述基于每个任务对应任务视觉适配器的聚合参数,在本地的多模态语言模型中构建待训练的任务混合适配器,包括:
3.根据权利要求2所述的模型训练方法,其特征在于,所述样本数据集中包括多个数据对,每个数据对由样本图像、样本生成指令以及文本标签构成,所述通过本地的样本数据集对所述待训练的任务混合适配器中的所述概率预测器、所述目标任务视觉适配器以及所述语言模型进行训练,得到训练后的多模态语言模型,包括:
4.根据权利要求3所述的模型训练方法,其特征在于,所述基于每个所述任务视觉适配器的命中概率、所述第一目标任务视觉特征表示、每个所述其它任务的其它任务视觉特征表示以及对应的补充任务视觉特征表示,确定任务混合特征表示,包括:
5.根据权利要求3所述的模型训练方法,其特征在于,所述多模态语言模型中还包括图像视觉适配器,所述基于所述任务混合特征表示、所述第一数据对中的第一文本标签以及所述第一数据对中的第一样本生成指令的第一指令特征,确定第一语言建模损失,包括:
6.根据权利要求1所述的模型训练方法,其特征在于,在所述获取指定计算机设备发送的待训练的多模态语言模型中每个任务对应任务视觉适配器的聚合参数,以及语言模型的聚合参数之前,还包括:
7.根据权利要求6所述的模型训练方法,其特征在...
【专利技术属性】
技术研发人员:王耀威,熊宝琛,杨小汕,宋亚光,徐常胜,胡孟豪,肖麟慧,彭芳,
申请(专利权)人:鹏城实验室,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。