System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 模型训练方法、装置、设备、存储介质及程序产品制造方法及图纸_技高网

模型训练方法、装置、设备、存储介质及程序产品制造方法及图纸

技术编号:44102712 阅读:0 留言:0更新日期:2025-01-24 22:30
本公开提供了模型训练方法、装置、设备、存储介质及程序产品,涉及人工智能领域中的计算机视觉和自然语言处理领域,该方法包括:获取作为训练数据的图像文本对数据;将待训练的图像到文本模型作为生成器,以及将待训练的文本到图像模型作为判别器构建第一对抗网络,基于图像数据和第一对抗网络对图像到文本模型进行训练,得到第一训练结果;将文本到图像模型作为生成器,以及将图像到文本模型作为判别器构建第二对抗网络,基于文本数据和第二对抗网络对文本到图像数据进行训练,得到第二训练结果;基于第一训练结果调整图像到文本模型的模型参数,以及基于第二训练结果调整文本到图像模型的模型参数。

【技术实现步骤摘要】

本公开涉及人工智能领域中的计算机视觉和自然语言处理领域,尤其涉及一种模型训练方法、装置、设备、存储介质及程序产品。


技术介绍

1、近年来,多模态理解模型取得了显著的进步和发展。多模态理解模型(largevision-language model,简称vlm)是随着大语言模型(large language model,简称llm)的兴起而逐渐受到关注的一种新型模型。这类模型旨在融合多种模态(如文本、图像、视频等)的信息,以实现更高效的信息理解和智能识别。

2、另外,生成模型也取得了快速的发展,例如扩散模型等,其通过学习训练数据的分布,能够生成与训练数据相似但不完全相同的新样本,生成模型能够根据输入的文本生成图像。

3、目前利用专家模型辅助多模态理解模型生成文本,或者,利用专家模型辅助生成模型生成图像,以提高多模态理解模型的文本生成效果和提高生成模型的图像生成效果。

4、然而,在上述方式中,模型生成效果受限于相应专家模型的效果上限,如果专家模型本身效果不好,对应模型的生成效果也不好。


技术实现思路

1、本公开提供了一种模型训练方法、装置、设备以及存储介质,并在此基础上,提供了一种文本生成方法、装置、设备以及存储介质,以及一种视频生成方法、装置、设备以及存储介质。

2、根据本公开的第一方面,提供了一种模型训练方法,包括:

3、获取作为训练数据的图像文本对数据,所述图像文本对数据包括图像数据和与所述图像数据匹配的文本数据;

4、将待训练的图像到文本模型作为生成器,以及将待训练的文本到图像模型作为判别器构建第一对抗网络,基于所述图像数据和所述第一对抗网络对所述图像到文本模型进行训练,得到第一训练结果;

5、将所述文本到图像模型作为生成器,以及将所述图像到文本模型作为判别器构建第二对抗网络,基于所述文本数据和所述第二对抗网络对所述文本到图像数据进行训练,得到第二训练结果;

6、基于所述第一训练结果调整所述图像到文本模型的模型参数,以及基于所述第二训练结果调整所述文本到图像模型的模型参数,得到训练后的图像到文本模型和训练后的文本到图像模型。

7、根据本公开的第二方面,提供了一种文本生成方法,包括:

8、获取视频数据;

9、从所述视频数据中提取关键图像帧;

10、将所述关键图像帧输入图像到文本模型中进行文本生成处理,得到所述关键图像帧的描述文本,所述图像到文本模型是基于如上第一方面的方法训练得到的。

11、根据本公开的第三方面,提供了一种视频生成方法,包括:

12、获取视频生成请求;

13、基于所述视频生成请求获取多个文本信息;

14、将所述多个文本信息输入文本到图像模型中进行图像生成处理,得到对应所述多个文本信息的多个生成图像,所述文本到图像模型是基于如上第一方法的方法训练得到的;

15、从所述多个生成图像中选择目标生成图像;

16、基于所述目标生成图像生成目标视频。

17、根据本公开的第四方面,提供了一种模型训练装置,包括:

18、获取模块,用于获取作为训练数据的图像文本对数据,所述图像文本对数据包括图像数据和与所述图像数据匹配的文本数据;

19、第一训练模块,用于将待训练的图像到文本模型作为生成器,以及将待训练的文本到图像模型作为判别器构建第一对抗网络,基于所述图像数据和所述第一对抗网络对所述图像到文本模型进行训练,得到第一训练结果;

20、第二训练模块,用于将所述文本到图像模型作为生成器,以及将所述图像到文本模型作为判别器构建第二对抗网络,基于所述文本数据和所述第二对抗网络对所述文本到图像数据进行训练,得到第二训练结果;

21、调整模块,用于基于所述第一训练结果调整所述图像到文本模型的模型参数,以及基于所述第二训练结果调整所述文本到图像模型的模型参数,得到训练后的图像到文本模型和训练后的文本到图像模型。

22、根据本公开的第五方面,提供了一种文本生成装置,包括:

23、获取模块,用于获取视频数据;

24、提取模块,用于从所述视频数据中提取关键图像帧;

25、文本生成模块,用于将所述关键图像帧输入图像到文本模型中进行文本生成处理,得到所述关键图像帧的描述文本,所述图像到文本模型是基于如上第四方面所述的装置训练得到的。

26、根据本公开的第六方面,提供了一种视频生成装置,包括:

27、第一获取模块,用于获取视频生成请求;

28、第二获取模块,用于基于所述视频生成请求获取多个文本信息;

29、图像生成模块,用于将所述多个文本信息输入文本到图像模型中进行图像生成处理,得到对应所述多个文本信息的多个生成图像,所述文本到图像模型是基于如上第四方面所述的装置训练得到的;

30、选择模块,用于从所述多个生成图像中选择目标生成图像;

31、视频生成模块,用于基于所述目标生成图像生成目标视频。

32、根据本公开的第七方面,提供了一种电子设备,包括:

33、至少一个处理器;以及

34、与所述至少一个处理器通信连接的存储器;其中,

35、所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行如上第一方面所述的方法,或,以使所述至少一个处理器能够执行如上第二方面所述的方法,或,以使所述至少一个处理器能够执行如上第三方面所述的方法。

36、根据本公开的第八方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行根据如上第一方面所述的方法,或,所述计算机指令用于使所述计算机执行根据如上第二方面所述的方法,或,所述计算机指令用于使所述计算机执行根据如上第三方面所述的方法。

37、根据本公开的第九方面,提供了一种计算机程序产品,所述计算机程序产品包括:计算机程序,该计算机程序被处理器执行时实现如上第一方面所述方法的步骤,或,该计算机程序被处理器执行时实现如上第二方面所述方法的步骤,或,该计算机程序被处理器执行时实现如上第三方面所述方法的步骤。

38、根据本公开的技术解决了多模态理解模型和生成模型的模型生成效果受限于相应专家模型的效果上限的问题,提高了图像到文本模型生成文本的准确性,以及使得文本到图像模型的生成图像更加符合文本描述的内容。

39、应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

本文档来自技高网
...

【技术保护点】

1.一种模型训练方法,其特征在于,包括:

2.根据权利要求1所述的方法,其特征在于,还包括:

3.根据权利要求1或2所述的方法,其特征在于,所述基于所述图像数据和所述第一对抗网络对所述图像到文本模型进行训练,得到第一训练结果,包括:

4.根据权利要求3所述的方法,其特征在于,所述基于所述文本数据和所述第二对抗网络对所述文本到图像数据进行训练,得到第二训练结果,包括:

5.根据权利要求4所述的方法,其特征在于,所述基于所述第一训练结果调整所述图像到文本模型的模型参数,以及基于所述第二训练结果调整所述文本到图像模型的模型参数,得到训练后的图像到文本模型和训练后的文本到图像模型,包括:

6.根据权利要求5所述的方法,其特征在于,所述基于所述第一生成文本数据和所述第一生成图像数据,计算所述图像到文本模型的模型损失值,得到第一损失值,包括:

7.根据权利要求6所述的方法,其特征在于,所述基于所述第一差异信息、所述第二差异信息和所述第三差异信息,计算所述图像到文本模型的模型损失值,得到第一损失值,包括:

8.一种文本生成方法,其特征在于,包括:

9.一种视频生成方法,其特征在于,包括:

10.一种模型训练装置,其特征在于,包括:

11.一种文本生成装置,其特征在于,包括:

12.一种视频生成装置,其特征在于,包括:

13.一种电子设备,其特征在于,包括:

14.一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行根据权利要求1-7中任一项所述的方法,或,所述计算机指令用于使所述计算机执行根据权利要求8所述的方法,或,所述计算机指令用于使所述计算机执行根据权利要求9所述的方法。

15.一种计算机程序产品,其特征在于,包括计算机程序,该计算机程序被处理器执行时实现权利要求1-7中任一项所述方法的步骤,或,该计算机程序被处理器执行时实现权利要求8所述方法的步骤,或,该计算机程序被处理器执行时实现权利要求9所述方法的步骤。

...

【技术特征摘要】

1.一种模型训练方法,其特征在于,包括:

2.根据权利要求1所述的方法,其特征在于,还包括:

3.根据权利要求1或2所述的方法,其特征在于,所述基于所述图像数据和所述第一对抗网络对所述图像到文本模型进行训练,得到第一训练结果,包括:

4.根据权利要求3所述的方法,其特征在于,所述基于所述文本数据和所述第二对抗网络对所述文本到图像数据进行训练,得到第二训练结果,包括:

5.根据权利要求4所述的方法,其特征在于,所述基于所述第一训练结果调整所述图像到文本模型的模型参数,以及基于所述第二训练结果调整所述文本到图像模型的模型参数,得到训练后的图像到文本模型和训练后的文本到图像模型,包括:

6.根据权利要求5所述的方法,其特征在于,所述基于所述第一生成文本数据和所述第一生成图像数据,计算所述图像到文本模型的模型损失值,得到第一损失值,包括:

7.根据权利要求6所述的方法,其特征在于,所述基于所述第一差异信息、所述第二差异信息和所述第三差异信息,...

【专利技术属性】
技术研发人员:陈妙
申请(专利权)人:百度在线网络技术北京有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1