System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 数字人的生成模型训练方法、生成方法及相关装置制造方法及图纸_技高网

数字人的生成模型训练方法、生成方法及相关装置制造方法及图纸

技术编号:43736134 阅读:3 留言:0更新日期:2024-12-20 12:59
本申请提供了一种数字人的生成模型训练方法、生成方法及相关装置,该数字人的生成模型训练方法从第一图像中去除第一对象的身份信息,以得到姿态特征;第一图像为第一视频段中的任意一帧;从第一音频数据中提取出音频特征;从第二图像中提取出第一对象的第一身份特征;第二图像为第二视频段中与第一图像对应的一帧;将姿态特征、音频特征与第一身份特征进行融合,得到第一融合特征,基于第一融合特征训练数字人生成模型,能够得到人脸姿态可控的数字人生成模型,利用该数字人生成模型能够生成更形象、更真实的数字人视频。

【技术实现步骤摘要】

本申请涉及人工智能中的数字人生成,尤其涉及一种数字人的生成模型训练方法、生成方法及相关装置


技术介绍

1、二维(2-dimention,2d)数字人生成技术是指采集一段视频或者一张照片,通过机器学习的方式快速识别绑定面部表情和肢体动作,然后采用语音驱动,生成一段拟人视频。现有的2d数字人生成思路有基于生成对抗网络(generative adversarial network,gan)的编码—解码思路,音频到唇形同步(wav2lip)、形变修复网络(deformable-iterativenetwork,dinet)是其代表性模型。由于wav2lip和dinet的训练数据的限制,它们驱动形象的姿态是不可控制的,即现有的一些预训练模型难以实现姿态可控的2d数字人生成。


技术实现思路

1、针对上述问题,本申请提供了一种数字人的生成模型训练方法、生成方法及相关装置,能够生成姿态可控的数字人视频。

2、第一方面,本申请实施例提供了一种数字人的生成模型训练方法,该方法包括:

3、获取第一对象的第一视频段、第二视频段、第三视频段和第一音频数据;第一视频段与第二视频段和第三视频段的帧数相同;

4、对于第一视频段中的任意一帧第一图像,从第一图像中去除第一对象的身份信息,以得到第一对象的姿态特征;

5、从第一音频数据中提取出第一对象的音频特征;

6、对于第二视频段中与第一图像帧序对应的第二图像,从第二图像中提取出第一对象的第一身份特征;p>

7、将姿态特征、音频特征与第一身份特征进行融合,得到第一融合特征;

8、对于第三视频段中与第二图像帧序对应的第三图像,基于第一融合特征生成第三图像对应的模拟数字人图像;

9、将第三视频段中每帧第三图像对应的模拟数字人图像组成第一模拟数字人视频;

10、基于所述第一模拟数字人视频对神经网络进行迭代训练,得到训练好的数字人生成模型。

11、第二方面,本申请实施例提供了一种数字人的生成方法,该方法包括:

12、获取第二音频数据、第二对象的第六视频段、第三对象的第七视频段和第八视频段;第六视频段与第七视频段和第八视频段的帧数相同;

13、将第二音频数据、第六视频段、第七视频段和第八视频段输入数字人生成模型,以生成第三模拟数字人视频;

14、其中,数字人生成模型是基于如上述第一方面任意一个实施例的训练方法训练得到的。

15、第三方面,本申请实施例提供了一种数字人的生成模型训练装置,该装置包括第一获取单元和第一处理单元,其中:

16、第一获取单元,用于获取第一对象的第一视频段、第二视频段、第三视频段和第一音频数据;第一视频段与第二视频段和第三视频段的帧数相同;

17、第一处理单元,用于对于第一视频段中的任意一帧第一图像,从第一图像中去除第一对象的身份信息,以得到第一对象的姿态特征;从第一音频数据中提取出第一对象的音频特征;对于第二视频段中与第一图像帧序对应的第二图像,从第二图像中提取出第一对象的第一身份特征;将姿态特征、音频特征与第一身份特征进行融合,得到第一融合特征;对于第三视频段中与第二图像帧序对应的第三图像,基于第一融合特征生成第三图像对应的模拟数字人图像;将第三视频段中每帧第三图像对应的模拟数字人图像组成第一模拟数字人视频;基于第一模拟数字人视频对神经网络进行迭代训练,得到训练好的数字人生成模型。

18、应理解,由于方法实施例与装置实施例为相同技术构思的不同呈现形式,因此,本申请实施例第一方面的内容应同步适配于本申请实施例第三方面,且能达到相同或相似的有益效果,此处不再赘述。

19、第四方面,本申请实施例提供了一种数字人的生成装置,该装置包括第二获取单元和第二处理单元,其中:

20、第二获取单元,用于获取第二音频数据、第二对象的第六视频段、第三对象的第七视频段和第八视频段;第六视频段与第七视频段和第八视频段的帧数相同;

21、第二处理单元,用于将第二音频数据、第六视频段、第七视频段和第八视频段输入数字人生成模型,以生成第三模拟数字人视频;

22、其中,数字人生成模型是基于如上述第一方面任意一个实施例的训练方法训练得到的。

23、应理解,由于方法实施例与装置实施例为相同技术构思的不同呈现形式,因此,本申请实施例第二方面的内容应同步适配于本申请实施例第四方面,且能达到相同或相似的有益效果,此处不再赘述。

24、第五方面,本申请实施例提供了一种计算机设备,该计算机设备包括:

25、处理器;以及

26、存储有计算机可执行指令的存储器,可执行指令被配置由处理器执行,可执行指令包括用于执行如上述第一方面或第二方面任意一个实施例所述的方法中的步骤。

27、第六方面,本申请实施例提供了一种计算机可读存储介质,计算机可读存储介质存储有用于设备执行的计算机程序,计算机程序被执行时实现如上述第一方面或第二方面任意一个实施例所述的方法中的步骤。

28、第七方面,本申请实施例提供了一种计算机程序产品,当计算机程序产品被设备运行,使得设备执行上述第一方面或第二方面任意一个实施例所述的方法中的步骤。

29、本申请的上述方案至少包括以下有益效果:

30、本申请实施例中,第一视频段中的图像帧为样本数据中第一对象的姿态帧,第二视频段中的图像帧为姿态帧对应的参考帧,在获取到第一对象的第一视频段、第二视频段、第三视频段和第一音频数据后,计算机设备从姿态帧(如第一图像)中去除第一对象的身份信息,以得到姿态特征,相当于对姿态特征进行了增强,即该姿态特征能够显式地表征各姿态帧之间的姿态变化;计算机设备将增强后的姿态特征、第一音频数据中提取出的音频特征与对应的参考帧(如第二图像)中提取出的身份特征(即第一身份特征)进行融合,有利于神经网络对融合特征(即第一融合特征)中的姿态特征的细微变化进行感知,从而能够使基于融合特征生成的输入图像(如第三图像)对应的图像(如模拟数字人图像)在人脸姿态上更具区分度。这样以额外的增强姿态特征对神经网络进行监督,有利于降低输入图像中的人脸姿态对神经网络的影响,从而实现姿态可控。基于生成的视频(如第一模拟数字人视频)对神经网络进行迭代训练,能够训练出人脸姿态可控的数字人生成模型,利用该数字人生成模型能够生成更形象、更真实的数字人视频。

本文档来自技高网...

【技术保护点】

1.一种数字人的生成模型训练方法,其特征在于,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,所述基于所述第一模拟数字人视频对神经网络进行迭代训练,得到训练好的数字人生成模型,包括:

3.根据权利要求1或2所述的方法,其特征在于,所述将所述姿态特征、所述音频特征与所述第一身份特征进行融合,得到第一融合特征,包括:

4.根据权利要求2所述的方法,其特征在于,所述第一视频段和所述第二视频段为同一批次的样本数据中所述第一对象的样本对;所述样本数据中包括至少两个对象的样本对,每个对象存在至少两个样本对。

5.根据权利要求4所述的方法,其特征在于,所述第二视频段为所述第一视频段的参考视频段,所述样本数据的每个样本对中包括一个参考视频段;

6.根据权利要求5所述的方法,其特征在于,所述基于所述第一模拟数字人视频确定同步性损失、第一L1损失、第一感知损失、第一结构相似性损失和第一纹理损失,包括:

7.根据权利要求6所述的方法,其特征在于,所述基于所述第一模拟数字人视频中的每一帧模拟数字人图像和所述每一帧模拟数字人图像对应的真值图像,确定第一L1损失,包括:

8.根据权利要求6所述的方法,其特征在于,所述基于所述每一帧模拟数字人图像和所述真值图像,确定第一感知损失,包括:

9.根据权利要求6所述的方法,其特征在于,基于所述每一帧模拟数字人图像和所述真值图像,确定第一结构相似性损失,包括:

10.根据权利要求6所述的方法,其特征在于,所述基于所述每一帧模拟数字人图像和所述真值图像,确定第一纹理损失,包括:

11.根据权利要求5所述的方法,其特征在于,所述基于所述第一身份特征和所述样本数据的每个样本对中的参考视频段,确定身份信息的第一对比学习损失,包括:

12.根据权利要求1-11任一项所述的方法,其特征在于,所述神经网络的骨干网络为U型网络,所述第一模拟数字人视频为所述U型网络的解码器的最后一层输出的视频段;

13.根据权利要求12所述的方法,其特征在于,所述基于至少一个第二模拟数字人视频确定至少一个第二损失,包括:

14.一种数字人的生成方法,其特征在于,所述方法包括:

15.一种数字人的生成模型训练装置,其特征在于,所述装置包括第一获取单元和第一处理单元,其中:

16.一种数字人的生成装置,其特征在于,所述装置包括第二获取单元和第二处理单元,其中:

17.一种计算机设备,其特征在于,所述计算机设备包括:

18.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有用于设备执行的计算机程序,所述计算机程序被执行时实现如权利要求1-13任一项或权利要求14所述的方法中的步骤。

...

【技术特征摘要】

1.一种数字人的生成模型训练方法,其特征在于,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,所述基于所述第一模拟数字人视频对神经网络进行迭代训练,得到训练好的数字人生成模型,包括:

3.根据权利要求1或2所述的方法,其特征在于,所述将所述姿态特征、所述音频特征与所述第一身份特征进行融合,得到第一融合特征,包括:

4.根据权利要求2所述的方法,其特征在于,所述第一视频段和所述第二视频段为同一批次的样本数据中所述第一对象的样本对;所述样本数据中包括至少两个对象的样本对,每个对象存在至少两个样本对。

5.根据权利要求4所述的方法,其特征在于,所述第二视频段为所述第一视频段的参考视频段,所述样本数据的每个样本对中包括一个参考视频段;

6.根据权利要求5所述的方法,其特征在于,所述基于所述第一模拟数字人视频确定同步性损失、第一l1损失、第一感知损失、第一结构相似性损失和第一纹理损失,包括:

7.根据权利要求6所述的方法,其特征在于,所述基于所述第一模拟数字人视频中的每一帧模拟数字人图像和所述每一帧模拟数字人图像对应的真值图像,确定第一l1损失,包括:

8.根据权利要求6所述的方法,其特征在于,所述基于所述每一帧模拟数字人图像和所述真值图像,确定第一感知损失,包括:

9.根据权利要求6所述的方法,...

【专利技术属性】
技术研发人员:周聪张良国曾定衡
申请(专利权)人:马上消费金融股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1