System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本申请涉及人工智能中的数字人生成,尤其涉及一种数字人的生成模型训练方法、生成方法及相关装置。
技术介绍
1、二维(2-dimention,2d)数字人生成技术是指采集一段视频或者一张照片,通过机器学习的方式快速识别绑定面部表情和肢体动作,然后采用语音驱动,生成一段拟人视频。现有的2d数字人生成思路有基于生成对抗网络(generative adversarial network,gan)的编码—解码思路,音频到唇形同步(wav2lip)、形变修复网络(deformable-iterativenetwork,dinet)是其代表性模型。由于wav2lip和dinet的训练数据的限制,它们驱动形象的姿态是不可控制的,即现有的一些预训练模型难以实现姿态可控的2d数字人生成。
技术实现思路
1、针对上述问题,本申请提供了一种数字人的生成模型训练方法、生成方法及相关装置,能够生成姿态可控的数字人视频。
2、第一方面,本申请实施例提供了一种数字人的生成模型训练方法,该方法包括:
3、获取第一对象的第一视频段、第二视频段、第三视频段和第一音频数据;第一视频段与第二视频段和第三视频段的帧数相同;
4、对于第一视频段中的任意一帧第一图像,从第一图像中去除第一对象的身份信息,以得到第一对象的姿态特征;
5、从第一音频数据中提取出第一对象的音频特征;
6、对于第二视频段中与第一图像帧序对应的第二图像,从第二图像中提取出第一对象的第一身份特征;
...【技术保护点】
1.一种数字人的生成模型训练方法,其特征在于,所述方法包括:
2.根据权利要求1所述的方法,其特征在于,所述基于所述第一模拟数字人视频对神经网络进行迭代训练,得到训练好的数字人生成模型,包括:
3.根据权利要求1或2所述的方法,其特征在于,所述将所述姿态特征、所述音频特征与所述第一身份特征进行融合,得到第一融合特征,包括:
4.根据权利要求2所述的方法,其特征在于,所述第一视频段和所述第二视频段为同一批次的样本数据中所述第一对象的样本对;所述样本数据中包括至少两个对象的样本对,每个对象存在至少两个样本对。
5.根据权利要求4所述的方法,其特征在于,所述第二视频段为所述第一视频段的参考视频段,所述样本数据的每个样本对中包括一个参考视频段;
6.根据权利要求5所述的方法,其特征在于,所述基于所述第一模拟数字人视频确定同步性损失、第一L1损失、第一感知损失、第一结构相似性损失和第一纹理损失,包括:
7.根据权利要求6所述的方法,其特征在于,所述基于所述第一模拟数字人视频中的每一帧模拟数字人图像和所述每一帧模拟数字人
8.根据权利要求6所述的方法,其特征在于,所述基于所述每一帧模拟数字人图像和所述真值图像,确定第一感知损失,包括:
9.根据权利要求6所述的方法,其特征在于,基于所述每一帧模拟数字人图像和所述真值图像,确定第一结构相似性损失,包括:
10.根据权利要求6所述的方法,其特征在于,所述基于所述每一帧模拟数字人图像和所述真值图像,确定第一纹理损失,包括:
11.根据权利要求5所述的方法,其特征在于,所述基于所述第一身份特征和所述样本数据的每个样本对中的参考视频段,确定身份信息的第一对比学习损失,包括:
12.根据权利要求1-11任一项所述的方法,其特征在于,所述神经网络的骨干网络为U型网络,所述第一模拟数字人视频为所述U型网络的解码器的最后一层输出的视频段;
13.根据权利要求12所述的方法,其特征在于,所述基于至少一个第二模拟数字人视频确定至少一个第二损失,包括:
14.一种数字人的生成方法,其特征在于,所述方法包括:
15.一种数字人的生成模型训练装置,其特征在于,所述装置包括第一获取单元和第一处理单元,其中:
16.一种数字人的生成装置,其特征在于,所述装置包括第二获取单元和第二处理单元,其中:
17.一种计算机设备,其特征在于,所述计算机设备包括:
18.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有用于设备执行的计算机程序,所述计算机程序被执行时实现如权利要求1-13任一项或权利要求14所述的方法中的步骤。
...【技术特征摘要】
1.一种数字人的生成模型训练方法,其特征在于,所述方法包括:
2.根据权利要求1所述的方法,其特征在于,所述基于所述第一模拟数字人视频对神经网络进行迭代训练,得到训练好的数字人生成模型,包括:
3.根据权利要求1或2所述的方法,其特征在于,所述将所述姿态特征、所述音频特征与所述第一身份特征进行融合,得到第一融合特征,包括:
4.根据权利要求2所述的方法,其特征在于,所述第一视频段和所述第二视频段为同一批次的样本数据中所述第一对象的样本对;所述样本数据中包括至少两个对象的样本对,每个对象存在至少两个样本对。
5.根据权利要求4所述的方法,其特征在于,所述第二视频段为所述第一视频段的参考视频段,所述样本数据的每个样本对中包括一个参考视频段;
6.根据权利要求5所述的方法,其特征在于,所述基于所述第一模拟数字人视频确定同步性损失、第一l1损失、第一感知损失、第一结构相似性损失和第一纹理损失,包括:
7.根据权利要求6所述的方法,其特征在于,所述基于所述第一模拟数字人视频中的每一帧模拟数字人图像和所述每一帧模拟数字人图像对应的真值图像,确定第一l1损失,包括:
8.根据权利要求6所述的方法,其特征在于,所述基于所述每一帧模拟数字人图像和所述真值图像,确定第一感知损失,包括:
9.根据权利要求6所述的方法,...
【专利技术属性】
技术研发人员:周聪,张良国,曾定衡,
申请(专利权)人:马上消费金融股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。