System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 基于音频生成动态图像的方法、装置、设备及存储介质制造方法及图纸_技高网

基于音频生成动态图像的方法、装置、设备及存储介质制造方法及图纸

技术编号:41904148 阅读:16 留言:0更新日期:2024-07-05 14:09
本申请实施例提供一种基于音频生成动态图像的方法、装置、设备及存储介质,涉及自然人机交互领域;该方法包括:先获取用户输入的参考图像和参考音频;之后,基于参考图像和训练后的生成网络模型,确定目标头部动作特征和目标表情系数特征,并基于目标头部动作特征和目标表情系数特征对训练后的生成网络模型进行调整,得到目标生成网络模型;最后,基于参考音频、参考图像和目标生成网络模型,对待处理图像进行处理,得到目标动态图像;其中,待处理图像与参考图像中的图像对象相同;如此,基于目标人物的单张图片即可得到对应的数字人;这样不需要进行视频采集工作以及数据清洗工作,能够降低数字人的制作成本,且缩短了数字人的制作周期。

【技术实现步骤摘要】

本专利技术涉及自然人机交互领域,尤其是涉及一种基于音频生成动态图像的方法、装置、设备及存储介质


技术介绍

1、数字人(digital human/meta human),是运用数字技术创造出来的、与人类形象接近的数字化人物形象。目前,数字人的制作过程为:采集目标人物说话的视频数据;之后,通过深度学习网络(如,gan网络模型),学习视频数据中目标人物的声音和口型的对应关系,从而得到完成训练的网络模型;最后,向完成训练的网络模型输入新的音频,以使得完成训练的网络模型生成该音频对应的口型动画,进而完成数字人的制作。

2、但是,上述数字人制作的方式需要大量的视频采集工作,以及数据清洗工作;即用户想要生成对应数字人时,需要获取用户说话的大量视频数据;且为了保证得到的数字人的效果,对于用户说话的视频数据的质量也有一定要求;如此,导致生成用户对应的数字人时,较为麻烦,成本过高,周期较长。


技术实现思路

1、本申请提供一种基于音频生成动态图像的方法、装置、设备及存储介质,能够基于目标人物的单张图片得到目标人物的动态图像,从而得到数字人;这样不需要进行视频采集工作以及数据清洗工作,能够降低数字人的制作成本,且缩短了数字人的制作周期。

2、本申请的第一方面,提供了一种基于音频生成动态图像的方法,包括:

3、获取用户输入的参考图像和参考音频;

4、基于参考图像和训练后的生成网络模型,确定目标头部动作特征和目标表情系数特征;

5、基于目标头部动作特征和目标表情系数特征对训练后的生成网络模型进行调整,得到目标生成网络模型;

6、基于参考音频、参考图像和目标生成网络模型,对待处理图像进行处理,得到目标动态图像;目标动态图像表征待处理图像中目标人物基于参考音频变化面部表情的动态图像;待处理图像与参考图像中的图像对象相同。

7、上述技术方案中,基于参考图像和训练后的生成网络模型,确定目标头部动作特征和目标表情系数特征,包括:

8、基于参考图像,得到参考数据;

9、通过训练后的生成网络模型从参考数据中提取目标头部动作特征和目标表情系数特征。

10、上述技术方案中,通过训练后的生成网络模型从参考数据中提取目标头部动作特征和目标表情系数特征,包括:

11、通过训练后的生成网络模型从参考数据中确定多帧目标人物的面部图像;

12、通过训练后的生成网络模型基于各帧目标人物的面部图像进行特征提取,得到目标头部动作特征和目标表情系数特征。

13、上述技术方案中,目标生成网络模型包括仿射子网络和驱动子网络;

14、基于参考音频、参考图像和目标生成网络模型,对待处理图像进行处理,得到目标动态图像,包括:

15、通过仿射子网络对待处理图像进行处理,得到待处理特征图,并通过仿射子网络基于参考音频、参考图像和待处理特征图,得到形变特征图;

16、通过驱动子网络基于形变特征图,对待处理图像进行处理,得到目标动态图像。

17、上述技术方案中,仿射子网络包括语音处理层、特征提取层、特征融合层和特征仿射层;

18、通过仿射子网络对待处理图像进行处理,得到待处理特征图,并通过仿射子网络基于参考音频、参考图像和待处理特征图,得到形变特征图,包括:

19、通过语音处理层确定参考音频对应的目标梅尔倒谱系数特征;

20、通过特征提取层对参考图像进行特征提取,得到参考特征图;

21、通过特征提取层对待处理图像进行特征提取,得到待处理特征图;

22、通过特征融合层对参考特征图和待处理特征图进行特征堆叠对齐处理,得到融合特征图;

23、通过特征仿射层基于融合特征图和目标梅尔倒谱系数特征确定仿射系数,并基于仿射系数对参考特征图进行仿射变换的空间形变,得到形变特征图。

24、上述技术方案中,驱动子网络包括特征处理层、特征同步层和图像驱动层;

25、通过驱动子网络基于形变特征图,对待处理图像进行处理,得到目标动态图像,包括:

26、通过特征处理层基于目标梅尔倒谱系数特征,得到初始驱动特征;

27、通过图像驱动层基于初始驱动特征对待处理特征图进行驱动处理,得到初始特征图;

28、通过特征同步层对形变特征图与初始特征图进行堆叠处理,以确定形变特征图与初始特征图之间的特征同步参数;

29、通过特征处理层基于特征同步参数对初始驱动特征进行调整,得到目标驱动特征;

30、通过图像驱动层基于目标驱动特征,对待处理图像进行驱动处理,得到目标动态图像。

31、上述技术方案中,方法还包括:

32、获取样本视频;其中,样本视频中的视频对象与待处理图像中的图像对象不同;

33、通过待训练的生成网络模型对样本视频进行处理,提取样本音频数据和样本图像数据;

34、基于待训练的生成网络模型对样本音频数据和样本图像数据进行处理,得到预测训练结果;

35、以预测训练结果作为待训练的生成网络模型的初始训练输出,样本图像数据作为监督信息,迭代训练待训练的生成网络模型得到训练后的生成网络模型。

36、上述技术方案中,基于待训练的生成网络模型对样本音频数据和样本图像数据进行处理,得到预测训练结果,包括:

37、基于待训练的生成网络模型从样本音频数据中提取参考梅尔倒谱系数特征;

38、基于待训练的生成网络模型从样本图像数据中提取参考头部动作、参考表情系数特征和参考人脸特征;

39、通过待训练的生成网络模型基于参考梅尔倒谱系数特征、参考头部动作、参考表情系数特征和参考人脸特征,得到预测训练结果。

40、上述技术方案中,以预测训练结果作为待训练的生成网络模型的初始训练输出,样本图像数据作为监督信息,迭代训练待训练的生成网络模型得到训练后的生成网络模型,包括:

41、根据预测训练结果和样本图像数据,确定损失值;

42、根据损失值,迭代更新待训练的生成网络模型,得到训练后的生成网络模型。

43、本申请第二方面,提供一种基于音频生成动态图像的装置,包括:

44、获取模块,用于获取用户输入的参考图像和参考音频;

45、处理模块,用于基于参考图像和训练后的生成网络模型,确定目标头部动作特征和目标表情系数特征;

46、调整模块,用于基于目标头部动作特征和目标表情系数特征对训练后的生成网络模型进行调整,得到目标生成网络模型;

47、处理模块,还用于基于参考音频、参考图像和目标生成网络模型,对待处理图像进行处理,得到目标动态图像;目标动态图像表征待处理图像中目标人物基于参考音频变化面部表情的动态图像;待处理图像与参考图像中的图像对象相同。

48、本申请第三方面,提供一种电子设备,包括存储器、处本文档来自技高网...

【技术保护点】

1.一种基于音频生成动态图像的方法,其特征在于,包括:

2.根据权利要求1所述的方法,其特征在于,所述仿射子网络包括语音处理层、特征提取层、特征融合层和特征仿射层;

3.根据权利要求2所述的方法,其特征在于,所述驱动子网络包括特征处理层、特征同步层和图像驱动层;

4.根据权利要求1所述的方法,其特征在于,所述方法还包括:

5.根据权利要求4所述的方法,其特征在于,所述基于所述参考图像和训练后的生成网络模型,确定目标头部动作特征和目标表情系数特征,包括:

6.根据权利要求5所述的方法,其特征在于,所述通过所述训练后的生成网络模型从所述参考数据中提取所述目标头部动作特征和所述目标表情系数特征,包括:

7.根据权利要求4-6任一项所述的方法,其特征在于,所述方法还包括:

8.根据权利要求7所述的方法,其特征在于,所述基于所述待训练的生成网络模型对所述样本音频数据和所述样本图像数据进行处理,得到预测训练结果,包括:

9.根据权利要求7所述的方法,其特征在于,所述以所述预测训练结果作为所述待训练的生成网络模型的初始训练输出,所述样本图像数据作为监督信息,迭代训练所述待训练的生成网络模型得到所述训练后的生成网络模型,包括:

10.一种基于音频生成动态图像的装置,其特征在于,包括:

11.一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1-9任一项所述的方法的步骤。

12.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1-9任一项所述的方法的步骤。

...

【技术特征摘要】

1.一种基于音频生成动态图像的方法,其特征在于,包括:

2.根据权利要求1所述的方法,其特征在于,所述仿射子网络包括语音处理层、特征提取层、特征融合层和特征仿射层;

3.根据权利要求2所述的方法,其特征在于,所述驱动子网络包括特征处理层、特征同步层和图像驱动层;

4.根据权利要求1所述的方法,其特征在于,所述方法还包括:

5.根据权利要求4所述的方法,其特征在于,所述基于所述参考图像和训练后的生成网络模型,确定目标头部动作特征和目标表情系数特征,包括:

6.根据权利要求5所述的方法,其特征在于,所述通过所述训练后的生成网络模型从所述参考数据中提取所述目标头部动作特征和所述目标表情系数特征,包括:

7.根据权利要求4-6任一项所述的方法,其特征在于,所述方法还包括:

8.根据权...

【专利技术属性】
技术研发人员:司马华鹏张茂林毛丽艳
申请(专利权)人:南京硅基智能科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1