System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 虚拟对象驱动及模型训练方法、装置、设备和介质制造方法及图纸_技高网

虚拟对象驱动及模型训练方法、装置、设备和介质制造方法及图纸

技术编号:44194693 阅读:0 留言:0更新日期:2025-02-06 18:33
本公开提供了一种虚拟对象驱动及模型训练方法、装置、设备和介质,涉及人工智能技术领域,具体为计算机视觉、深度学习、大模型等技术领域,可应用于AIGC、数字人、智能电商等场景。虚拟对象驱动方法包括:对目标音频进行特征提取,以获得音频特征;所述目标音频用于虚拟对象发声;对所述音频特征和初始表情系数进行解码,以获得目标表情系数;基于所述目标表情系数,驱动所述虚拟对象的唇部动作。

【技术实现步骤摘要】

本公开涉及人工智能,具体为计算机视觉、深度学习、大模型等,可应用于aigc、数字人、智能电商等场景,尤其涉及一种虚拟对象驱动及模型训练方法、装置、设备和存储介质。


技术介绍

1、数字人是指动画师制作的可以被驱动的三维动画模型,可应用于游戏、元宇宙、虚拟现实(virtual reality,vr)、增强现实(augmented reality,ar)、虚拟客服、虚拟主播等场景。


技术实现思路

1、本公开提供了一种虚拟对象驱动及模型训练方法、装置、设备和存储介质。

2、根据本公开的一方面,提供了一种虚拟对象驱动方法,包括:对目标音频进行特征提取,以获得音频特征;所述目标音频用于虚拟对象发声;对所述音频特征和初始表情系数进行解码,以获得目标表情系数;基于所述目标表情系数,驱动所述虚拟对象的唇部动作。

3、根据本公开的另一方面,提供了一种虚拟对象驱动模型训练方法,所述模型包括解码器,所述方法包括:对音频样本进行特征提取,以获得音频特征;采用所述解码器,对所述音频特征和初始表情系数进行解码,以获得预测表情系数;基于所述预测表情系数和所述音频样本对应的真实表情系数,构建损失函数;基于所述损失函数,调整所述解码器的参数。

4、根据本公开的另一方面,提供了一种虚拟对象驱动装置,包括:提取模块,用于对目标音频进行特征提取,以获得音频特征;所述目标音频用于虚拟对象发声;解码模块,用于对所述音频特征和初始表情系数进行解码,以获得目标表情系数;驱动模块,用于基于所述目标表情系数,驱动所述虚拟对象的唇部动作。

5、根据本公开的另一方面,提供了一种虚拟对象驱动模型训练装置,所述模型包括解码器,所述装置包括:提取模块,用于对音频样本进行特征提取,以获得音频特征;解码模块,用于采用所述解码器,对所述音频特征和初始表情系数进行解码,以获得预测表情系数;构建模块,用于基于所述预测表情系数和所述音频样本对应的真实表情系数,构建损失函数;调整模块,用于基于所述损失函数,调整所述解码器的参数。

6、根据本公开的另一方面,提供了一种电子设备,包括:至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行如上述任一方面的任一项所述的方法。

7、根据本公开的另一方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行根据上述任一方面的任一项所述的方法。

8、根据本公开的另一方面,提供了一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现根据上述任一方面的任一项所述的方法。

9、本公开可以提高虚拟对象唇部驱动准确性。

10、应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

本文档来自技高网...

【技术保护点】

1.一种虚拟对象驱动方法,包括:

2.根据权利要求1所述的方法,还包括:

3.根据权利要求2所述的方法,其中,所述获取所述虚拟对象所模拟的目标对象的风格特征,包括:

4.根据权利要求1所述的方法,其中,所述对所述音频特征和初始表情系数进行解码,以获得目标表情系数,包括:

5.一种虚拟对象驱动模型训练方法,所述模型包括解码器,所述方法包括:

6.根据权利要求5所述的方法,还包括:

7.根据权利要求6所述的方法,其中,

8.根据权利要求7所述的方法,还包括:

9.根据权利要求5所述的方法,其中,所述对所述音频特征和初始表情系数进行解码,以获得目标表情系数,包括:

10.一种虚拟对象驱动装置,包括:

11.根据权利要求10所述的装置,还包括:

12.根据权利要求11所述的装置,其中,所述获取模块进一步用于:

13.根据权利要求10所述的装置,其中,所述解码模块进一步用于:

14.一种虚拟对象驱动模型训练装置,所述模型包括解码器,所述装置包括:

15.根据权利要求14所述的装置,还包括:

16.根据权利要求15所述的装置,其中,

17.根据权利要求16所述的装置,还包括:

18.根据权利要求14所述的装置,其中,所述解码模块进一步用于:

19.一种电子设备,包括:

20.一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行根据权利要求1-9中任一项所述的方法。

21.一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现根据权利要求1-9中任一项所述的方法。

...

【技术特征摘要】

1.一种虚拟对象驱动方法,包括:

2.根据权利要求1所述的方法,还包括:

3.根据权利要求2所述的方法,其中,所述获取所述虚拟对象所模拟的目标对象的风格特征,包括:

4.根据权利要求1所述的方法,其中,所述对所述音频特征和初始表情系数进行解码,以获得目标表情系数,包括:

5.一种虚拟对象驱动模型训练方法,所述模型包括解码器,所述方法包括:

6.根据权利要求5所述的方法,还包括:

7.根据权利要求6所述的方法,其中,

8.根据权利要求7所述的方法,还包括:

9.根据权利要求5所述的方法,其中,所述对所述音频特征和初始表情系数进行解码,以获得目标表情系数,包括:

10.一种虚拟对象驱动装置,包括:

11.根据权利要求10所述的装置,还包括:

12...

【专利技术属性】
技术研发人员:李团辉
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1