System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 数字人视频生成方法、装置、设备及介质制造方法及图纸_技高网

数字人视频生成方法、装置、设备及介质制造方法及图纸

技术编号:44406144 阅读:3 留言:0更新日期:2025-02-25 10:19
本发明专利技术涉及人工智能技术领域,公开了一种数字人视频生成方法、装置、设备及介质,包括:获取目标音频数据、目标数字人图像和目标情感提示信息,对目标音频数据进行特征转换,确定目标音频数据对应的视素特征,根据目标情感提示信息,匹配对应的情感特征提取技术,通过情感特征提取技术对目标情感提示信息进行特征提取,得到目标情感提示信息对应的情感特征,将视素特征和情感特征输入至已经进行面部动作预测训练好的模型中,输出面部动作系数,根据目标音频数据、目标数字人图像和面部动作系数,生成目标数字人视频。提高了生成的数字人在情感表达上的真实性和准确性。

【技术实现步骤摘要】

本专利技术涉及人工智能,尤其涉及一种数字人视频生成方法、装置、设备及介质


技术介绍

1、数字人是指通过计算机视觉、计算机图像学等生成的仿真人物模型,广义上计算机模拟出的具有人的形态的虚拟人都叫做数字人。随着虚拟现实技术以及数字人技术的发展,虚拟数字人作为人工智能领域的一个重要分支,正逐渐成为提供客户服务的新兴方式。然而,现有技术在生成具有自然情感表达的数字人方面存在明显不足,具体来说,现有系统在处理语音驱动的数字人时,往往只能生成简单的口型同步,而无法精确地表达复杂的情感,如喜怒哀乐等,这些问题的存在限制了数字人在需要丰富情感交互的应用场景中的使用,例如,在虚拟客服场景中,如果数字人无法准确表达同情或理解的情感,可能无法有效地与用户建立信任关系,从而大大降低用户的体验感。

2、因此,如何提高生成的数字人在情感表达上的真实性和准确性成为亟待解决的问题。


技术实现思路

1、本专利技术提供一种数字人视频生成方法、装置、计算机设备及介质,以解决如何提高生成的数字人在情感表达上的真实性和准确性的技术问题。

2、第一方面,提供了一种数字人视频生成方法,包括:

3、获取目标音频数据、目标数字人图像和目标情感提示信息;

4、对所述目标音频数据进行特征转换,确定所述目标音频数据对应的视素特征;

5、根据所述目标情感提示信息,匹配对应的情感特征提取技术,通过所述情感特征提取技术对所述目标情感提示信息进行特征提取,得到所述目标情感提示信息对应的情感特征;

6、将所述视素特征和所述情感特征输入至已经进行面部动作预测训练好的模型中,输出面部动作系数;

7、根据所述目标音频数据、所述目标数字人图像和所述面部动作系数,生成目标数字人视频。

8、第二方面,提供了一种数字人视频生成装置,包括:

9、第一获取模块,用于获取目标音频数据、目标数字人图像和目标情感提示信息;

10、特征转换模块,用于对所述目标音频数据进行特征转换,确定所述目标音频数据对应的视素特征;

11、第一特征提取模块,用于根据所述目标情感提示信息,匹配对应的情感特征提取技术,通过所述情感特征提取技术对所述目标情感提示信息进行特征提取,得到所述目标情感提示信息对应的情感特征;

12、第一预测模块,用于将所述视素特征和所述情感特征输入至已经进行面部动作预测训练好的模型中,输出面部动作系数;

13、第一生成模块,用于根据所述目标音频数据、所述目标数字人图像和所述面部动作系数,生成目标数字人视频。

14、第三方面,提供了一种计算机设备,包括存储器、处理器以及存储在存储器中并可在处理器上运行的计算机程序,处理器执行计算机程序时实现上述第一方面的数字人视频生成方法的步骤。

15、第四方面,提供了一种计算机可读存储介质,计算机可读存储介质存储有计算机程序,计算机程序被处理器执行时实现上述第一方面的数字人视频生成方法的步骤。

16、上述数字人视频生成方法、装置、计算机设备及存储介质所实现的方案中,通过对目标音频数据进行特征转换,得到对应的视素特征,通过匹配的对应情感特征提取技术对目标情感提示信息进行特征提取,得到对应的情感特征,将视素特征和情感特征输入至已经进行面部动作预测训练好的模型中,输出面部动作系数,根据目标音频数据、目标数字人图像和面部动作系数,生成目标数字人视频。

17、其中,通过对目标音频数据进行特征转换,得到对应的视素特征,去除了目标音频数据中的情感信息,达到语音与情感解耦的目的,并引入多模态的目标情感提示信息,使得生成的数字人从多模态的目标情感提示信息中学习情感表达,以融合多模态的目标情感提示信息中的情感表达,并通过对多模态的目标情感提示信息进行特征提取和特征融合,最小化不同模态情感表示之间的差异,使得生成的数字人能够一致的表达指定的情感,从而提高生成的数字人视频在情感表达上的真实性和准确性。

本文档来自技高网...

【技术保护点】

1.一种数字人视频生成方法,其特征在于,包括:

2.如权利要求1所述的数字人视频生成方法,其特征在于,所述对所述目标音频数据进行特征转换,确定所述目标音频数据对应的视素特征,包括:

3.如权利要求1所述的数字人视频生成方法,其特征在于,所述根据所述目标情感提示信息,匹配对应的情感特征提取技术,通过所述情感特征提取技术对所述目标情感提示信息进行特征提取,得到所述目标情感提示信息对应的情感特征,包括:

4.如权利要求3所述的数字人视频生成方法,其特征在于,所述根据所述情感提示数据对应的数据类型,匹配对应的情感特征提取技术,通过所述情感特征提取技术对所述情感提示数据进行特征提取,得到所述情感提示数据对应的情感特征,包括:

5.如权利要求3所述的数字人视频生成方法,其特征在于,所述根据所述情感提示数据对应的数据类型,匹配对应的情感特征提取技术,通过所述情感特征提取技术对所述情感提示数据进行特征提取,得到所述情感提示数据对应的情感特征,包括:

6.如权利要求1所述的数字人视频生成方法,其特征在于,所述将所述视素特征和所述情感特征输入至已经进行面部动作预测训练好的模型中,输出面部动作系数,包括:

7.如权利要求1所述的数字人视频生成方法,其特征在于,所述根据所述目标音频数据、所述目标数字人图像和所述面部动作系数,生成目标数字人视频,包括:

8.一种数字人视频生成装置,其特征在于,包括:

9.一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至7任一项所述数字人视频生成方法的步骤。

10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述数字人视频生成方法的步骤。

...

【技术特征摘要】

1.一种数字人视频生成方法,其特征在于,包括:

2.如权利要求1所述的数字人视频生成方法,其特征在于,所述对所述目标音频数据进行特征转换,确定所述目标音频数据对应的视素特征,包括:

3.如权利要求1所述的数字人视频生成方法,其特征在于,所述根据所述目标情感提示信息,匹配对应的情感特征提取技术,通过所述情感特征提取技术对所述目标情感提示信息进行特征提取,得到所述目标情感提示信息对应的情感特征,包括:

4.如权利要求3所述的数字人视频生成方法,其特征在于,所述根据所述情感提示数据对应的数据类型,匹配对应的情感特征提取技术,通过所述情感特征提取技术对所述情感提示数据进行特征提取,得到所述情感提示数据对应的情感特征,包括:

5.如权利要求3所述的数字人视频生成方法,其特征在于,所述根据所述情感提示数据对应的数据类型,匹配对应的情感特征提取技术,通过所述情感特征提取技术对所述情感提示...

【专利技术属性】
技术研发人员:李俊杰刘智恒陈闽川王少军
申请(专利权)人:平安科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1