System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 面部动画合成方法、存储介质及电子设备技术_技高网

面部动画合成方法、存储介质及电子设备技术

技术编号:43662051 阅读:5 留言:0更新日期:2024-12-13 12:52
本申请实施例提供一种面部动画合成方法及电子设备,涉及虚拟数字形象技术领域,该方法包括:获取待进行动画合成的输入语音和人脸源图像;将输入语音分割为相应的语音单元序列;提取语音单元序列所对应的面部动作特征序列;基于向量量化器,将面部动作特征序列压缩转换为相应的动作离散令牌集;基于图像渲染器处理动作离散令牌集和人脸源图像,以生成相应的面部动画。由此,通过向量量化器将面部动作特征序列压缩为离散令牌集,避免了复杂的连续表征模型,实现了更高效的面部动画合成,减少了对计算资源的需求,同时也避免了身份泄露的问题。

【技术实现步骤摘要】

本申请涉及虚拟数字形象,尤其涉及一种面部动画合成方法、存储介质及电子设备


技术介绍

1、虚拟数字形象技术在虚拟现实、计算机游戏、人机交互等领域具有广泛的应用前景,而虚拟数字人脸的生成技术是其中的关键环节之一。在语音驱动面部动画生成技术中,主要关注语音和嘴唇运动的同步,从而生成较为逼真的口型动画。

2、目前,通常采用基于显式结构表示的技术来生成面部动画,具体为通过使用blendshapes、3d可变形模型(3d morphable model,3dmm)或人脸landmark来生成面部动画,从而分离面部动作和纹理信息。具体而言,blend shapes是一种在3d建模软件中常用的变形技术,可以通过混合多个目标形状来生成中间过渡状态,常用于制作面部表情动画。3d可变形模型(3dmm)是一种参数化的人脸统计模型,通过形状和纹理参数可以重建出与输入人脸图像相对应的3d人脸模型。人脸landmark是在人脸图像上标记的一组关键点,通常包括眉毛、眼睛、鼻子、嘴巴等面部器官的轮廓点,可以用来描述人脸的形状和表情特征。

3、然而,这些方案均采用显式动作表示,其缺乏捕捉细微面部动态的能力,难以生成眨眼、表情变化等非语音相关的面部动作,并且显式结构的动作表示的维度有限,无法完整描述面部动态的复杂性,导致其难以应对不同身份之间的差异,导致生成效果普遍较为单一。这些方案使用的面部运动表示过于局限和简单化,其一般只关注口型同步或者使用参数化模型近似面部运动,无法充分刻画面部动态的丰富多样性。

4、此外,一些专家和学者还设想了,基于自监督的精细化结构试图通过自监督学习来构建更精细的面部表征,其通常通过在视频的两个面部图像之间转移表征来学习,从而捕捉更细微的面部动作。然而,这种方法往往会隐式地编码目标身份信息,导致身份泄露问题。当然,后续也有相关的优化方案来处理身份泄露问题,但依然会增加模型复杂度和计算开销。其次,这些方法通常需要大量的训练数据才能获得令人满意的结果,而对于一些资源较少的语言来说可能是一个挑战。另外,这些连续表征方法在未知语言上的泛化能力有限,难以满足跨语言场景的需求,例如目前主要的训练数据集集中在以印欧语系为主的数据集(如voxceleb和hdtf),这样就导致了在非印欧语系语言上泛化能力有限的问题。连续表征的本质也使得模型难以有效地捕捉不同语言家族中有限但独特的语音-视觉关联,限制了其在跨语言场景下的适应能力。

5、针对上述问题,目前业界暂未提出较佳的技术解决方案。


技术实现思路

1、本申请提供一种面部动画合成方法存储介质及电子设备,用以至少解决目前相关技术中在合成面部动画的过程中身份泄露或无法支持跨语言场景的问题。

2、第一方面,本申请实施例提供一种面部动画合成方法,包括:获取待进行动画合成的输入语音和人脸源图像;将所述输入语音分割为相应的语音单元序列;提取所述语音单元序列所对应的面部动作特征序列;基于向量量化器,将所述面部动作特征序列压缩转换为相应的动作离散令牌集;基于图像渲染器处理所述动作离散令牌集和所述人脸源图像,以生成相应的面部动画。

3、第二方面,提供一种电子设备,其包括:至少一个处理器,以及与所述至少一个处理器通信连接的存储器,其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行本申请任一实施例的面部动画合成方法的步骤。

4、第三方面,本申请实施例提供一种存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现本申请任一实施例的面部动画合成方法的步骤。

5、第四方面,本申请实施例提供一种计算机程序产品,包括计算机程序/指令,该计算机程序/指令被处理器执行时实现本申请任一实施例的面部动画合成方法的步骤。

6、本申请实施例的有益效果在于:

7、通过本申请实施例,基于人类语音由有限音素和对应视素组成的语言学原理,将离散化的语音单元映射到离散化的面部动作令牌,离散化的动作表示能够有效地捕捉不同语言家族中特有的语音-视觉关联,有效提高了在多语言场景下的泛化能力,提升了跨语言的适应性。此外,通过面部动作特征的离散化处理,使得生成的面部动画不再依赖于显式的参数化模型,从而降低了不同身份之间的差异对动画生成效果的影响,离散化动作表示能够更好地适应不同的面部特征,从而提高了跨身份的泛化能力。另外,与一些基于自监督学习的精细化结构不同,在本申请实施例中,通过向量量化器将面部动作特征序列压缩为离散令牌集,避免了复杂的连续表征模型,实现了更高效的面部动画合成,减少了对计算资源的需求,同时也避免了身份泄露的问题。

本文档来自技高网...

【技术保护点】

1.一种面部动画合成方法,包括:

2.根据权利要求1所述的方法,其中,所述向量量化器选自以下中的任意一者:单码本向量量化器、群向量量化器、残差向量量化器、群残差向量量化器或群残差有限标量量化器。

3.根据权利要求2所述的方法,其中,所述向量量化器为群残差有限标量量化器;所述将所述面部动作特征序列压缩转换为相应的动作离散令牌集,包括:

4.根据权利要求3所述的方法,其中,码本采用时间维度和动作粒度维度进行交错的码本,使得特征数据能够在时间维度与动作粒度维度交替地进行码本量化。

5.根据权利要求4所述的方法,其中,针对所述时间维度的码本量化采用非自回归方法,以及针对所述动作粒度维度的码本量化采用多层次渐进迭代的自回归方法。

6.根据权利要求1所述的方法,其中,所述提取所述语音单元序列所对应的面部动作特征序列,包括:

7.根据权利要求1所述的方法,其中,在获取待进行动画合成的输入语音和人脸源图像之后,所述方法还包括:

8.一种存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现权利要求1-7中任一项所述方法的步骤。

9.一种电子设备,其包括:至少一个处理器,以及与所述至少一个处理器通信连接的存储器,其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-7中任一项所述方法的步骤。

10.一种计算机程序产品,包括计算机程序/指令,其特征在于,该计算机程序/指令被处理器执行时实现权利要求1-7中任一项所述方法的步骤。

...

【技术特征摘要】

1.一种面部动画合成方法,包括:

2.根据权利要求1所述的方法,其中,所述向量量化器选自以下中的任意一者:单码本向量量化器、群向量量化器、残差向量量化器、群残差向量量化器或群残差有限标量量化器。

3.根据权利要求2所述的方法,其中,所述向量量化器为群残差有限标量量化器;所述将所述面部动作特征序列压缩转换为相应的动作离散令牌集,包括:

4.根据权利要求3所述的方法,其中,码本采用时间维度和动作粒度维度进行交错的码本,使得特征数据能够在时间维度与动作粒度维度交替地进行码本量化。

5.根据权利要求4所述的方法,其中,针对所述时间维度的码本量化采用非自回归方法,以及针对所述动作粒度维度的码本量化采用多层次渐进迭代的自回归方法。

6.根据权利要求1所述的方...

【专利技术属性】
技术研发人员:俞凯刘涛
申请(专利权)人:思必驰科技股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1