当前位置: 首页 > 专利查询>清华大学专利>正文

生成面部动画的方法、装置、电子设备和存储介质制造方法及图纸

技术编号:39185689 阅读:10 留言:0更新日期:2023-10-27 08:33
本公开的实施例提供了生成面部动画的方法、装置、电子设备和存储介质。该方法包括:生成与驱动音频信号对应的第一特征表示;利用与驱动视频序列对应的第二特征表示,更新第一特征表示,以获取第三特征表示;以及基于第三特征表示和用于指示面部模板信息的第四特征表示,生成与驱动音频信号对应的面部动画。基于这样的方式,本公开的实施例能够支持利用驱动音频信号和驱动视频序列来生成对应的面部动画,从而提升面部动画的真实感。从而提升面部动画的真实感。从而提升面部动画的真实感。

【技术实现步骤摘要】
生成面部动画的方法、装置、电子设备和存储介质


[0001]本公开的示例实施例总体涉及图像处理领域,特别地涉及生成面部动画的方法、装置、电子设备和计算机可读存储介质。

技术介绍

[0002]随着信息技术的普及和快速发展,动画已经成为人们生活中广泛应用的娱乐手段,人们可以通过电子设备创作动画、观看动画、分享动画等等。面部动画在诸如数字人、动画制作等诸多领域中具有广泛的应用。人们期望能够提高生成的面部动画的效果。

技术实现思路

[0003]在本公开的第一方面,提供了一种生成面部动画的方法。该方法包括:生成与驱动音频信号对应的第一特征表示;利用与驱动视频序列对应的第二特征表示,更新第一特征表示,以获取第三特征表示;以及基于第三特征表示和用于指示面部模板信息的第四特征表示,生成与驱动音频信号对应的面部动画。
[0004]在本公开的第二方面,提供了一种生成面部动画的装置。该装置包括:特征生成模块,被配置为生成与驱动音频信号对应的第一特征表示;特征更新模块,被配置为利用与驱动视频序列对应的第二特征表示,更新第一特征表示,以获取第三特征表示;以及动画生成模块,被配置为基于第三特征表示和用于指示面部模板信息的第四特征表示,生成与驱动音频信号对应的面部动画。
[0005]在本公开的第三方面,提供了一种电子设备。该设备包括至少一个处理单元;以及至少一个存储器,至少一个存储器被耦合到至少一个处理单元并且存储用于由至少一个处理单元执行的指令。指令在由至少一个处理单元执行时使设备执行第一方面的方法。
[0006]在本公开的第四方面,提供了一种计算机可读存储介质。该计算机可读存储介质上存储有计算机程序,计算机程序可由处理器执行以实现第一方面的方法。
[0007]应当理解,本内容部分中所描述的内容并非旨在限定本公开的实施例的关键特征或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的描述而变得容易理解。
附图说明
[0008]结合附图并参考以下详细说明,本公开各实施例的上述和其他特征、优点及方面将变得更加明显。在附图中,相同或相似的附图标记表示相同或相似的元素,其中:
[0009]图1示出了本公开的实施例能够在其中实现的示例环境的示意图;
[0010]图2示出了根据本公开的一些实施例的用于生成面部动画的过程的流程图;
[0011]图3示出了根据本公开的一些实施例的利用机器学习模型来生成面部动画的示例的示意图;
[0012]图4示出了运动特征的每个元素的激活区域的示例的示意图;
[0013]图5示出了采用不同方案合成面部动画的效果的比较结果的示意图;
[0014]图6示出了根据本公开的一些实施例的用于生成面部动画的装置的框图;以及
[0015]图7示出了其中可以实施本公开的一个或多个实施例的电子设备的框图。
具体实施方式
[0016]下面将参照附图更详细地描述本公开的实施例。虽然附图中示出了本公开的某些实施例,然而应当理解的是,本公开可以通过各种形式来实现,而且不应该被解释为限于这里阐述的实施例,相反,提供这些实施例是为了更加透彻和完整地理解本公开。应当理解的是,本公开的附图及实施例仅用于示例性作用,并非用于限制本公开的保护范围。
[0017]在本公开的实施例的描述中,术语“包括”及其类似用语应当理解为开放性包含,即“包括但不限于”。术语“基于”应当理解为“至少部分地基于”。术语“一个实施例”或“该实施例”应当理解为“至少一个实施例”。术语“一些实施例”应当理解为“至少一些实施例”。下文还可能包括其他明确的和隐含的定义。如本文中所使用的,术语“模型”可以表示各个数据之间的关联关系。例如,可以基于目前已知的和/或将在未来开发的多种技术方案来获取上述关联关系。
[0018]在本文中,除非明确说明,“响应于A”执行一个步骤并不意味着在“A”之后立即执行该步骤,而是可以包括一个或多个中间步骤。
[0019]可以理解的是,本技术方案所涉及的数据(包括但不限于数据本身、数据的获取或使用)应当遵循相应法律法规及相关规定的要求。
[0020]可以理解的是,在使用本公开各实施例公开的技术方案之前,均应当根据相关法律法规通过适当的方式对本公开所涉及信息的类型、使用范围、使用场景等告知相关用户并获得相关用户的授权,其中,相关用户可以包括任何类型的权利主体,例如个人、企业、团体。
[0021]例如,在响应于接收到用户的主动请求时,向用户发送提示信息,以明确地提示用户,其请求执行的操作将需要获取和使用到用户的个人信息。从而,使得用户可以根据提示信息来自主地选择是否向执行本公开技术方案的操作的电子设备、应用程序、服务器或存储介质等软件或硬件提供个人信息。
[0022]作为一种可选的但非限制性的实施例,响应于接收到用户的主动请求,向用户发送提示信息的方式,例如可以是弹出窗口的方式,弹出窗口中可以以文字的方式呈现提示信息。此外,弹出窗口中还可以承载供用户选择“同意”或“不同意”向电子设备提供个人信息的选择控件。
[0023]可以理解的是,上述通知和获取用户授权过程仅是示意性的,不对本公开的实施例构成限定,其他满足相关法律法规的方式也可应用于本公开的实施例中。
[0024]如本文中所使用的,术语“模型”可以从训练数据中学习到相应的输入与输出之间的关联关系,从而在训练完成后可以针对给定的输入,生成对应的输出。模型的生成可以基于机器学习技术。深度学习是一种机器学习算法,通过使用多层处理单元来处理输入和提供相应输出。神经网络模型是基于深度学习的模型的一个示例。在本文中,“模型”也可以被称为“机器学习模型”、“学习模型”、“机器学习网络”或“学习网络”,这些术语在本文中可互换地使用。
[0025]“神经网络”是一种基于深度学习的机器学习网络。神经网络能够处理输入并且提供相应输出,其通常包括输入层和输出层以及在输入层与输出层之间的一个或多个隐藏层。在深度学习应用中使用的神经网络通常包括许多隐藏层,从而增加网络的深度。神经网络的各个层按顺序相连,从而前一层的输出被提供作为后一层的输入,其中输入层接收神经网络的输入,而输出层的输出作为神经网络的最终输出。神经网络的每个层包括一个或多个节点(也称为处理节点或神经元),每个节点处理来自上一层的输入。
[0026]通常,机器学习大致可以包括三个阶段,即训练阶段、测试阶段和应用阶段(也称为推理阶段)。在训练阶段,给定的模型可以使用大量的训练数据进行训练,不断迭代更新参数值,直到模型能够从训练数据中获得一致的满足预期目标的推理。通过训练,模型可以被认为能够从训练数据中学习从输入到输出之间的关联(也称为输入到输出的映射)。训练后的模型的参数值被确定。在测试阶段,将测试输入应用到训练后的模型,测试模型是否能够提供正确的输出,从而确定模型的性能。在应用阶段,模型可以被用于基于训练得到的参数值,对实际的输入进行处理,确定对应的输出。
[0027]如前文所简要提及的本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种生成面部动画的方法,包括:生成与驱动音频信号对应的第一特征表示;利用与驱动视频序列对应的第二特征表示,更新所述第一特征表示,以获取第三特征表示;以及基于所述第三特征表示和用于指示面部模板信息的第四特征表示,生成与所述驱动音频信号对应的面部动画。2.根据权利要求1所述的方法,还包括:响应于用于生成所述面部动画的目标音频的长度大于阈值,将所述目标音频切分为具有预设长度的一组驱动音频信号。3.根据权利要求1所述的方法,其中所述驱动视频序列包括多个面部图像,所述方法还包括:基于所述多个面部图像的多个图像表示,确定均值表示;以及基于所述多个图像表示与所述均值表示的多个差异,确定所述第二特征表示。4.根据权利要求3所述的方法,其中基于所述多个图像表示与所述均值表示的多个差异,确定所述第二特征表示包括:利用目标嵌入矩阵,生成与所述多个差异对应的多个特征向量;以及利用编码器处理所述多个特征向量,以生成所述第二特征表示。5.根据权利要求4所述的方法,其中所述第四特征表示是利用所述目标嵌入矩阵所生成的。6.根据权利要求4所述的方法,其中基于所述第三特征表示和用于指示面部模板信息的第四特征表示生成与所述驱动音频信号对应的面部动画包括:级联所述第三特征表示和所述第四特征表示,以生成目标特征表示;利用解码器处理所述目标特征表示,以生成预测运动特征;以及基于所述面部模板信息和所述预测运动特征,生成与所述驱动音频信号对应的所述面部动画。7.根据权利要求4所述的方法,其中用于生成所述面部动画的目标模型被训练以最小化所述目标嵌入矩阵的L1范数。8.根据权利要求7所述的方法,其中所述目标模型基...

【专利技术属性】
技术研发人员:温翔吴昊哲贾珈周松涛兴军亮温琦
申请(专利权)人:清华大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1