当前位置: 首页 > 专利查询>天津大学专利>正文

一种基于自监督和混合密度网络的人脸动画生成方法技术

技术编号:32573114 阅读:35 留言:0更新日期:2022-03-09 17:01
本发明专利技术涉及一种基于自监督和混合密度网络的人脸动画生成方法,从语音fbank特征中分离语音内容特征向量和身份特征向量,为提取高质量语音特征,引入记忆模块,在记忆模块中保存多个不同假设,将语音映射到唇部动作和头部动作时产生的不确定性分配给记忆模块,从而使特征提取器专注于特征提取。为了解决语音映射到头部动作时产生的不确定性问题,将混合密度网络引入到人脸关键点回归任务中,提出基于混合密度网络的人脸关键点回归网络。最后将人脸关键点和参考人脸图像输入到图片到图片转换网络中得到最终的人脸图像。网络中得到最终的人脸图像。网络中得到最终的人脸图像。

【技术实现步骤摘要】
一种基于自监督和混合密度网络的人脸动画生成方法


[0001]本专利技术属于图像特征提取
,涉及一种基于自监督和混合密度网络的人脸动画生成方法。

技术介绍

[0002]一般而言,人脸动画生成旨在通过一段源语音序列驱动一张参考人脸图像,进而生成与源语音序列对应的说话人人脸动画。人脸动画生成,在电影制作、数字游戏、视频会议,虚拟主播等行业有广阔的发展前景,对于提高听力障碍人士对于语言的理解具有不可或缺的意义。
[0003]声觉和视觉是信息交流的重要媒介。人们之间相互交流时,面部器官运动传递了重要信息,唇部动作传递了语音内容信息,面部表情反应了说话者的喜怒哀乐,甚至是头部动作也可以提高人们对语言的理解度。语音中不仅包含内容信息还包含身份信息,不同人说话音色音调是不同的,我们有时可以通过声音来判断不同的人。人脸图像中也包含着身份特征,因此声音特征和人脸图像特征中包含着重叠信息同时也存在互补信息。因此,声觉和视觉两种模态相结合为人机交互提供了重要方式。
[0004]在生成的人脸动画中,唇部动作和语音内容同步是至关重要的,语音内容和唇部动作不同步会使人感到不适甚至会怀疑自己所听到的内容。因此,在人脸动画生成任务中生成和语音内容同步的人脸动画是首先要考虑的一个问题。然而,仅仅生成与语音同步的唇部动作是远远不够的,只有唇动而脸部其他器官如头部动作静止的人脸动画,其效果会让人看起来十分僵硬,脸部器官运动有助于提高人们对生成效果的真实性感知。因此,人脸动画中包含自然的头部动作是十分重要的。
[0005]人脸动画生成一般分为语音驱动和文本驱动两种。语音驱动的人脸动画是指给予原始语音输入,从原始语音中提取梅尔频率倒谱系数(Mel Frequency Cepstral Coefficient,MFCC)或者滤波器组参数(Filter Bank,Fbank),利用神经网络或机器学习的方法从大量的训练数据中建立语音参数到人脸图像的映射。由于语音和视觉信息在时间上不是完美对齐的。通常来说,唇部的变化早于声音。例如,当我们说“bed”时,上唇和下唇在说这个单词之前先相遇。为了解决这个问题,通常会训练一个神经网络来学习这种时延,或者简单的通过音频帧上下文预测视频帧,即音频帧的前几帧和后几帧来预测视频帧。文本驱动的方法是把文本转化为音素信息,建立音素信息到嘴型的映射,同时利用协同发音规则生成平滑连续的嘴型。文本驱动和语音驱动的方法在本质上是相同的,利用语音识别(speech recognition)方法可以把语音转化为文本,利用语音合成(Text

to

Speech,TTS)方法可以把文本转化为语音。
[0006]人脸动画生成,在多个行业都具有广泛应用前景。对于带宽受限的网络会议,我们可以只传输语音和一张人脸图像,在接收端进行人脸动画合成。对于听力受限人士,通过语音合成出人脸动画,通过唇部动作提高对语言的理解能力。对于电影配音、游戏动画等行业也有极大的帮助,可以有效改善用户体验。人脸动画生成作为一个多学科交叉的研究领域,
该技术的发展将为我们的生活提供极大的便利推动社会的发展。

技术实现思路

[0007]本专利技术的目的在于克服现有技术的不足,提供一种基于自监督和混合密度网络的人脸动画生成方法。
[0008]本专利技术解决其技术问题是通过以下技术方案实现的:
[0009]一种基于自监督和混合密度网络的人脸动画生成方法,其特征在于:所述方法的步骤为:
[0010]1)输入一组人脸图像和一段语音片段,进行自监督对比学习,训练语音特征提取模块;
[0011]2)将自监督对比学习中学到的语音特征提取模块应用到人脸关键点回归下游任务中,在下游任务中并对其微调;
[0012]3)将人脸关键点回归网络输出的目标人脸关键点和参考人脸图像输入到图像到图像转换网络得到最终目标人脸图像。
[0013]而且,所述步骤1)的具体操作为:
[0014]1)给定了一组输入人脸图像和一段语音片段,将输入人脸图像和语音片段分别输入到图片特征提取器和语音特征提取器分别进行特征提取;
[0015](2)输入人脸图像首先使用2D

CNN提取图像特征,然后使用3D

CNN提取相邻图像帧之间的时序信息,最后通过图像内容编码器提取图像内容特征,图像身份编码器提取图像身份特征;
[0016](3)输入语音片段首先使用卷积神经网络对语音特征进行初步提取获得高层次特征表示,然后使用双向GRU进一步学习语音时序信息;
[0017](4)把经过GRU提取到的语音特征输入到记忆模块,使用记忆模块保存多个不同假设,将语音映射到唇部动作以及头部动作的不确定性分担给记忆模块,使语音特征提取模块专注于语音特征提取。
[0018](5)将提取的语音内容特征和人脸图像内容特征做对比损失,将提取到的语音身份特征和人脸图像身份特征做对比损失。
[0019]而且,所述步骤2)的具体操作为:
[0020]1)将语音片段输入到语音特征提取器得到语音内容特征向量和语音内容特征向量;
[0021]2)将参考人脸关键点输入到多层感知机得到人脸关键点特征向量,把语音内容特征向量和语音内容特征向量以及人脸关键点特征向量输入到混合密度网络得到目标人脸关键点。
[0022]本专利技术的优点和有益效果为:
[0023]1、本专利技术的基于自监督和混合密度网络的人脸动画生成方法,使用语音片段和参考人脸图像关键点生成目标人脸关键点作为人脸动画生成的中间表示,然后从目标人脸关键点和参考人脸图像生成最终的目标人脸图像。使用人脸关键点作为语音和人脸图像的中间表示有几个优势;首先,生成人脸关键点可以回避掉低级别像素外观特征更容易捕获头部动作;同时,相比于数百万像素点,使用68个人脸关键点,这可以使模型更加紧凑参数量
更加少,从而可以使用小数据集训练本文模型;其次,关键点易于驱动不同类型动画内容,包含人脸图像和卡通动画。相比之下,基于像素的人脸动画生成方法仅限于人脸,不能轻易推广到卡通动画生成中。
[0024]2、本专利技术的基于自监督和混合密度网络的人脸动画生成方法,利用自监督不需要数据标签特性,在大量无标签数据上充分训练特征提取网络,将语音特征分离为内容相关特征向量和身份相关特征向量,使语音内容特征向量专注于唇部动作,语音身份特征向量专注于头部动作。
[0025]3、本专利技术的基于自监督和混合密度网络的人脸动画生成方法,在自监督对比学习中引入记忆模块保存多个不同假设,将语音映射到唇部动作和头部动作时产生的不确定性分配给记忆模块,从而使特征提取器专注于特征提取。
[0026]4、本专利技术的基于自监督和混合密度网络的人脸动画生成方法,使用混合密度网络为说话者生成多个不同假设进一步提高生成头部动作的自然度。
附图说明
[0027]图1本专利技术的自监督对比学习网路结构的示意图;
[0028]图2本专利技术基于混合本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于自监督和混合密度网络的人脸动画生成方法,其特征在于:所述方法的步骤为:1)输入一组人脸图像和一段语音片段,进行自监督对比学习,训练语音特征提取模块;2)将自监督对比学习中学到的语音特征提取模块应用到人脸关键点回归下游任务中,在下游任务中并对其微调;3)将人脸关键点回归网络输出的目标人脸关键点和参考人脸图像输入到图像到图像转换网络得到最终目标人脸图像。2.根据权利要求1所述的基于自监督和混合密度网络的人脸动画生成方法,其特征在于:所述步骤1)的具体操作为:(1)给定了一组输入人脸图像和一段语音片段,将输入人脸图像和语音片段分别输入到图片特征提取器和语音特征提取器分别进行特征提取;(2)输入人脸图像首先使用2D

CNN提取图像特征,然后使用3D

CNN提取相邻图像帧之间的时序信息,最后通过图像内容编码器提取图像内容特...

【专利技术属性】
技术研发人员:王建荣范洪凯喻梅李雪威刘李李森
申请(专利权)人:天津大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1