一种基于自监督和混合密度网络的人脸动画生成方法技术

技术编号：32573114 阅读：35 留言：0更新日期：2022-03-09 17:01

本发明专利技术涉及一种基于自监督和混合密度网络的人脸动画生成方法，从语音fbank特征中分离语音内容特征向量和身份特征向量，为提取高质量语音特征，引入记忆模块，在记忆模块中保存多个不同假设，将语音映射到唇部动作和头部动作时产生的不确定性分配给记忆模块，从而使特征提取器专注于特征提取。为了解决语音映射到头部动作时产生的不确定性问题，将混合密度网络引入到人脸关键点回归任务中，提出基于混合密度网络的人脸关键点回归网络。最后将人脸关键点和参考人脸图像输入到图片到图片转换网络中得到最终的人脸图像。网络中得到最终的人脸图像。网络中得到最终的人脸图像。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于自监督和混合密度网络的人脸动画生成方法

[0001]本专利技术属于图像特征提取
，涉及一种基于自监督和混合密度网络的人脸动画生成方法。

技术介绍

[0002]一般而言，人脸动画生成旨在通过一段源语音序列驱动一张参考人脸图像，进而生成与源语音序列对应的说话人人脸动画。人脸动画生成，在电影制作、数字游戏、视频会议，虚拟主播等行业有广阔的发展前景，对于提高听力障碍人士对于语言的理解具有不可或缺的意义。
[0003]声觉和视觉是信息交流的重要媒介。人们之间相互交流时，面部器官运动传递了重要信息，唇部动作传递了语音内容信息，面部表情反应了说话者的喜怒哀乐，甚至是头部动作也可以提高人们对语言的理解度。语音中不仅包含内容信息还包含身份信息，不同人说话音色音调是不同的，我们有时可以通过声音来判断不同的人。人脸图像中也包含着身份特征，因此声音特征和人脸图像特征中包含着重叠信息同时也存在互补信息。因此，声觉和视觉两种模态相结合为人机交互提供了重要方式。
[0004]在生成的人脸动画中，唇部动作和语音内容同步是至关重要的，语音内容和唇部动作不同步会使人感到不适甚至会怀疑自己所听到的内容。因此，在人脸动画生成任务中生成和语音内容同步的人脸动画是首先要考虑的一个问题。然而，仅仅生成与语音同步的唇部动作是远远不够的，只有唇动而脸部其他器官如头部动作静止的人脸动画，其效果会让人看起来十分僵硬，脸部器官运动有助于提高人们对生成效果的真实性感知。因此，人脸动画中包含自然的头部动作是十分重要的。
[0005]人脸动...

【技术保护点】

【技术特征摘要】
1.一种基于自监督和混合密度网络的人脸动画生成方法，其特征在于：所述方法的步骤为：1)输入一组人脸图像和一段语音片段，进行自监督对比学习，训练语音特征提取模块；2)将自监督对比学习中学到的语音特征提取模块应用到人脸关键点回归下游任务中，在下游任务中并对其微调；3)将人脸关键点回归网络输出的目标人脸关键点和参考人脸图像输入到图像到图像转换网络得到最终目标人脸图像。2.根据权利要求1所述的基于自监督和混合密度网络的人脸动画生成方法，其特征在于：所述步骤1)的具体操作为：(1)给定了一组输入人脸图像和一段语音片段，将输入人脸图像和语音片段分别输入到图片特征提取器和语音特征提取器分别进行特征提取；(2)输入人脸图像首先使用2D
‑
CNN提取图像特征，然后使用3D
‑
CNN提取相邻图像帧之间的时序信息，最后通过图像内容编码器提取图像内容特...

【专利技术属性】
技术研发人员：王建荣，范洪凯，喻梅，李雪威，刘李，李森，
申请(专利权)人：天津大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人