基于U-net注意力增强解码器的情感动画生成方法技术

技术编号：42466416 阅读：6 留言：0更新日期：2024-08-21 12:52

本发明专利技术公开基于U‑net注意力增强解码器的情感动画生成方法，具体为：步骤1：融入面部情感的人脸关键点预测；步骤2：基于U‑net注意力增强解码器的人脸关键点解码，在解码人脸关键点生成谈话头部视频阶段，将从步骤1中获得的预测人脸关键点视频帧与目标人物图像输入到基于U‑net的注意力增强解码器中，生成逼真的会说话的头部视频。该方法最终输出的目标人物既有唇部又有头部和面部情感动画的高保真的视频帧，可以提高生成视频的质量，使得输出的图像能保持更多的细节。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于虚拟数字动画，具体涉及基于u-net注意力增强解码器的情感动画生成方法。

技术介绍

1、人脸动画生成旨在给定语音或是文本，图像或是视频通过一定的变化方法生成一系列高自然的、唇音同步的人物动画。近年来，随着基于深度学习的人脸动画技术的快速发展，虚拟数字人技术在许多行业得以应用，如：新闻媒体、商业客服等。在新闻媒体中，使用虚拟真人新闻主播将资讯新闻可视化，可以让最新国内外消息及时、准确、通俗易懂地传递给用户，实现海量新闻的快速生产。在虚拟客服中，使用符合自己企业形象的虚拟人物来回答用户问题和对相关产业进行讲解，可以减少人力的消耗，也可以快速解决用户的疑问，提供企业经济效益。人脸动画由音频和视频驱动会受到带宽和成本的限制，不适用于诸如带宽受限的视频会议和成本高昂的视频制作等特定应用领域，具有局限性。目前，由音频和图像驱动的人脸动画技术成为研究热点，该驱动方式获得相对容易，随着人工智能技术的快速发展，手机和相机等摄影设备对音频和图像的捕捉质量很高，可以节约资源，且可以用在很多应用领域，具有泛化性。目前，音频和图像驱动生成会说话的人脸视频已经可以实现唇部运动与音频同步，但是头部运动和面部表情与音频之间的协调性、视频质量都有待提高，但是生成既有面部表情又有头部运动的方法较少。关于动画视频质量方面，目前已经有一定的研究报道，但是生成的视频结果在眼睛和皮肤纹理细节方面仍有待提高，眼睛和皮肤纹理细节的面部渲染在情感表达方面有很重要的作用，为了更好体现目标人物的面部表情，还需要通过高保真的渲染目标人物的皮肤纹理来提高视频质量，生成更加逼真的视频帧。

技术实现思路

1、本专利技术的目的是提供基于u-net注意力增强解码器的情感动画生成方法，最终输出的目标人物既有唇部又有头部和面部情感动画的高保真的视频帧，可以提高生成视频的质量，使得输出的图像能保持更多的细节。

2、本专利技术所采用的技术方案是，基于u-net注意力增强解码器的情感动画生成方法，具体为：

3、步骤1：融入面部情感的人脸关键点预测；

4、步骤2：基于u-net注意力增强解码器的人脸关键点解码，在解码人脸关键点生成谈话头部视频阶段，将从步骤1中获得的预测人脸关键点视频帧与目标人物图像输入到基于u-net的注意力增强解码器中，生成逼真的会说话的头部视频。

5、本专利技术的特征还在于：

6、步骤1具体为：

7、步骤1.1、构建并训练面部情感动画网络；

8、步骤1.2、选取一段音频，获得与该音频相对应的预测人脸关键点视频帧。

9、步骤1.1具体为：

10、步骤1.1.1、下载最新公开的多模情感和情感检测数据集，简称mead数据集，该数据集中拥有不同情感相同文本的高质量头部视频和音频。

11、步骤1.1.2、将步骤1.1.1的mead数据集中的会说话的头部视频转换为62.5fps，并将音频采样率设置为16khz；

12、步骤1.1.3、通过face_alignment库提取步骤1.1.2处理后的mead数据集中头部视频的3d人脸关键点信息，接着用标准的面部关键点进行归一化处理，最后存储在文档中；

13、步骤1.1.4、在步骤1.1.2处理后的mead数据集的基础上，通过交叉重构情感解纠缠技术来训练提取情感辅助特征的情感编码器；

14、步骤1.1.5、使用步骤1.1.4的情感编码器提取步骤1.1.2处理后的mead数据集音频中的情感特征信息，并将其存储在文档中；

15、步骤1.1.6、通过递归网络lstm和多层感知器来构建面部情感动画网络；

16、步骤1.1.7、通过将步骤1.1.5中获得的mead数据集音频中的情感特征信息输入到步骤1.1.6构建的面部情感动画网络中，通过映射得到相应的面部地标，接着与步骤1.1.3中提取到的mead数据集人脸关键点进行对比损失来训练步骤1.1.6构建的面部情感动画网络。

17、步骤1.2具体为：

18、步骤1.2.1、在步骤1.1.1的mead数据集中选取任意一段音频。

19、步骤1.2.2、对步骤1.2.1选取的音频进行预处理，修改音频的帧率为62.5hz，语音波形的采样率为16khz。

20、步骤1.2.3、将步骤1.2.2处理后的音频分别输入到预训练的文本、说话者风格和情感编码器中，分别获得音频中的内容、说话者风格和情感特征，即80、256和128维度的向量；

21、步骤1.2.4、将步骤1.2.3中提取的内容特征输入到makeittalk方法中的唇部运动网络，获得唇部动画的3d静态地标的相对位移，即204维度的向量；

22、步骤1.2.5、将步骤1.2.3中提取的说话者风格特征和内容特征一起输入到makeittalk方法中的头部运动网络，获得头部动画的3d静态地标的相对位移，即204维度的向量；

23、步骤1.2.6、将步骤1.2.3中提取的情感特征输入到1.1.7最终训练的面部情感动画网络，获得面部情感动画的3d静态地标的相对位移，即204维度的向量；

24、步骤1.2.7、将从步骤1.2.4、1.2.5、1.2.6获得的3d静态地标的相对位移与标准的人脸关键点一起进行相加融合，获得与音频相应的预测人脸关键点视频帧。

25、步骤2具体为：

26、步骤2.1构建并训练基于u-net的注意力增强解码器；

27、步骤2.2将随机选择的目标人物图像与预测人脸关键点视频帧输入基于u-net的注意力增强解码器中，生成逼真的谈话头部视频。

28、步骤2.1具体为：

29、步骤2.1.1、下载公开的voxceleb2数据集、mead数据集，这些数据集都拥有不同说话人的高质量头部视频和相应音频；

30、步骤2.1.2、将步骤2.1.1的数据集中的会说话的头部视频转换为25fps。

31、步骤2.1.3、通过face_alignment库提取步骤2.1.2处理后的数据集中头部视频的2d人脸关键点信息，接着用标准的面部关键点进行归一化处理，最后存储在文档中；

32、步骤2.1.4、通过在u-net模型上添加cbam模块来构建基于u-net的注意力增强解码器，除u-net最后一层上采样外，u-net每层上采样之前都添加有cbam模块；

33、步骤2.1.5、在步骤2.1.2处理后的数据集中任选一个视频帧，随机抓取两张不同的图像，一张作为输入目标图像，另一张作为输出目标图像。采用面部对齐的方式，通过输出目标图像预测人脸关键点的热图获得关键点信息；从步骤2.1.3存储2d人脸关键点信息的文档中提取该输出目标图像的唇部关键点信息，用来取代热图获得的关键点信息中的唇部信息，最终获得74位面部关键点信息；

34、步骤2.1.6、将步骤2.1.5获得的面部关键点信息和步骤2.1.5随本文档来自技高网...

【技术保护点】

1.基于U-net注意力增强解码器的情感动画生成方法，其特征在于，具体为：

2.根据权利要求1所述的基于U-net注意力增强解码器的情感动画生成方法，其特征在于，步骤1具体为：

3.根据权利要求2所述的基于U-net注意力增强解码器的情感动画生成方法，其特征在于，步骤1.1具体为：

4.根据权利要求3所述的基于U-net注意力增强解码器的情感动画生成方法，其特征在于，步骤1.2具体为：

5.根据权利要求4所述的基于U-net注意力增强解码器的情感动画生成方法，其特征在于，步骤2具体为：

6.根据权利要求5所述的基于U-net注意力增强解码器的情感动画生成方法，其特征在于，步骤2.1具体为：

7.根据权利要求6所述的基于U-net注意力增强解码器的情感动画生成方法，其特征在于，步骤2.2具体为：将随机选择的目标人物图像及从步骤1.2.7获得的预测人脸关键点视频帧与进行通道连接一起输入到步骤2.1.6训练好的基于U-net的注意力增强解码器中，最终生成该目标人物既有唇部又有头部和面部情感动画的高保真的会说话的头部视频。

...

【技术特征摘要】

1.基于u-net注意力增强解码器的情感动画生成方法，其特征在于，具体为：

2.根据权利要求1所述的基于u-net注意力增强解码器的情感动画生成方法，其特征在于，步骤1具体为：

3.根据权利要求2所述的基于u-net注意力增强解码器的情感动画生成方法，其特征在于，步骤1.1具体为：

4.根据权利要求3所述的基于u-net注意力增强解码器的情感动画生成方法，其特征在于，步骤1.2具体为：

5.根据权利要求4所述的基于u-net注意力增强解码器的情感动...

【专利技术属性】
技术研发人员：朱欣娟，张欣茹，
申请(专利权)人：西安工程大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人