当前位置: 首页 > 专利查询>之江实验室专利>正文

一种融合情感编码的音频驱动人脸动画生成方法及系统技术方案

技术编号:30025602 阅读:29 留言:0更新日期:2021-09-11 06:55
本发明专利技术属于人工智能领域,涉及一种融合情感编码的音频驱动人脸动画生成方法及系统,该方法为:首先对采集的音频信号进行预处理,提取MFCC特征后输入语音识别模块,进一步提取音频特征,同时将MFCC特征输入语音情感识别模块,得到情感类别并进行one

【技术实现步骤摘要】
一种融合情感编码的音频驱动人脸动画生成方法及系统


[0001]本专利技术属于人工智能领域,具体涉及一种融合情感编码的音频驱动人脸动画生成方法及系统。

技术介绍

[0002]近年来,随着人工智能的不断发展,跨模态学习和建模技术在计算机视觉、计算机图形学和多媒体等跨学科研究中引起了越来越多的关注。视觉和听觉模式是人人或人机互动中的两个重要的感觉通道。音频和人脸动画之前存在着很强的关联性,即许多面部动作是直接由语言产生引起的。因此,理解言语和面部运动之间的相关性能够为分析人类行为提供额外的帮助。音频驱动人脸动画技术有着十分广泛的应用场景,如虚拟主播、角色扮演类游戏、三维动画制作等。
[0003]现有的音频驱动人脸动画生成方法大多未考虑说话者的情感状态,导致预测的人脸动画虽然能够实现较高质量的唇部区域运动,但是人脸表情趋于木讷、呆滞,降低了人机交互的可理解性和认知度。抑或有的方法需要联合视频来预测表情,这大大增加了算法的复杂度。
[0004]天津大学申请的专利“一种语音驱动的三维人脸动画生成方法及网络结构”,申请号:202010387250.0,通过该方法实现了一种与说话者无关的以3D几何图形为导向的语音驱动面部动画网络,并引入非线性几何图形表示法和来自不同视角的两个约束条件,使得生成的3D面部表情更加生动形象。然而该方法未考虑不同情绪下说话状态的人脸表情,这就使得生成的虚拟人的表情木讷、呆滞,从而降低了人机交互的可理解性和认知度。
[0005]上海交通大学的申请的专利“联合语气词特征的视音频驱动人脸动画实现方法及系统”,申请号:CN202011484986.6,该申请利用语气词增强训练网络学习识别语气词特征,学习语气词特征与面部表情AU参数在语境中的深层的映射关系,对语音输入信息进行语气词特征的提取,进行表情增强AU参数的预测。然而,一方面,语气词并不能完全反应说话人的真实情感状态,另一方面,如果语句中不包含语气词,则该方法无法判断情感状态。此外,该方法需同时从视频中提取AU参数并与音频预测的AU参数进行加权,因此算法的复杂度较高。

技术实现思路

[0006]为了解决现有技术中存在的上述技术问题,本专利技术提出了一种融合情感编码的音频驱动人脸动画生成方法及系统,对输入语音准确预测对应唇形的同时,能够结合情感状态,得到包含丰富表情的人脸动画,其具体技术方案如下:一种融合情感编码的音频驱动人脸动画生成方法,包括以下步骤:步骤1,采集音频信号,对音频信号进行预处理,提取MFCC特征;步骤2,将MFCC特征输入语音识别模块,进一步提取音频特征;步骤3,将MFCC特征输入语音情感识别模块,得到情感类别,并进行one

hot编码;
步骤4,将步骤2得到的音频特征和步骤3得到的情感的one

hot编码向量进行连接,输入表情识别模块,得到基于3DMM模型的表情系数;步骤5,将表情系数与人脸模板输入人脸动画生成模块,得到带表情的3D人脸动画。
[0007]进一步的,所述步骤1具体为:设置采样率为16000Hz, 滑窗大小为0.02s, 滑窗步长为0.02s,提取的MFCC特征的帧率为50fps。
[0008]进一步的,所述步骤2具体为:所述语音识别模块输入MFCC特征,输出为字符的非标准化概率,即对于n帧音频输入,该模块输出为一个大小为n
×
D的向量,D为字母表字符数加上空白标签的字符数。
[0009]进一步的,所述步骤3具体为:所述得到的情感类别包括:中性、生气、厌恶、恐惧、高兴、伤心、惊讶,进行one

hot编码具体表示为:中性

1000000,生气

0100000,厌恶

0010000,恐惧

0001000,高兴

0000100,伤心

0000010,惊讶

0000001,即语音情感识别模块的输出为大小是n
×
7的向量。
[0010]进一步的,所述将步骤2得到的音频特征和步骤3得到的情感的one

hot编码向量进行连接后,得到的向量长度为n
×ꢀ
(D+7)。
[0011]进一步的,所述表情识别模块的网络由两层LSTM和两个全连接层构成,即包含依次串联连接的第一LSTM层、第二LSTM层、第一全连接层和第二全连接层。
[0012]进一步的, 所述表情识别模块的训练数据包含不同情感状态下的相同句子的音频数据及对应的3D人脸模型数据,其中,所述的情感状态包含:中性、生气、厌恶、恐惧、高兴、伤心、惊讶,并采用one

hot进行编码;所述的3D人脸模型数据可由3D扫描设备采集并绑定到3DMM模型的拓扑网格上,所有的人脸模型具有相同的顶点数,并且顶点之间具有相同的拓扑关系;或采用基于3DMM的人脸三维重建方法,通过输入的二维图像生成3D模型;采集的3D人脸模型数据的帧率与语音提取的特征的帧率保持一致;所述表情识别模块的在训练过程中使用的损失函数包含距离损失和时间连续性损失,其表达式为:其中,为距离损失,为时间连续性损失,为权重,计算了3D模型的真实顶点位置和预测位置之间的均方误差:,计算了3D模型的真实的前后帧之间的顶点位移与预测的前后帧之间顶点位移之间的均方误差:,式中,为真实3D人脸模型的顶点集, 为预测3D人脸模型的顶点集,N为顶点数,t表示当前帧,t

1表示上一时刻帧。
[0013]进一步的,所述步骤5具体为:将表情系数作为权重,与3DMM模型的表情PCA的分量相乘后,与人脸模板进行相加,得到的带表情的3D人脸动画模型,具体表达式为:
其中,为第t帧预测的人脸模型的顶点集,T为人脸模板的顶点集,n_param为表情系数的数量,为第t帧的第i个表情系数,为3DMM模型的表情PCA的第i个特征向量。
[0014]一种融合情感编码的音频驱动人脸动画生成系统,包括以下模块:1)音频采集模块,采集音频信号;2)音频预处理模块,对输入的原始音频信号提取MFCC特征;3)语音识别模块,用于进一步从MFCC特征中提取音频广义特征;4)语音情感识别模块,用于对语音进行情感分类,并得到情感的one

hot编码;5)表情识别模块,对语音识别模块和语音情感识别模块的输出进行连接作为输入,预测基于3DMM的表情系数;6)人脸动画生成模块,输入表情系数和人脸模板,得到3D人脸动画;7)动画显示模块,将3D人脸模型渲染为2D图像,并通过显示设备播放。
[0015]本专利技术的优点:1.本专利技术提出的加入情感编码的音频驱动人脸动画方法,充分考虑了语音传达的情感状态,对在网络中输入了情感编码,使得生成的人脸动画更加生动形象,能够给用户带来更优质的体验。
[0016]2.本专利技术的表情识别模块输出是表情系数,根据表情系数来驱动3DMM模型的表情,相比于专利“一本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种融合情感编码的音频驱动人脸动画生成方法,其特征在于,包括以下步骤:步骤1,采集音频信号,对音频信号进行预处理,提取MFCC特征;步骤2,将MFCC特征输入语音识别模块,进一步提取音频特征;步骤3,将MFCC特征输入语音情感识别模块,得到情感类别,并进行one

hot编码;步骤4,将步骤2得到的音频特征和步骤3得到的情感的one

hot编码向量进行连接,输入表情识别模块,得到基于3DMM模型的表情系数;步骤5,将表情系数与人脸模板输入人脸动画生成模块,得到带表情的3D人脸动画。2.如权利要求1所述的一种融合情感编码的音频驱动人脸动画生成方法,其特征在于,所述步骤1具体为:设置采样率为16000Hz, 滑窗大小为0.02s, 滑窗步长为0.02s,提取的MFCC特征的帧率为50fps。3.如权利要求1所述的一种融合情感编码的音频驱动人脸动画生成方法,其特征在于,所述步骤2具体为:所述语音识别模块输入MFCC特征,输出为字符的非标准化概率,即对于n帧音频输入,该模块输出为一个大小为n
×
D的向量,D为字母表字符数加上空白标签的字符数。4.如权利要求3所述的一种融合情感编码的音频驱动人脸动画生成方法,其特征在于,所述步骤3具体为:所述得到的情感类别包括:中性、生气、厌恶、恐惧、高兴、伤心、惊讶,进行one

hot编码具体表示为:中性

1000000,生气

0100000,厌恶

0010000,恐惧

0001000,高兴

0000100,伤心

0000010,惊讶

0000001,即语音情感识别模块的输出为大小是n
×
7的向量。5.如权利要求4所述的一种融合情感编码的音频驱动人脸动画生成方法,其特征在于,所述将步骤2得到的音频特征和步骤3得到的情感的one

hot编码向量进行连接后,得到的向量长度为n
×ꢀ
(D+7)。6.如权利要求1所述的一种融合情感编码的音频驱动人脸动画生成方法,其特征在于,所述表情识别模块由两层LSTM和两个全...

【专利技术属性】
技术研发人员:李太豪刘逸颖郑书凯刘昱龙马诗洁阮玉平
申请(专利权)人:之江实验室
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1