一种融合情感编码的音频驱动人脸动画生成方法及系统技术方案

技术编号：30025602 阅读：29 留言：0更新日期：2021-09-11 06:55

本发明专利技术属于人工智能领域，涉及一种融合情感编码的音频驱动人脸动画生成方法及系统，该方法为：首先对采集的音频信号进行预处理，提取MFCC特征后输入语音识别模块，进一步提取音频特征，同时将MFCC特征输入语音情感识别模块，得到情感类别并进行one

全部详细技术资料下载

【技术实现步骤摘要】
一种融合情感编码的音频驱动人脸动画生成方法及系统

[0001]本专利技术属于人工智能领域，具体涉及一种融合情感编码的音频驱动人脸动画生成方法及系统。

技术介绍

[0002]近年来，随着人工智能的不断发展，跨模态学习和建模技术在计算机视觉、计算机图形学和多媒体等跨学科研究中引起了越来越多的关注。视觉和听觉模式是人人或人机互动中的两个重要的感觉通道。音频和人脸动画之前存在着很强的关联性，即许多面部动作是直接由语言产生引起的。因此，理解言语和面部运动之间的相关性能够为分析人类行为提供额外的帮助。音频驱动人脸动画技术有着十分广泛的应用场景，如虚拟主播、角色扮演类游戏、三维动画制作等。
[0003]现有的音频驱动人脸动画生成方法大多未考虑说话者的情感状态，导致预测的人脸动画虽然能够实现较高质量的唇部区域运动，但是人脸表情趋于木讷、呆滞，降低了人机交互的可理解性和认知度。抑或有的方法需要联合视频来预测表情，这大大增加了算法的复杂度。
[0004]天津大学申请的专利“一种语音驱动的三维人脸动画生成方法及网络结构”，申请号：202010387250.0，通过该方法实现了一种与说话者无关的以3D几何图形为导向的语音驱动面部动画网络，并引入非线性几何图形表示法和来自不同视角的两个约束条件，使得生成的3D面部表情更加生动形象。然而该方法未考虑不同情绪下说话状态的人脸表情，这就使得生成的虚拟人的表情木讷、呆滞，从而降低了人机交互的可理解性和认知度。
[0005]上海交通大学的申请的专利“联合语气词特征的视音频驱动人脸...

【技术保护点】

【技术特征摘要】
1.一种融合情感编码的音频驱动人脸动画生成方法，其特征在于，包括以下步骤：步骤1，采集音频信号，对音频信号进行预处理，提取MFCC特征；步骤2，将MFCC特征输入语音识别模块，进一步提取音频特征；步骤3，将MFCC特征输入语音情感识别模块，得到情感类别，并进行one
‑
hot编码；步骤4，将步骤2得到的音频特征和步骤3得到的情感的one
‑
hot编码向量进行连接，输入表情识别模块，得到基于3DMM模型的表情系数；步骤5，将表情系数与人脸模板输入人脸动画生成模块，得到带表情的3D人脸动画。2.如权利要求1所述的一种融合情感编码的音频驱动人脸动画生成方法，其特征在于，所述步骤1具体为：设置采样率为16000Hz, 滑窗大小为0.02s, 滑窗步长为0.02s，提取的MFCC特征的帧率为50fps。3.如权利要求1所述的一种融合情感编码的音频驱动人脸动画生成方法，其特征在于，所述步骤2具体为：所述语音识别模块输入MFCC特征，输出为字符的非标准化概率，即对于n帧音频输入，该模块输出为一个大小为n
×
D的向量，D为字母表字符数加上空白标签的字符数。4.如权利要求3所述的一种融合情感编码的音频驱动人脸动画生成方法，其特征在于，所述步骤3具体为：所述得到的情感类别包括：中性、生气、厌恶、恐惧、高兴、伤心、惊讶，进行one
‑
hot编码具体表示为：中性
‑
1000000，生气
‑
0100000，厌恶
‑
0010000，恐惧
‑
0001000，高兴
‑
0000100，伤心
‑
0000010，惊讶
‑
0000001，即语音情感识别模块的输出为大小是n
×
7的向量。5.如权利要求4所述的一种融合情感编码的音频驱动人脸动画生成方法，其特征在于，所述将步骤2得到的音频特征和步骤3得到的情感的one
‑
hot编码向量进行连接后，得到的向量长度为n
×ꢀ
(D+7)。6.如权利要求1所述的一种融合情感编码的音频驱动人脸动画生成方法，其特征在于，所述表情识别模块由两层LSTM和两个全...

【专利技术属性】
技术研发人员：李太豪，刘逸颖，郑书凯，刘昱龙，马诗洁，阮玉平，
申请(专利权)人：之江实验室，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人