System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种基于面部肌肉联动的语音驱动面部动画模拟方法技术_技高网

一种基于面部肌肉联动的语音驱动面部动画模拟方法技术

技术编号:44574152 阅读:1 留言:0更新日期:2025-03-11 14:34
本发明专利技术公开了一种基于面部肌肉联动的语音驱动面部动画模拟方法,属于人工智能领域,包括步骤:S1,构建PPMF编码器;S2,构建基于FDCP的解码器来解码PPMF提供的F<subgt;P</subgt;特征,以获取面部动画;S3,训练语音驱动的3D人脸动画框架DCPTalk;S4,模型优化;S5,模型定量评价。本发明专利技术提出了DCPTalk框架,并基于面部肌肉群的联动特性,提出了Mouth2Face。嘴部运动与语音信号相关性强,很容易与声道动力学合成。为了进一步增强面部运动的细节,采用Refine Decoder模拟表层的皮肤形变去细化面部动画。将固有的身体特征与面部肌肉群运动相关的身体特性嵌入到Mouth2Face,构建个性化的面部肌肉控制系统,同时利用说话风格调制外部的驱动信号。通过定性和定量实验以及用户研究表明,DCPTalk优于现有的最先进的方法。

【技术实现步骤摘要】

本专利技术涉及人工智能,具体而言,涉及一种基于面部肌肉联动的语音驱动面部动画模拟方法


技术介绍

1、语音驱动的3d面部动画已经成为在学术和工业领域的一个重要的科学兴趣的焦点。它的应用包括电影制作、电脑游戏、教育培训和远程医疗等多个领域。语音驱动的三维人脸动画技术,包括基于3dmm的方法和基于网格的方法,具有高度多样性。基于3dmm的方法通常在语音条件下预测中间3dmm系数,并将其转换到3d空间。然而,这些3dmm系数作为中间变量缺乏明确的语义,可能会造成嘴唇运动与驱动音频之间失调。

2、面部表情是由268块肌肉对软组织施加牵引力产生的。嘴部区域的肌肉都很紧密与周围的肌肉相连,肌肉是面部表情变化的基本驱动力,能够确保面部不同区域的运动之间的协调变化。此外,表达细节的描述与皮肤的表层的变形密切相关。然而,面部表情的合成并不仅仅是一个将面部肌肉活动与表面皮肤变形相结合的过程;它还受到个性化因子(因素)的影响,如固有的身体特征和后天习得的说话习惯的说话风格。对于面部形状拉长或更宽的人,肌肉的牵引力可能会减少,因为较长的肌肉纤维比较短的肌肉纤维的牵引力更弱。面部皮肤下胶原蛋白的增加进一步限制了这些纤维的可拉伸性。

3、现有的方法,通常将面部动画生成任务简化为无限薄的表面皮肤变形,而没有底层结构,从而忽略了错综复杂和个性化的面部肌肉活动动态。面部肌肉的结构和活动已经对得到了广泛的研究,并应用于等各个领域。然而,这些肌肉之间的相互作用和力量尚未被彻底量化。


技术实现思路

>1、为解决上述现有技术忽略了面部肌肉活动的错综复杂和个性化动态,将面部动画生成任务简化为无限薄的表面皮肤变形,没有底层结构的问题,本专利技术提供了一种基于面部肌肉联动的语音驱动面部动画模拟方法。

2、为实现上述技术方案,本专利技术提供了一种基于面部肌肉联动的语音驱动面部动画模拟方法,包括步骤:

3、s1:构建ppmf编码器,所述ppmf编码器由音频特征提取器和伪面部关键点提取器构成,利用类似于transformer解码器的模块融合和对齐个性化的伪面部关键点特征fl和音频特征fa;

4、s2:构建基于fdcp的解码器来解码ppmf提供的fp特征,以获取面部动画,该解码器由mouth mapping、mouth2face和refine decoder构成;其中从驱动信号中合成嘴部动作、利用嘴部动作来唤起面部动画以及细化面部动画,这三个阶段分别由mouth mapping、mouth2face和refine decoder实现;

5、s3:训练语音驱动的3d人脸动画框架dcptalk,先使用损失函数训练mouth2face模块,以建立嘴运动和面部动画之间的映射规则;然后固定训练好的mouth

6、2face的参数,开始训练dcptalk的其他组件,并分别给出了训练mouth2face和其他组件的损失函数;其中损失函数包括重建损失速度损失和面部关键点损失

7、s4:模型优化,引入biwi、multiface和vocaset对dcptalk提供全面的分析和优化,并将voca,meshtalk,faceformer,codetalker,facediffuse,diffspeaker,talkingstyle和selftalk都与本专利技术的方法进行比较;然后在单张nvidia a100 gpu上训练dcptalk;

8、s5:模型定量评价,依据faceformer、codetalker和selftalk的方法,通过计算唇部顶点误差(lve),评估语音内容和嘴唇运动之间的同步性。

9、进一步地,在步骤s1中,伪面部关键点特征fl和音频特征fa的融合步骤包括:

10、s1a:使用带有线性偏差的多头自注意层(alibi)对fl进行处理;

11、s1b:采用多头交叉注意层将自注意层获得的fa和与fl对齐;

12、s1c:经过前馈层后得到个性化伪多模态特征fp=[f1p,…,ftp,…,ftp]∈rt×d。

13、进一步地,所述音频特征提取器由音频编码器a和音频特征投影层fa组成,公式表达如下:

14、a=audio encoder(χ;θa)

15、fa=audio projection(α;ψa)。

16、进一步地,伪面部关键点提取器包括一个音频编码器和一个audio2lmk解码器,最终输出3d伪面部关键点l=[l1,…,lt,…,lt]∈rt×68×3;使用个性化因子(因素)p∈rn个性化的面部关键点调制;利用个性化因子p,通过元素级加法调制表示空间中的伪面部关键点l,公式表示如下:

17、l=audio2lmk decoder(α;θl)

18、fl=personlized modulation(l,p;ψl)。

19、进一步地,在步骤s2中,mouth mapping用于合成精确的嘴部运动的过程通过公式表示为:

20、

21、mouth2face通过嘴部编码器将嘴部运动转换为控制面部肌肉活动的信号q,通过使用元素级量化函数离散面部肌肉控制信号q,获得面部肌肉控制命令激活相关的面部肌肉,从而获得面部动画的过程通过公式表示为:

22、

23、

24、

25、refine decoder基于fp预测每个顶点的位移,然后将顶点位移以一种基本的方式添加到由嘴部运动引起的人脸的顶点位置上的细化阶段通过公式表示为:

26、

27、进一步地,mouth2face分别使用嘴部动作和根据真实场景得到的面部动画y=[y1,…,yt,…,yt]∈rt×v×3进行训练。

28、进一步地,在步骤s3中,dcptalk通过损失函数进行训练的过程包括mouth2face模块训练,通过公式表示为:

29、

30、

31、

32、

33、

34、

35、进一步地,在步骤s4中,对于缺乏biwi、vocaset或multiface的预训练模型,使用它们的官方源代码来重新训练它们的模型。

36、进一步地,在步骤s4中,模型参数使用adam优化器进行迭代更新,采用beta1=0.9,beta2=0.999,学习率为1×10-4;特征维数d为256;面部肌肉控制命令h和p分别设置为32和128;损失函数,λ0=1.0,λlmk=1×10-5,λ1=0.1,λ2=2.0,λ3=1.0,β1=0.3,β2=4.0和β3=10.0。

37、综上所述,本专利技术相对于现有技术具有以下有益效果:

38、本专利技术提出了一个称为dcptalk的新框架,以模拟面部肌肉活动的复杂动态,并描绘个性化的面部动画。基于面部肌肉的联动关系,本专利技术提出了mouth2face来模拟面部肌肉控制系统,本文档来自技高网...

【技术保护点】

1.一种基于面部肌肉联动的语音驱动面部动画模拟方法,其特征在于,包括步骤:

2.根据权利要求1所述的基于面部肌肉联动的语音驱动面部动画模拟方法,其特征在于,在步骤S1中,伪面部关键点特征FL和音频特征FA的融合步骤包括:

3.根据权利要求2所述的基于面部肌肉联动的语音驱动面部动画模拟方法,其特征在于,所述音频特征提取器由音频编码器A和音频特征投影层FA组成,公式表达如下:

4.根据权利要求2所述的基于面部肌肉联动的语音驱动面部动画模拟方法,其特征在于,伪面部关键点提取器包括一个音频编码器和一个Audio2lmk解码器,最终输出3D伪面部关键点L=[l1,…,lt,…,lT]∈RT×68×3;使用个性化因子P∈RN个性化的面部关键点调制;利用个性化因子P,通过元素级加法调制表示空间中的伪面部关键点L,公式表示如下:

5.根据权利要求1所述的基于面部肌肉联动的语音驱动面部动画模拟方法,其特征在于,在步骤S2中,Mouth Mapping用于合成精确的嘴部运动的过程通过公式表示为:

6.根据权利要求5所述的基于面部肌肉联动的语音驱动面部动画模拟方法,其特征在于,Mouth2Face分别使用嘴部动作和根据真实场景得到的面部动画Y=[y1,…,yt,…,yT]∈RT×V×3进行训练。

7.根据权利要求1所述的基于面部肌肉联动的语音驱动面部动画模拟方法,其特征在于,在步骤S3中,DCPTalk通过损失函数进行训练的过程包括Mouth2Face模块训练,通过公式表示为:

8.根据权利要求1所述的基于面部肌肉联动的语音驱动面部动画模拟方法,其特征在于,在步骤S4中,对于缺乏BIWI、VOCASET或Multiface的预训练模型,使用它们的官方源代码来重新训练它们的模型。

9.根据权利要求1所述的基于面部肌肉联动的语音驱动面部动画模拟方法,其特征在于,在步骤S4中,模型参数使用Adam优化器进行迭代更新,采用beta1=0.9,beta2=0.999,学习率为1×10-4;特征维数d为256;面部肌肉控制命令H和P分别设置为32和128;损失函数,λ0=1.0,λlmk=1×10-5,λ1=0.1,λ2=2.0,λ3=1.0,β1=0.3,β2=4.0和β3=10.0。

...

【技术特征摘要】

1.一种基于面部肌肉联动的语音驱动面部动画模拟方法,其特征在于,包括步骤:

2.根据权利要求1所述的基于面部肌肉联动的语音驱动面部动画模拟方法,其特征在于,在步骤s1中,伪面部关键点特征fl和音频特征fa的融合步骤包括:

3.根据权利要求2所述的基于面部肌肉联动的语音驱动面部动画模拟方法,其特征在于,所述音频特征提取器由音频编码器a和音频特征投影层fa组成,公式表达如下:

4.根据权利要求2所述的基于面部肌肉联动的语音驱动面部动画模拟方法,其特征在于,伪面部关键点提取器包括一个音频编码器和一个audio2lmk解码器,最终输出3d伪面部关键点l=[l1,…,lt,…,lt]∈rt×68×3;使用个性化因子p∈rn个性化的面部关键点调制;利用个性化因子p,通过元素级加法调制表示空间中的伪面部关键点l,公式表示如下:

5.根据权利要求1所述的基于面部肌肉联动的语音驱动面部动画模拟方法,其特征在于,在步骤s2中,mouth mapping用于合成精确的嘴部运动的过程通过公式表示为:

6.根据权利要求5所述的基于面部肌肉联动的...

【专利技术属性】
技术研发人员:储昭结徐向民邢晓芬郭锴凌
申请(专利权)人:华南理工大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1