一种语音驱动三维人脸动画生成方法技术

技术编号:38763160 阅读:23 留言:0更新日期:2023-09-10 10:36
本发明专利技术公开了一种语音驱动三维人脸动画生成方法,所述方法,包括:步骤1:获取样本数据,对数据进行预处理;步骤2:重建三维人脸模型,对完成重建的三维人脸模型进行拓扑对齐,获得连续的人脸模型动画,结合音频数据,构建4D数据集;步骤3:训练模型,求解音频特征信息与人脸模型动画中的映射关系;步骤4:给定音频和静态人脸模型,通过预训练模型,给出对应的三维人脸模型动画。三维人脸模型动画。三维人脸模型动画。

【技术实现步骤摘要】
一种语音驱动三维人脸动画生成方法


[0001]本专利技术涉及人机多模态交互领域,具体涉及一种语音驱动三维人脸模型方法。

技术介绍

[0002]人脸是人类最具表现力和个性化的外部特征,是人际交流中表达情感和态度的直接载体,面部表情和唇形动作能够传递出更丰富、更高效的信息,极大提高了语言的理解效果。三维人脸动画致力于研究在计算机中虚拟人脸部的外观特征和运动变化。
[0003]随着电影和游戏产业的不断发展,越来越多3D动画电影和3D网络进入到人们的生活中。从早期的《侏罗纪公园》到《指环王》、《变形金刚》、《星球崛起》等,运用计算机的三维特技可以有效地还原表演者的细致动作以及表现力,优化内容制作行业。但是这种通过捕捉表演者表演来驱动人脸动画方法,采集设备价格昂贵,同时需要专业人员进行专业操作,普通用户很难实施操作。因此,这种通过给定的音频合成与音频对应的三维人脸动画,使静态模型可以完成语言和面部表情的表达语音驱动技术,将会成为现代电影产业及数字游戏等行业中至关重要的组成部分,对虚拟角色的构建与发展具有决定性的影响。
[0004]与此同时,在人机交互中,区别于只是使用简单的语音或者文本进行交流,可以根据语音信息驱动人脸模型,获得人脸动画,丰富人机接口,帮助用户提高人机交互的便捷性和友好程度。例如在ESC2020上,三星公司已经将三星ai lab实验室发表的顶级会议文章进行了产品落地,推出了全新的虚拟人物,NEON,其真实度和智能性都远超目前市面上的语音助手,其重要的提升就在于NEON所拥有的高度真实的面部表情为使用者提供了更好的使用体验。
[0005]近年来,虚拟现实社交是目前学术界和工业界都十分关注的热点,让虚拟形象具有逼真的表情、流畅自然的脸部动作变化更是智能化以及图形学上的难题。虽然当下存在一些有效的消费级脸部追踪技术,但通过语音来驱动人脸动画,是虚拟现实(Virtual Reality)等领域重要不懈追求的目标。考虑语音中的重音、情感等因素,用语音驱动人脸自然生动地变化,将极大地优化虚拟现实的展示与交互,使计算机软件的虚拟人物形象得到更生动的展示。
[0006]与单纯的语音交互相比,语音驱动的人脸动画方法在人机交互、虚拟现实等领域中可以显著提高场景的真实感、提高用户的注意力以及在噪音环境中提高理解性,也可以提高虚拟会议、游戏、个人虚拟助手、教育辅导等注重人机交流的系统用户体验。
[0007]总而言之,三维人脸动画的研究具有非常重要的理论价值与广阔的应用空间。语音驱动的具有真实感的人脸动画技术不仅仅是拓宽了人机交互的渠道,而且对提高人机交互的舒适度和人性化提供了新的前进方向。

技术实现思路

[0008]本专利技术人针对一种语音驱动三维人脸模型方法研究时,发现可以通过对视频中人脸进行人脸模型的三维重建,获得人脸模型数据及其对应的音频数据。在获取这些数据之
后,经过对数据的处理,可以获得4D数据集。这个数据集可以作为下一步语音驱动三维人脸动画的训练数据。
[0009]为了实现上述目的,本专利技术提供的技术方案如下:
[0010]步骤1:获取样本数据,对数据进行预处理;
[0011]步骤11:搭建视频拍摄平台,获得被拍摄者的正面视频。
[0012]步骤12:处理拍摄的视频,将视频帧率设置为每秒60帧,同时提取视频中的音频信息,音频信息采样率为22050Hz。
[0013]步骤2:重建三维人脸模型,对完成重建的三维人脸模型进行拓扑对齐,获得连续的人脸模型动画,结合音频数据,构建4D数据集;
[0014]步骤21:利用步骤12得到的视频,重建三维人脸模型,在人脸重建过程中有一个必不可少的环节:那就是数据预处理。由于图像在采集过程中会受到许多因素的影响。给定一张二维图像作为输入,首先将图片编码成潜代码,然后解码以用来合成一个二维图像并最小化合成图像之间的差别。
[0015]步骤22:人脸重建使用的是第一个100FLAME的形状参数β,以及50个表情参数ψ,还有50个反射率的参数α,重建一共预测236维的潜在空间,使用了Dlib库里68个关键点;
[0016]步骤3:训练模型,求解音频特征信息与人脸模型动画中的映射关系;
[0017]步骤4:给定音频和静态人脸模型,通过预训练模型,给出对应的三维人脸模型动画。
[0018]本申请方法具有如下有益效果:目前基于真实数据的4D人脸模型数据集很少,语音驱动人脸模型的泛化性比较差,本申请基于从视频中重建三维人脸模型,制作4D数据集,利用获得的数据集设计了一种语音驱动是三维人脸模型的方法,该方法能够将语音与面部形状的三维面部动作联系起来,根据输入的音频生成与音频对应的人脸模型动画。通过对人脸模型的重建,克服了4D数据集比较少以及通过采集设备采集数据的成本大的缺点。语音驱动的三维人脸模型利用算法和机器学习技术,可以自动地从语音数据中学习和生成面部动作。
[0019]本申请的一种语音驱动三维人脸模型方法有如下有益效果:
[0020]本申请方法基于深度学习的一种音频驱动三维人脸模型方法,与传统的手工建模相比,降低了对专业的艺术家或技术人员进行面部建模和动画设计的需求,能够节省大量的时间和精力。
[0021]充分学习音频特征与人脸模型的映射关系,能计算出符合音频内容的三维人脸面部动画。
附图说明
[0022]下面对本专利技术中所需要使用的附图进行介绍。
[0023]图1为一种音频驱动三维人脸模型方法技术路线;
[0024]图2是针对视频中的人脸获取脸部的关键点;
[0025]图3是重建三维人脸模型结果;
[0026]图4是训练音频到人脸模型的映射关系时的收敛情况;
[0027]图5为输入音频和静态人脸模型后获得的人脸模型动画;
具体实施方式
[0028]为了对本专利技术的技术方案更加清晰的说明,下面将基于实施例中的附图对本专利技术进行详细地描述此外,此处描述的实施例仅用以解释本专利技术,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。
[0029]目前基于有经验的人工进行面部建模和动画设计,很难获取到与音频相对应的完整的4D人脸模型的数据。而直接使用采集设备对人脸进行捕获建模时,除了高昂的采集设备和采集成本。因此,构建4D三维人脸模型的数据集,根据数据集完成音频与人脸模型的映射,根据训练的模型,输入音频和静态模板,获得与音频对应的三维人脸动画,将在人机交互、虚拟现实、增强现实等领域具有广泛的应用潜力。
[0030]常见的语音驱动三维人脸模型方法有以下两种:第一种基于人脸表情数据库的人脸模型映射(Face Model Mapping):通过建立人脸表情数据库,将语音信号中的特征与人脸表情之间的关系进行学习。然后,通过匹配语音特征,将语音信号映射到合适的人脸表情上。第二种是使用深度学习技术,将语音信号直接输入到神经网络中,并通过网络输出三维人脸模型的参数或关键点坐标。这种本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种语音驱动三维人脸动画生成方法,其特征在于,包括下述步骤:步骤1:获取样本数据,对数据进行预处理;步骤2:重建三维人脸模型,对完成重建的三维人脸模型进行拓扑对齐,获得连续的人脸模型动画,结合音频数据,构建4D数据集;步骤3:训练模型,求解音频特征信息与人脸模型动画中的映射关系;步骤4:给定音频和静态人脸模型,通过预训练模型,给出对应的三维人脸模型动画。2.根据权利要求1所述的一种语音驱动三维人脸动画生成方法,其特征在于,所述步骤1具体包括:步骤11:搭建视频拍摄平台,获得被拍摄者的正面视频。步骤12:处理拍摄的视频,将视频帧率设置为每秒60帧,同时提取视频中的音频信息,音频信息采样率为22050Hz。3.根据权利要求1所述的一种语音驱动三维人脸动画生成方法,其特征在于,所述步骤2具体包括:步骤21:利用步骤12得到的视频,重建三维人脸模型,在人脸重建过程中有一个必不可少的环节:那就是数据预处理。由于图像在采集过程中会受到许多因素的影响。给定一张二维图像作为输入,首先将图片编码成潜代码,然后解码以用来合成一个二维图像并最小化合成图像之间的差别。训练一个编码器,它是由ResNet50网络加上一个全连接层组成,用来回归这个低维的潜在代码;步骤22:人脸重建使用的是第一个100FLAME的形状参数β,以及50个表情参数ψ,还有50个反射率的参数α,重建一共预测236维的潜在空间,使用了Dlib库里68个关键点;步骤23:重建模型的损失包括人脸特征点的损失L
lmk
,眼睛眨动的损失(L
eye
),基于拍摄图像的损失(L
ph
o),正则化的损失(L
reg
),连续形状的损失(L
sc
):L
coarse
=L
lmk
+L
eye
+L
pho
+L
sc
+L
reg
眼睛眨动的损失L
eye
:L
eye
=∑
(i,j)∈E
||K
i

K
j

sΠ(M
i

M
j
)||1计算的是上下眼皮相对的偏移量。并投影到图像中的FLAME表面M
i
和M
j
上相应坐标的偏移量差异。E为上下眼皮标志对的集合。ID损失L
id
:利用身份损失产生更逼真的面部形状。使重建后的模型更光滑。如果没有L
eye
损失,可能将眼睛形状错误的重建眼部区域或存在凹陷或者凸起得误差;缺失L
id
损失让重建模型没有原图像的真实性,丢失了一部分身份特征信息导致最后结果的不准确。步骤24:将获得的重建模型与FLAME标准...

【专利技术属性】
技术研发人员:王素琴麻慧祥石敏朱登明
申请(专利权)人:华北电力大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1