【技术实现步骤摘要】
一种语音驱动三维人脸动画生成方法
[0001]本专利技术涉及人机多模态交互领域,具体涉及一种语音驱动三维人脸模型方法。
技术介绍
[0002]人脸是人类最具表现力和个性化的外部特征,是人际交流中表达情感和态度的直接载体,面部表情和唇形动作能够传递出更丰富、更高效的信息,极大提高了语言的理解效果。三维人脸动画致力于研究在计算机中虚拟人脸部的外观特征和运动变化。
[0003]随着电影和游戏产业的不断发展,越来越多3D动画电影和3D网络进入到人们的生活中。从早期的《侏罗纪公园》到《指环王》、《变形金刚》、《星球崛起》等,运用计算机的三维特技可以有效地还原表演者的细致动作以及表现力,优化内容制作行业。但是这种通过捕捉表演者表演来驱动人脸动画方法,采集设备价格昂贵,同时需要专业人员进行专业操作,普通用户很难实施操作。因此,这种通过给定的音频合成与音频对应的三维人脸动画,使静态模型可以完成语言和面部表情的表达语音驱动技术,将会成为现代电影产业及数字游戏等行业中至关重要的组成部分,对虚拟角色的构建与发展具有决定性的影响。
[0004]与此同时,在人机交互中,区别于只是使用简单的语音或者文本进行交流,可以根据语音信息驱动人脸模型,获得人脸动画,丰富人机接口,帮助用户提高人机交互的便捷性和友好程度。例如在ESC2020上,三星公司已经将三星ai lab实验室发表的顶级会议文章进行了产品落地,推出了全新的虚拟人物,NEON,其真实度和智能性都远超目前市面上的语音助手,其重要的提升就在于NEON所拥有的高度真实的面部表情为 ...
【技术保护点】
【技术特征摘要】
1.一种语音驱动三维人脸动画生成方法,其特征在于,包括下述步骤:步骤1:获取样本数据,对数据进行预处理;步骤2:重建三维人脸模型,对完成重建的三维人脸模型进行拓扑对齐,获得连续的人脸模型动画,结合音频数据,构建4D数据集;步骤3:训练模型,求解音频特征信息与人脸模型动画中的映射关系;步骤4:给定音频和静态人脸模型,通过预训练模型,给出对应的三维人脸模型动画。2.根据权利要求1所述的一种语音驱动三维人脸动画生成方法,其特征在于,所述步骤1具体包括:步骤11:搭建视频拍摄平台,获得被拍摄者的正面视频。步骤12:处理拍摄的视频,将视频帧率设置为每秒60帧,同时提取视频中的音频信息,音频信息采样率为22050Hz。3.根据权利要求1所述的一种语音驱动三维人脸动画生成方法,其特征在于,所述步骤2具体包括:步骤21:利用步骤12得到的视频,重建三维人脸模型,在人脸重建过程中有一个必不可少的环节:那就是数据预处理。由于图像在采集过程中会受到许多因素的影响。给定一张二维图像作为输入,首先将图片编码成潜代码,然后解码以用来合成一个二维图像并最小化合成图像之间的差别。训练一个编码器,它是由ResNet50网络加上一个全连接层组成,用来回归这个低维的潜在代码;步骤22:人脸重建使用的是第一个100FLAME的形状参数β,以及50个表情参数ψ,还有50个反射率的参数α,重建一共预测236维的潜在空间,使用了Dlib库里68个关键点;步骤23:重建模型的损失包括人脸特征点的损失L
lmk
,眼睛眨动的损失(L
eye
),基于拍摄图像的损失(L
ph
o),正则化的损失(L
reg
),连续形状的损失(L
sc
):L
coarse
=L
lmk
+L
eye
+L
pho
+L
sc
+L
reg
眼睛眨动的损失L
eye
:L
eye
=∑
(i,j)∈E
||K
i
‑
K
j
‑
sΠ(M
i
‑
M
j
)||1计算的是上下眼皮相对的偏移量。并投影到图像中的FLAME表面M
i
和M
j
上相应坐标的偏移量差异。E为上下眼皮标志对的集合。ID损失L
id
:利用身份损失产生更逼真的面部形状。使重建后的模型更光滑。如果没有L
eye
损失,可能将眼睛形状错误的重建眼部区域或存在凹陷或者凸起得误差;缺失L
id
损失让重建模型没有原图像的真实性,丢失了一部分身份特征信息导致最后结果的不准确。步骤24:将获得的重建模型与FLAME标准...
【专利技术属性】
技术研发人员:王素琴,麻慧祥,石敏,朱登明,
申请(专利权)人:华北电力大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。