人脸图像生成模型的训练方法技术

技术编号:39803975 阅读:15 留言:0更新日期:2023-12-22 02:35
本发明专利技术实施例公开了一种人脸图像生成模型的训练方法

【技术实现步骤摘要】
人脸图像生成模型的训练方法、装置、设备及存储介质


[0001]本申请涉及计算机应用
,尤其涉及人脸图像生成模型的训练方法

装置

设备及存储介质


技术介绍

[0002]在做人物口型驱动的时候,会将任务拆分成如下几个步骤:音频特征提取

表情系数预测
、3D
渲染

人脸生成

具体的,从输入的音频中提取出音频特征,使用音频特征来预测相应的表情系数,使用表情系数来生成对应的三维模型,最后,根据生成的三维模型,进行人脸的生成

[0003]在对人物口型驱动进行训练时,每个任务都在拟合自己的任务,但是口型驱动任务最终的目标实际是对于输入音频,人物嘴巴能发出对应的口型,表情系数预测网络部分只能拟合表情系数,如果表情系数本身就是错误的,那么也会导致最终生成的人脸图像中的口型和音频不匹配

因此,如何提高人脸图像的鲁棒性是目前亟需解决的技术问题


技术实现思路

[0004]本申请实施例提供了人脸图像生成模型的训练方法

装置

设备和存储介质,能够通过联合训练的方式训练得到训练后的人脸图像生成模型,从而确保通过训练后的人脸图像生成模型生成的人脸图像中的目标对象的口型与输入音频的对齐效果得到显著提升

[0005]一方面,本申请实施例提供了一种人脸图像生成模型的训练方法,该方法包括:
[0006]通过人脸图像生成模型对训练音频进行特征提取,得到所述训练音频的音频特征;
[0007]通过所述人脸图像生成模型中的表情系数预测网络,基于所述训练音频的音频特征对目标对象的表情系数进行预测,得到所述目标对象的预测表情系数;
[0008]通过所述人脸图像生成模型中的人脸生成网络,基于所述预测表情系数生成包含所述目标对象的预测人脸图像;其中,所述预测人脸图像的表情与所述预测表情系数指示的表情匹配;
[0009]基于所述预测表情系数与所述训练音频的参考表情系数的差异,以及所述预测人脸图像和所述训练音频的参考人脸图像的差异,得到所述人脸图像生成模型的损失值总和;
[0010]按照减小所述损失值总和的方向,对所述表情系数预测网络和所述人脸生成网络进行调整,得到训练后的人脸图像生成模型

[0011]在一个实施例中,所述按照减小所述损失值总和的方向,对所述表情系数预测网络和所述人脸生成网络进行调整,得到训练后的人脸图像生成模型,包括:
[0012]通过梯度回传算法,按照减小所述损失值总和的方向,对所述表情系数预测网络和所述人脸生成网络进行调整,得到训练后的人脸图像生成模型

[0013]在一个实施例中,所述通过梯度回传算法,按照减小所述损失值总和的方向,对所
述表情系数预测网络和所述人脸生成网络进行调整,得到训练后的人脸图像生成模型,包括:
[0014]基于所述预测人脸图像和所述训练音频的参考人脸图像的差异,对所述人脸生成网络进行调整,得到调整后的人脸生成网络;
[0015]基于所述预测表情系数与所述训练音频的参考表情系数的差异,以及所述预测人脸图像和所述训练音频的参考人脸图像的差异,对所述表情系数预测网络进行调整,得到调整后的预测网络;
[0016]基于所述调整后的人脸生成网络,以及所述调整后的表情系数预测网络,构建所述训练后的人脸图像生成模型;其中,所述训练后的人脸图像生成模型由所述调整后的人脸生成网络,以及所述调整后的表情系数预测网络组成

[0017]在一个实施例中,所述人脸图像生成模型还包括音频特征提取网络,所述音频特征提取网络用于对所述训练音频进行特征提取,得到所述训练音频的音频特征;
[0018]所述基于所述预测表情系数与所述训练音频的参考表情系数的差异

所述预测人脸图像和所述训练音频的参考人脸图像的差异,以及所述训练音频的音频特征和所述训练音频的参考音频特征的差异,得到所述人脸图像生成模型的损失值总和;按照减小所述损失值总和的方向,对所述表情系数预测网络

所述人脸生成网络和所述音频特征提取网络进行调整,得到训练后的人脸图像生成模型,包括:
[0019]按照减小所述损失值总和的方向,对所述表情系数预测网络

所述人脸生成网络进行和所述音频特征提取网络调整,得到训练后的人脸图像生成模型

[0020]在一个实施例中,所述按照减小所述损失值总和的方向对所述表情系数预测网络

所述人脸生成网络和所述音频特征提取网络进行调整,得到训练后的人脸图像生成模型,包括:
[0021]通过梯度回传算法,按照减小所述损失值总和的方向,对所述表情系数预测网络

所述人脸生成网络和音频特征提取网络进行调整,得到训练后的人脸图像生成模型

[0022]在一个实施例中,所述通过梯度回传算法,按照减小所述损失值总和的方向,对所述表情系数预测网络

所述人脸生成网络和所述音频特征提取网络进行调整,得到训练后的人脸图像生成模型,包括:
[0023]基于所述预测人脸图像和所述训练音频的参考人脸图像的差异,对所述人脸生成网络进行调整,得到调整后的人脸生成网络;
[0024]基于所述预测表情系数与所述训练音频的参考表情系数的差异,以及所述预测人脸图像和所述训练音频的参考人脸图像的差异,对所述表情系数预测网络进行调整,得到调整后的表情系数预测网络;
[0025]基于所述预测表情系数与所述训练音频的参考表情系数的差异,所述预测人脸图像和所述训练音频的参考人脸图像的差异,以及所述训练音频的音频特征和所述训练音频的参考音频特征的差异,对所述音频特征提取网络进行调整,得到调整后的音频特征提取网络;
[0026]基于所述调整后的人脸生成网络,所述调整后的表情系数预测网络,以及所述调整后的音频特征提取网络,构建所述训练后的人脸图像生成模型;其中,所述训练后的人脸图像生成模型由所述调整后的人脸生成网络,所述调整后的表情系数预测网络,以及所述
调整后的音频特征提取网络组成

[0027]在一个实施例中,所述表情系数预测网络和所述人脸生成网络中的任一网络的调整方式,包括:
[0028]在所述任一网络中增加预设参数;其中,所述预设参数的维度与所述任一网络的预训练参数的维度相同,且所述预设参数的参数量小于所述预训练参数的参数量;
[0029]按照减小所述损失值总和的方向,对所述任一网络中的预设参数进行调整,以对所述任一网络进行调整

[0030]在一个实施例中,所述预设参数包括第一预设参数和第二预设参数,其中所述第一预设参数的行数或者列数,与所述预训练参数的行数相同,且所述第二预设参数的行数或者列数,与所本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.
一种人脸图像生成模型的训练方法,其特征在于,包括:通过人脸图像生成模型对训练音频进行特征提取,得到所述训练音频的音频特征;通过所述人脸图像生成模型中的表情系数预测网络,基于所述训练音频的音频特征对目标对象的表情系数进行预测,得到所述目标对象的预测表情系数;通过所述人脸图像生成模型中的人脸生成网络,基于所述预测表情系数生成包含所述目标对象的预测人脸图像;其中,所述预测人脸图像的表情与所述预测表情系数指示的表情匹配;基于所述预测表情系数与所述训练音频的参考表情系数的差异,以及所述预测人脸图像和所述训练音频的参考人脸图像的差异,得到所述人脸图像生成模型的损失值总和;按照减小所述损失值总和的方向,对所述表情系数预测网络和所述人脸生成网络进行调整,得到训练后的人脸图像生成模型
。2.
如权利要求1所述的方法,其特征在于,所述按照减小所述损失值总和的方向,对所述表情系数预测网络和所述人脸生成网络进行调整,得到训练后的人脸图像生成模型,包括:通过梯度回传算法,按照减小所述损失值总和的方向,对所述表情系数预测网络和所述人脸生成网络进行调整,得到训练后的人脸图像生成模型
。3.
如权利要求2所述的方法,其特征在于,所述通过梯度回传算法,按照减小所述损失值总和的方向,对所述表情系数预测网络和所述人脸生成网络进行调整,得到训练后的人脸图像生成模型,包括:基于所述预测人脸图像和所述训练音频的参考人脸图像的差异,对所述人脸生成网络进行调整,得到调整后的人脸生成网络;基于所述预测表情系数与所述训练音频的参考表情系数的差异,以及所述预测人脸图像和所述训练音频的参考人脸图像的差异,对所述表情系数预测网络进行调整,得到调整后的表情系数预测网络基于所述调整后的人脸生成网络,以及所述调整后的表情系数预测网络,构建所述训练后的人脸图像生成模型;其中,所述训练后的人脸图像生成模型由所述调整后的人脸生成网络,以及所述调整后的表情系数预测网络组成
。4.
如权利要求1所述的方法,其特征在于,所述人脸图像生成模型还包括音频特征提取网络,所述音频特征提取网络用于对所述训练音频进行特征提取,得到所述训练音频的音频特征;所述基于所述预测表情系数与所述训练音频的参考表情系数的差异

所述预测人脸图像和所述训练音频的参考人脸图像的差异,以及所述训练音频的音频特征和所述训练音频的参考音频特征的差异,得到所述人脸图像生成模型的损失值总和;按照减小所述损失值总和的方向,对所述表情系数预测网络

所述人脸生成网络和所述音频特征提取网络进行调整,得到训练后的人脸图像生成模型,包括:按照减小所述损失值总和的方向对所述表情系数预测网络

所述人脸生成网络和所述音频特征提取网络进行调整,得到训练后的人脸图像生成模型
。5.
如权利要求4所述的方法,其特征在于,所述按照减小所述损失值总和的方向对所述表情系数预测网络

所述人脸生成网络和所述音频特征提取网络进行调整,得到训练后的
人脸图像生成模型,包括:通过梯度回传算法,按照减小所述损失值总和的方向,对所述表情系数预测网络

所述人脸生成网络和所述音频特征提取网络进行调整,得到训练后的人脸图像生成模型
。6.
如权利要求5所述的方法,其特征在于,所述通过梯度回传算法,按照减小所述损失值总和的方向,对所述表情系数预测网络

所述人脸生成网络和所述音频特征提取网络进行调整,得到训练...

【专利技术属性】
技术研发人员:林楚铭罗栋豪邰颖汪铖杰
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1