虚拟人物说话视频的合成方法、装置、设备及存储介质制造方法及图纸

技术编号:35058052 阅读:16 留言:0更新日期:2022-09-28 11:08
本发明专利技术涉及人工智能领域,公开了一种虚拟人物说话视频的合成方法、装置、设备及存储介质。所述方法包括:获取虚拟人物的人脸图像、人脸表情图像集、人脸姿态图像集以及说话语音数据,并基于人脸特征提取模型进行特征提取,得到人脸特征、表情特征集和人脸姿态特征集;基于语音转换模型转换说话语音数据,得到人脸运动特征序列;将人脸特征与人脸表情特征集以及人脸姿态特征集中的各特征进行拼接后,与人脸运动特征序列一起输入生成对抗网络模型,得到虚拟人物的人脸运动图像序列;根据说话语音数据和人脸运动图像序列,合成虚拟人物的说话视频。本发明专利技术生成同步控制虚拟人物在说话过程中的表情特征和面部姿态特征,提升了虚拟人物说话的真实性。话的真实性。话的真实性。

【技术实现步骤摘要】
虚拟人物说话视频的合成方法、装置、设备及存储介质


[0001]本专利技术涉及人工智能领域,尤其涉及一种虚拟人物说话视频的合成方法、装置、设备及存储介质。

技术介绍

[0002]随着计算机技术的发展,人机交互已经比较常见,但多为单纯的语音交互,例如交互设备可以根据用户输入的文字或语音确定回复内容,并播放根据回复内容合成的虚拟声音。
[0003]现有人机交互场景中,通常从音频数据生成动态的对应说话口型的虚拟人或者真实人物的虚拟生成,其并没有同步控制相关人物的表情和头部姿态,导致所生成的虚拟说话人的真实性较弱。

技术实现思路

[0004]本专利技术的主要目的在于解决现有虚拟人物说话视频的合成方法没有同步控制相关人物的表情和头部姿态从而导致所生成的虚拟说话人的真实性较弱的问题。
[0005]本专利技术第一方面提供了一种虚拟人物说话视频的合成方法,包括:
[0006]获取目标虚拟人物预设的说话场景数据,其中,所述说话场景图像数据包括所述目标虚拟人物的人脸图像、人脸表情图像集、人脸姿态图像集以及说话语音数据;
[0007]基于预设的人脸特征提取模型,分别对所述人脸图像、所述人脸表情图像集以及所述人脸姿态图像集进行特征提取,得到所述目标虚拟人物的人脸特征、表情特征集和人脸姿态特征集;
[0008]基于预设的语音转换网络模型,对所述说话语音数据进行转换,得到所述说话语音数据对应的人脸运动特征序列,其中,其中,所述语音转换网络模型用于将语音特征转换为人脸特征;
[0009]将所述人脸特征分别与所述人脸表情特征集中的各人脸表情特征以及所述人脸姿态特征集中的各人脸姿态特征进行拼接,得到人脸组合特征集;
[0010]基于预设的生成对抗网络模型,对所述人脸运动特征序列与所述人脸组合特征集进行处理,得到所述目标虚拟人物的人脸运动图像序列;
[0011]根据所述说话语音数据和所述人脸运动图像序列,合成所述目标虚拟人物含面部说话表情和口型的说话视频。
[0012]可选的,在本专利技术第一方面的第一种实现方式中,所述基于预设的人脸特征提取模型,分别对所述人脸图像、所述人脸表情图像集以及所述人脸姿态图像集进行特征提取,得到所述目标虚拟人物的人脸特征、表情特征集和人脸姿态特征集之前,还包括:
[0013]从预设的人脸图像样本集中获取目标人脸图像对,其中,所述目标人脸图像对中包含两张不同人脸、不同表情以及不同人脸姿态的目标人脸图像;
[0014]初始化预设网络模型的网络参数;
[0015]基于所述预设网络模型,对所述目标人脸图像对进行特征提取,得到所述目标人脸图像对中各所述目标人脸图像的人脸特征、表情特征以及人脸姿态特征;
[0016]基于预设的损失函数,对所述人脸特征、所述表情特征以及所述人脸姿态特征进行计算,得到所述目标人脸图像对的全局损失值;
[0017]根据所述全局损失值,调整所述预设网络模型的网络参数,得到所述人脸特征提取模型。
[0018]可选的,在本专利技术第一方面的第二种实现方式中,所述预设网络模型中包括编码网络、解码网络以及人脸姿态判别网络,所述目标人脸图像对由第一目标人脸图像和第二目标人脸图像组成,所述基于所述预设网络模型,对所述目标人脸图像对进行特征提取,得到所述目标人脸图像对中各所述目标人脸图像的人脸特征、表情特征以及人脸姿态特征包括:
[0019]调用所述编码网络,对各所述目标人脸图像进行编码,得到各目标人脸图像的人脸特征、表情特征以及人脸姿态特征;
[0020]将所述第一目标人脸图像的人脸特征与所述第二目标人脸图像的表情特征以及人脸姿态特征进行拼接,将所述第二目标人脸图像的人脸特征与所述第一目标人脸图像的表情特征以及人脸姿态特征进行拼接,得到两个人脸交换组合特征;
[0021]从所述人脸图像样本集中分别获取与每个人脸交换组合特征中的人脸特征和表情特征均相同的关联人脸图像,得到关联人脸图像对,其中,所述关联人脸图像对中各人脸图像的人脸姿态特征相同;
[0022]调用所述解码网络,对所述关联人脸图像对进行解码,得到各所述目标人脸图像的人脸特征和表情特征,以及调用所述人脸姿态判别网络,对所述关联人脸图像对进行角度计算,得到各所述目标人脸图像的人脸姿态特征。
[0023]可选的,在本专利技术第一方面的第三种实现方式中,所述基于预设的损失函数,对所述人脸特征、所述表情特征以及所述人脸姿态特征进行计算,得到所述目标人脸图像对的全局损失值包括:
[0024]基于预设的L1损失函数,分别对所述人脸特征和所述表情特征进行计算,得到所述目标人脸图像对在人脸特征上的第一损失值以及在表情特征上的第二损失值;
[0025]基于预设的余弦损失函数,对所述人脸姿态特征进行计算,得到所述目标人脸图像在人脸姿态特征上的第三损失值;
[0026]根据所述第一损失值、所述第二损失值以及所述第三损失值,计算所述目标人脸图像对的全局损失值。
[0027]可选的,在本专利技术第一方面的第四种实现方式中,所述根据所述全局损失值,调整所述预设网络模型的网络参数,得到所述人脸特征提取模型包括:
[0028]将所述全局损失值由所述预设网络模型的输出层向隐藏层反向传播;
[0029]当所述全局损失值被传播至所述隐藏层时,根据所述全局损失值,并采用随机梯度下降算法对所述预设网络模型的网络参数进行迭代更新;
[0030]在模型收敛时,确定当前所述预设网络模型的网络参数为目标参数,得到所述人脸特征提取模型。
[0031]可选的,在本专利技术第一方面的第五种实现方式中,所述语音转换网络模型中包括
语音特征提取网络和特征映射网络,所述基于预设的语音转换网络模型,对所述说话语音数据进行转换,得到所述说话语音数据对应的人脸运动特征序列包括:
[0032]调用所述语音特征提取网络,提取所述说话语音数据对应的梅尔倒谱系数;
[0033]调用所述特征映射网络,将所述说话语音数据对应的梅尔倒谱系数映射为说话过程中的人脸运动特征序列。
[0034]可选的,在本专利技术第一方面的第六种实现方式中,所述生成对抗网络模型中包括生成网络和判别网络,所述基于预设的生成对抗网络模型,对所述人脸运动特征序列与所述人脸组合特征集进行处理,得到所述目标虚拟人物的人脸运动图像序列包括:
[0035]获取一组随机噪声数据分布,并将所述人脸组合特征集中的各组合特征作为所述生成对抗网络模型的先验数据分布;
[0036]调用所述生成网络,处理所述随机噪声数据分布和所述先验数据分布,生成所述目标虚拟人物的人脸运动图像伪序列;
[0037]调用所述判别网络,计算所述人脸运动图像伪序列为所述人脸运动特征序列的概率值;
[0038]基于预设的损失函数,计算所述概率值的损失值;
[0039]根据所述概率值的损失值,调整所述生成网络的网络参数,直至所述生成网络收敛;
[0040]当所述生成网络收敛本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种虚拟人物说话视频的合成方法,其特征在于,所述虚拟人物说话视频的合成方法包括:获取目标虚拟人物预设的说话场景数据,其中,所述说话场景图像数据包括所述目标虚拟人物的人脸图像、人脸表情图像集、人脸姿态图像集以及说话语音数据;基于预设的人脸特征提取模型,分别对所述人脸图像、所述人脸表情图像集以及所述人脸姿态图像集进行特征提取,得到所述目标虚拟人物的人脸特征、表情特征集和人脸姿态特征集;基于预设的语音转换网络模型,对所述说话语音数据进行转换,得到所述说话语音数据对应的人脸运动特征序列,其中,所述语音转换网络模型用于将语音特征转换为人脸特征;将所述人脸特征分别与所述人脸表情特征集中的各人脸表情特征以及所述人脸姿态特征集中的各人脸姿态特征进行拼接,得到人脸组合特征集;基于预设的生成对抗网络模型,对所述人脸运动特征序列与所述人脸组合特征集进行处理,得到所述目标虚拟人物的人脸运动图像序列;根据所述说话语音数据和所述人脸运动图像序列,合成所述目标虚拟人物含面部说话表情和口型的说话视频。2.根据权利要求1所述的虚拟人物说话视频的合成方法,其特征在于,所述基于预设的人脸特征提取模型,分别对所述人脸图像、所述人脸表情图像集以及所述人脸姿态图像集进行特征提取,得到所述目标虚拟人物的人脸特征、表情特征集和人脸姿态特征集之前,还包括:从预设的人脸图像样本集中获取目标人脸图像对,其中,所述目标人脸图像对中包含两张不同人脸、不同表情以及不同人脸姿态的目标人脸图像;初始化预设网络模型的网络参数;基于所述预设网络模型,对所述目标人脸图像对进行特征提取,得到所述目标人脸图像对中各所述目标人脸图像的人脸特征、表情特征以及人脸姿态特征;基于预设的损失函数,对所述人脸特征、所述表情特征以及所述人脸姿态特征进行计算,得到所述目标人脸图像对的全局损失值;根据所述全局损失值,调整所述预设网络模型的网络参数,得到所述人脸特征提取模型。3.根据权利要求2所述的虚拟人物说话视频的合成方法,其特征在于,所述预设网络模型中包括编码网络、解码网络以及人脸姿态判别网络,所述目标人脸图像对由第一目标人脸图像和第二目标人脸图像组成,所述基于所述预设网络模型,对所述目标人脸图像对进行特征提取,得到所述目标人脸图像对中各所述目标人脸图像的人脸特征、表情特征以及人脸姿态特征包括:调用所述编码网络,对各所述目标人脸图像进行编码,得到各目标人脸图像的人脸特征、表情特征以及人脸姿态特征;将所述第一目标人脸图像的人脸特征与所述第二目标人脸图像的表情特征以及人脸姿态特征进行拼接,将所述第二目标人脸图像的人脸特征与所述第一目标人脸图像的表情特征以及人脸姿态特征进行拼接,得到两个人脸交换组合特征;
从所述人脸图像样本集中分别获取与每个人脸交换组合特征中的人脸特征和表情特征均相同的关联人脸图像,得到关联人脸图像对,其中,所述关联人脸图像对中各人脸图像的人脸姿态特征相同;调用所述解码网络,对所述关联人脸图像对进行解码,得到各所述目标人脸图像的人脸特征和表情特征,以及调用所述人脸姿态判别网络,对所述关联人脸图像对进行角度计算,得到各所述目标人脸图像的人脸姿态特征。4.根据权利要求2所述的虚拟人物说话视频的合成方法,其特征在于,所述基于预设的损失函数,对所述人脸特征、所述表情特征以及所述人脸姿态特征进行计算,得到所述目标人脸图像对的全局损失值包括:基于预设的L1损失函数,分别对所述人脸特征和所述表情特征进行计算,得到所述目标人脸图像对在人脸特征上的第一损失值以及在表情特征上的第二损失值;基于预设的余弦损失函数,对所述人脸姿态特征进行计算,得到所述目标人脸图像在人脸姿态特征上的第三损失值;根据所述第一损失值、所述第二损失值以及所述第三损失值,计算所述目标人...

【专利技术属性】
技术研发人员:李佼戴磊刘玉宇肖京
申请(专利权)人:平安科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1