虚拟人物说话视频的合成方法、装置、设备及存储介质制造方法及图纸

技术编号：35058052 阅读：16 留言：0更新日期：2022-09-28 11:08

本发明专利技术涉及人工智能领域，公开了一种虚拟人物说话视频的合成方法、装置、设备及存储介质。所述方法包括：获取虚拟人物的人脸图像、人脸表情图像集、人脸姿态图像集以及说话语音数据，并基于人脸特征提取模型进行特征提取，得到人脸特征、表情特征集和人脸姿态特征集；基于语音转换模型转换说话语音数据，得到人脸运动特征序列；将人脸特征与人脸表情特征集以及人脸姿态特征集中的各特征进行拼接后，与人脸运动特征序列一起输入生成对抗网络模型，得到虚拟人物的人脸运动图像序列；根据说话语音数据和人脸运动图像序列，合成虚拟人物的说话视频。本发明专利技术生成同步控制虚拟人物在说话过程中的表情特征和面部姿态特征，提升了虚拟人物说话的真实性。话的真实性。话的真实性。

全部详细技术资料下载

【技术实现步骤摘要】
虚拟人物说话视频的合成方法、装置、设备及存储介质

[0001]本专利技术涉及人工智能领域，尤其涉及一种虚拟人物说话视频的合成方法、装置、设备及存储介质。

技术介绍

[0002]随着计算机技术的发展，人机交互已经比较常见，但多为单纯的语音交互，例如交互设备可以根据用户输入的文字或语音确定回复内容，并播放根据回复内容合成的虚拟声音。
[0003]现有人机交互场景中，通常从音频数据生成动态的对应说话口型的虚拟人或者真实人物的虚拟生成，其并没有同步控制相关人物的表情和头部姿态，导致所生成的虚拟说话人的真实性较弱。

技术实现思路

[0004]本专利技术的主要目的在于解决现有虚拟人物说话视频的合成方法没有同步控制相关人物的表情和头部姿态从而导致所生成的虚拟说话人的真实性较弱的问题。
[0005]本专利技术第一方面提供了一种虚拟人物说话视频的合成方法，包括：
[0006]获取目标虚拟人物预设的说话场景数据，其中，所述说话场景图像数据包括所述目标虚拟人物的人脸图像、人脸表情图像集、人脸姿态图像集以及说话语音数据；
[0007]基于预设的人脸特征提取模型，分别对所述人脸图像、所述人脸表情图像集以及所述人脸姿态图像集进行特征提取，得到所述目标虚拟人物的人脸特征、表情特征集和人脸姿态特征集；
[0008]基于预设的语音转换网络模型，对所述说话语音数据进行转换，得到所述说话语音数据对应的人脸运动特征序列，其中，其中，所述语音转换网络模型用于将语音特征转换为人脸特征；
[0009...

【技术保护点】

【技术特征摘要】
1.一种虚拟人物说话视频的合成方法，其特征在于，所述虚拟人物说话视频的合成方法包括：获取目标虚拟人物预设的说话场景数据，其中，所述说话场景图像数据包括所述目标虚拟人物的人脸图像、人脸表情图像集、人脸姿态图像集以及说话语音数据；基于预设的人脸特征提取模型，分别对所述人脸图像、所述人脸表情图像集以及所述人脸姿态图像集进行特征提取，得到所述目标虚拟人物的人脸特征、表情特征集和人脸姿态特征集；基于预设的语音转换网络模型，对所述说话语音数据进行转换，得到所述说话语音数据对应的人脸运动特征序列，其中，所述语音转换网络模型用于将语音特征转换为人脸特征；将所述人脸特征分别与所述人脸表情特征集中的各人脸表情特征以及所述人脸姿态特征集中的各人脸姿态特征进行拼接，得到人脸组合特征集；基于预设的生成对抗网络模型，对所述人脸运动特征序列与所述人脸组合特征集进行处理，得到所述目标虚拟人物的人脸运动图像序列；根据所述说话语音数据和所述人脸运动图像序列，合成所述目标虚拟人物含面部说话表情和口型的说话视频。2.根据权利要求1所述的虚拟人物说话视频的合成方法，其特征在于，所述基于预设的人脸特征提取模型，分别对所述人脸图像、所述人脸表情图像集以及所述人脸姿态图像集进行特征提取，得到所述目标虚拟人物的人脸特征、表情特征集和人脸姿态特征集之前，还包括：从预设的人脸图像样本集中获取目标人脸图像对，其中，所述目标人脸图像对中包含两张不同人脸、不同表情以及不同人脸姿态的目标人脸图像；初始化预设网络模型的网络参数；基于所述预设网络模型，对所述目标人脸图像对进行特征提取，得到所述目标人脸图像对中各所述目标人脸图像的人脸特征、表情特征以及人脸姿态特征；基于预设的损失函数，对所述人脸特征、所述表情特征以及所述人脸姿态特征进行计算，得到所述目标人脸图像对的全局损失值；根据所述全局损失值，调整所述预设网络模型的网络参数，得到所述人脸特征提取模型。3.根据权利要求2所述的虚拟人物说话视频的合成方法，其特征在于，所述预设网络模型中包括编码网络、解码网络以及人脸姿态判别网络，所述目标人脸图像对由第一目标人脸图像和第二目标人脸图像组成，所述基于所述预设网络模型，对所述目标人脸图像对进行特征提取，得到所述目标人脸图像对中各所述目标人脸图像的人脸特征、表情特征以及人脸姿态特征包括：调用所述编码网络，对各所述目标人脸图像进行编码，得到各目标人脸图像的人脸特征、表情特征以及人脸姿态特征；将所述第一目标人脸图像的人脸特征与所述第二目标人脸图像的表情特征以及人脸姿态特征进行拼接，将所述第二目标人脸图像的人脸特征与所述第一目标人脸图像的表情特征以及人脸姿态特征进行拼接，得到两个人脸交换组合特征；
从所述人脸图像样本集中分别获取与每个人脸交换组合特征中的人脸特征和表情特征均相同的关联人脸图像，得到关联人脸图像对，其中，所述关联人脸图像对中各人脸图像的人脸姿态特征相同；调用所述解码网络，对所述关联人脸图像对进行解码，得到各所述目标人脸图像的人脸特征和表情特征，以及调用所述人脸姿态判别网络，对所述关联人脸图像对进行角度计算，得到各所述目标人脸图像的人脸姿态特征。4.根据权利要求2所述的虚拟人物说话视频的合成方法，其特征在于，所述基于预设的损失函数，对所述人脸特征、所述表情特征以及所述人脸姿态特征进行计算，得到所述目标人脸图像对的全局损失值包括：基于预设的L1损失函数，分别对所述人脸特征和所述表情特征进行计算，得到所述目标人脸图像对在人脸特征上的第一损失值以及在表情特征上的第二损失值；基于预设的余弦损失函数，对所述人脸姿态特征进行计算，得到所述目标人脸图像在人脸姿态特征上的第三损失值；根据所述第一损失值、所述第二损失值以及所述第三损失值，计算所述目标人...

【专利技术属性】
技术研发人员：李佼，戴磊，刘玉宇，肖京，
申请(专利权)人：平安科技深圳有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人