视频的生成方法、装置、电子设备及存储介质制造方法及图纸

技术编号:32825626 阅读:16 留言:0更新日期:2022-03-26 20:27
本申请提供一种视频的生成方法、装置、电子设备及存储介质;该方法包括:根据待生成的视频对应的语音帧序列和包含目标头像的参考图像,得到与每一语音帧对应的目标头像的头动数据;根据语音帧序列进行音素特征提取,得到与每一语音帧对应的音素特征;通过预先训练的语音视觉关联模型,得到与每一语音帧对应的第一关键点数据;根据对应于参考图像第二关键点数据,对第一关键点数据进行相对运动迁移,得到与每一语音帧对应的密集运动场;根据每一语音帧对应的密集运动场,得到与每一语音帧对应的帧图像,并根据所述帧图像生成所述视频。本申请的方案能够真实、准确的模拟头部和面部的动作,并有效的提高生成的视频的质量。并有效的提高生成的视频的质量。并有效的提高生成的视频的质量。

【技术实现步骤摘要】
视频的生成方法、装置、电子设备及存储介质


[0001]本申请涉及视频生成
,尤其涉及一种视频的生成方法、装置、电子设备及存储介质。

技术介绍

[0002]通过语音驱动人脸说话视频生成的方案,可广泛应用于虚拟助手、智能客服、新闻播报、远程会议、电子游戏等多个领域,满足上述领域对智能虚拟形象的功能需求和性能需求,并能够基于人工智能大幅度降低相关行业的人工劳动。
[0003]然而,现有的说话视频的生成方案,普遍难以准确模拟出头部和面部的动作,使得生成的视频的质量较低。

技术实现思路

[0004]针对上述技术问题,非常需要一种改进的方案,能够真实、准确的模拟头部和面部的动作,并有效的提高生成的视频的质量。
[0005]基于上述目的,本申请提供了一种视频的生成方法,包括:
[0006]根据待生成的视频对应的语音帧序列和包含目标头像的参考图像,得到与每一语音帧对应的所述目标头像的头动数据;
[0007]根据所述语音帧序列进行音素特征提取,得到与每一语音帧对应的音素特征;
[0008]根据所述参考图像、所述头动数据和所述音素特征,通过预先训练的语音视觉关联模型,得到与每一语音帧对应的第一关键点数据;所述语音视觉关联模型是通过一定数量具有相同身份信息的训练样本训练得到的;
[0009]对所述参考图像进行关键点检测得到第二关键点数据;
[0010]根据所述第二关键点数据,对所述第一关键点数据进行相对运动迁移,得到与每一语音帧对应的密集运动场;
[0011]根据每一语音帧对应的密集运动场,得到与每一语音帧对应的帧图像,并根据所述帧图像生成所述视频。
[0012]在一些实施方式中,所述根据待生成的视频对应的语音帧序列和包含目标头像的参考图像,得到与每一语音帧对应的所述目标头像的头动数据,包括:对所述参考图像进行二维空间投影,得到初始头动数据;根据所述语音帧序列进行语音特征提取,得到与每一语音帧对应的语音特征;根据所述初始头动数据和所述语音特征,通过预先训练的头动预测模型预测得到与每一语音帧对应的所述目标头像的头动数据;所述头动预测模型是通过一定数量具有相同身份信息的头动训练样本训练得到的。
[0013]在一些实施方式中,所述根据所述初始头动数据和所述语音特征,通过预先训练的头动预测模型预测得到与每一语音帧对应的所述目标头像的头动数据,包括:对于所述语音帧序列中的首个语音帧,将该语音帧对应的语音特征与所述初始头动数据分别编码后拼接,得到该语音帧对应的空间位置编码;对该语音帧对应的空间位置编码进行解码,得到
该语音帧对应的头动数据;对于所述语音帧序列中的其他任一语音帧,对该语音帧对应的语音特征编码后与上一语音帧对应的空间位置编码拼接,得到该语音帧对应的空间位置编码;对该语音帧对应的空间位置编码进行解码,得到该语音帧对应的头动数据。
[0014]在一些实施方式中,所述训练样本的身份信息与所述头动训练样本的身份信息相同。
[0015]在一些实施方式中,所述根据所述参考图像、所述头动数据和所述音素特征,通过预先训练的语音视觉关联模型,得到与每一语音帧对应的第一关键点数据,包括:将所述头动数据、所述音素特征与所述参考图像进行组合,得到结构化输入数据;根据所述结构化输入数据进行姿态预测,得到与每一语音帧对应的第一关键点数据。
[0016]在一些实施方式中,所述将所述头动数据、所述音素特征与所述参考图像进行组合,得到结构化输入数据,包括:将所述音素特征进行编码,得到所述音素特征的向量表示;将所述音素特征的向量表示进行转换,得到所述音素特征的二维表示;将所述头动数据、所述音素特征的二维表示与所述参考图像的尺寸对齐后进行通道维度的拼接,得到所述结构化输入数据。
[0017]在一些实施方式中,所述根据所述结构化输入数据进行姿态预测,得到与每一语音帧对应的第一关键点数据,包括:对于任一语音帧,将该语音帧作为中间帧并通过预定长度的滑动窗口选择一定数量的目标语音帧,将该语音帧对应的结构化输入数据、全部所述目标语音帧对应的结构化输入数据与所述参考图像进行通道维度的拼接,得到组合输入数据,并根据所述组合输入数据进行姿态预测,以得到与该语音帧对应的第一关键点数据。
[0018]在一些实施方式中,所述第一关键点数据,包括:关键点坐标数据和关键点仿射变换数据。
[0019]在一些实施方式中,所述根据所述第二关键点数据,对所述第一关键点数据进行相对运动迁移,得到与每一语音帧对应的密集运动场,包括:对于任一语音帧,确定该语音帧对应的第一关键点数据与所述语音帧序列中的首个语音帧对应的第一关键点数据之间的相对运动数据,将所述相对运动数据相对于所述第二关键点数据进行迁移,得到该语音帧对应的密集运动场。
[0020]基于同一构思,本申请还提供了一种视频的生成装置,包括:
[0021]头动数据预测模块,被配置为根据待生成的视频对应的语音帧序列和包含目标头像的参考图像,得到与每一语音帧对应的所述目标头像的头动数据;
[0022]音素特征提取模块,被配置为根据所述语音帧序列进行音素特征提取,得到与每一语音帧对应的音素特征;
[0023]第一关键点生成模块,被配置为根据所述参考图像、所述头动数据和所述音素特征,通过预先训练的语音视觉关联模型,得到与每一语音帧对应的第一关键点数据;所述语音视觉关联模型是通过一定数量具有相同身份信息的第一训练样本训练得到的;
[0024]第二关键点生成模块,被配置为对所述参考图像进行关键点检测得到第二关键点数据;
[0025]密集运动场生成模块,被配置为根据所述第二关键点数据,对所述第一关键点数据进行相对运动迁移,得到与每一语音帧对应的密集运动场;
[0026]视频生成模块,被配置为根据每一语音帧对应的密集运动场,得到与每一语音帧
对应的帧图像,并根据所述帧图像生成所述视频。
[0027]基于同一构思,本申请还提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如上任意一项所述的方法。
[0028]基于同一构思,本申请还提供了一种非暂态计算机可读存储介质,所述非暂态计算机可读存储介质存储计算机指令,其特征在于,所述计算机指令用于使计算机执行如上任意一项所述的方法。
[0029]从上面所述可以看出,本申请提供的视频的生成方法、装置、电子设备及存储介质,单独处理得到的头动数据和音素特征的使用,能够避免模型学习到无用的特征,语音视觉关联模型也相应的使用具有相同身份信息的训练样本训练得到,使语音视觉关联模型能够更加准确的输出关键点数据,再基于one

shot的方式,通过关键点数据的迁移,得到对应于参考图像中人物的密集运动场,实现特定人物到任意人物的泛化,最终得到真实、准确反映参考图像中人物特点的视频,有效的提升了生成的视频的质量。
附图说明
[0030]为本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种视频的生成方法,其特征在于,包括:根据待生成的视频对应的语音帧序列和包含目标头像的参考图像,得到与每一语音帧对应的所述目标头像的头动数据;根据所述语音帧序列进行音素特征提取,得到与每一语音帧对应的音素特征;根据所述参考图像、所述头动数据和所述音素特征,通过预先训练的语音视觉关联模型,得到与每一语音帧对应的第一关键点数据;所述语音视觉关联模型是通过一定数量具有相同身份信息的训练样本训练得到的;对所述参考图像进行关键点检测得到第二关键点数据;根据所述第二关键点数据,对所述第一关键点数据进行相对运动迁移,得到与每一语音帧对应的密集运动场;根据每一语音帧对应的密集运动场,得到与每一语音帧对应的帧图像,并根据所述帧图像生成所述视频。2.根据权利要求1所述的方法,其特征在于,所述根据待生成的视频对应的语音帧序列和包含目标头像的参考图像,得到与每一语音帧对应的所述目标头像的头动数据,包括:对所述参考图像进行二维空间投影,得到初始头动数据;根据所述语音帧序列进行语音特征提取,得到与每一语音帧对应的语音特征;根据所述初始头动数据和所述语音特征,通过预先训练的头动预测模型预测得到与每一语音帧对应的所述目标头像的头动数据;所述头动预测模型是通过一定数量具有相同身份信息的头动训练样本训练得到的。3.根据权利要求2所述的方法,其特征在于,所述根据所述初始头动数据和所述语音特征,通过预先训练的头动预测模型预测得到与每一语音帧对应的所述目标头像的头动数据,包括:对于所述语音帧序列中的首个语音帧,将该语音帧对应的语音特征与所述初始头动数据分别编码后拼接,得到该语音帧对应的空间位置编码;对该语音帧对应的空间位置编码进行解码,得到该语音帧对应的头动数据;对于所述语音帧序列中的其他任一语音帧,对该语音帧对应的语音特征编码后与上一语音帧对应的空间位置编码拼接,得到该语音帧对应的空间位置编码;对该语音帧对应的空间位置编码进行解码,得到该语音帧对应的头动数据。4.根据权利要求2所述的方法,其特征在于,所述训练样本的身份信息与所述头动训练样本的身份信息相同。5.根据权利要求1所述的方法,其特征在于,所述根据所述参考图像、所述头动数据和所述音素特征,通过预先训练的语音视觉关联模型,得到与每一语音帧对应的第一关键点数据,包括:将所述头动数据、所述音素特征与所述参考图像进行组合,得到结构化输入数据;根据所述结构化输入数据进行姿态预测,得到与每一语音帧对应的第一关键点数据。6.根据权利要求5所述的方法,其特征在于,所述将所述头动数据、所述音素特征与所述参考图像进行组合,得到结构化输入数据,包括:将所述音素特征进行编码...

【专利技术属性】
技术研发人员:王苏振李林橙丁彧吕唐杰范长杰胡志鹏
申请(专利权)人:网易杭州网络有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1