视频生成模型的训练方法、视频生成方法、装置、电子设备及可读存储介质制造方法及图纸

技术编号:34947082 阅读:12 留言:0更新日期:2022-09-17 12:23
本发明专利技术实施例提供了一种视频生成模型的训练方法、视频生成方法、装置、电子设备及可读存储介质,该方法包括:获取多个样本视频;构建生成对抗网络,生成对抗网络包括生成模型和判别模型;将样本视频输入至生成模型,得到预测视频帧;将预测视频帧和样本视频输入至判别模型,得到判别结果;判别模型用于判别预测视频帧是否与样本视频匹配;基于各个样本视频的判别结果训练生成对抗网络,直至满足训练停止条件,得到视频生成模型。根据本发明专利技术的实施例,能够提升训练得到的视频生成模型的准确性。够提升训练得到的视频生成模型的准确性。够提升训练得到的视频生成模型的准确性。

【技术实现步骤摘要】
视频生成模型的训练方法、视频生成方法、装置、电子设备及可读存储介质


[0001]本专利技术涉及图像处理
,特别是涉及一种视频生成模型的训练方法、视频生成方法、装置、电子设备及可读存储介质。

技术介绍

[0002]目前,动作迁移技术,是将源视频中的动作迁移到目标图像上以生成目标视频,其效果是使目标图像中的对象表现出源视频中的动作。其可以应用到社交娱乐和特效合成等多种场景中。
[0003]由于源视频和目标图像中对象的姿态可能相差较大,所以采用目前的动作迁移技术生成的目标视频中可能会出现单个视频帧不真实、画面模糊、以及视频帧间不流畅的问题,即目标视频生成的效果不佳。

技术实现思路

[0004]本专利技术实施例的目的在于提供一种视频生成模型的训练方法、视频生成方法、装置、电子设备及可读存储介质,通过训练得到的视频生成模型,能够提升目标视频生成的效果。具体技术方案如下:
[0005]在本专利技术实施的第一方面,首先提供了一种视频生成模型的训练方法,包括:
[0006]获取多个样本视频;
[0007]构建生成对抗网络,生成对抗网络包括生成模型和判别模型;
[0008]将样本视频输入至生成模型,得到预测视频帧;
[0009]将预测视频帧和样本视频输入至判别模型,得到判别结果;判别模型用于判别预测视频帧是否与样本视频匹配;
[0010]基于各个样本视频的判别结果训练生成对抗网络,直至满足训练停止条件,得到视频生成模型。
[0011]在本专利技术实施的第二方面,首先提供了一种视频生成方法,包括:
[0012]获取视频帧序列,视频帧序列包括:源视频的视频帧和目标图像;
[0013]将视频帧序列输入至视频生成模型,视频生成模型包括:图像生成模型和光流网络模型;通过图像生成模型提取视频帧序列的前景特征,以及通过光流网络模型提取源视频的光流特征;
[0014]对前景特征和光流特征进行特征融合,生成目标视频帧;
[0015]基于目标视频帧,生成目标视频。
[0016]在本专利技术实施的第三方面,还提供了一种视频生成模型的训练装置,包括:
[0017]第一获取模块,用于获取多个样本视频;
[0018]构建模块,用于构建生成对抗网络,生成对抗网络包括生成模型和判别模型;
[0019]第一输入模块,用于将样本视频输入至生成模型,得到预测视频帧;
[0020]第一输入模块,还用于将预测视频帧和样本视频输入至判别模型,得到判别结果;判别模型用于判别预测视频帧是否与样本视频匹配;
[0021]训练模块,用于基于各个样本视频的判别结果训练生成对抗网络,直至满足训练停止条件,得到视频生成模型。
[0022]在本专利技术实施的第四方面,还提供了一种视频生成装置,包括:
[0023]第二获取模块,用于获取视频帧序列,视频帧序列包括:源视频的视频帧和目标图像;
[0024]第二输入模块,用于将视频帧序列输入至视频生成模型,视频生成模型包括:图像生成模型和光流网络模型;通过图像生成模型提取视频帧序列的前景特征,以及通过光流网络模型提取源视频的光流特征;
[0025]融合模块,用于对前景特征和光流特征进行特征融合,生成目标视频帧;
[0026]生成模块,用于基于目标视频帧,生成目标视频。
[0027]在本专利技术实施的又一方面,还提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机执行上述任一所述的方法。
[0028]在本专利技术实施的又一方面,还提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述任一所述的方法。
[0029]本专利技术的实施例,通过获取多个样本视频和构建包括生成模型和判别模型的生成对抗网络,首先将样本视频输入至生成模型,得到预测视频帧,然后将预测视频帧和样本视频输入至用于判别预测视频帧是否与样本视频匹配的判别模型,这里,能够不断提升预测视频帧的真实性和预测视频帧与样本视频之间衔接的平滑连贯性,最后基于各个样本视频的判别结果训练生成对抗网络,直至满足训练停止条件,得到视频生成模型。由此,基于训练好的视频生成模型生成的目标视频帧,可以保证目标视频帧中细节的真实性,又能保证基于目标视频帧生成的目标视频的连贯性。
附图说明
[0030]为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍。
[0031]图1是本专利技术实施例提供的一种视频生成模型结构示意图;
[0032]图2是本专利技术实施例提供的一种视频生成模型的训练方法的流程图;
[0033]图3是本专利技术实施例提供的一种视频生成方法的流程图;
[0034]图4是本专利技术实施例提供的一种多尺度网络结构的示意图;
[0035]图5是本专利技术实施例提供的一种视频生成模型的训练装置结构示意图;
[0036]图6是本专利技术实施例提供的一种视频生成装置结构示意图;
[0037]图7是本专利技术实施例提供的一种电子设备的硬件结构示意图。
具体实施方式
[0038]下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行描述。
[0039]本专利技术实施例提供的视频生成方法至少可以应用于下述应用场景中,下面进行说明。
[0040]目前,动作迁移技术,是将源视频中的动作迁移到目标图像上以生成目标视频,其效果是使目标图像中的对象表现出源视频中的动作。其可以应用到社交娱乐和特效合成等多种场景中。例如,将源视频中的专业舞蹈演员的运动信息迁移到业余爱好者的形体上,并渲染生成目标视频。通过动作迁移生成的目标视频中,业余爱好者可以像专业舞蹈演员一样学会跳不同风格的舞蹈。舞蹈视频生成是动作迁移和视频生成的结合。如何保证动作的稳定迁移,使得生成的目标视频帧的稳定性和生成的目标视频的连续性是一个需要解决的问题。
[0041]基于上述应用场景,下面对本专利技术实施例提供的视频生成方法进行详细说明。
[0042]下面首先对本专利技术实施例提供的视频生成模型结构进行整体说明。
[0043]图1是本专利技术实施例提供的一种视频生成模型结构示意图,如图1所示,视频生成模型包括:生成模型和判别模型,生成模型包括:图像生成模型和光流网络模型;判别模型包括:图像判别模型和视频判别模型。
[0044]在训练过程中,通过获取多个样本视频和构建包括生成模型和判别模型的生成对抗网络,首先将样本视频输入至生成模型,得到预测视频帧,其中,样本视频包括第一视频帧,以及与第一视频帧相邻的多个第二视频帧;具体地,将多个第二视频帧以及从样本视频中提取的样本姿态信息,输入至生成模型,通过图像生成模型提取多个第二视频帧的前景训练特征;以及,通过光流网络模型提取多个第二视频帧的光流训练特征。最后,将图像生成模型输出的前景训练特征和光流网络模型输出的光流训练特征融合,得到融合后的预测视频帧。本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种视频生成模型的训练方法,其特征在于,所述方法包括:获取多个样本视频;构建生成对抗网络,所述生成对抗网络包括生成模型和判别模型;将所述样本视频输入至所述生成模型,得到预测视频帧;将所述预测视频帧和所述样本视频输入至判别模型,得到判别结果;所述判别模型用于判别所述预测视频帧是否与所述样本视频匹配;基于各个样本视频的所述判别结果训练所述生成对抗网络,直至满足训练停止条件,得到视频生成模型。2.根据权利要求1所述的方法,所述生成模型包括:图像生成模型和光流网络模型;所述判别模型包括:图像判别模型和视频判别模型;所述样本视频包括第一视频帧,以及与所述第一视频帧相邻的多个第二视频帧;所述将所述样本视频输入至所述生成模型,得到预测视频帧,包括:将所述多个第二视频帧输入至所述生成模型,通过所述图像生成模型提取所述多个第二视频帧的前景训练特征;以及,通过所述光流网络模型提取所述多个第二视频帧的光流训练特征;融合所述前景训练特征和所述光流训练特征,得到所述预测视频帧。3.根据权利要求2所述的方法,所述将所述预测视频帧和所述样本视频输入至判别模型,得到判别结果,基于各个训练样本的所述判别结果训练所述生成对抗网络,直至满足训练停止条件,得到所述视频生成模型,包括:将所述预测视频帧和所述第一视频帧,输入至所述图像鉴别模型,得到第一损失值;将所述预测视频帧和所述第二视频帧,输入至所述视频鉴别模型,得到第二损失值;根据所述第一损失值和所述第二损失值,训练所述生成对抗网络,直至满足训练停止条件,得到所述视频生成模型。4.根据权利要求3所述的方法,在所述将所述预测视频帧和所述样本视频输入至判别模型,得到判别结果之前,所述方法还包括:根据所述预测视频帧和所述第一视频帧,计算所述图像生成模型的第三损失值;根据所述光流训练特征和光流真值,计算所述光流网络模型的第四损失值,所述光流真值为通过预设光流提取算法从所述样本视频中提取得到;根据所述第三损失值和所述第四损失值,确定所述生成模型的损失值;所述基于各个训练样本的所述判别结果训练所述生成对抗网络,直至满足训练停止条件,得到所述视频生成模型,包括:根据所述第一损失值和所述第二损失值,确定所述判别模型的损失值;根据所述生成模型的损失值和所述鉴别模型的损失值,对所述生成对抗网络进行反向传播训练,直至所述生成对抗网络满足预设收敛条件,得到训练好的所述视频生成模型。5.根据权利要求3或4所述的方法,根据所述第一损失值和所述第二损失值,训练所述生成对抗网络,直至满足训练停止条件,得到所述视频生成模型,包括:将所述预测视频帧和所述第一视频帧输入至特征提取网络,所述特征提取网络包括多个尺度层,每个所述尺度层分别输出所述预测视频帧和所述第一视频帧的子损失值;根据多个所述子损失值,确定多尺度损失值;
根据所述多尺度损失值、所述第一损失值和所述第二损失值训练所生成对抗网络,直至满足训练停止条件,得到所述视频生成模型。6.一种视频生成方法,其特征在于,所述...

【专利技术属性】
技术研发人员:丁苗高
申请(专利权)人:北京奇艺世纪科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1