基于文本辅助的视频重构模型训练方法及装置制造方法及图纸

技术编号:35043639 阅读:20 留言:0更新日期:2022-09-24 23:23
本发明专利技术公开了一种基于文本辅助的视频重构模型训练方法及装置,该方法包括:确定目标训练样本集合;根据所有目标训练样本,对待训练的初始视频模型执行模型训练操作,得到训练后视频模型,并判断训练后视频模型是否收敛,若是,则将训练后视频模型确定为视频重构模型;该视频重构模型用于对待生成视频的目标视频素材进行视频帧补充,以生成与目标视频素材相匹配的视频。可见,实施本发明专利技术能够通过视频重构模型直接生成与视频素材相匹配的视频,无需用户通过指定的视频模板对视频素材进行查找、合成以及剪辑等繁琐的相关处理操作,这样,不仅有利于缩短视频制作的周期,还有利于提高制作出的视频与用户之间的匹配度,从而满足用户的视频制作需求。户的视频制作需求。户的视频制作需求。

【技术实现步骤摘要】
基于文本辅助的视频重构模型训练方法及装置


[0001]本专利技术涉及模型训练
,尤其涉及一种基于文本辅助的视频重构模型训练方法及装置。

技术介绍

[0002]近年来,随着计算机视觉领域的飞速发展,视频生成技术的研究受到了越来越广泛的关注,使得个人、自媒体及企业能够快速以及智能地制作生动有趣的视频作品。
[0003]当前,视频生成技术主要通过人工对关联视频素材进行查找、合成以及剪辑等相关处理操作来实现。然而,通过实践发现,这种传统的视频生成技术需要制作者依据自身的视频制作经验以及采用指定的视频模板来对关联视频素材进行处理以及反复修正,使得视频的制作周期过长且使得制作出的视频与用户实际需求的匹配度较低,可见,提供一种能够快速地生成与用户实际需求的匹配度高的视频的方法尤为重要。

技术实现思路

[0004]本专利技术所要解决的技术问题在于,提供一种基于文本辅助的视频重构模型训练的方法及装置,不仅能够缩短视频制作的周期,还能够提高制作出的视频与用户之间的匹配度,从而满足用户的视频制作需求。
[0005]为了解决上述技术问题,本专利技术第一方面公开了一种基于文本辅助的视频重构模型训练方法,所述方法包括:确定目标训练样本集合;所述目标训练样本集合包括若干个目标训练样本,每个所述目标训练样本至少包括样本视频帧集合;根据所有所述目标训练样本,对待训练的初始视频模型执行模型训练操作,得到训练后视频模型,并判断所述训练后视频模型是否收敛;当判断结果为是时,将所述训练后视频模型确定为视频重构模型;所述视频重构模型用于对待生成视频的目标视频素材进行视频帧补充,以生成与所述目标视频素材相匹配的视频。
[0006]作为一种可选的实施方式,在本专利技术第一方面中,对于任一所述目标训练样本,其包括的所述样本视频帧集合包括该目标训练样本对应的样本视频中的所有视频帧;或者,对于任一所述目标训练样本,其包括的所述样本视频帧集合包括按照预设的抽帧间隔对该目标训练样本对应的样本视频进行抽帧处理后得到的视频帧;其中,所述抽帧间隔是通过以下方式确定出的:确定该目标训练样本对应的所述样本视频中所需分析的场景对象,并确定所述场景对象对应的变化程度值;所述场景对象对应的变化程度值越大,所述场景对象的运动变化越明显;判断所述场景对象对应的变化程度值是否大于等于预设变化程度值阈值,若是,则根据所述变化程度值,确定所述样本视频的抽帧光流值;
根据所述样本视频的抽帧光流值,确定用于对所述样本视频进行抽帧处理的抽帧间隔。
[0007]作为一种可选的实施方式,在本专利技术第一方面中,所述确定目标训练样本集合,包括:确定包括若干个原始训练样本的原始训练样本集合;对于每个所述原始训练样本,确定该原始训练样本中的原始样本视频帧集合的视频帧数,并判断所述视频帧数是否大于预设帧数阈值;当判断出所述视频帧数大于所述预设帧数阈值时,根据所述预设帧数阈值,从所述原始样本视频帧集合中确定出与所述预设帧数阈值相匹配的至少两个原始样本视频帧序列,分别将每个所述原始样本视频帧序列确定为目标训练样本;一个所述原始样本视频帧序列为一个所述目标训练样本;当判断出所述视频帧数小于所述预设帧数阈值时,从所述原始样本视频帧集合中确定出至少一个待复制样本视频帧,并对所有所述待复制样本视频帧进行复制;根据预设的植入位置,将复制后的所有所述待复制样本视频帧植入至所述原始样本视频帧集合中,得到该原始训练样本对应的目标训练样本;根据所有所述目标训练样本,确定目标训练样本集合。
[0008]作为一种可选的实施方式,在本专利技术第一方面中,所述根据所有所述目标训练样本,对待训练的初始视频模型执行模型训练操作,得到训练后视频模型,包括:将所有所述目标训练样本输入至待训练的初始视频模型中,以使所述初始视频模型的嵌入层执行如下操作:对于每个所述目标训练样本,根据该目标训练样本中的所述样本视频帧集合的图像参数,确定所述样本视频帧集合的初始向量,并对所述样本视频帧集合的初始向量执行卷积操作,得到所述样本视频帧集合的第一视频特征向量;通过预设的掩码参数,对所述第一视频特征向量中与所述掩码参数相匹配的多个待处理样本视频帧所对应的向量内容进行掩码,得到所述目标训练样本对应的第二视频特征向量;所述掩码参数包括所需掩码的视频帧数量和/或所需掩码的视频帧位置,所述样本视频帧集合的图像参数包括所述样本视频帧集合的视频帧数、所述样本视频帧集合的图像尺寸以及所述样本视频帧集合的色彩模式中的至少一种;对于输入的每个所述目标训练样本,通过所述初始视频模型的特征融合层,对该目标训练样本对应的第二视频特征向量与预先对应生成的文本特征向量执行融合操作,得到该目标训练样本对应的融合后特征向量;对于输入的每个所述目标训练样本,通过所述初始视频模型的视频重构层对该目标训练样本对应的融合后特征向量中被掩码的所述向量内容执行预测重构操作,得到该目标训练样本对应的融合后特征向量中的预测重构向量内容。
[0009]作为一种可选的实施方式,在本专利技术第一方面中,对于输入的每个所述目标训练样本,预先对应生成的文本特征向量是通过以下方式得到的:当该目标训练样本中包括与所述样本视频帧集合对应的样本文本时,由所述初始视频模型的嵌入层对该目标训练样本包括的所述样本文本执行向量转换操作之后得到的;当该目标训练样本中不包括与所述样本视频帧集合对应的样本文本时,由所述初始视频模型的嵌入层对初始化生成的样本文本执行向量转换操作之后得到的。
[0010]作为一种可选的实施方式,在本专利技术第一方面中,所述对于输入的每个所述目标训练样本,通过所述初始视频模型的特征融合层,对该目标训练样本对应的第二视频特征向量与预先对应生成的文本特征向量执行融合操作,得到该目标训练样本对应的融合后特征向量,包括:对于输入的每个所述目标训练样本,通过所述初始视频模型的特征融合层,对该目标训练样本对应的第二视频特征向量与预先对应生成的文本特征向量进行拼接,得到该目标训练样本对应的拼接后特征向量,并对该目标训练样本对应的拼接后特征向量执行特征维度变换操作,得到变换后的该目标训练样本对应的拼接后特征向量,作为该目标训练样本对应的融合后特征向量。
[0011]作为一种可选的实施方式,在本专利技术第一方面中,所述对于输入的每个所述目标训练样本,通过所述初始视频模型的视频重构层对该目标训练样本对应的融合后特征向量中被掩码的所述向量内容执行预测重构操作,得到该目标训练样本对应的融合后特征向量中的预测重构向量内容,包括:对输入的每个所述目标训练样本对应的融合后特征向量中被掩码的所述向量内容执行向量秩序变换操作,以更新每个所述目标训练样本对应的融合后特征向量中被掩码的所述向量内容;将更新后的所有所述目标训练样本对应的融合后特征向量中被掩码的所述向量内容输入至所述初始视频模型的视频重构层中,以使所述初始视频模型的视频重构层执行如下操作:对于每个所述目标训练样本,根据该目标训练样本对应的融合后特征向量中被掩码的所述向量内容,提取该目标训练样本的语义特征信息,并根据该目标训练样本的语义特征信息,对该目标训练样本对应的融合本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于文本辅助的视频重构模型训练方法,其特征在于,所述方法包括:确定目标训练样本集合;所述目标训练样本集合包括若干个目标训练样本,每个所述目标训练样本至少包括样本视频帧集合;根据所有所述目标训练样本,对待训练的初始视频模型执行模型训练操作,得到训练后视频模型,并判断所述训练后视频模型是否收敛;当判断结果为是时,将所述训练后视频模型确定为视频重构模型;所述视频重构模型用于对待生成视频的目标视频素材进行视频帧补充,以生成与所述目标视频素材相匹配的视频。2.根据权利要求1所述的基于文本辅助的视频重构模型训练方法,其特征在于,对于任一所述目标训练样本,其包括的所述样本视频帧集合包括该目标训练样本对应的样本视频中的所有视频帧;或者,对于任一所述目标训练样本,其包括的所述样本视频帧集合包括按照预设的抽帧间隔对该目标训练样本对应的样本视频进行抽帧处理后得到的视频帧;其中,所述抽帧间隔是通过以下方式确定出的:确定该目标训练样本对应的所述样本视频中所需分析的场景对象,并确定所述场景对象对应的变化程度值;所述场景对象对应的变化程度值越大,所述场景对象的运动变化越明显;判断所述场景对象对应的变化程度值是否大于等于预设变化程度值阈值,若是,则根据所述变化程度值,确定所述样本视频的抽帧光流值;根据所述样本视频的抽帧光流值,确定用于对所述样本视频进行抽帧处理的抽帧间隔。3.根据权利要求1或2所述的基于文本辅助的视频重构模型训练方法,其特征在于,所述确定目标训练样本集合,包括:确定包括若干个原始训练样本的原始训练样本集合;对于每个所述原始训练样本,确定该原始训练样本中的原始样本视频帧集合的视频帧数,并判断所述视频帧数是否大于预设帧数阈值;当判断出所述视频帧数大于所述预设帧数阈值时,根据所述预设帧数阈值,从所述原始样本视频帧集合中确定出与所述预设帧数阈值相匹配的至少两个原始样本视频帧序列,分别将每个所述原始样本视频帧序列确定为目标训练样本;一个所述原始样本视频帧序列为一个所述目标训练样本;当判断出所述视频帧数小于所述预设帧数阈值时,从所述原始样本视频帧集合中确定出至少一个待复制样本视频帧,并对所有所述待复制样本视频帧进行复制;根据预设的植入位置,将复制后的所有所述待复制样本视频帧植入至所述原始样本视频帧集合中,得到该原始训练样本对应的目标训练样本;根据所有所述目标训练样本,确定目标训练样本集合。4.根据权利要求3所述的基于文本辅助的视频重构模型训练方法,其特征在于,所述根据所有所述目标训练样本,对待训练的初始视频模型执行模型训练操作,得到训练后视频模型,包括:将所有所述目标训练样本输入至待训练的初始视频模型中,以使所述初始视频模型的
嵌入层执行如下操作:对于每个所述目标训练样本,根据该目标训练样本中的所述样本视频帧集合的图像参数,确定所述样本视频帧集合的初始向量,并对所述样本视频帧集合的初始向量执行卷积操作,得到所述样本视频帧集合的第一视频特征向量;通过预设的掩码参数,对所述第一视频特征向量中与所述掩码参数相匹配的多个待处理样本视频帧所对应的向量内容进行掩码,得到所述目标训练样本对应的第二视频特征向量;所述掩码参数包括所需掩码的视频帧数量和/或所需掩码的视频帧位置,所述样本视频帧集合的图像参数包括所述样本视频帧集合的视频帧数、所述样本视频帧集合的图像尺寸以及所述样本视频帧集合的色彩模式中的至少一种;对于输入的每个所述目标训练样本,通过所述初始视频模型的特征融合层,对该目标训练样本对应的第二视频特征向量与预先对应生成的文本特征向量执行融合操作,得到该目标训练样本对应的融合后特征向量;对于输入的每个所述目标训练样本,通过所述初始视频模型的视频重构层对该目标训练样本对应的融合后特征向量中被掩码的所述向量内容执行预测重构操作,得到该目标训练样本对应的融合后特征向量中的预...

【专利技术属性】
技术研发人员:黄于晏陈畅新
申请(专利权)人:有米科技股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1