视频切分模型的训练方法、视频切分方法及装置制造方法及图纸

技术编号:39280165 阅读:18 留言:0更新日期:2023-11-07 10:54
本申请公开了一种视频切分模型的训练方法、视频切分方法及装置,属于互联网技术领域。方法包括:获取从样本视频中抽取的多帧样本图像和各帧样本图像的第一标注信息;通过神经网络模型确定各帧样本图像的第一预测信息和第二预测信息,样本图像的第一预测信息表征样本图像与样本切分点的距离不大于距离阈值的概率,样本图像的第二预测信息表征样本图像的时间戳与样本切分点的时间戳之间的预测偏移量;基于各帧样本图像的第一标注信息、第一预测信息和第二预测信息,对神经网络模型进行训练得到视频切分模型。通过视频切分模型能准确确定视频切分点的时间戳,以基于视频切分点的时间戳切分视频,提高切分结果的准确性。提高切分结果的准确性。提高切分结果的准确性。

【技术实现步骤摘要】
视频切分模型的训练方法、视频切分方法及装置


[0001]本申请实施例涉及互联网
,特别涉及一种视频切分模型的训练方法、视频切分方法及装置。

技术介绍

[0002]随着互联网的不断发展,网络上的资源急剧增加,而这些资源中包含了大量的视频。通常情况下,需要对视频进行切分,以基于切分结果便捷地理解视频结构、视频内容等。因此,如何对视频进行切分成为一个亟需解决的问题。

技术实现思路

[0003]本申请提供了一种视频切分模型的训练方法、视频切分方法及装置,可用于解决相关技术中的问题,所述技术方案包括如下内容。
[0004]一方面,提供了一种视频切分模型的训练方法,所述方法包括:
[0005]获取从样本视频中抽取的多帧样本图像和各帧样本图像的第一标注信息,所述样本图像的第一标注信息表征所述样本图像与所述样本视频的样本切分点的距离是否不大于距离阈值;
[0006]通过神经网络模型确定所述各帧样本图像的第一预测信息和第二预测信息,所述样本图像的第一预测信息表征所述样本图像与所述样本切分点的距离不大于距离阈值的概率,所述样本图像的第二预测信息表征所述样本图像的时间戳与所述样本切分点的时间戳之间的预测偏移量;
[0007]基于所述各帧样本图像的第一标注信息、第一预测信息和第二预测信息,对所述神经网络模型进行训练,得到视频切分模型,所述视频切分模型用于对目标视频进行切分。
[0008]另一方面,提供了一种视频切分方法,所述方法包括:
[0009]获取视频切分模型和从目标视频中抽取的多帧目标图像,所述视频切分模型是按照上述任一项所述的视频切分模型的训练方法训练得到的;
[0010]通过所述视频切分模型确定各帧目标图像的第一预测信息和第二预测信息,所述目标图像的第一预测信息表征所述目标图像与所述目标视频的目标切分点的距离不大于距离阈值的概率,所述目标图像的第二预测信息表征所述目标图像的时间戳与所述目标切分点的时间戳之间的预测偏移量;
[0011]基于所述各帧目标图像的第一预测信息和第二预测信息,对所述目标视频进行切分,得到至少两个视频序列。
[0012]另一方面,提供了一种视频切分模型的训练装置,所述装置包括:
[0013]获取模块,用于获取从样本视频中抽取的多帧样本图像和各帧样本图像的第一标注信息,所述样本图像的第一标注信息表征所述样本图像与所述样本视频的样本切分点的距离是否不大于距离阈值;
[0014]确定模块,用于通过神经网络模型确定所述各帧样本图像的第一预测信息和第二
预测信息,所述样本图像的第一预测信息表征所述样本图像与所述样本切分点的距离不大于距离阈值像的概率,所述样本图像的第二预测信息表征所述样本图像的时间戳与所述样本切分点的时间戳之间的预测偏移量;
[0015]训练模块,用于基于所述各帧样本图像的第一标注信息、第一预测信息和第二预测信息,对所述神经网络模型进行训练,得到视频切分模型,所述视频切分模型用于对目标视频进行切分。
[0016]在一种可能的实现方式中,所述确定模块,用于通过神经网络模型确定所述各帧样本图像的样本特征;对于任一帧样本图像,通过所述神经网络模型基于所述任一帧样本图像的样本特征和相邻帧图像的样本特征,确定所述任一帧样本图像与所述相邻帧图像之间的特征差异,所述相邻帧图像是所述多帧样本图像中与所述任一帧样本图像相邻的样本图像;通过所述神经网络模型基于所述任一帧样本图像与所述相邻帧图像之间的特征差异,确定所述任一帧样本图像的第一预测信息和第二预测信息。
[0017]在一种可能的实现方式中,所述确定模块,用于通过神经网络模型确定所述各帧样本图像的图像特征;通过所述神经网络模型确定所述各帧样本图像的补充特征,所述样本图像的补充特征包括所述样本图像对应的样本音频的音频特征和所述样本图像对应的样本文本的文本特征中的至少一项;通过所述神经网络模型将所述各帧样本图像的图像特征和所述各帧样本图像的补充特征进行融合,得到所述各帧样本图像的样本特征。
[0018]在一种可能的实现方式中,所述确定模块,用于通过所述神经网络模型将所述各帧样本图像的图像特征和所述各帧样本图像对应的样本音频的音频特征进行融合,得到所述各帧样本图像的第一融合特征;对于任一帧样本图像,从所述各帧样本图像对应的样本文本的文本特征中确定与所述任一帧样本图像的第一融合特征相关的第一文本特征;将所述任一帧样本图像的第一融合特征和所述第一文本特征进行融合,得到所述任一帧样本图像的第二融合特征;基于所述各帧样本图像的第二融合特征确定所述各帧样本图像的样本特征。
[0019]在一种可能的实现方式中,所述确定模块,用于对于任一帧样本图像,从所述各帧样本图像对应的样本文本的文本特征中确定与所述任一帧样本图像的图像特征相关的第二文本特征;通过所述神经网络模型将所述任一帧样本图像的图像特征和所述第二文本特征进行融合,得到所述任一帧样本图像的第三融合特征;将所述任一帧样本图像的第三融合特征和所述任一帧样本图像对应的样本音频的音频特征进行融合,得到所述任一帧样本图像的第四融合特征;基于所述各帧样本图像的第四融合特征确定所述各帧样本图像的样本特征。
[0020]在一种可能的实现方式中,所述训练模块,用于基于所述各帧样本图像的第一标注信息和第一预测信息,确定所述各帧样本图像的第一损失;基于所述各帧样本图像的第二预测信息、所述各帧样本图像的时间戳和所述样本切分点的时间戳,确定所述各帧样本图像的第二损失;基于所述各帧样本图像的第一损失和所述各帧样本图像的第二损失,对所述神经网络模型进行训练,得到视频切分模型。
[0021]在一种可能的实现方式中,所述训练模块,用于对于任一帧样本图像,将所述任一帧样本图像的第二预测信息和所述任一帧样本图像的时间戳之和,确定为参考时间戳;基于第一阈值、所述参考时间戳和所述样本切分点的时间戳之间的差值,确定所述任一帧样
本图像的第二损失。
[0022]在一种可能的实现方式中,所述装置还包括:
[0023]所述确定模块,还用于通过所述神经网络模型确定所述各帧样本图像的第三预测信息,所述样本图像的第三预测信息表征所述样本图像属于各个图像类别的预测概率;
[0024]所述获取模块,还用于获取所述各帧样本图像的第二标注信息,所述样本图像的第二标注信息表征通过标注得到的所述样本图像是否属于所述各个图像类别;
[0025]所述训练模块,用于基于所述各帧样本图像的第一标注信息、第一预测信息、第二预测信息、第三预测信息和第二标注信息,对所述神经网络模型进行训练,得到视频切分模型。
[0026]在一种可能的实现方式中,所述训练模块,用于对于任一帧样本图像,基于所述任一帧样本图像属于第一类别的预测概率,确定所述任一帧样本图像的正样本损失,所述第一类别是通过标注得到的所述任一帧样本图像属于的图像类别;基于第二阈值和所述任一帧样本图像属于第二类别的预测概率,确定所述任一帧样本图像的负样本损失,所述第二类本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种视频切分模型的训练方法,其特征在于,所述方法包括:获取从样本视频中抽取的多帧样本图像和各帧样本图像的第一标注信息,所述样本图像的第一标注信息表征所述样本图像与所述样本视频的样本切分点的距离是否不大于距离阈值;通过神经网络模型确定所述各帧样本图像的第一预测信息和第二预测信息,所述样本图像的第一预测信息表征所述样本图像与所述样本切分点的距离不大于距离阈值的概率,所述样本图像的第二预测信息表征所述样本图像的时间戳与所述样本切分点的时间戳之间的预测偏移量;基于所述各帧样本图像的第一标注信息、第一预测信息和第二预测信息,对所述神经网络模型进行训练,得到视频切分模型,所述视频切分模型用于对目标视频进行切分。2.根据权利要求1所述的方法,其特征在于,所述通过神经网络模型确定所述各帧样本图像的第一预测信息和第二预测信息,包括:通过神经网络模型确定所述各帧样本图像的样本特征;对于任一帧样本图像,通过所述神经网络模型基于所述任一帧样本图像的样本特征和相邻帧图像的样本特征,确定所述任一帧样本图像与所述相邻帧图像之间的特征差异,所述相邻帧图像是所述多帧样本图像中与所述任一帧样本图像相邻的样本图像;通过所述神经网络模型基于所述任一帧样本图像与所述相邻帧图像之间的特征差异,确定所述任一帧样本图像的第一预测信息和第二预测信息。3.根据权利要求2所述的方法,其特征在于,所述通过神经网络模型确定所述各帧样本图像的样本特征,包括:通过神经网络模型确定所述各帧样本图像的图像特征;通过所述神经网络模型确定所述各帧样本图像的补充特征,所述样本图像的补充特征包括所述样本图像对应的样本音频的音频特征和所述样本图像对应的样本文本的文本特征中的至少一项;通过所述神经网络模型将所述各帧样本图像的图像特征和所述各帧样本图像的补充特征进行融合,得到所述各帧样本图像的样本特征。4.根据权利要求3所述的方法,其特征在于,所述通过所述神经网络模型将所述各帧样本图像的图像特征和所述各帧样本图像的补充特征进行融合,得到所述各帧样本图像的样本特征,包括:通过所述神经网络模型将所述各帧样本图像的图像特征和所述各帧样本图像对应的样本音频的音频特征进行融合,得到所述各帧样本图像的第一融合特征;对于任一帧样本图像,从所述各帧样本图像对应的样本文本的文本特征中确定与所述任一帧样本图像的第一融合特征相关的第一文本特征;将所述任一帧样本图像的第一融合特征和所述第一文本特征进行融合,得到所述任一帧样本图像的第二融合特征;基于所述各帧样本图像的第二融合特征确定所述各帧样本图像的样本特征。5.根据权利要求3所述的方法,其特征在于,所述通过所述神经网络模型将所述各帧样本图像的图像特征和所述各帧样本图像的补充特征进行融合,得到所述各帧样本图像的样本特征,包括:
对于任一帧样本图像,从所述各帧样本图像对应的样本文本的文本特征中确定与所述任一帧样本图像的图像特征相关的第二文本特征;通过所述神经网络模型将所述任一帧样本图像的图像特征和所述第二文本特征进行融合,得到所述任一帧样本图像的第三融合特征;将所述任一帧样本图像的第三融合特征和所述任一帧样本图像对应的样本音频的音频特征进行融合,得到所述任一帧样本图像的第四融合特征;基于所述各帧样本图像的第四融合特征确定所述各帧样本图像的样本特征。6.根据权利要求1所述的方法,其特征在于,所述基于所述各帧样本图像的第一标注信息、第一预测信息和第二预测信息,对所述神经网络模型进行训练,得到视频切分模型,包括:基于所述各帧样本图像的第一标注信息和第一预测信息,确定所述各帧样本图像的第一损失;基于所述各帧样本图像的第二预测信息、所述各帧样本图像的时间戳和所述样本切分点的时间戳,确定所述各帧样本图像的第二损失;基于所述各帧样本图像的第一损失和所述各帧样本图像的第二损失,对所述神经网络模型进行训练,得到视频切分模型。7.根据权利要求6所述的方法,其特征在于,所述基于所述各帧样本图像的第二预测信息、所述各帧样本图像的时间戳和所述样本切分点的时间戳,确定所述各帧样本图像的第二损失,包括:对于任一帧样本图像,将所述任一帧样本图像的第二预测信息和所述任一帧样本图像的时间戳之和,确定为参考时间戳;基于第一阈值、所述参考时间戳和所述样本切分点的时间戳之间的差值,确定所述任一帧样本图像的第二损失。8.根据权利要求1所述的方法,其特征在于,所述方法还包括:通过所述神经网络模型确定所述各帧样本图像的第三预测信息...

【专利技术属性】
技术研发人员:熊江丰王臻郅李智敏芦清林
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1