视频切分模型的训练方法、视频切分方法及装置制造方法及图纸

技术编号：39280165 阅读：24 留言：0更新日期：2023-11-07 10:54

本申请公开了一种视频切分模型的训练方法、视频切分方法及装置，属于互联网技术领域。方法包括：获取从样本视频中抽取的多帧样本图像和各帧样本图像的第一标注信息；通过神经网络模型确定各帧样本图像的第一预测信息和第二预测信息，样本图像的第一预测信息表征样本图像与样本切分点的距离不大于距离阈值的概率，样本图像的第二预测信息表征样本图像的时间戳与样本切分点的时间戳之间的预测偏移量；基于各帧样本图像的第一标注信息、第一预测信息和第二预测信息，对神经网络模型进行训练得到视频切分模型。通过视频切分模型能准确确定视频切分点的时间戳，以基于视频切分点的时间戳切分视频，提高切分结果的准确性。提高切分结果的准确性。提高切分结果的准确性。

全部详细技术资料下载

【技术实现步骤摘要】
视频切分模型的训练方法、视频切分方法及装置

[0001]本申请实施例涉及互联网
，特别涉及一种视频切分模型的训练方法、视频切分方法及装置。

技术介绍

[0002]随着互联网的不断发展，网络上的资源急剧增加，而这些资源中包含了大量的视频。通常情况下，需要对视频进行切分，以基于切分结果便捷地理解视频结构、视频内容等。因此，如何对视频进行切分成为一个亟需解决的问题。

技术实现思路

[0003]本申请提供了一种视频切分模型的训练方法、视频切分方法及装置，可用于解决相关技术中的问题，所述技术方案包括如下内容。
[0004]一方面，提供了一种视频切分模型的训练方法，所述方法包括：
[0005]获取从样本视频中抽取的多帧样本图像和各帧样本图像的第一标注信息，所述样本图像的第一标注信息表征所述样本图像与所述样本视频的样本切分点的距离是否不大于距离阈值；
[0006]通过神经网络模型确定所述各帧样本图像的第一预测信息和第二预测信息，所述样本图像的第一预测信息表征所述样本图像与所述样本切分点的距离不大于距离阈值的概率，所述样本图像的第二预测信息表征所述样本图像的时间戳与所述样本切分点的时间戳之间的预测偏移量；
[0007]基于所述各帧样本图像的第一标注信息、第一预测信息和第二预测信息，对所述神经网络模型进行训练，得到视频切分模型，所述视频切分模型用于对目标视频进行切分。
[0008]另一方面，提供了一种视频切分方法，所述方法包括：
[0009]获取视频切分模型和从目标...

【技术保护点】

【技术特征摘要】
1.一种视频切分模型的训练方法，其特征在于，所述方法包括：获取从样本视频中抽取的多帧样本图像和各帧样本图像的第一标注信息，所述样本图像的第一标注信息表征所述样本图像与所述样本视频的样本切分点的距离是否不大于距离阈值；通过神经网络模型确定所述各帧样本图像的第一预测信息和第二预测信息，所述样本图像的第一预测信息表征所述样本图像与所述样本切分点的距离不大于距离阈值的概率，所述样本图像的第二预测信息表征所述样本图像的时间戳与所述样本切分点的时间戳之间的预测偏移量；基于所述各帧样本图像的第一标注信息、第一预测信息和第二预测信息，对所述神经网络模型进行训练，得到视频切分模型，所述视频切分模型用于对目标视频进行切分。2.根据权利要求1所述的方法，其特征在于，所述通过神经网络模型确定所述各帧样本图像的第一预测信息和第二预测信息，包括：通过神经网络模型确定所述各帧样本图像的样本特征；对于任一帧样本图像，通过所述神经网络模型基于所述任一帧样本图像的样本特征和相邻帧图像的样本特征，确定所述任一帧样本图像与所述相邻帧图像之间的特征差异，所述相邻帧图像是所述多帧样本图像中与所述任一帧样本图像相邻的样本图像；通过所述神经网络模型基于所述任一帧样本图像与所述相邻帧图像之间的特征差异，确定所述任一帧样本图像的第一预测信息和第二预测信息。3.根据权利要求2所述的方法，其特征在于，所述通过神经网络模型确定所述各帧样本图像的样本特征，包括：通过神经网络模型确定所述各帧样本图像的图像特征；通过所述神经网络模型确定所述各帧样本图像的补充特征，所述样本图像的补充特征包括所述样本图像对应的样本音频的音频特征和所述样本图像对应的样本文本的文本特征中的至少一项；通过所述神经网络模型将所述各帧样本图像的图像特征和所述各帧样本图像的补充特征进行融合，得到所述各帧样本图像的样本特征。4.根据权利要求3所述的方法，其特征在于，所述通过所述神经网络模型将所述各帧样本图像的图像特征和所述各帧样本图像的补充特征进行融合，得到所述各帧样本图像的样本特征，包括：通过所述神经网络模型将所述各帧样本图像的图像特征和所述各帧样本图像对应的样本音频的音频特征进行融合，得到所述各帧样本图像的第一融合特征；对于任一帧样本图像，从所述各帧样本图像对应的样本文本的文本特征中确定与所述任一帧样本图像的第一融合特征相关的第一文本特征；将所述任一帧样本图像的第一融合特征和所述第一文本特征进行融合，得到所述任一帧样本图像的第二融合特征；基于所述各帧样本图像的第二融合特征确定所述各帧样本图像的样本特征。5.根据权利要求3所述的方法，其特征在于，所述通过所述神经网络模型将所述各帧样本图像的图像特征和所述各帧样本图像的补充特征进行融合，得到所述各帧样本图像的样本特征，包括：
对于任一帧样本图像，从所述各帧样本图像对应的样本文本的文本特征中确定与所述任一帧样本图像的图像特征相关的第二文本特征；通过所述神经网络模型将所述任一帧样本图像的图像特征和所述第二文本特征进行融合，得到所述任一帧样本图像的第三融合特征；将所述任一帧样本图像的第三融合特征和所述任一帧样本图像对应的样本音频的音频特征进行融合，得到所述任一帧样本图像的第四融合特征；基于所述各帧样本图像的第四融合特征确定所述各帧样本图像的样本特征。6.根据权利要求1所述的方法，其特征在于，所述基于所述各帧样本图像的第一标注信息、第一预测信息和第二预测信息，对所述神经网络模型进行训练，得到视频切分模型，包括：基于所述各帧样本图像的第一标注信息和第一预测信息，确定所述各帧样本图像的第一损失；基于所述各帧样本图像的第二预测信息、所述各帧样本图像的时间戳和所述样本切分点的时间戳，确定所述各帧样本图像的第二损失；基于所述各帧样本图像的第一损失和所述各帧样本图像的第二损失，对所述神经网络模型进行训练，得到视频切分模型。7.根据权利要求6所述的方法，其特征在于，所述基于所述各帧样本图像的第二预测信息、所述各帧样本图像的时间戳和所述样本切分点的时间戳，确定所述各帧样本图像的第二损失，包括：对于任一帧样本图像，将所述任一帧样本图像的第二预测信息和所述任一帧样本图像的时间戳之和，确定为参考时间戳；基于第一阈值、所述参考时间戳和所述样本切分点的时间戳之间的差值，确定所述任一帧样本图像的第二损失。8.根据权利要求1所述的方法，其特征在于，所述方法还包括：通过所述神经网络模型确定所述各帧样本图像的第三预测信息...

【专利技术属性】
技术研发人员：熊江丰，王臻郅，李智敏，芦清林，
申请(专利权)人：腾讯科技深圳有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人