高光视频识别方法及装置、电子设备和存储介质制造方法及图纸

技术编号:34812446 阅读:9 留言:0更新日期:2022-09-03 20:21
本公开涉及一种高光视频识别方法及装置、电子设备和存储介质,所述方法应用于识别网络,包括:提取待识别视频的视频特征,其中,所述待识别视频包括多个按时序排列的视频片段,每个所述视频片段包括至少一个视频子特征;基于多个所述视频片段的视频子特征进行高光视频的识别,得到识别结果;其中,所述识别网络基于特征空间中相同标签的视频片段的视频子特征之间的第一距离,以及不同标签的视频片段的视频子特征之间的第二距离进行参数更新,以使更新后的识别网络输出的相同标签的视频片段的视频子特征之间的距离小于更新前的距离,不同标签的视频片段的视频子特征之间的距离大于更新前的距离。本公开实施例可提高高光视频识别的准确率。识别的准确率。识别的准确率。

【技术实现步骤摘要】
高光视频识别方法及装置、电子设备和存储介质


[0001]本公开涉及计算机
,尤其涉及一种高光视频识别方法及装置、电子设备和存储介质。

技术介绍

[0002]近年来随着短视频媒体的大量兴起,很多精彩的视频被发在网络中,对于冗长的视频,为了节省时间,人们更愿意去观看其中的精彩部分(即高光部分),但是人为地去裁切剪辑视频来挑选高光部分是比较耗费人力和时间的,因此视频高光检测任务基于此实际应用而生。
[0003]视频高光检测任务的主要目的是定位非裁切视频中的高光视频片段。该任务与实际应用关系密切,能非常好的应用于各种下游任务中,例如视频动作检测、视频概要总结等。
[0004]然而,传统方法不能有效地进行高光片段非高光片段的辨别区分,对于视频片段混淆概率大,导致高光视频检测的准确度较低。

技术实现思路

[0005]本公开提出了一种高光视频识别技术方案。
[0006]根据本公开的一方面,提供了一种高光视频识别方法,包括:
[0007]提取待识别视频的视频特征,其中,所述待识别视频包括多个按时序排列的视频片段,每个所述视频片段包括至少一个视频子特征;
[0008]基于多个所述视频片段的视频子特征进行高光视频的识别,得到识别结果;
[0009]其中,所述识别网络基于特征空间中相同标签的视频片段的视频子特征之间的第一距离,以及不同标签的视频片段的视频子特征之间的第二距离进行参数更新,以使更新后的识别网络输出的相同标签的视频片段的视频子特征之间的距离小于更新前的距离,不同标签的视频片段的视频子特征之间的距离大于更新前的距离。
[0010]在一种可能的实现方式中,基于特征空间中相同标签的视频片段的视频子特征之间的第一距离,以及不同标签的视频片段的视频子特征之间的第二距离进行参数更新,包括:根据所述第一距离和第二距离,确定所述识别网络的第一损失,其中,所述第一损失与所述第一距离正相关,所述第一损失与所述第二距离负相关;
[0011]基于所述第一损失,更新所述识别网络的参数,以使所述第一损失变小。
[0012]在一种可能的实现方式中,所述方法还包括:
[0013]确定所述视频片段中,高光视频片段与非高光视频片段的邻接处;
[0014]基于所述邻接处前后的高光视频片段与非高光视频片段的视频子特征之间的第三距离,更新所述识别网络的参数,使得所述识别网络输出的所述高光视频片段与非高光视频片段的视频子特征之间的距离,大于更新前的距离。
[0015]在一种可能的实现方式中,所述待识别视频为样本视频,所述视频片段标注有用
于表征视频片段是否属于高光的标签;
[0016]所述确定所述视频片段中,高光视频片段与非高光视频片段的邻接处,包括:
[0017]基于所述视频片段的标签,确定高光视频片段与非高光视频片段的邻接处;
[0018]基于所述邻接处前后的高光视频片段与非高光视频片段,构建正负样本对。
[0019]在一种可能的实现方式中,所述基于所述邻接处前后的高光视频片段与非高光视频片段的视频子特征之间的第三距离,更新所述识别网络的参数,包括:
[0020]基于所述邻接处前后的多个高光视频片段和多个非高光视频片段,构建多个正负样本对,单个所述正负样本对中包含一个所述高光视频片段和一个所述非高光视频片段;
[0021]根据每个正负样本对中,高光视频片段与非高光视频片段的视频子特征之间的第三距离,确定所述识别网络的第二损失,所述第二损失与所述第三距离负相关;
[0022]基于所述第二损失,更新所述识别网络的参数,以使所述第二损失变小。
[0023]在一种可能的实现方式中,所述待识别视频为样本视频,所述视频片段标注有用于表征视频片段是否属于高光的标签,所述方法还包括:
[0024]基于所述识别结果与所述视频片段的标签之间的差异,确定第三损失;
[0025]基于所述第三损失,更新所述识别网络的参数,以使得所述识别网络输出的识别结果与标签一致。
[0026]在一种可能的实现方式中,所述更新所述识别网络的参数,包括:
[0027]对所述第一损失、第二损失和第三损失中的至少两种进行加权求和,得到目标损失;
[0028]基于所述目标损失,更新所述识别网络,以使所述目标损失变小。
[0029]在一种可能的实现方式中,提取待识别视频的视频特征,包括:
[0030]获取所述待识别视频的视觉特征、音频特征和所述视觉特征与音频特征编码后的拼接特征;其中,每个所述视频片段对应至少一个视觉子特征、音频子特征以及拼接子特征;
[0031]对所述视觉特征、音频特征和拼接特征进行融合,得到视频特征,其中,每个所述视频片段对应的至少一个视觉子特征、音频子特征以及拼接子特征,融合得到所述视频子特征。
[0032]根据本公开的一方面,提供了一种高光视频识别装置,包括:
[0033]提取模块,用于提取待识别视频的视频特征,其中,所述待识别视频包括多个按时序排列的视频片段,每个所述视频片段包括至少一个视频子特征;
[0034]识别模块,用于基于多个所述视频片段的视频子特征进行高光视频的识别,得到识别结果;
[0035]其中,所述识别网络基于特征空间中相同标签的视频片段的视频子特征之间的第一距离,以及不同标签的视频片段的视频子特征之间的第二距离进行参数更新,以使更新后的识别网络输出的相同标签的视频片段的视频子特征之间的距离小于更新前的距离,不同标签的视频片段的视频子特征之间的距离大于更新前的距离。
[0036]在一种可能的实现方式中,所述装置还包括:
[0037]第一参数更新模块,用于根据所述第一距离和第二距离,确定所述识别网络的第一损失,其中,所述第一损失与所述第一距离正相关,所述第一损失与所述第二距离负相
关;基于所述第一损失,更新所述识别网络的参数,以使所述第一损失变小。
[0038]在一种可能的实现方式中,所述装置还包括:
[0039]第二参数更新模块,用于确定所述视频片段中,高光视频片段与非高光视频片段的邻接处;基于所述邻接处前后的高光视频片段与非高光视频片段的视频子特征之间的第三距离,更新所述识别网络的参数,使得所述识别网络输出的所述高光视频片段与非高光视频片段的视频子特征之间的距离,大于更新前的距离。
[0040]在一种可能的实现方式中,所述待识别视频为样本视频,所述视频片段标注有用于表征视频片段是否属于高光的标签;
[0041]所述第二参数更新模块,用于基于所述视频片段的标签,确定高光视频片段与非高光视频片段的邻接处;基于所述邻接处前后的高光视频片段与非高光视频片段,构建正负样本对。
[0042]在一种可能的实现方式中,所述第二参数更新模块,用于基于所述邻接处前后的多个高光视频片段和多个非高光视频片段,构建多个正负样本对,单个所述正负样本对中包含一个所述高光视频片段和一个所述非高本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种高光视频识别方法,其特征在于,应用于识别网络,包括:提取待识别视频的视频特征,其中,所述待识别视频包括多个按时序排列的视频片段,每个所述视频片段包括至少一个视频子特征;基于多个所述视频片段的视频子特征进行高光视频的识别,得到识别结果;其中,所述识别网络基于特征空间中相同标签的视频片段的视频子特征之间的第一距离,以及不同标签的视频片段的视频子特征之间的第二距离进行参数更新,以使更新后的识别网络输出的相同标签的视频片段的视频子特征之间的距离小于更新前的距离,不同标签的视频片段的视频子特征之间的距离大于更新前的距离。2.根据权利要求1所述的方法,其特征在于,基于特征空间中相同标签的视频片段的视频子特征之间的第一距离,以及不同标签的视频片段的视频子特征之间的第二距离进行参数更新,包括:根据所述第一距离和第二距离,确定所述识别网络的第一损失,其中,所述第一损失与所述第一距离正相关,所述第一损失与所述第二距离负相关;基于所述第一损失,更新所述识别网络的参数,以使所述第一损失变小。3.根据权利要求1

2任一所述的方法,其特征在于,所述方法还包括:确定所述视频片段中,高光视频片段与非高光视频片段的邻接处;基于所述邻接处前后的高光视频片段与非高光视频片段的视频子特征之间的第三距离,更新所述识别网络的参数,使得所述识别网络输出的所述高光视频片段与非高光视频片段的视频子特征之间的距离,大于更新前的距离。4.根据权利要求3所述的方法,其特征在于,所述待识别视频为样本视频,所述视频片段标注有用于表征视频片段是否属于高光的标签;所述确定所述视频片段中,高光视频片段与非高光视频片段的邻接处,包括:基于所述视频片段的标签,确定高光视频片段与非高光视频片段的邻接处;基于所述邻接处前后的高光视频片段与非高光视频片段,构建正负样本对。5.根据权利要求3

4任一所述的方法,其特征在于,所述基于所述邻接处前后的高光视频片段与非高光视频片段的视频子特征之间的第三距离,更新所述识别网络的参数,包括:基于所述邻接处前后的多个高光视频片段和多个非高光视频片段,构建多个正负样本对,单个所述正负样本对中包含一个所述高光视频片段和一个所述非高光视频片段;根据每个正负样本对中,高光视频片段与非高光视频片段的视频子特征之间...

【专利技术属性】
技术研发人员:李帅成杨昆霖侯军伊帅
申请(专利权)人:上海商汤智能科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1