镜头分割、视觉任务处理方法、装置、电子设备以及介质制造方法及图纸

技术编号:36893913 阅读:30 留言:0更新日期:2023-03-15 22:14
本公开提供了一种镜头分割、视觉任务处理方法、装置、电子设备以及介质,涉及人工智能技术领域,尤其涉及视频处理、图像处理、计算机视觉和深度学习技术领域。具体实现方案为:对视频中的至少一个视频帧进行二维特征提取,得到与至少一个视频帧对应的局部视觉特征;根据与至少一个视频帧对应的局部视觉特征,确定与至少一个视频帧对应的全局视觉特征;根据与至少一个视频帧对应的全局视觉特征,确定视频的镜头分割信息。头分割信息。头分割信息。

【技术实现步骤摘要】
镜头分割、视觉任务处理方法、装置、电子设备以及介质


[0001]本公开涉及人工智能
,尤其涉及视频处理、图像处理、计算机视觉和深度学习
具体地,涉及一种镜头分割、视觉任务处理方法、装置、电子设备以及介质。

技术介绍

[0002]随着计算机技术的发展,人工智能技术也得到了发展。例如,可以利用人工智能技术来实现视频理解。镜头分割是视频检索的任务之一,为视频理解提供了关键信息。镜头分割可以指用于将完整视频按照镜头边界划分为镜头片段的技术。

技术实现思路

[0003]本公开提供了一种用于镜头分割、视觉任务处理方法、装置、电子设备以及介质。
[0004]根据本公开的一方面,提供了一种镜头分割方法,包括:对视频中的至少一个视频帧进行二维特征提取,得到与上述至少一个视频帧对应的局部视觉特征;根据与上述至少一个视频帧对应的局部视觉特征,确定与上述至少一个视频帧对应的全局视觉特征;以及,根据与上述至少一个视频帧对应的全局视觉特征,确定上述视频的镜头分割信息。
[0005]根据本公开的另一方面,提供了一种视觉任务处理方法,包括:确定待处理视频的镜头分割信息,其中,上述待处理视频的镜头分割信息是利用镜头分割方法确定的;以及,根据上述待处理视频的镜头分割信息处理视觉任务。
[0006]根据本公开的另一方面,提供了一种镜头分割装置,包括:二维特征提取模块,用于对视频中的至少一个视频帧进行二维特征提取,得到与上述至少一个视频帧对应的局部视觉特征;第一确定模块,用于根据与上述至少一个视频帧对应的局部视觉特征,确定与上述至少一个视频帧对应的全局视觉特征;以及,第二确定模块,用于根据与上述至少一个视频帧对应的全局视觉特征,确定上述视频的镜头分割信息。
[0007]根据本公开的另一方面,提供了一种视觉任务处理装置,包括:第三确定模块,用于确定待处理视频的镜头分割信息,其中,上述待处理视频的镜头分割信息是利用镜头分割方法确定的;以及,处理模块,用于根据上述待处理视频的镜头分割信息处理视觉任务。
[0008]根据本公开的另一方面,提供了一种电子设备,包括:至少一个处理器;以及与上述至少一个处理器通信连接的存储器;其中,上述存储器存储有可被上述至少一个处理器执行的指令,上述指令被上述至少一个处理器执行,以使上述至少一个处理器能够执行如本公开上述的方法。
[0009]根据本公开的另一方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其中,上述计算机指令用于使上述计算机执行如本公开上述的方法。
[0010]根据本公开的另一方面,提供了一种计算机程序产品,包括计算机程序,上述计算机程序在被处理器执行时实现如本公开上述的方法。
[0011]应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
[0012]附图用于更好地理解本方案,不构成对本公开的限定。其中:
[0013]图1示意性示出了根据本公开实施例的可以应用镜头分割方法、视觉任务处理方法及装置的示例性系统架构;
[0014]图2示意性示出了根据本公开实施例的镜头分割方法的流程图;
[0015]图3示意性示出了根据本公开实施例的镜头分割方法的示例示意图;
[0016]图4A示意性示出了根据本公开实施例的在1<m≤M的情况下,得到第m层级的与至少一个视频帧集对应的第一中间全局视觉特征集过程的示例示意图;
[0017]图4B示意性示出了根据本公开另一实施例的在1<m≤M的情况下,得到第m层级的与至少一个视频帧集对应的第一中间全局视觉特征集过程的示例示意图;
[0018]图4C示意性示出了根据本公开另一实施例的在1<m≤M的情况下,得到第m层级的与至少一个视频帧集对应的第一中间全局视觉特征集过程的示例示意图;
[0019]图4D示意性示出了根据本公开另一实施例的在1<m≤M的情况下,得到第m层级的与至少一个视频帧集对应的第一中间全局视觉特征集过程的示例示意图;
[0020]图5A示意性示出了根据本公开实施例的在m=1的情况下,得到第2层级的与至少一个视频帧集对应的第一中间全局视觉特征集过程的示例示意图;
[0021]图5B示意性示出了根据本公开另一实施例的在m=1的情况下,得到第2层级的与至少一个视频帧集对应的第一中间全局视觉特征集过程的示例示意图;
[0022]图5C示意性示出了根据本公开另一实施例的在m=1的情况下,得到第2层级的与至少一个视频帧集对应的第一中间全局视觉特征集过程的示例示意图;
[0023]图5D示意性示出了根据本公开另一实施例的在m=1的情况下,得到第2层级的与至少一个视频帧集对应的第一中间全局视觉特征集过程的示例示意图;
[0024]图6示意性示出了根据本公开实施例的视觉任务处理方法的流程图;
[0025]图7示意性示出了根据本公开实施例的视觉任务处理方法的示例示意图;
[0026]图8示意性示出了根据本公开实施例的镜头分割装置的框图;
[0027]图9示意性示出了根据本公开实施例的视觉任务处理装置的框图;以及
[0028]图10示意性示出了根据本公开实施例的适于实现镜头分割方法和视觉任务处理方法的电子设备的框图。
具体实施方式
[0029]以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
[0030]视频是一种存储动态信息和进行信息通信的媒体形式。按照由粗到细的粒度可以将视频划分为视频片段、视频场景、视频镜头(即镜头)和视频帧。视频可以包括至少一个视频片段。视频片段可以包括至少一个视频场景。视频场景可以包括至少一个镜头。
[0031]镜头可以包括由一组图像采集设备连续拍摄得到的在时间上连续的若干帧图像。镜头分割可以指用于将完整视频按照镜头边界划分为镜头片段的技术。镜头分割效果容易
影响到后续的视频结构化以及视频检索的效果。
[0032]镜头分割方法可以包括以下方式之一:基于相邻图像特征差异的镜头分割方法和基于滑动窗口镜头分割方法。
[0033]但是,由于基于相邻图像特征差异的镜头分割方法并未考虑更多的上下文信息,且该方法中的各种策略需要依赖于阈值进行调整,因此,难以确定符合各种场景的阈值,进而导致基于相邻图像特征差异的镜头分割方法的适应性和灵活性较差。
[0034]另外,由于基于滑动窗口镜头分割方法通常利用3D卷积神经网络(3Dimensions Convolutional Neural Network,3D CNN)来实现镜头分割,而3D卷积神经网络的计算复杂度较高,导致计算和本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种镜头分割方法,包括:对视频中的至少一个视频帧进行二维特征提取,得到与所述至少一个视频帧对应的局部视觉特征;根据与所述至少一个视频帧对应的局部视觉特征,确定与所述至少一个视频帧对应的全局视觉特征;以及根据与所述至少一个视频帧对应的全局视觉特征,确定所述视频的镜头分割信息。2.根据权利要求1所述的方法,其中,所述对视频中的至少一个视频帧进行二维特征提取,得到与所述至少一个视频帧对应的局部视觉特征,包括:对所述视频中的至少一个视频帧进行二维卷积处理,得到与所述至少一个视频帧对应的局部视觉特征。3.根据权利要求1或2所述的方法,其中,所述根据与所述至少一个视频帧对应的局部视觉特征,确定与所述至少一个视频帧对应的全局视觉特征,包括:将所述至少一个视频帧划分为至少一个视频帧集;以及根据与所述至少一个视频帧集对应的局部视觉特征集,确定与所述至少一个视频帧对应的全局视觉特征。4.根据权利要求3所述的方法,其中,所述根据与所述至少一个视频帧集对应的局部视觉特征集,确定与所述至少一个视频帧对应的全局视觉特征,包括:基于全局特征提取策略对与所述至少一个视频帧集对应的局部视觉特征集进行M层级处理,得到与所述至少一个视频帧对应的全局视觉特征,其中,所述全局特征提取策略包括自注意力策略和相似度策略中的至少之一,M是大于或等于1的整数。5.根据权利要求4所述的方法,其中,在M大于1的情况下,所述基于全局特征提取策略对与所述至少一个视频帧集对应的局部视觉特征集进行M层级处理,得到与所述至少一个视频帧对应的全局视觉特征,包括:在1<m≤M的情况下,根据第m

1层级的与所述至少一个视频帧集对应的第一中间全局视觉特征集,得到第m层级的与所述至少一个视频帧集对应的第二中间全局视觉特征集,其中,所述第二中间全局视觉特征集包括至少一个第二中间全局视觉特征,所述第二中间全局视觉特征包括中间全局隐式视觉特征和中间全局显式视觉特征中的至少之一;根据所述第m层级的与所述至少一个视频帧集对应的第二中间全局视觉特征集和所述第m

1层级的与所述至少一个视频帧集对应的第一中间全局视觉特征集,得到第m层级的与所述至少一个视频帧集对应的第一中间全局视觉特征集;以及根据第R层级的与所述至少一个视频帧集对应的第一中间全局视觉特征集,得到与所述至少一个视频帧对应的全局视觉特征;其中,m是大于或等于1且小于或等于M的整数,R是大于或等于1且小于或等于M的整数。6.根据权利要求5所述的方法,其中,所述至少一个视频帧集包括N个,第n个所述视频帧集包括n
T
个所述视频帧,N是大于或等于1的整数,T是大于或等于1的整数;其中,在所述第二中间全局视觉特征包括所述中间全局隐式视觉特征的情况下,所述根据第m

1层级的与所述至少一个视频帧集对应的第一中间全局视觉特征集,得到第m层级的与所述至少一个视频帧集对应的第二中间全局视觉特征集,包括:
针对N个所述视频帧集中的第n个所述视频帧集,根据所述第m

1层级的与第n个所述视频帧集对应的第一中间全局视觉特征集,确定所述第m层级的与第n个所述视频帧集对应的至少一个第一矩阵集,其中,所述第一矩阵集包括第一查询矩阵、第一键矩阵和第一值矩阵;以及针对第n个所述视频帧集中的第n
t
个所述视频帧,根据所述第m层级的与第n
t
个所述视频帧对应的第一查询矩阵和所述第m层级的与第n个所述视频帧集对应的第一键矩阵,得到所述第m层级的与第n
t
个所述视频帧对应的第一注意力矩阵;根据所述第m层级的与第n
t
个所述视频帧对应的第一注意力矩阵和所述第m层级的与第n
t
个所述视频帧对应的第一值矩阵,得到所述第m层级的与第n
t
个所述视频帧对应的第三中间全局视觉特征;根据所述第m层级的与第n
t
个所述视频帧对应的第三中间全局视觉特征,得到所述第m层级的与第n
t
个所述视频帧对应的中间全局隐式视觉特征;其中,t是大于或等于1且小于或等于T的整数。7.根据权利要求6所述的方法,其中,在所述第二中间全局视觉特征包括所述中间全局显式视觉特征的情况下,所述根据第m

1层级的与所述至少一个视频帧集对应的第一中间全局视觉特征集,得到第m层级的与所述至少一个视频帧集对应的第二中间全局视觉特征集,包括:针对N个所述视频帧集中的第n个所述视频帧集,根据所述第m

1层级的与第n个所述视频帧集对应的第一中间全局视觉特征集,确定所述第m层级的第n个所述视频帧集中视频帧之间的相似度;以及根据所述第m层级的第n个所述视频帧集中视频帧之间的相似度,得到所述第m层级的与第n个所述视频帧集对应的中间全局显式视觉特征集。8.根据权利要求5~7中任一项所述的方法,其中,在所述第二中间全局视觉特征包括所述中间全局隐式视觉特征和所述中间全局显式视觉特征的情况下,所述根据所述第m层级的与所述至少一个视频帧集对应的第二中间全局视觉特征集和所述第m

1层级的与所述至少一个视频帧集对应的第一中间全局视觉特征集,得到第m层级的与所述至少一个视频帧集对应的第一中间全局视觉特征集,包括:将所述第m层级的与所述至少一个视频帧集对应的中间全局隐式视觉特征集和中间全局显式视觉特征集进行融合,得到所述第m层级的与所述至少一个视频帧集对应的第四中间全局视觉特征集;以及根据所述第m层级的与所述至少一个视频帧集对应的第四中间全局视觉特征集和所述第m

1层级的与所述至少一...

【专利技术属性】
技术研发人员:唐鑫王冠皓
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1