多视角定位检测方法及装置制造方法及图纸

技术编号:32973585 阅读:66 留言:0更新日期:2022-04-09 11:45
本发明专利技术公开了一种多视角定位检测方法及装置,方法包括:获取多个视角输入的视频数据,利用第一神经网络抽取得到对应的多视角的第一特征图谱;将多视角的第一特征图谱分别输入至第二级联神经网络,得到第二级联神经网络输出的各级第二特征图谱,并对相邻两视角间的各级第二特征图谱进行关联建模处理,得到相邻两视角的相似度矩阵数据;将各相邻两视角的相似度矩阵数据进行聚合处理,得到融合特征数据;将多视角的融合特征数据进行拼接处理,得到全局特征图谱;根据全局特征图谱确定至少一个事件的时序提名及动作分类,以实现对多视角的视频数据的定位。多视角的视频数据进行整体建模,使得各视角信息交互,相互增强,实现对全局特征的事件定位。特征的事件定位。特征的事件定位。

【技术实现步骤摘要】
多视角定位检测方法及装置


[0001]本专利技术涉及计算机视觉
,具体涉及一种多视角定位检测方法及装置。

技术介绍

[0002]对视频进行定位大多采用基于深度模型的时域事件检测模型。该模型主要包含两类,一类是通过连续的两步完成动作定位的两步模型,即先完成时序提名(确定动作发生的起始时间和结束时间),然后进行提名的动作分类(确定所定位片段的动作类别)。另一类是同时完成时序提名和动作分类的单步模型。两步模型一般会通过时域的划窗得到初步的动作提名候选,然后利用神经网络对这些动作提名候选进行分类和排序,最终得到事件检测的结果。单步模型则从图片物体检测算法中受到启发,利用一维特征图谱中的锚点代表时序提名,然后利用网络对锚点特征进行分类和时域上的回归,得到事件检测结果。
[0003]但现有的时域事件检测模型,其一般只强调利用单一镜头的视频输入,仅使用单一视角进行动作定位,对于多镜头的情况,若对每个镜头均使用以上模型,则需要消耗巨大的计算资源,且无法对多个镜头间的关联性和互补性进行建模处理。

技术实现思路

[0004]鉴于上述问题,提出了本专利技术以便提供一种克服上述问题或者至少部分地解决上述问题的多视角定位检测方法及装置。
[0005]根据本专利技术的一个方面,提供了一种多视角定位检测方法,其包括:
[0006]获取多个视角输入的视频数据,利用第一神经网络抽取得到对应的多视角的第一特征图谱;
[0007]将多视角的第一特征图谱分别输入至第二级联神经网络,得到第二级联神经网络输出的各级第二特征图谱,并对相邻两视角间的各级第二特征图谱进行关联建模处理,得到相邻两视角的相似度矩阵数据;
[0008]将各相邻两视角的相似度矩阵数据进行聚合处理,得到融合特征数据;
[0009]将多视角的融合特征数据进行拼接处理,得到全局特征图谱;
[0010]根据全局特征图谱确定至少一个事件的时序提名及动作分类,以实现对多视角的视频数据的定位。
[0011]根据本专利技术的另一方面,提供了一种多视角定位检测装置,其包括:
[0012]获取模块,适于获取多个视角输入的视频数据,利用第一神经网络抽取得到对应的多视角的第一特征图谱;
[0013]关联模块,适于将多视角的第一特征图谱分别输入至第二级联神经网络,得到第二级联神经网络输出的各级第二特征图谱,并对相邻两视角间的各级第二特征图谱进行关联建模处理,得到相邻两视角的相似度矩阵数据;
[0014]聚合模块,适于将各相邻两视角的相似度矩阵数据进行聚合处理,得到融合特征数据;
[0015]拼接模块,适于将多视角的融合特征数据进行拼接处理,得到全局特征图谱;
[0016]定位模块,适于根据全局特征图谱确定至少一个事件的时序提名及动作分类,以实现对多视角的视频数据的定位。
[0017]根据本专利技术的又一方面,提供了一种电子设备,包括:处理器、存储器、通信接口和通信总线,所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信;
[0018]所述存储器用于存放至少一可执行指令,所述可执行指令使所述处理器执行上述多视角定位检测方法对应的操作。
[0019]根据本专利技术的再一方面,提供了一种计算机存储介质,所述存储介质中存储有至少一可执行指令,所述可执行指令使处理器执行如上述多视角定位检测方法对应的操作。
[0020]根据本专利技术的多视角定位检测方法及装置,对多个视角输入的视频数据进行整体建模,基于不同视角对同一事件的互补性,将各个视角下的视频数据的信息进行交互,相互增强,从而构建全局特征图谱以完成对事件的定位。
[0021]上述说明仅是本专利技术技术方案的概述,为了能够更清楚了解本专利技术的技术手段,而可依照说明书的内容予以实施,并且为了让本专利技术的上述和其它目的、特征和优点能够更明显易懂,以下特举本专利技术的具体实施方式。
附图说明
[0022]通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本专利技术的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
[0023]图1示出了根据本专利技术一个实施例的多视角定位检测方法的流程图;
[0024]图2示出了多视角定位检测网络结构示意图;
[0025]图3示出了根据本专利技术一个实施例的多视角定位检测装置的功能框图;
[0026]图4示出了根据本专利技术一个实施例的一种电子设备的结构示意图。
具体实施方式
[0027]下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
[0028]图1示出了根据本专利技术一个实施例的多视角定位检测方法的流程图。如图1所示,多视角定位检测方法具体包括如下步骤:
[0029]步骤S101,获取多个视角输入的视频数据,利用第一神经网络抽取得到对应的多视角的第一特征图谱。
[0030]本实施例中多个视角输入的视频数据可以利用如多个摄像头进行采集,得到多个视角的视频数据。如图2所示,视频数据可以由k个视角采集得到,每个视角获取到的视频数据具有不同的方向、采集角度等,各个视角间的视频数据均为针对同一场景采集的数据。场景包括如针对运动赛事的视频场景、针对现场活动的视频场景等,可以通过多个摄像头采集不同视角的视频数据进行定位,方便后续的导播、剪辑等。
[0031]在获取多个视角输入的视频数据后,利用第一神经网络如3D卷积神经网络分别对多个视角的视频数据进行数据抽取,如图2所示,得到第一特征图谱。第一特征图谱为抽取得到的一维特征的聚合,抽取的一维特征可以表示为如f
k,i
,其中,k代表k个视角,i取值为0到T
’‑
1,T

为视频数据的T

个时间段,i取值与各时间段对应。第一特征图谱是分别对各视角的一维特征进行聚合,以视角为单位综合不同时间点的特征得到。
[0032]步骤S102,将多视角的第一特征图谱分别输入至第二级联神经网络,得到第二级联神经网络输出的各级第二特征图谱,并对相邻两视角间的各级第二特征图谱进行关联建模处理,得到相邻两视角的相似度矩阵数据。
[0033]将得到的多视角的第一特征图谱分别输入至各自的第二级联神经网络,以获取各自的第二特征图谱。第二级联神经网络由多个级联的一维卷积神经网络组成,如图2所示,各视角的第一特征图谱分别输入各自的第二级联神经网络中,在第二级联神经网络的各级对应的输出各级第二特征图谱,如a视角的第一特征图谱输入至第二级联神经网络,得到第二特征图谱其中,a代表a视角,n代表第二级联神经网络的第n级。相应的b视角的第一特征图谱输入至第二级联神经本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种多视角定位检测方法,其特征在于,方法包括:获取多个视角输入的视频数据,利用第一神经网络抽取得到对应的多视角的第一特征图谱;将多视角的第一特征图谱分别输入至第二级联神经网络,得到第二级联神经网络输出的各级第二特征图谱,并对相邻两视角间的各级第二特征图谱进行关联建模处理,得到相邻两视角的相似度矩阵数据;将各相邻两视角的相似度矩阵数据进行聚合处理,得到融合特征数据;将多视角的融合特征数据进行拼接处理,得到全局特征图谱;根据所述全局特征图谱确定至少一个事件的时序提名及动作分类,以实现对多视角的视频数据的定位。2.根据权利要求1所述的方法,其特征在于,所述第二级联神经网络由多个一维卷积神经网络组成;所述将多视角的第一特征图谱分别输入至第二级联神经网络,得到第二级联神经网络输出的各级第二特征图谱,并对相邻两视角间的各级第二特征图谱进行关联建模处理,得到相邻两视角的各级相似度矩阵数据进一步包括:将多视角的第一特征图谱分别输入至对应的各个第二级联神经网络,得到各视角对应的各级第二特征图谱;基于多视角关联处理单元将相邻两视角各级第二特征图谱按照时域位置的相似性进行建模处理,得到相邻两视角的各级相似度矩阵数据;其中,所述多视角关联处理单元利用特征嵌入函数对相邻两视角各级第二特征图谱点乘以进行建模处理。3.根据权利要求1所述的方法,其特征在于,所述将各相邻两视角的相似度矩阵数据进行聚合处理,得到融合特征数据进一步包括:针对任一相邻两视角,将相邻两视角的相似度矩阵数据进行归一化处理,并将处理后的相似度矩阵数据与相邻两视角中的第一视角的全时域位置的第二特征图谱的特征嵌入函数进行聚合处理,得到融合特征数据。4.根据权利要求3所述的方法,其特征在于,所述将各相邻两视角的相似度矩阵数据进行聚合处理,得到融合特征数据进一步包括:基于残差结构连接所述融合特征数据与所述第一特征图谱和/或所述第二特征图谱。5.根据权利要求1

4中任一项所述的方法,其特征在于,视角为k个视角;所述将多视角的融合特征数据进行拼接处理,得到全局特征图谱进一步包括:将k个视角的k(k

1)个融合特征数据进行拼...

【专利技术属性】
技术研发人员:程辉刘松鹏阮哲王立学潘滢炜姚霆梅涛
申请(专利权)人:咪咕文化科技有限公司中国移动通信集团有限公司北京京东尚科信息技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1