红外视频时序行为定位方法、装置、设备及存储介质制造方法及图纸

技术编号:28126920 阅读:20 留言:0更新日期:2021-04-19 11:42
本发明专利技术涉及人工智能领域,公开了一种红外视频时序行为定位方法、装置、设备及存储介质,用于通过语义边和相邻边对多个视频片段构建图网络,进行动作识别及时序位置定位,提高了识别定位的准确度。红外视频时序行为定位方法包括:获取输入的红外视频,提取多个候选视频片段,根据多个候选视频片段得到多个视频片段特征;通过语义边和相邻边对多个候选视频片段进行边线构建,生成基础图网络;基于基础图网络构建双流图卷积神经网络,得到多个隐式特征值;根据双流图卷积神经网络进行预测,得到多个候选视频片段的行为动作结果和时序位置。此外,本发明专利技术还涉及区块链技术,多个候选视频片段的行为动作结果和时序位置可存储于区块链中。中。中。

【技术实现步骤摘要】
红外视频时序行为定位方法、装置、设备及存储介质


[0001]本专利技术涉及区域提取领域,尤其涉及一种红外视频时序行为定位方法、装置、设备及存储介质。

技术介绍

[0002]视频分析在安全监控,人类行为分析和许多其他领域具有广泛应用潜力,理解视频中的人类行为已成为计算机视觉中的重要研究方向,由于很多涉及人身安全的行为大多发生在黑暗无光的场景下,因此对红外视频的人体行为动作识别与检测,在黑暗或光线环境不佳的场景中具有更为实际的应用。视频时序行为定位任务是需要从一段包含多个人体行为动作的视频中,准确检测出每一个动作的类别以及该动作在视频中的开始结束时刻,由于近几年深度学习在图片识别与图片检测任务中的准确率较机器学习方法有显著提升,因此视频时序行为定位任务目前基本都采用了深度学习方法并借鉴了图片定位任务中的很多思路方法,视频时序行为定位任务目前主要有两类基于深度学习的方法:第一类为单阶段识别定位方法,即设计一个深度学习网络可以直接预测该视频中含有动作的视频片段,第二类为双阶段识别定位方法,即先得到该视频中可能的视频片段结果,然后再从可能的视频片段结果中进行筛选得到最终的识别定位结果。
[0003]在现有的方案中,双阶段识别定位方法只是孤立地针对每一个视频片段使用算法进行识别判断,而没有有效地使用视频片段前后的语义信息,以及其他相邻的视频片段的信息。

技术实现思路

[0004]本专利技术提供了一种红外视频时序行为定位方法、装置、设备及存储介质,用于通过语义边和相邻边对多个视频片段构建图网络,并通过图卷积神经网络训练学习不同视频片段之间语义信息的特征关系,对每一个视频片段进行动作识别及时序位置定位,更充分地融合及学习了前后视频片段的语义信息,提高了识别定位的准确度。
[0005]本专利技术第一方面提供了一种红外视频时序行为定位方法,包括:获取输入的红外视频,并在双阶段识别定位方式的第一阶段从所述输入的红外视频中提取多个候选视频片段,所述多个候选视频片段用于指示可能的含有人体行为动作的视频片段,根据所述多个候选视频片段得到多个视频片段特征;在双阶段识别定位方式的第二阶段通过语义边和相邻边对所述多个候选视频片段进行边线构建,生成基础图网络;基于所述基础图网络构建双流图卷积神经网络,所述双流图卷积神经网络由两条图卷积神经网络组成,获取所述多个候选视频片段在每一条图卷积神经网络每一层的隐式特征值,得到多个隐式特征值;根据所述双流图卷积神经网络进行预测,得到所述多个候选视频片段的行为动作结果和时序位置。
[0006]可选的,在本专利技术第一方面的第一种实现方式中,所述获取输入的红外视频,并在双阶段识别定位方式的第一阶段从所述输入的红外视频中提取多个候选视频片段,所述多
个候选视频片段用于指示可能的含有人体行为动作的视频片段,根据所述多个候选视频片段得到多个视频片段特征包括:基于预置的视频数据集获取输入的红外视频,所述输入的红外视频为用户输入的一段任意时间长度的红外视频;基于所述输入的红外视频,在双阶段识别定位方式的第一阶段通过预置算法提取得到多个候选视频片段,所述多个候选视频片段用于指示可能的含有人体行为动作的视频片段,记录每个候选视频片段中的动作类别以及每一个动作的开始时刻和结束时刻,得到多个视频片段特征。
[0007]可选的,在本专利技术第一方面的第二种实现方式中,所述在双阶段识别定位方式的第二阶段通过语义边和相邻边对所述多个候选视频片段进行边线构建,生成基础图网络包括:在双阶段识别定位方式的第二阶段从所述多个候选视频片段中选取任意两个候选视频片段,基于预置的第一公式计算所述任意两个候选视频片段之间的关联程度;当所述关联程度大于预设的第一阈值时,对所述任意两个候选视频片段构建语义边,生成第一图网络;当所述关联程度为零时,基于预置的第二公式计算所述任意两个候选视频片段间的距离,当所述任意两个候选视频片段间的距离小于预设的第二阈值时,对所述任意两个候选视频片段构建相邻边,生成第二图网络;将所述第一图网络和所述第二图网络合并,生成基础图网络。
[0008]可选的,在本专利技术第一方面的第三种实现方式中,所述基于所述基础图网络构建双流图卷积神经网络,获取所述多个候选视频片段在每一条图卷积神经网络每一层的隐式特征值,得到多个隐式特征值包括:基于基础图网络构建预置层数的图卷积神经网络,生成双流图卷积神经网络,预置的层数为K 层,K为正整数;获取任意两个候选视频片段的特征,根据所述任意两个候选视频片段的特征相似度和预置的第三公式计算度矩阵,得到多个度矩阵值;将所述多个度矩阵值分别代入预置的第四公式,计算所有候选视频片段在图卷积神经网络第k层的隐式特征值,1≤k≤K;基于激活函数ReLU对所述第k 层的隐式特征值进行转化并输入至下一层图卷积神经网络,得到多个隐式特征值。
[0009]可选的,在本专利技术第一方面的第四种实现方式中,所述根据所述双流图卷积神经网络进行预测,得到所述多个候选视频片段的行为动作结果和时序位置包括:基于第一条图卷积神经网络,调用预置的第五公式,通过全连接神经网络层对所述多个隐式特征值进行信息融合,并调用损失层softmax进行人体行为动作分类,生成行为动作结果;基于第二条图卷积神经网络,调用预置的第六公式和第七公式计算所述候选视频片段的时序位置和完整度概率。
[0010]可选的,在本专利技术第一方面的第五种实现方式中,在所述根据所述双流图卷积神经网络进行预测,得到所述多个候选视频片段的行为动作结果和时序位置之后,所述方法还包括:基于预置的算法对所述双流图卷积神经网络进行优化。
[0011]可选的,在本专利技术第一方面的第六种实现方式中,所述基于预置的算法对所述双流图卷积神经网络进行优化包括:基于预置的SAGE算法,调用预置的第八公式对所述图卷积神经网络每一层中的节点进行采样并计算最近邻节点的个数;基于所述最近邻节点的个数,按照预置的模型优化流程对所述双流图卷积神经网络进行优化。
[0012]本专利技术第二方面提供了一种红外视频时序行为定位装置,包括:获取模块,用于获取输入的红外视频,并在双阶段识别定位方式的第一阶段从所述输入的红外视频中提取多个候选视频片段,所述多个候选视频片段用于指示可能的含有人体行为动作的视频片段,
根据所述多个候选视频片段得到多个视频片段特征;生成模块,用于在双阶段识别定位方式的第二阶段通过语义边和相邻边对所述多个候选视频片段进行边线构建,生成基础图网络;构建模块,用于基于所述基础图网络构建双流图卷积神经网络,所述双流图卷积神经网络由两条图卷积神经网络组成,获取所述多个候选视频片段在每一条图卷积神经网络每一层的隐式特征值,得到多个隐式特征值;预测模块,用于根据所述双流图卷积神经网络进行预测,得到所述多个候选视频片段的行为动作结果和时序位置。
[0013]可选的,在本专利技术第二方面的第一种实现方式中,所述获取模块包括:获取单元,用于基于预置的视频数据集获取输入的红外视频,所述输入的红外视频为用户输入的一段任意时间长度的红外视频;提取单元,用于基于所述输入的红外视频,在双本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种红外视频时序行为定位方法,其特征在于,所述红外视频时序行为定位方法包括:获取输入的红外视频,并在双阶段识别定位方式的第一阶段从所述输入的红外视频中提取多个候选视频片段,所述多个候选视频片段用于指示可能的含有人体行为动作的视频片段,根据所述多个候选视频片段得到多个视频片段特征;在双阶段识别定位方式的第二阶段通过语义边和相邻边对所述多个候选视频片段进行边线构建,生成基础图网络;基于所述基础图网络构建双流图卷积神经网络,所述双流图卷积神经网络由两条图卷积神经网络组成,获取所述多个候选视频片段在每一条图卷积神经网络每一层的隐式特征值,得到多个隐式特征值;根据所述双流图卷积神经网络进行预测,得到所述多个候选视频片段的行为动作结果和时序位置。2.根据权利要求1所述的红外视频时序行为定位方法,其特征在于,所述获取输入的红外视频,并在双阶段识别定位方式的第一阶段从所述输入的红外视频中提取多个候选视频片段,所述多个候选视频片段用于指示可能的含有人体行为动作的视频片段,根据所述多个候选视频片段得到多个视频片段特征包括:基于预置的视频数据集获取输入的红外视频,所述输入的红外视频为用户输入的一段任意时间长度的红外视频;基于所述输入的红外视频,在双阶段识别定位方式的第一阶段通过预置算法提取得到多个候选视频片段,所述多个候选视频片段用于指示可能的含有人体行为动作的视频片段,记录每个候选视频片段中的动作类别以及每一个动作的开始时刻和结束时刻,得到多个视频片段特征。3.根据权利要求1所述的红外视频时序行为定位方法,其特征在于,所述在双阶段识别定位方式的第二阶段通过语义边和相邻边对所述多个候选视频片段进行边线构建,生成基础图网络包括:在双阶段识别定位方式的第二阶段从所述多个候选视频片段中选取任意两个候选视频片段,基于预置的第一公式计算所述任意两个候选视频片段之间的关联程度;当所述关联程度大于预设的第一阈值时,对所述任意两个候选视频片段构建语义边,生成第一图网络;当所述关联程度为零时,基于预置的第二公式计算所述任意两个候选视频片段间的距离,当所述任意两个候选视频片段间的距离小于预设的第二阈值时,对所述任意两个候选视频片段构建相邻边,生成第二图网络;将所述第一图网络和所述第二图网络合并,生成基础图网络。4.根据权利要求1所述的红外视频时序行为定位方法,其特征在于,所述基于所述基础图网络构建双流图卷积神经网络,获取所述多个候选视频片段在每一条图卷积神经网络每一层的隐式特征值,得到多个隐式特征值包括:基于基础图网络构建预置层数的图卷积神经网络,生成双流图卷积神经网络,预置的层数为K层,K为正整数;获取任意两个候选视频片段的特征,根据所述任意两个候选视频片段的特征相似度和
预置的第三公式计算度矩阵,得到多个度矩阵值;将所述多...

【专利技术属性】
技术研发人员:吴雪平臧磊
申请(专利权)人:深圳壹账通智能科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1