视频识别方法及其装置制造方法及图纸

技术编号:34733359 阅读:21 留言:0更新日期:2022-08-31 18:23
本申请提出了一种视频识别方法及其装置,涉及图像处理领域,通过获取待识别视频中的视频帧的初始特征图;从初始特征图开始依次进行N次特征融合处理,第i次特征融合处理所处理的特征图i为第i

【技术实现步骤摘要】
视频识别方法及其装置


[0001]本申请涉及图像处理领域,尤其涉及一种视频识别方法及其装置。

技术介绍

[0002]深度神经网络最近在视频识别领域取得了广泛的成功,在包括视频的动作识别、事件检测、索引、检索等应用上均在以往性能的基础上有了很大的提升,设计出高性能的深度神经网络也成为了视频相关应用效果提升与技术落地的关键,而在相关技术中,对视频识别的神经网络结构,主要的缺陷在于很难在准确度和运算效率之间达到很好的平衡。

技术实现思路

[0003]本申请旨在至少在一定程度上解决相关技术中的技术问题之一。
[0004]为此,本申请第一方面实施例提出了一种视频识别方法,通过获取待识别视频中的视频帧的初始特征图;从初始特征图开始,依次进行N次特征融合处理,其中,第i次特征融合处理所处理的特征图i为第i

1次特征融合处理所输出的目标特征图i

1,i和N均为正整数,1<i≤N;特征融合处理包括:在每个特征提取通道上对特征图i进行在特征维度上的特征元素混合,以得到混合特征元素,并对混合特征元素进行全特征维度的融合,得到融合后特征图i,对融合后特征图i进行跨通道感知,得到目标特征图i;基于第N次特征融合处理输出的目标特征图N,对待识别视频进行类别识别,以获取待识别视频的目标类别。
[0005]本申请实施例提出的视频识别方法,将待识别视频中的特征元素之间的混合分解为三个独立特征维度的交互,再使用线性投影来对不同特征维度的交互结果进行结合,从而降低了计算复杂度与参数数量,在视频识别问题上达到了准确度与计算效率上更好的平衡。
[0006]根据本申请的实施例,对特征图i进行在特征维度上的特征元素混合,以得到混合特征元素,包括:对特征图i中的高度特征元素在高度维度上进行元素混合,以得到混合高度特征元素;对特征图i中的宽度特征元素在宽度维度上进行元素混合,以得到混合宽度特征元素;对特征图i中的时间特征元素在时间维度上进行元素混合,以得到混合时间特征元素。
[0007]根据本申请的实施例,对特征图i中的时间特征元素在时间维度上进行元素混合,以得到混合时间特征元素,包括:获取特征图i在时间维度上的时间特征元素,并对时间特征元素进行分组;对每个分组内部的时间特征元素进行混合,以获得混合时间特征元素。
[0008]根据本申请的实施例,对时间特征元素进行分组,包括:对时间特征元素进行均匀分组,以获取时间特征元素的第一分组。
[0009]根据本申请的实施例,对时间特征元素进行分组,包括:对时间特征元素进行离散采样,以获取时间特征元素的第二分组。
[0010]根据本申请的实施例,对时间特征元素进行分组,包括:在时间特征元素进行均匀分组的基础上,对时间特征元素进行窗口平移,以获取时间特征元素的第三分组。
[0011]根据本申请的实施例,对时间特征元素进行分组,包括:从第一个时间特征元素开始,将每个时间特征元素与该时间特征元素之后连续的预设个数的时间特征元素确定为一组,以获取时间特征元素的第四分组。
[0012]根据本申请的实施例,获取待识别视频中的视频帧的初始特征图,包括:将待识别视频中的视频帧向特征空间投影,以获取初始特征图。
[0013]根据本申请的实施例,视频识别方法,包括:将待识别视频中的视频帧输入分类识别模型中,由分类识别模型中的三维投影层对视频帧进行投影,得到初始特征图;由分类识别模型中的N个三维多层感知机网络,从初始特征图开始依次进行N次特征融合处理,以输出目标特征图N;其中,N个三维多层感知机网络串行连接,第一个三维多层感知机网络的输入为初始特征图,第i个三维多层感知机网络输入的特征图i为第i

1个三维多层感知机网络所输出的目标特征图i

1,i和N均为正整数,1<i≤N;将目标特征图N输入分类识别模型中的平均池化层以对目标特征图N进行平均池化操作,并将进行平均池化操作后获取的均值特征图输入分类识别模型中的全连接层,以获取由全连接层输出的待识别视频的目标类别。
[0014]根据本申请的实施例,三维多层感知机网络包括特征元素混合单元和跨通道感知单元,其中:由特征元素混合单元对特征图i进行在特征维度上的特征元素混合,以得到混合特征元素,并对混合特征元素进行全特征维度的融合,得到融合后特征图i;由跨通道感知单元对融合后特征图i进行跨通道感知,输出目标特征图i。
[0015]根据本申请的实施例,特征元素混合单元,包括:高度特征元素混合子单元、宽度特征元素混合子单元和时间特征元素混合子单元;方法还包括:由高度特征元素混合子单元对特征图i中的高度特征元素在高度维度上进行元素混合,以得到混合高度特征元素;由宽度特征元素混合子单元对特征图i中的宽度特征元素在宽度维度上进行元素混合,以得到混合宽度特征元素;由时间特征元素混合子单元对特征图i中的时间特征元素在时间维度上进行元素混合,以得到混合时间特征元素。
[0016]根据本申请的实施例,每相邻两个三维多层感知机网络之间包括一个过渡层,将目标特征图i输入过渡层中,由过渡层对目标特征图i增加特征提取通道的数量,并降低目标特征图i的分辨率。
[0017]本申请第二方面实施例提出了一种视频识别装置,包括:获取模块,用于获取待识别视频中的视频帧的初始特征图;处理模块,用于从初始特征图开始,依次进行N次特征融合处理,其中,第i次特征融合处理所处理的特征图i为第i

1次特征融合处理所输出的目标特征图i

1,i和N均为正整数,1<i≤N;特征融合处理包括:在每个特征提取通道上对特征图i进行在特征维度上的特征元素混合,以得到混合特征元素,并对混合特征元素进行全特征维度的融合,得到融合后特征图i,对融合后特征图i进行跨通道感知,得到目标特征图i;识别模块,用于基于第N次特征融合处理输出的目标特征图N,对待识别视频进行类别识别,以获取待识别视频的目标类别。
[0018]根据本申请的实施例,处理模块,还用于:对特征图i进行在特征维度上的特征元素混合,以得到混合特征元素,包括:对特征图i中的高度特征元素在高度维度上进行元素混合,以得到混合高度特征元素;对特征图i中的宽度特征元素在宽度维度上进行元素混合,以得到混合宽度特征元素;对特征图i中的时间特征元素在时间维度上进行元素混合,
以得到混合时间特征元素。
[0019]根据本申请的实施例,处理模块,还用于:对特征图i中的时间特征元素在时间维度上进行元素混合,以得到混合时间特征元素,包括:获取特征图i在时间维度上的时间特征元素,并对时间特征元素进行分组;对每个分组内部的时间特征元素进行混合,以获得混合时间特征元素。
[0020]根据本申请的实施例,处理模块,还用于:对时间特征元素进行分组,包括:对时间特征元素进行均匀分组,以获取时间特征元素的第一分组。
[0021]根据本申请的实施例,处理模块,还用于:对时间特征元素进行分组,包括:对时间特征元本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种视频识别方法,其特征在于,包括:获取待识别视频中的视频帧的初始特征图;从所述初始特征图开始,依次进行N次特征融合处理,其中,第i次特征融合处理所处理的特征图i为第i

1次特征融合处理所输出的目标特征图i

1,所述i和N均为正整数,1<i≤N;所述特征融合处理包括:在每个特征提取通道上对所述特征图i进行在特征维度上的特征元素混合,以得到混合特征元素,并对所述混合特征元素进行全特征维度的融合,得到融合后特征图i,对所述融合后特征图i进行跨通道感知,得到目标特征图i;基于第N次特征融合处理输出的目标特征图N,对所述待识别视频进行类别识别,以获取所述待识别视频的目标类别。2.根据权利要求1所述的方法,其特征在于,所述对所述特征图i进行在特征维度上的特征元素混合,以得到混合特征元素,包括:对所述特征图i中的高度特征元素在高度维度上进行元素混合,以得到混合高度特征元素;对所述特征图i中的宽度特征元素在宽度维度上进行元素混合,以得到混合宽度特征元素;对所述特征图i中的时间特征元素在时间维度上进行元素混合,以得到混合时间特征元素。3.根据权利要求2所述的方法,其特征在于,所述对所述特征图i中的时间特征元素在时间维度上进行元素混合,以得到混合时间特征元素,包括:获取所述特征图i在时间维度上的时间特征元素,并对所述时间特征元素进行分组;对每个所述分组内部的时间特征元素进行混合,以获得混合时间特征元素。4.根据权利要求3所述的方法,其特征在于,所述对所述时间特征元素进行分组,包括:对所述时间特征元素进行均匀分组,以获取所述时间特征元素的第一分组。5.根据权利要求3所述的方法,其特征在于,所述对所述时间特征元素进行分组,包括:对所述时间特征元素进行离散采样,以获取所述时间特征元素的第二分组。6.根据权利要求3所述的方法,其特征在于,所述对所述时间特征元素进行分组,包括:在所述时间特征元素进行均匀分组的基础上,对所述时间特征元素进行窗口平移,以获取所述时间特征元素的第三分组。7.根据权利要求3所述的方法,其特征在于,所述对所述时间特征元素进行分组,包括:从第一个时间特征元素开始,将每个所述时间特征元素与该时间特征元素之后连续的预设个数的时间特征元素确定为一组,以获取所述时间特征元素的第四分组。8.根据权利要求1

7中任一项所述的方法,其特征在于,所述获取待识别视频中的视频帧的初始特征图,包括:将待识别视频中的视频帧向特征空间投影,以获取所述初始特征图。9.根据权利要求1所述的方法,其特征在于,所述方法包括:将所述待识别视频中的视频帧输入分类识别模型中,由所述分类识别模型中的三维投影层对所述视频帧进行投影,得到所述初始特征图;由所述分类识别模型中的N个三维多层感知机网络,从所述初始特征图开始依次进行N
次所述特征融合处理,以输出所述目标特征图N;其中,所述N个三维多层感知机网络串行连接,所述第一个三维多层感知机网络的输入为初始特征图,第i个三维多层感知机网络输入的特征图i为第i

1个三维多层感知机网络所输...

【专利技术属性】
技术研发人员:邱钊凡姚霆梅涛
申请(专利权)人:京东科技控股股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1