【技术实现步骤摘要】
视频识别方法及其装置
[0001]本申请涉及图像处理领域,尤其涉及一种视频识别方法及其装置。
技术介绍
[0002]深度神经网络最近在视频识别领域取得了广泛的成功,在包括视频的动作识别、事件检测、索引、检索等应用上均在以往性能的基础上有了很大的提升,设计出高性能的深度神经网络也成为了视频相关应用效果提升与技术落地的关键,而在相关技术中,对视频识别的神经网络结构,主要的缺陷在于很难在准确度和运算效率之间达到很好的平衡。
技术实现思路
[0003]本申请旨在至少在一定程度上解决相关技术中的技术问题之一。
[0004]为此,本申请第一方面实施例提出了一种视频识别方法,通过获取待识别视频中的视频帧的初始特征图;从初始特征图开始,依次进行N次特征融合处理,其中,第i次特征融合处理所处理的特征图i为第i
‑
1次特征融合处理所输出的目标特征图i
‑
1,i和N均为正整数,1<i≤N;特征融合处理包括:在每个特征提取通道上对特征图i进行在特征维度上的特征元素混合,以得到混合特征元素,并对混合特征元素进行全特征维度的融合,得到融合后特征图i,对融合后特征图i进行跨通道感知,得到目标特征图i;基于第N次特征融合处理输出的目标特征图N,对待识别视频进行类别识别,以获取待识别视频的目标类别。
[0005]本申请实施例提出的视频识别方法,将待识别视频中的特征元素之间的混合分解为三个独立特征维度的交互,再使用线性投影来对不同特征维度的交互结果进行结合,从而降低了计算复杂度与参数数 ...
【技术保护点】
【技术特征摘要】
1.一种视频识别方法,其特征在于,包括:获取待识别视频中的视频帧的初始特征图;从所述初始特征图开始,依次进行N次特征融合处理,其中,第i次特征融合处理所处理的特征图i为第i
‑
1次特征融合处理所输出的目标特征图i
‑
1,所述i和N均为正整数,1<i≤N;所述特征融合处理包括:在每个特征提取通道上对所述特征图i进行在特征维度上的特征元素混合,以得到混合特征元素,并对所述混合特征元素进行全特征维度的融合,得到融合后特征图i,对所述融合后特征图i进行跨通道感知,得到目标特征图i;基于第N次特征融合处理输出的目标特征图N,对所述待识别视频进行类别识别,以获取所述待识别视频的目标类别。2.根据权利要求1所述的方法,其特征在于,所述对所述特征图i进行在特征维度上的特征元素混合,以得到混合特征元素,包括:对所述特征图i中的高度特征元素在高度维度上进行元素混合,以得到混合高度特征元素;对所述特征图i中的宽度特征元素在宽度维度上进行元素混合,以得到混合宽度特征元素;对所述特征图i中的时间特征元素在时间维度上进行元素混合,以得到混合时间特征元素。3.根据权利要求2所述的方法,其特征在于,所述对所述特征图i中的时间特征元素在时间维度上进行元素混合,以得到混合时间特征元素,包括:获取所述特征图i在时间维度上的时间特征元素,并对所述时间特征元素进行分组;对每个所述分组内部的时间特征元素进行混合,以获得混合时间特征元素。4.根据权利要求3所述的方法,其特征在于,所述对所述时间特征元素进行分组,包括:对所述时间特征元素进行均匀分组,以获取所述时间特征元素的第一分组。5.根据权利要求3所述的方法,其特征在于,所述对所述时间特征元素进行分组,包括:对所述时间特征元素进行离散采样,以获取所述时间特征元素的第二分组。6.根据权利要求3所述的方法,其特征在于,所述对所述时间特征元素进行分组,包括:在所述时间特征元素进行均匀分组的基础上,对所述时间特征元素进行窗口平移,以获取所述时间特征元素的第三分组。7.根据权利要求3所述的方法,其特征在于,所述对所述时间特征元素进行分组,包括:从第一个时间特征元素开始,将每个所述时间特征元素与该时间特征元素之后连续的预设个数的时间特征元素确定为一组,以获取所述时间特征元素的第四分组。8.根据权利要求1
‑
7中任一项所述的方法,其特征在于,所述获取待识别视频中的视频帧的初始特征图,包括:将待识别视频中的视频帧向特征空间投影,以获取所述初始特征图。9.根据权利要求1所述的方法,其特征在于,所述方法包括:将所述待识别视频中的视频帧输入分类识别模型中,由所述分类识别模型中的三维投影层对所述视频帧进行投影,得到所述初始特征图;由所述分类识别模型中的N个三维多层感知机网络,从所述初始特征图开始依次进行N
次所述特征融合处理,以输出所述目标特征图N;其中,所述N个三维多层感知机网络串行连接,所述第一个三维多层感知机网络的输入为初始特征图,第i个三维多层感知机网络输入的特征图i为第i
‑
1个三维多层感知机网络所输...
【专利技术属性】
技术研发人员:邱钊凡,姚霆,梅涛,
申请(专利权)人:京东科技控股股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。