本发明专利技术提出了基于多尺度特征的人类动作识别方法及系统,包括:利用卷积网络获取视频序列的空间特征;针对空间特征在时间维度上取局部窗口,在局部窗口内进行计算获取基于初级局部特征的最大响应;对基于初级局部特征的最大响应进行处理获得次级特征;对于次级特征在时间维度上取局部窗口,在局部窗口内进行计算获取基于次级局部特征的最大响应;对于基于初级局部特征的最大响应及基于次级局部特征的最大响应过加权融合的方式获得最终动作分类,所获得的特征对应着视频序列的短期、中期、长期特征。本发明专利技术对于时间序列进行短期和长期建模,提升动作识别算法性能。提升动作识别算法性能。提升动作识别算法性能。
Human motion recognition method and system based on multi-scale features
【技术实现步骤摘要】
基于多尺度特征的人类动作识别方法及系统
[0001]本专利技术属于图像处理
,尤其涉及基于多尺度特征的人类动作识别方法及系统。
技术介绍
[0002]本部分的陈述仅仅是提供了与本专利技术相关的
技术介绍
信息,不必然构成在先技术。
[0003]动作识别任务作为计算机视觉在现实生活中的主要应用之一,在现实生活中有着广泛的应用,轻量化的动作识别算法可以部署在边缘设备,将动作识别算法应用到工厂、街道等现实场景进行视频监督、行为预测已经成为新的研究热点,同时也带来了很大的挑战。动作识别旨在通过短时间内的少量视频帧,识别被观察者进行的动作类别。常规环境下的动作识别算法研究已经取得很大进展,但由于部署环境的多样性以及训练数据稀缺,算法需要在不同的应用场景能够保证较高的识别精度。
[0004]对于常规动作识别任务,传统方法主要包括基于RGB图像和基于人体关节点序列两个主流方向,相比于基于RGB图像序列的方法,基于图卷积网络(GCN)对人体骨架建模的方法对复杂背景的变化等干扰因素具有很强的鲁棒性。而且与视频流的处理相比,处理关节点数据消耗的计算资源更少,模型的训练周期也相对较短。虽然基于深度学习的传统动作识别算法已经取得了很大的进展,但动作识别任务的特殊性对算法精度提出了更高的要求。
[0005]动作识别不同于一般的图像分类任务,它需要在序列中提取帧之间的时空信息,同时需要从空间中定位出响应较高的人的部位。同时,视频中存在复杂的背景、遮挡等干扰因素。人类的动作类别存在着种类之间的差异性,同时也存在同一类别不同个体的差异性,动作执行的幅度大小、时间长短受到执行对象的影响而不同,这使得该任务具有不同于其他分类任务的特殊性。
[0006]近年来,基于Transformer的方法在图像处理、视频理解等领域取得了前所未有的成绩。基于Transformer的动作识别方法被广泛研究,并产生了许多高效的变体。基于二维图像理解的Vision Transformer(VIT)模型利用多头注意力模块实现了高精度的图像分类,在此基础上提出的Video Vision Transformer(VIVIT)模型将这种思想运用到了视频理解领域,视频输入比起图像输入所引入的数据量,VIVIT探究了四种不同的特征融合提取方式实现了高性能的视频分类。对于少样本的动作识别任务,Cross Transformer在帧级水平上构建帧组,通过匹配不同视频样本之间的相似关系实现视频分类任务。
[0007]基于Transformer的算法获得了很高的性能,但由于视频序列时间维度的引入增加了很重的计算负担。近年提出的Swin Transformer算法,降低了图像分类任务所需的计算资源。然而对于视频分类任务,Video Swin Transformer生成三维局部窗口以实现自注意力计算,相对于二维窗口卷积,所需的计算资源也大幅提高。
[0008]对于视频理解任务,基于Transformer的算法展现出了前所未有的识别精度,但由
于Transformer单元自身的特点,将二维图像识别任务转换到三维视频理解任务会引入巨大的计算负担。近些年,Transformer从自然语言处理任务引入图像处理任务,对于视频理解任务的研究相对较少,现有的方法大多是在特征维度上通过特征聚合后进行self
‑
attention操作,并没有对视频序列进行时间和空间维度上的独立特征建模。
技术实现思路
[0009]为克服上述现有技术的不足,本专利技术提供了基于多尺度特征的人类动作识别方法,基于Swin Transformer,采用特征层面的自注意力计算以及特征融合,保留了Transformer算法的高精度,同时降低了算法所需要的计算负担。
[0010]为实现上述目的,本专利技术的一个或多个实施例提供了如下技术方案:
[0011]第一方面,公开了基于多尺度特征的人类动作识别方法,包括:
[0012]利用卷积网络获取视频序列的空间特征;
[0013]针对空间特征在时间维度上取局部窗口,在局部窗口内进行计算获取基于初级局部特征的最大响应;
[0014]对基于初级局部特征的最大响应进行处理获得次级特征;
[0015]对于次级特征在时间维度上取局部窗口,在局部窗口内进行计算获取基于次级局部特征的最大响应;
[0016]对于基于初级局部特征的最大响应及基于次级局部特征的最大响应过加权融合的方式获得最终动作分类,所获得的特征对应着视频序列的短期、中期、长期特征;
[0017]基于上述特征进行人类动作识别。
[0018]作为进一步的技术方案,利用卷积网络获取视频序列的空间特征,具体为:
[0019]对于含有T帧的视频序列,通过2D卷积神经网络对每一帧进行特征提取,获得T
×
HW维度的特征表示。
[0020]作为进一步的技术方案,对于基于初级局部特征的最大响应进行移位操作,并进行self
‑
attention计算,以扩大模型感受野。
[0021]作为进一步的技术方案,利用第一层Swin Transformer单元对移位操作后的特征进行处理,生成的次级特征,对次级特征进行局部的特征融合,融合比例为N,则生成大小为T/N
×
HW维度特征。
[0022]作为进一步的技术方案,对于次级特征,进行移位操作,并进行self
‑
attention计算,以扩大模型感受野。
[0023]作为进一步的技术方案,利用第二层Swin Transformer单元对移位操作后的特征进行处理,生成的次级特征,对次级特征进行局部的特征融合,融合比例为N,则生成大小为T/N2×
HW维度特征。
[0024]作为进一步的技术方案,对于不同层次的特征所对应的分类结果,采取加权方式融合,具体实现形式的数学表示为:
[0025]C=argmax(softmax(R1)+α
·
softmax(R2)+β
·
softmax(R3))。
[0026]第二方面,公开了基于多尺度特征的人类动作识别系统,包括:
[0027]空间特征获取模块,被配置为:利用卷积网络获取视频序列的空间特征;
[0028]初级局部特征的最大响应获取模块,被配置为:针对空间特征在时间维度上取局
部窗口,在局部窗口内进行计算获取基于初级局部特征的最大响应;
[0029]次级局部特征的最大响应获取模块,被配置为:对基于初级局部特征的最大响应进行处理获得次级特征;
[0030]对于次级特征在时间维度上取局部窗口,在局部窗口内进行计算获取基于次级局部特征的最大响应;
[0031]动作分类模块,被配置为:对于基于初级局部特征的最大响应及基于次级局部特征的最大响应过加权融合的方式获得最终动作分类,所获得的特征对应着视频序列的短期、中期、长期特征。
[0032]以上一个或多个技本文档来自技高网...
【技术保护点】
【技术特征摘要】
1.基于多尺度特征的人类动作识别方法,其特征是,包括:利用卷积网络获取视频序列的空间特征;针对空间特征在时间维度上取局部窗口,在局部窗口内进行计算获取基于初级局部特征的最大响应;对基于初级局部特征的最大响应进行处理获得次级特征;对于次级特征在时间维度上取局部窗口,在局部窗口内进行计算获取基于次级局部特征的最大响应;对于基于初级局部特征的最大响应及基于次级局部特征的最大响应过加权融合的方式获得最终动作分类,所获得的特征对应着视频序列的短期、中期、长期特征。2.如权利要求1所述的基于多尺度特征的人类动作识别方法,其特征是,利用卷积网络获取视频序列的空间特征,具体为:对于含有T帧的视频序列,通过2D卷积神经网络对每一帧进行特征提取,获得T
×
HW维度的特征表示。3.如权利要求1所述的基于多尺度特征的人类动作识别方法,其特征是,对于基于初级局部特征的最大响应进行移位操作,并进行self
‑
attention计算,以扩大模型感受野。4.如权利要求1所述的基于多尺度特征的人类动作识别方法,其特征是,利用第一层Swin Transformer单元对移位操作后的特征进行处理,生成的次级特征,对次级特征进行局部的特征融合,融合比例为N,则生成大小为T/N
×
HW维度特征。5.如权利要求1所述的基于多尺度特征的人类动作识别方法,其特征是,对于次级特征,进行移位操作,并进行self
‑
attention计算,以扩大模型感受野。6.如权利要求1所述的基于多尺度特征的人类动作识别方法,其特征是,利用第二层Swin...
【专利技术属性】
技术研发人员:焦敏,亓振亮,谭冲,张伟,李晓磊,亓鹏,陈顺东,崔建,丁利朝,何鹏,王洪瑞,张文利,
申请(专利权)人:国家电网有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。