基于多注意力机制融合的行为识别装置、方法和存储介质制造方法及图纸

技术编号:28943170 阅读:17 留言:0更新日期:2021-06-18 21:51
本发明专利技术公开了一种基于多注意力机制融合的行为识别装置、方法和存储介质,采用的网络模型的主干网络由从前至后依次设置的二维卷积层、批归一化层、激活函数层、混合残差模块串联组成,所述二维卷积层用于提取序列帧图像的特征信息,所述混合残差模块用于提取不同特性的特征信息;所述混合残差模块包括多重注意力机制融合模块,所述多重注意力机制融合模块分为时间域注意力机制模块和空间域注意力机制模块,且输出端通过相加的方式进行融合。本发明专利技术通过构建时间域注意力机制模块和空间域注意力机制模块,在不同方向上对不同重要性的特征点赋予不同的权重,使模型学习到帧图像之间的关联性和帧图像特征级的信息,有效提高了识别性能。

【技术实现步骤摘要】
基于多注意力机制融合的行为识别装置、方法和存储介质
本专利技术属于行为识别的
,具体涉及一种基于多注意力机制融合的行为识别装置、方法和存储介质。
技术介绍
随着人工智能技术的迅猛发展,人们开始关注如何使计算机更进一步的理解世界,从而衍生出一门对视频进行理解的学科,在现实增强、虚拟现实、智能监视等领域广泛应用。在大数据时代中,每天都有数百万的视频上传或下载,其中应用视频理解技术可以起到关键作用。但是,伴随着视频流爆炸式的增长,视频理解技术在精度和计算成本上迎来了巨大的挑战。行为识别是视频理解技术中的一个基础方向,其核心技术是通过学习序列帧图像的特征信息,使计算机对视频内目标的行为进行分类,从而达到识别的目的,常用于人机交互、监护智能机器人。视频数据中目标的行为识别通常是存在时间依赖性的,不仅包括每帧图像中的空间信息,也包含帧与帧之间的时间信息,如老人跌倒、搬运物品等行为。近几年,行为识别技术的主流方法还是基于三维卷积的网络模型和基于二维卷积的网络模型。前者是利用大量的三维卷积层搭建深度时空网络模型,从而可以有效地处理视频序列数据,但是单纯基于三维卷积层建模的时空模型无法完整获取到视频中包含的信息,且易过拟合,会造成模型出现大量误检现象。后者将时空信息和时序信息分别进行考虑,比起单方面考虑的网络模型来说,性能得到了大大提升,但是在提取和处理时序信息的过程中会产生大量的计算成本。目前,大多数行为识别技术因其固有的繁重的计算量导致模型参数推导速度缓慢,从而限制落地于实际场景。因此,急需提出一种能提高精度且减少计算成本的行为识别方案,提高模型对序列帧图像的特征表达能力,增强行为识别的性能。
技术实现思路
本专利技术的目的在于提供一种基于多注意力机制融合的行为识别装置、方法和存储介质,旨在解决上述问题。本专利技术主要通过以下技术方案实现:一种基于多注意力机制融合的行为识别装置,包括数据处理模块、训练模块、识别模块,所述数据处理模块用于采集并裁剪视频,得到训练数据;所述训练模块用于将训练数据输入到网络模型进行训练并得到优化的网络模型;所述识别模块用于将待测数据输入到优化的网络模型并输出行为识别的结果;所述网络模型的主干网络由从前至后依次设置的二维卷积层、批归一化层、激活函数层、混合残差模块串联组成,所述二维卷积层用于提取序列帧图像的特征信息,所述混合残差模块用于提取不同特性的特征信息;所述混合残差模块包括多重注意力机制融合模块,所述多重注意力机制融合模块分为时间域注意力机制模块和空间域注意力机制模块,所述时间域注意力机制模块、空间域注意力机制模块的输出端通过相加的方式进行融合。所述的混合残差模块主要包括多重注意力机制融合模块和卷积层,能提取有效的特征信息,增强模型表达能力;所述的多重注意力机制融合模块是从时间域和空间域构建的注意力机制,分别通过在两个域方向上分析帧图像之间的信息和帧图像内部信息的重要程度,使模型学习过程中更加关注目标行为,提高模型性能和精准度。本专利技术根据行为识别方向的技术特性,分别从时序和空间两个方面对特征信息进行权重分配,通过构建时间域注意力机制和空间域注意力机制使模型学习到帧图像之间的关联性和帧图像特征级的信息,模块即插即用,有效地提高网络模型的识别性能。本专利技术在使用过程中,输入序列帧图像,先由网络开端的卷积层处理,提取成卷积特征信息,为了更加拟合行为识别数据的特性,针对性地设计并搭建了特征移动层,对特征图进行平移、旋转等增强操作,这种操作能增加特征信息对行为运动的泛化性,然后将特征信息输送到多重注意力机制融合模块并行进行处理。本专利技术的时间域注意力机制模块能为视频数据建立更加有效的长距离依赖关系。所述空间域注意力机制模块可以随着训练过程中自适应的选择聚合每个特征点信息,没有额外的计算方式。所述时间域注意力机制模块旨在通过对帧序列图像之间的关系进行建模,增加模型特征对不同帧图像的响应能力,具体过程是构建多分支结构。在时间域注意力机制模块中,先利用二维卷积层对特征信息进行升维操作,并对第二分支的特征信息进行转置操作,然后将第一分支和第二分支的特征信息进行乘积操作,获取特征图通道之间的关联信息矩阵。然后,再由柔性最大值层处理得到时间域注意力图,其次再与输入的特征信息点乘,获得加权之后的特征信息。另外,为了提高加权特征图的语义信息,添加使用三维卷积层,最后增加gamma参数层调整加权特征信息与原特征信息的融合,自适应地选择最优的融合方式。通过这些网络层的搭建,大大提高了网络模型对序列数据的表达能力。时间域注意力机制模块中注意力图维度为[B,Nframe,H,W,C],是利用柔性最大值层在通道方向上处理关联强度信息矩阵得到的,原特征信息与注意力图进行乘积操作获得加权特征图,从而增强关键帧在模型学习过程中的贡献程度,此时,加权特征图在通道方向上还是保持着帧图像的序列关系,且图上每个特征点是跨通道关联的。维度的表达式为本领域的公知常识,故不再赘述。已有的方法直接使用加权特征图进行融合,但加权特征图中包含的长距离依赖关系具有局限性,乘积操作仅仅只能表示部分关联信息,在目标行为运动太快的场景中,不能有效地捕获运动信息,所以本专利技术在加权特征图后接一个三维卷积层进行处理,利用三维卷积核的特性,增强通道方向上多个邻近帧信息的关联性,从而提高特征信息对时序的表达能力,能够获取到更多的运动信息。其次,因加权特征图与原特征图包含的语义性、尺度性等信息不同,需再次融合得到更强的特征信息,但是按通用的融合方式直接相加结合,权重更大的特征点会覆盖掉特征点原本的信息,导致特征退化,所以本专利技术添加gamma参数层,按比例的进行融合,初始gamma参数为0,且可随着模型学习而优化,自适应地获取到最优的融合方式增强特征信息的表达能力。所述空间域注意力机制模块是对每张帧图像内部进行建模,增强模型特征对帧图像内部的位置信息的响应能力,具体过程是构建多分支结构。在空间域注意力机制模块中,在第一分支和第二分支中分别使用通道最大值池化层和通道平均池化层处理,提取全局特征信息中局部重要的信息,再通过卷积核为1x1的卷积层和特征变形层调整维度,然后使用一维卷积层增加特征点之间的依赖程度,其次使用柔性最大值层处理得到空间域注意力图,最后处理方式与时间域相似,得到加权特征信息之后使用可学习的参数进行权重调节,从而自适应得到最优的特征信息。本专利技术提出通道最大值池化层和通道平均池化层,主要处理过程是直接在通道方向上进行最大值池化和平均池化,将特征块的数据维度变为H×W×1,融合了不同帧图像中的位置信息,这种跨通道得到的全局信息,是未丢失细节信息的,更加适合行为识别场景中的目标分类。其次,已有的注意力方法大多数是针对通用目标的方法,未使用一维卷积提取空间信息,忽略了特征点之间依赖性,而在本专利技术提出的方法中传到一维卷积之前的特征信息是上述提取到的跨通道的全局信息,此时的全局信息是在每个通道上提取出的权重最大的特征值,特征值之间的关联性较弱,为了避免后续计算出现特征退化现象,紧接着使用一维卷积加强本文档来自技高网
...

【技术保护点】
1.一种基于多注意力机制融合的行为识别装置,其特征在于,包括数据处理模块、训练模块、识别模块,所述数据处理模块用于采集并裁剪视频,得到训练数据;所述训练模块用于将训练数据输入到网络模型进行训练并得到优化的网络模型;所述识别模块用于将待测数据输入到优化的网络模型并输出行为识别的结果;/n所述网络模型的主干网络由从前至后依次设置的二维卷积层、批归一化层、激活函数层、混合残差模块串联组成,所述二维卷积层用于提取序列帧图像的特征信息,所述混合残差模块用于提取不同特性的特征信息;所述混合残差模块包括多重注意力机制融合模块,所述多重注意力机制融合模块分为时间域注意力机制模块和空间域注意力机制模块,所述时间域注意力机制模块、空间域注意力机制模块的输出端通过相加的方式进行融合。/n

【技术特征摘要】
1.一种基于多注意力机制融合的行为识别装置,其特征在于,包括数据处理模块、训练模块、识别模块,所述数据处理模块用于采集并裁剪视频,得到训练数据;所述训练模块用于将训练数据输入到网络模型进行训练并得到优化的网络模型;所述识别模块用于将待测数据输入到优化的网络模型并输出行为识别的结果;
所述网络模型的主干网络由从前至后依次设置的二维卷积层、批归一化层、激活函数层、混合残差模块串联组成,所述二维卷积层用于提取序列帧图像的特征信息,所述混合残差模块用于提取不同特性的特征信息;所述混合残差模块包括多重注意力机制融合模块,所述多重注意力机制融合模块分为时间域注意力机制模块和空间域注意力机制模块,所述时间域注意力机制模块、空间域注意力机制模块的输出端通过相加的方式进行融合。


2.根据权利要求1所述的一种基于多注意力机制融合的行为识别装置,其特征在于,所述混合残差模块由从前至后依次设置的特征移动层、多重注意力机制融合模块、二维卷积层、三维卷积层、批归一化层、激活函数封装而成;所述特征移动层为在特征级上对特征图进行平移、旋转的增强操作集成的网络层。


3.根据权利要求1或2所述的一种基于多注意力机制融合的行为识别装置,其特征在于,所述时间域注意力机制模块包括第一分支、第二分支,所述第一分支由从前至后依次设置的二维卷积层、批归一化层、激活函数层、特征变形层组成,所述第二分支由从前至后依次设置的二维卷积层、批归一化层、激活函数层、特征转置层、特征变形层组成;输入的特征分别输入到第一分支与第二分支,且第一分支与第二分支的输出端相乘后与柔性最大值层连接,所述柔性最大值层的输出与输入的特征相乘,并从前至后依次输入到三维卷积层、激活函数层处理,并与gamma参数层相乘,最后,结合输入的特征输入到特征拼接层。


4.根据权利要求1或2所述的...

【专利技术属性】
技术研发人员:桑高丽卢丽闫超黄俊洁
申请(专利权)人:四川翼飞视科技有限公司
类型:发明
国别省市:四川;51

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1