基于多注意力机制融合的行为识别装置、方法和存储介质制造方法及图纸

技术编号：28943170 阅读：17 留言：0更新日期：2021-06-18 21:51

本发明专利技术公开了一种基于多注意力机制融合的行为识别装置、方法和存储介质，采用的网络模型的主干网络由从前至后依次设置的二维卷积层、批归一化层、激活函数层、混合残差模块串联组成，所述二维卷积层用于提取序列帧图像的特征信息，所述混合残差模块用于提取不同特性的特征信息；所述混合残差模块包括多重注意力机制融合模块，所述多重注意力机制融合模块分为时间域注意力机制模块和空间域注意力机制模块，且输出端通过相加的方式进行融合。本发明专利技术通过构建时间域注意力机制模块和空间域注意力机制模块，在不同方向上对不同重要性的特征点赋予不同的权重，使模型学习到帧图像之间的关联性和帧图像特征级的信息，有效提高了识别性能。

全部详细技术资料下载

【技术实现步骤摘要】
基于多注意力机制融合的行为识别装置、方法和存储介质
本专利技术属于行为识别的
，具体涉及一种基于多注意力机制融合的行为识别装置、方法和存储介质。
技术介绍
随着人工智能技术的迅猛发展，人们开始关注如何使计算机更进一步的理解世界，从而衍生出一门对视频进行理解的学科，在现实增强、虚拟现实、智能监视等领域广泛应用。在大数据时代中，每天都有数百万的视频上传或下载，其中应用视频理解技术可以起到关键作用。但是，伴随着视频流爆炸式的增长，视频理解技术在精度和计算成本上迎来了巨大的挑战。行为识别是视频理解技术中的一个基础方向，其核心技术是通过学习序列帧图像的特征信息，使计算机对视频内目标的行为进行分类，从而达到识别的目的，常用于人机交互、监护智能机器人。视频数据中目标的行为识别通常是存在时间依赖性的，不仅包括每帧图像中的空间信息，也包含帧与帧之间的时间信息，如老人跌倒、搬运物品等行为。近几年，行为识别技术的主流方法还是基于三维卷积的网络模型和基于二维卷积的网络模型。前者是利用大量的三维卷积层搭建深度时空网络模型，从而可以有效地处理视频序列数据，但是单纯基于三维卷积层建模的时空模型无法完整获取到视频中包含的信息，且易过拟合，会造成模型出现大量误检现象。后者将时空信息和时序信息分别进行考虑，比起单方面考虑的网络模型来说，性能得到了大大提升，但是在提取和处理时序信息的过程中会产生大量的计算成本。目前，大多数行为识别技术因其固有的繁重的计算量导致模型参数推导速度缓慢，从而限制落地于实际场景。因此，急需提出一种能...

【技术保护点】
1.一种基于多注意力机制融合的行为识别装置，其特征在于，包括数据处理模块、训练模块、识别模块，所述数据处理模块用于采集并裁剪视频，得到训练数据；所述训练模块用于将训练数据输入到网络模型进行训练并得到优化的网络模型；所述识别模块用于将待测数据输入到优化的网络模型并输出行为识别的结果；/n所述网络模型的主干网络由从前至后依次设置的二维卷积层、批归一化层、激活函数层、混合残差模块串联组成，所述二维卷积层用于提取序列帧图像的特征信息，所述混合残差模块用于提取不同特性的特征信息；所述混合残差模块包括多重注意力机制融合模块，所述多重注意力机制融合模块分为时间域注意力机制模块和空间域注意力机制模块，所述时间域注意力机制模块、空间域注意力机制模块的输出端通过相加的方式进行融合。/n

【技术特征摘要】
1.一种基于多注意力机制融合的行为识别装置，其特征在于，包括数据处理模块、训练模块、识别模块，所述数据处理模块用于采集并裁剪视频，得到训练数据；所述训练模块用于将训练数据输入到网络模型进行训练并得到优化的网络模型；所述识别模块用于将待测数据输入到优化的网络模型并输出行为识别的结果；
所述网络模型的主干网络由从前至后依次设置的二维卷积层、批归一化层、激活函数层、混合残差模块串联组成，所述二维卷积层用于提取序列帧图像的特征信息，所述混合残差模块用于提取不同特性的特征信息；所述混合残差模块包括多重注意力机制融合模块，所述多重注意力机制融合模块分为时间域注意力机制模块和空间域注意力机制模块，所述时间域注意力机制模块、空间域注意力机制模块的输出端通过相加的方式进行融合。

2.根据权利要求1所述的一种基于多注意力机制融合的行为识别装置，其特征在于，所述混合残差模块由从前至后依次设置的特征移动层、多重注意力机制融合模块、二维卷积层、三维卷积层、批归一化层、激活函数封装而成；所述特征移动层为在特征级上对特征图进行平移、旋转的增强操作集成的网络层。

3.根据权利要求1或2所述的一种基于多注意力机制融合的行为识别装置，其特征在于，所述时间域注意力机制模块包括第一分支、第二分支，所述第一分支由从前至后依次设置的二维卷积层、批归一化层、激活函数层、特征变形层组成，所述第二分支由从前至后依次设置的二维卷积层、批归一化层、激活函数层、特征转置层、特征变形层组成；输入的特征分别输入到第一分支与第二分支，且第一分支与第二分支的输出端相乘后与柔性最大值层连接，所述柔性最大值层的输出与输入的特征相乘，并从前至后依次输入到三维卷积层、激活函数层处理，并与gamma参数层相乘，最后，结合输入的特征输入到特征拼接层。

4.根据权利要求1或2所述的...

【专利技术属性】
技术研发人员：桑高丽，卢丽，闫超，黄俊洁，
申请(专利权)人：四川翼飞视科技有限公司，
类型：发明
国别省市：四川;51

全部详细技术资料下载我是这个专利的主人