一种基于渐进式层级加权注意网络的细粒度行为识别方法技术

技术编号：33123569 阅读：15 留言：0更新日期：2022-04-17 00:29

本发明专利技术属于图像处理领域，特别涉及一种基于渐进式层级加权注意网络的细粒度行为识别方法，包括将采集到的图像进行预处理后输入预先定义的神经网络模型进行训练，训练模型是以Resnet50为骨干的4层渐进式网络组成，在渐进式网络第二层训练时，使用YOLO v5进行人体检测，将检测后的结果进行裁剪并插值，与原始图像相融合作为输入；在渐进式网络的第四层时，会将线性插值后的图像进一步细粒度特征提取，并裁剪填充，与原始图像融合后作为输入。本发明专利技术从细粒度分类的角度出发，融合父类和子类两阶段损失，并结合渐进式的思想，引入人体检测模型，提高了细粒度人体行为分类的准确率，改变了现有技术不能很好解决相似行为分类的现状。状。状。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于渐进式层级加权注意网络的细粒度行为识别方法

[0001]本专利技术属于图像处理领域，特别涉及一种基于渐进式层级加权注意网络的细粒度行为识别方法。

技术介绍

[0002]人体行为识别是当前模式识别领域的一个研究热点，人体行为识别主要通过对人体目标进行拍摄，并将获取的数据进行分析，最终识别出当前目标的行为类型。目前，人体行为识别中使用较多的方法通常把行为识别问题简化为视频分类或者图像分类问题，即：给定一段裁剪好的视频片段或图像，要求模型返回一个预定义的动作标签，比如：踢足球、跳伞、打篮球。
[0003]行为识别分视频和静态图像的行为。两者的主要区别在于视频有时序信息而图像只能通过单幅图像完成行为，难度系数更大。现在大多数方法的关注点主要在于视频，但在现实生活中,人类视觉往往可以通过一幅图像传递出的信息人体在该图像中正在发生的行为,例如读书、弹吉他等,由此可见,行为识别并非无时序信息就无法完成，因此，通过静态图像人体行为识别具有可行性，并且图像具有数据小，标注相对简单，速度较快，应用广泛等等视频所没有的优势。
[0004]现有的模型大多是针对一些比较常见的数据集，旨在进行粗粒度的动作理解(例如足球，跳伞等)。在这种情况下，背景上下文通常会提供区别信号，而不是动作本身，这些信息帮助神经网络对图像进行分类。例如，在UCF101数据集中，算法可以依靠背景颜色对人类活动进行分类。当面临背景单一动作相似的数据集时，现有的模型在动作区分中表现出的效果远低于人类可以达到的准确率。

技术实现思路

[...

【技术保护点】

【技术特征摘要】
1.一种基于渐进式层级加权注意网络的细粒度行为识别方法，其特征在于，包括以下步骤：将采集到的图像进行预处理后输入预先定义的神经网络模型进行训练，训练模型是以Resnet50为骨干的4层渐进式网络组成，其中：渐进式网络第一层对原始图像进行训练，计算其父类和子类损失，并联合反向传播进行第一阶段模型的参数更新；渐进式网络第二层，使用YOLO v5进行人体检测，将检测后的结果进行裁剪并插值，与原始图像相融合作为输入进行训练，其损失计算和模型参数更新方式同第一阶段；渐进式网络第三层对原始图像进行训练，计算其父类和子类损失，并联合反向传播进行第一阶段模型的参数更新；渐进式网络的第四层，将线性插值后的图像进一步细粒度特征提取以及裁剪，与原始图像融合进行训练，并在其划分子类时，引入Resnet50第三、四、五层计算自注意力之后的隐藏向量，根据每一层的损失值进行加权融合，计算子类损失，并联合父类损失反向传播进行第四阶段模型的参数更新；将实时数据输入训练好的网络进行识别。2.根据权利要求1所述的一种基于渐进式层级加权注意网络的细粒度行为识别方法，其特征在于，对模型渐进式训练的过程包括：渐进式网络的第一层，将原始图像作为输入，利用Resnet50网络提取特征，取Resnet50网络倒数第三层特征图进行固定大小的平均池化，池化完成之后输入自注意力网络捕获全局依赖性，然后输入分类器进行子类划分，计算损失记作L1；同时，将Resnet50分类层用于父类预测，将此父类预测的损失记作L
r1
，将L1与L
r1
联合进行模型的首次反向传播，并更新参数；渐进式网络的第二层，将原始的输入图像和来自人体裁剪后进行双线性插值的目标图像进行融合后作为该层的输入，人体的裁剪范围来自于YOLOv5对于原始图像进行人体检测后的结果；将原始输入与目标图像融合之后利用Resnet50网络进行特征提取，取Resnet50网络倒数第二层特征图进行固定大小的平均池化，池化完成之后接入自注意力机制，输入分类器进行子类划分，计算损失记作L2；同时，将Resnet50网络分类层用于父类预测，将此父类预测的损失记作L
r2
；L2与父类的损失值L
r2
联合进行模型的第二次反向传播与更新。渐进式网络的第三层，将原始图像作为输入，利用Resnet50网络提取特征，取Resnet50网络倒数第一层特征图进行固定大小的平均池化，池化完成之后输入自注意力网络捕获全局依赖性，输入分类器进行子类划分，计算损失记作L3；同时，将Resnet50网络分类层用于父类预测，将此父类预测的损失记作L
r3
，将L3与L
r3
联合进行模型的第三次反向传播，并更新参数；渐进式网络的第四层中，将原始输入图像和经过细粒度特征提取后随机裁剪的图像作为输入，将两个图像进行融合之后接入自注意力模块，在划分子类前，引入了层级加权机制，其利用了Resnet50网络第三、四、五层注意力计算之后的隐藏向量，并将隐藏向量根据渐进式网络前三层的损失值加权融合，融合完成之后计算子类损失值记作L4；
同时，将Resnet50网络分类层用于父类预测，将此父类预测的损失记作L
r4
，将L4与父类损失L
r4
相联合进行最后的反向传播与参数更新。3.根据权利要求2所述的一种基于渐进式层级加权注意网络的细粒度行为识别方法，其特征在于，渐进式网络第二层中将原始的输入图像和来自人体裁剪后进行双线性插值的目标图像进行融合的过程包括：对于给定标准化后原始图像X∈R
(c,h,w)
，获取人体的大致图像提取图像X
′
，包括以下过程：x
center
,y
center
,w,h＝YOLO(X)lefttopx＝int(x
center
‑
w/2.0)lefttopy＝int(y
center
‑
h/2.0)X
′
＝X[:,lefttpoy+1:lefttopy+h+3,lefttpox+1:lefttopx+w+1]对获得的大致图像提取图像X
′
进行双线性插值，得到目标图像X
″
；将得到的目标图像X
″...

【专利技术属性】
技术研发人员：丰江帆，缑梦洁，肖欣欣，王迪妮，
申请(专利权)人：重庆邮电大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人