一种服装检测动作的识别方法及计算机可读存储介质技术

技术编号：43192439 阅读：4 留言：0更新日期：2024-11-01 20:14

本发明专利技术涉及一种服装检测动作的识别方法及计算机可读存储介质，识别方法包括如下步骤：构建成训练集和测试集；分批次使用训练集中的训练样本对构建的识别网络进行训练，得到训练完成后的识别网络；识别网络包括依次相连接的N个编码器和第一多层感知机，前M个编码器中的每个编码网络均采用如下结构：单元注意力模块和与单元注意力模块的输出端相连接的第二多层感知机，且将单元注意力模块的输入与单元注意力模块的输出进行残差连接而作为第二多层感知机的输入；在测试集中任意选择一个视频流，并将其输入到训练完成后的识别网络中，即得到该视频流所对应的动作识别结果。优点在于：该方法可以有效提高动作识别的准确性和效率。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及动作检测，尤其涉及一种服装检测动作的识别方法及计算机可读存储介质。

技术介绍

1、视频信息作为人们日常生活中的重要内容之一，对其进行的处理分析方法得到了广泛的研究。视频动作识别应用广泛，不仅可以应用在动作分析方面，还可以应用在高级人机交互、视频监控、虚拟现实和工业生产等方面。

2、如专利号为zl 202311162287.3(授权公告号为cn 116895038 b)的中国专利技术专利公开了一种视频动作识别方法、装置、电子设备及可读存储介质，从目标视频序列中间隔提取多个第一帧，以及从多个第一帧中提取一个第二帧；将多个第一帧输入tpem进行特征提取，得到时序特征；将第二帧输入spem进行特征提取，得到空间特征；将时序特征和空间特征融合，得到融合特征；根据融合特征，确定视频动作；tpem中包含resnet网络结构和transformer网络结构，spem中包含resnet网络结构。

3、虽然该方法中采用时间空间双分支结构，分别提取空间信息与时间信息，比对时空信息进行融合信息，避免了相关信息的丢失；采用resnet网络结构对视频帧的特征进行多尺度融合，transformer网络结构中的注意力机制拓宽了感受野，使视频动作识别更为准确，但由于transformer网络存在计算开销大、实时性不足的问题，普遍具有较大的网络参数量和复杂度，无法泛化至一些小规模数据集样本不足的状况，故其识别准确率有限。为此需要对现有技术作进一步的改进。

技术实现思路

1、本专利

2、本专利技术所要解决的第二个技术问题是提供一种能运行上述服装检测动作的识别方法的计算机可读存储介质。

3、本专利技术解决上述第一个技术问题所采用的技术方案为：一种服装检测动作的识别方法，其特征在于包括如下步骤：

4、s1、获取工人对服装进行检测的多个视频流，将多个视频流构建成训练集和测试集；训练集中的每个训练样本均包括一个视频流中的多帧图像；

5、s2、构建识别网络，并分批次使用训练集中的训练样本对构建的识别网络进行训练，得到训练完成后的识别网络；

6、其中识别网络包括依次相连接的n个编码器和第一多层感知机，n为正整数，各个编码器均包括有至少一个编码网络，同一个编码器中各个编码网络的输出大小相同，且各个编码器中的编码网络输出大小按照从前往后的顺序依次减小；

7、前m个编码器中的每个编码网络均采用如下结构：单元注意力模块和与单元注意力模块的输出端相连接的第二多层感知机，且将单元注意力模块的输入与单元注意力模块的输出进行残差连接而作为第二多层感知机的输入；其中单元注意力模块的计算过程为：将每帧图像分割成若干个单元，并基于自注意力机制计算得到每个单元的输出结果；m为正整数且m≤n；

8、使用训练集中某一批次的训练样本对构建的识别网络进行训练的具体过程为：

9、将每个训练样本所对应的每帧图像分别转换成向量，将所有向量分别输入到初始化的识别网络中，即：第一多层感知机的输出端输出识别网络的预测标签，使用各个训练样本的识别标签与其对应的预测标签计算损失函数，并使用损失函数对初始化的识别网络的参数进行更新，得到一次训练完成后的识别网络；

10、s3、在测试集中任意选择一个视频流，并将其输入到训练完成后的识别网络中，即得到该视频流所对应的动作识别结果。

11、优选地，每个编码器中的第一个编码网络还包括用于对单元注意力模块的输入进行池化的第一池化层以及对单元注意力模块的输出进行池化的第二池化层，且第一个编码网络是通过第一池化层的输出与第二池化层的输出进行残差连接而作为第二多层感知机的输入。

12、为减少输入序列的序列长度，所述第二池化层采用对自注意力机制中的查询向量进行池化操作。

13、为提高识别准确率，所述m的取值小于n，第m+1个编码器～第n个编码器中的各个编码网络均采用如下结构：

14、使用全局注意力模块替换前m个编码器中的单元注意力模块，其他结构与前m个编码器中的每个编码网络相同。

15、为不牺牲网络性能的前提下，有效减少了网络的参数量和计算量，将第j个编码器的输出特征图分成n个窗口，j∈{m，m+1…n-1}，n为正整数；按照下述的计算公式得到第j+1个编码器中全局注意力模块的输出结果；

16、

17、其中，oi为第j个编码器的输出特征图中第i个窗口输入到第j+1个编码器中全局注意力模块而得到的输出结果，i∈{1，2，…n}，qi′＝relu(qi)，relu(.)为核函数，qi为第i个窗口所对应的查询向量；kj′＝relu(kj)，kj为第j个窗口所对应的键向量，为计算的转置，vj为第j个窗口所对应的值向量。

18、本专利技术解决上述第二个技术问题所采用的技术方案为：一种计算机可读存储介质，存储有计算机程序，且能被处理器读取并执行，其特征在于：所述计算机程序被处理器执行时实现如上述的服装检测动作的识别方法。

19、与现有技术相比，本专利技术的优点在于：通过在前m个编码器中的每个编码网络中设置单元注意力模块，由于单元注意力模块是将每帧图像分割成若干个单元，并基于自注意力机制计算得到每个单元的输出结果，从而增强局部空间依赖的建模能力，使图像空间更准确的关注需要的注意力位置，并且使得注意力机制能够更加精细地识别和处理每个区域的特征，因此可以有效提高动作识别的准确性和效率。

本文档来自技高网...

【技术保护点】

1.一种服装检测动作的识别方法，其特征在于包括如下步骤：

2.根据权利要求1所述的识别方法，其特征在于：每个编码器中的第一个编码网络还包括用于对单元注意力模块的输入进行池化的第一池化层以及对单元注意力模块的输出进行池化的第二池化层，且第一个编码网络是通过第一池化层的输出与第二池化层的输出进行残差连接而作为第二多层感知机的输入。

3.根据权利要求1所述的识别方法，其特征在于：所述第二池化层采用对自注意力机制中的查询向量Q进行池化操作。

4.根据权利要求1所述的识别方法，其特征在于：所述M的取值小于N，第M+1个编码器～第N个编码器中的各个编码网络均采用如下结构：

5.根据权利要求4所述的识别方法，其特征在于：将第j个编码器的输出特征图分成n个窗口，j∈{M，M+1…N-1}，n为正整数；按照下述的计算公式得到第j+1个编码器中全局注意力模块的输出结果；

6.一种计算机可读存储介质，存储有计算机程序，且能被处理器读取并执行，其特征在于：所述计算机程序被处理器执行时实现如权利要求1至5中任一项所述的服装检测动作的识别方法。p>...

【技术特征摘要】

1.一种服装检测动作的识别方法，其特征在于包括如下步骤：

3.根据权利要求1所述的识别方法，其特征在于：所述第二池化层采用对自注意力机制中的查询向量q进行池化操作。

4.根据权利要求1所述...

【专利技术属性】
技术研发人员：王晓东，马远骋，章联军，袁剑，余云林，冯可树，陈吉梦，
申请(专利权)人：宁波大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人