基于信息熵导向的无监督人体动作识别方法及装置制造方法及图纸

技术编号：43088617 阅读：14 留言：0更新日期：2024-10-26 09:36

本发明专利技术适用于计算机视觉领域，一种基于信息熵导向的无监督人体动作识别方法及装置。其中，方法包括：人体动作通过维度变换得到时间骨架特征和空间骨架特征，利用多种不同条件下的信息熵算法和多层卷积网络，得到时间骨架特征和空间骨架特征，再根据对比学习方法完成特征提取网络的预训练过程，得到基于信息熵导向的无监督人体动作识别模型。由于本发明专利技术引入了多种信息熵算法，使得深层神经网络高效学习到人体动作的深层语义特征，通过得到的不同条件下的信息熵，能够使得特征提取网络具有方向性，扩展了神经网络的感知深度，加快了模型的学习速度，大幅提升了动作识别的正确率，使得深度学习无监督算法更为高效地完成识别任务。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于深度学习领域，尤其涉及一种基于信息熵导向的无监督人体动作识别方法及装置。

技术介绍

1、人体动作识别采用深度学习无监督算法，与深度学习有监督算法不同的是，训练样本数据并不需要人工标签的注释，通过对同一人体动作的时间和空间双维度特征挖掘，对比学习出人体动作的深层语义特征，实现人体动作识别。然而双维度特征挖掘过程中并没有区分出信息熵的差异，导致深层神经网络无法高效学习到人体动作的深层语义特征，而且用于对比学习的两种特征表示往往只具备简单直接的线性关系，影响了双维度特征挖掘过程对深层语义特征的获取能力，大幅降低了识别的正确率。

技术实现思路

1、本专利技术所要解决的技术问题在于提供一种基于信息熵导向的无监督人体动作识别方法及装置，能够利用多种信息熵算法计算出人体动作在不同条件下的信息熵，有向强化人体动作的深层语义特征，高效完成人体动作识别任务。

2、为实现上述目的，本专利技术提出了一种基于信息熵导向的无监督人体动作识别方法，包括如下步骤：

3、获取待测人体动作的二维图片信息以及深度信息；

4、通过对二维图片信息和深度信息进行转换，得到待识别的人体骨架数据；

5、对待识别的人体骨架数据进行预处理，得到待识别的时间骨架数据和待识别的空间骨架数据；

6、将待识别的时间骨架数据和待识别的空间骨架数据依次输入特征提取网络，得到时间骨架特征和空间骨架特征；

7、将时间骨架特征和空间骨架特征输入线性分类器，得到动作识别结果。

8、根据本申请实施例中一种可实现的方式，在获取待测人体动作的二维图片信息以及深度信息之前，该方法还包括：

9、直接获取预设数据集中的骨架数据用于模型的预训练过程和微调过程；

10、对预设数据集中的骨架数据进行预处理，得到时间骨架数据和空间骨架数据；

11、采用无监督对比学习算法挖掘预设数据集中的骨架数据的骨架特征，具体包括：采用基于时间的运动特征对比学习模块挖掘时间骨架数据的时间骨架特征，以及采用基于空间的运动特征对比学习模块挖掘空间骨架数据的空间骨架特征，完成预训练过程，所述骨架特征包括所述时间骨架特征和所述空间骨架特征；

12、利用基于时间的运动特征对比学习模块编码器和基于空间的运动特征对比学习模块编码器构成特征提取器，并在特征提取器底层添加线性分类器完成微调过程。

13、根据本申请实施例中一种可实现的方式，对预设数据集中的骨架数据进行预处理，包括：

14、使用双线性插值方法对预设数据集中的骨架数据进行填充，将预设数据集中的骨架数据调整为固定时间长度；

15、对预设数据集中调整后的骨架数据进行维度变换分别得到时间骨架数据xt∈rt×v×c和空间骨架数据xj∈rv×t×c，

16、其中r表示预设数据集中的骨架数据，t表示经过双线性插值后的固定时间长度帧数，v表示预设数据集中骨架数据的骨架点数目，c表示预设数据集中x，y，z坐标，xt表示时间骨架数据，xj表示空间骨架数据。

17、根据本申请实施例中一种可实现的方式，采用基于时间的运动特征对比学习模块挖掘时间骨架数据的时间骨架特征，包括：

18、基于第一信息熵评估算法计算时间骨架数据的第一信息熵，并将第一信息熵转化为概率分布，得到第一强化概率，其中，第一信息熵评估算法为：

19、；

20、其中，i表示时间帧，表示第i帧的时间骨架数据，v表示骨架点数，c表示三维坐标通道数，表示第i帧的第一信息熵，m表示骨架点序号，n表示对应三维坐标通道；

21、基于第二信息熵评估算法计算时间骨架数据的第二信息熵，并将第二信息熵转化为概率分布，得到第二强化概率，其中，第二信息熵评估算法为：

22、；

23、其中，i表示时间帧，表示第i帧的时间骨架数据，表示第i帧的第二信息熵，t表示经过双线性插值后的固定时间长度帧数；

24、基于第三信息熵评估算法计算时间骨架数据的第三信息熵，并将第三信息熵转化为概率分布，得到第三强化概率，其中，第三信息熵评估算法为：

25、；

26、其中，i表示时间帧，表示第i帧的时间骨架数据，表示第i帧的第三信息熵，t表示经过双线性插值后的固定时间长度帧数；

27、将第一强化概率、第二强化概率、第三强化概率拼接，得到时间强化信息；

28、通过多层卷积网络对时间强化信息进行深度学习，得到时间骨架数据的时间骨架特征。

29、根据本申请实施例中一种可实现的方式，采用基于空间的运动特征对比学习模块挖掘空间骨架数据的时间骨架特征，包括：

30、基于第四信息熵评估算法计算空间骨架数据的第四信息熵，并将第四信息熵转化为概率分布，得到第四强化概率，其中，第四信息熵评估算法为：

31、；

32、其中，i表示骨架点，表示第i个骨架点的空间骨架数据，c表示三维坐标通道数，t表示经过双线性插值后的固定时间长度帧数，表示第i个骨架点的第四信息熵，q表示帧数，n表示对应三维坐标通道；

33、基于第五信息熵评估算法计算空间骨架数据的第五信息熵，并将第五信息熵转化为概率分布，得到第五强化概率，其中，第五信息熵评估算法为：

34、；

35、其中，i表示骨架点，表示第i个骨架点的空间骨架数据，表示第i个骨架点的第五信息熵，v表示骨架点数，表示最后一个骨架点的空间骨架数据；

36、基于第六信息熵评估算法计算空间骨架数据的第六信息熵，并将第六信息熵转化为概率分布，得到第六强化概率，其中，第六信息熵评估算法为：

37、；

38、其中，i表示骨架点，表示第i个骨架点的空间骨架数据，表示第i帧的第六信息熵，v表示骨架点数，表示最后一个骨架点的空间骨架数据；

39、将第四强化概率、第五强化概率、第六强化概率拼接，得到空间强化信息；

40、通过多层卷积网络对空间强化信息进行深度学习，得到空间骨架数据的空间骨架特征。

41、根据本申请实施例中一种可实现的方式，多层卷积网络包括带有二维卷积层、一维卷积层、relu层、最大池化层的前向神经网络；通过多层卷积网络对时间强化信息进行深度学习，得到时间骨架数据的时间骨架特征，包括：

42、通过带有二维卷积层、一维卷积层、relu层、最大池化层的前向神经网络，对时间强化信息进行语义挖掘，得到时间强化方向信息；

43、通过正则化处理对时间强化方向信息进行归一化处理，得到时间骨架数据的时间骨架特征；

44、通过多层卷积网络对空间强化信息进行深度学习，得到空间骨架数据的空间骨架特征，包括：

45、通过带有二维卷积层、一维卷积层、relu层、最大池化层的前向神经网络，对空间强化信息进行语义挖掘，得到空间强化方向信息；

46、通过正则化处理对空间强化本文档来自技高网...

【技术保护点】

1.一种基于信息熵导向的无监督人体动作识别方法，其特征在于，所述方法包括：

2.根据权利要求1所述的基于信息熵导向的无监督人体动作识别方法，其特征在于，在获取待测人体动作的二维图片信息以及深度信息之前，所述方法还包括：

3.根据权利要求2所述基于信息熵导向的无监督人体动作识别方法，其特征在于，所述对所述预设数据集中的骨架数据进行预处理，包括：

4.根据权利要求2所述的基于信息熵导向的无监督人体动作识别方法，其特征在于，所述采用基于时间的运动特征对比学习模块挖掘所述时间骨架数据的时间骨架特征，包括：

5.根据权利要求4所述的基于信息熵导向的无监督人体动作识别方法，其特征在于，所述采用基于空间的运动特征对比学习模块挖掘所述空间骨架数据的时间骨架特征，包括：

6.根据权利要求5所述的基于信息熵导向的无监督人体动作识别方法，其特征在于，所述多层卷积网络包括带有二维卷积层、一维卷积层、RELU层、最大池化层的前向神经网络；所述通过多层卷积网络对所述时间强化信息进行深度学习，得到所述时间骨架数据的时间骨架特征，包括：

8.一种基于信息熵导向的无监督人体动作识别装置，其特征在于，所述装置包括：

9.一种计算机设备，其特征在于，所述设备包括：处理器，以及存储有计算机程序指令的存储器；

10.一种计算机存储介质，其特征在于，所述计算机存储介质上存储有计算机程序指令，所述计算机程序指令被处理器执行时实现如权利要求1-7任意一项所述的基于信息熵导向的无监督人体动作识别方法。

...

【技术特征摘要】

1.一种基于信息熵导向的无监督人体动作识别方法，其特征在于，所述方法包括：

3.根据权利要求2所述基于信息熵导向的无监督人体动作识别方法，其特征在于，所述对所述预设数据集中的骨架数据进行预处理，包括：

6.根据权利要求5所...

【专利技术属性】
技术研发人员：曹文明，邓骜奕，钟建奇，
申请(专利权)人：深圳大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人