一种基于TBW的多模态人体动作识别方法技术

技术编号：43647270 阅读：23 留言：0更新日期：2024-12-13 12:43

本发明专利技术涉及一种基于TBW的多模态人体动作识别方法，包括：获取动作视频数据，提取RGB帧和音频信号；计算光流图像并获取频谱图像；对RGB帧、光流图像和频谱图像使用TBW机制进行区间采样；将采样结果输入至多模态模型，进行特征提取和特征融合；将融合后的特征输入分类器，获得对应TBW窗口的动作分类结果。本发明专利技术的有益效果是：本发明专利技术同时使用RGB帧、光流、音频作为输入，增强了网络识别人体动作时的可用信息，能有效提高行为识别的准确率；并且本发明专利技术通过添加TBW机制，能够在处理采样率互不相同的模态数据，能够识别持续时间和速度变化比较大的动作。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及动作识别，更确切地说，它涉及一种基于tbw的多模态人体动作识别方法。

技术介绍

1、近年来，随着计算机、多媒体技术的繁荣发展，智能手机、监控探头等摄影摄像设备的逐渐普及，人们产生的视频数据规模呈爆炸式增长，针对视频的自动化检索和识别需求应运而生。但是由于视频数据结构的特殊性，其中记录的信息难以被计算机识别和理解。人体的动作是包含在视频内容中的重要信息，人体动作识别是指识别人类身体的运动和与环境、其他个体的交互。

2、在传统深度学习研究中，多数策略基于卷积神经网络或双流网络，并采用固定时间间隔的帧抽样机制。这些处理视频中的人体动作识别问题的方法在过往的研究中已展现了显著的性能。但是仍然存在一定局限性，尤其是在对多模态信息的利用方面，以及对动作在不同帧率或速度变化的鲁棒识别方面。

技术实现思路

1、本专利技术的目的是针对现有技术的不足，提出了一种基于tbw的多模态人体动作识别方法。

2、第一方面，提供了一种基于tbw的多模态人体动作识别方法，包括：

3、s1、获取动作视频数据，根据所述动作视频数据，提取rgb帧和音频信号；

4、s2、根据所述rgb帧，计算光流图像；根据所述音频信号，获取频谱图像；

5、s3、对所述rgb帧、光流图像和频谱图像使用tbw机制进行区间采样；

6、s4、将s3的采样结果输入至多模态模型，进行特征提取和特征融合；

7、s5、将融合后的特征输入分类器，获得对应tbw窗口的动作分类结果。

8、作为优选，s3包括：

9、s301、将rgb帧序列按照时间顺序分成k段时长相等的子序列，对于每段子序列，从中随机地选取一帧mrgb,i；i是rgb帧序列的索引号；

10、s302、从模态频谱图像序列maudio和光流图像序列mflow中选取maudio,j和mflow,k；其中，频谱图序列的索引号j和光流图序列的索引号k的公式为：

11、

12、其中，raudio和rflow是这两个模态的序列采样频率，rrgb是rgb帧序列的采样频率，b为tbw窗口的长度的一半；符号表示向上取整数。

13、作为优选，tbw窗口长度2b与rgb帧序列的子序列长度相互独立。

14、作为优选，s4包括：

15、s401、分别通过transformer编码器、resnet网络、bn-inception网络提取rgb帧、光流图像和频谱图像的特征；

16、s402、通过交叉注意力机制和kan网络融合三个模态中互补的特征，并剔除冗余的特征，获取融合后的特征；s4所对应的公式为：

17、y＝h(g(ftbw(mrgb,i,maudio,j,mflow,k)))

18、其中，ftbw为多模态模型的特征提取模块，g为时域池化模块，h为多模态特征融合模块，y是融合后的多模态特征向量。

19、作为优选，s401中，所述resnet网络结构为：

20、初始conv1卷积层，卷积核尺寸为7x7，滑动步幅为2；随后为4个残差单元，每个单元的输出为单元内卷积层的输出与初始输入的残差连接进行叠加；

21、第一个残差单元中包含6层卷积层，其卷积核尺寸均为3x3，滑动步幅均为1，通道数为64；第二个残差单元中包含8层卷积层，其卷积核尺寸均为3x3，滑动步幅均为1，通道数为128；第三个残差单元中包含12层卷积层，其卷积核尺寸均为3x3，滑动步幅均为1，通道数为256；第四个残差单元中包含6层卷积层，其卷积核尺寸均为3x3，滑动步幅均为1，通道数为512。

22、作为优选，s402中，所述kan网络的数学表达式为：

23、

24、其中，φq和φp,q均为通过反向传播优化的可学习激活函数，函数f()为kan网络中引入非线性变换的基本单元，n为多变量函数f()的输入维度，xp为多变量函数f()的第p个输入变量。

25、作为优选，还包括：s6、通过相对范数对齐损失函数和交叉熵损失函数对多模态模型进行训练。

26、作为优选，s6中，相对范数对齐损失函数的公式为：

27、

28、其中，frgb、fflow和faudio分别是多模态模型的三个支路从rgb帧、光流图像和频谱图像中提取到的特征向量；‖‖表示对向量求l2范数；e(x)表示特征向量x的数学期望，通过对每个批次中的所有特征向量求均值来估算。

29、第二方面，提供了一种基于tbw的多模态人体动作识别系统，用于执行第一方面任一所述的基于tbw的多模态人体动作识别方法，包括：

30、获取模块，用于获取动作视频数据，根据所述动作视频数据，提取rgb帧和音频信号；

31、计算模块，用于根据所述rgb帧，计算光流图像；根据所述音频信号，获取频谱图像；

32、采样模块，用于对所述rgb帧、光流图像和频谱图像使用tbw机制进行区间采样；

33、特征提取模块，用于将采样模块的采样结果输入至多模态模型，进行特征提取和特征融合；

34、输入模块，用于将融合后的特征输入分类器，获得对应tbw窗口的动作分类结果。

35、第三方面，提供了一种电子设备，所述电子设备包括：

36、至少一个处理器；以及，

37、与所述至少一个处理器通信连接的存储器；其中，

38、所述存储器存储有可被所述至少一个处理器执行的计算机程序指令，所述计算机程序指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行如权利要求1-8中任意一项所述的基于tbw的多模态人体动作识别方法。

39、本专利技术的有益效果是：

40、1.本专利技术同时使用rgb帧、光流、音频作为输入，增强了网络识别人体动作时的可用信息，能有效提高行为识别的准确率。

41、2.本专利技术通过音频模态，使得本专利技术能够更好的区分行为相似但声音不同的动作，例如通过碰撞声辅助区分动作物体的材质、通过水声辅助区分不同种类游泳等。

42、3.本专利技术通过添加tbw机制，能够在处理采样率互不相同的模态数据，能够识别持续时间和速度变化比较大的动作。

43、4.本专利技术通过添加rna损失函数，能够自适应的平衡不同模态之间的权重，使得多个模态中互补的信息能够得到充分的利用，从而提高动作识别的准确度和鲁棒性。

本文档来自技高网...

【技术保护点】

1.一种基于TBW的多模态人体动作识别方法，其特征在于，包括：

2.根据权利要求1所述的基于TBW的多模态人体动作识别方法，其特征在于，S3包括：

3.根据权利要求2所述的基于TBW的多模态人体动作识别方法，其特征在于，TBW窗口长度2b与RGB帧序列的子序列长度相互独立。

4.根据权利要求3所述的基于TBW的多模态人体动作识别方法，其特征在于，S4包括：

5.根据权利要求4所述的基于TBW的多模态人体动作识别方法，其特征在于，S401中，所述ResNet网络结构为：

6.根据权利要求4或5所述的基于TBW的多模态人体动作识别方法，其特征在于，S402中，所述KAN网络的数学表达式为：

7.根据权利要求6所述的基于TBW的多模态人体动作识别方法，其特征在于，还包括：

8.根据权利要求7所述的基于TBW的多模态人体动作识别方法，其特征在于，S6中，相对范数对齐损失函数的公式为：

9.一种基于TBW的多模态人体动作识别系统，其特征在于，用于执行权利要求1至8任一所述的基于TBW的多模态人体动作识别方法，包括：

10.一种电子设备，其特征在于，所述电子设备包括：

...

【技术特征摘要】

1.一种基于tbw的多模态人体动作识别方法，其特征在于，包括：

2.根据权利要求1所述的基于tbw的多模态人体动作识别方法，其特征在于，s3包括：

3.根据权利要求2所述的基于tbw的多模态人体动作识别方法，其特征在于，tbw窗口长度2b与rgb帧序列的子序列长度相互独立。

4.根据权利要求3所述的基于tbw的多模态人体动作识别方法，其特征在于，s4包括：

5.根据权利要求4所述的基于tbw的多模态人体动作识别方法，其特征在于，s401中，所述resnet网络结构为：

6.根...

【专利技术属性】
技术研发人员：侯文武，魏金岭，柴昊龙，
申请(专利权)人：浙江大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人