一种多模态人体活动识别方法、电子设备及介质技术

技术编号：40986121 阅读：24 留言：0更新日期：2024-04-18 21:30

本发明专利技术实施例公开了一种多模态人体活动识别方法，包括：从人类活动视频数据中提取RGB帧和Depth深度图像，并等间隔采样一定长度的视频图像序列；通过卷积神经网络提取RGB帧和Depth深度图像的时空特征，作为双流网络模型的输入；利用交叉注意力网络捕捉单个分支网络的显著特性及其交互特性；将双路分支网络的输出进行融合，并将融合后的特征和单个分支网络的输出送入分类器以有效识别人体活动。本发明专利技术可实现两个分支网络之间互补性的有效挖掘。此外，本发明专利技术还利用双流交叉注意力网络增强了RGB帧和Depth图像的特征表达和融合能力，从而显著提高了人体活动识别的性能，满足了现实生活场景对于人体动作识别技术的需求。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及人体活动识别，具体涉及一种基于交叉注意力双流融合网络的多模态人体活动识别方法、电子设备及存储介质。

技术介绍

1、随着社会经济和科技的发展、互联网的普及、数据需求的多样化以及法律和隐私保护意识增强，以及近年来人体行为数据总量的不断增长，导致了采集场景的复杂性和多样性；另外成像条件如光照条件、拍摄距离、视角和姿态变化等差异也巨大，使得数据采集的方式也不再局限于单一的可见光谱，而是涵盖了更多的光谱和非光谱多种模态信息。因此人体行为识别技术具有极大的应用价值，高效准确的行为识别方法能够显著促进安防领域、健康管理领域、体育训练领域、游戏娱乐领域和智能家居领域等多个实际应用领域的发展。总而言之，对于我国社会经济和科技进步来说具有重大的意义。

2、现有的人体活动识别方法基于双流交叉注意力融合网络实现，该网络包含两个分支网络。其中一个分支网络以连续的depth图像为输入，另一个分支网络以单张rgb图像为输入。通过卷积神经网络(convnets)提取depth图像和rgb图像的特征，然后将两个网络的预测结果进行融合，从而实现对人体行为的有效识别。然而，传统的双流网络没有有效地对两个支路之间的交互信息进行建模，只是简单地做后融合。因此，两个分支网络之间的互补特性很难被有效地挖掘。

技术实现思路

1、针对
技术介绍
中所提及的技术缺陷，本专利技术实施例的目的在于提供一种人体多模态活动识别方法、电子设备及存储介质，其可利用双流交叉注意力融合网络对depth图像和rgb图像进行多模数

2、为实现上述目的，第一方面，本专利技术实施例提供了一种多模态人体活动识别方法，其基于交叉注意力双流融合网络实现，包括训练阶段和测试阶段；所述训练阶段包括：

3、s1，获取人类活动视频数据，对所述人类活动视频数据进行处理，得到图像序列；所述图像序列包括rgb片段和depth片段；

4、s2，采用卷积神经网络对所述rgb片段和depth片段进行提取处理，得到rgb图像特征和depth图像特征；

5、s3，采用交叉注意力双流网络捕捉所述rgb图像特征和depth图像特征之间的互补性并将其融合，得到融合特征和单个分支特征；

6、s4，将所述融合特征和单个分支特征送入分类器，实现多模态交叉融合网络的训练；

7、所述测试阶段包括：

8、获取输入待处理视频，对所述待处理视频进行特征提取，得到目标特征；

9、将所述目标特征输入训练好的多模态交叉融合网络，得到目标融合特征；

10、基于所述目标融合特征预测人类活动每个动作类别的概率得分，将得分最高的类别作为所述待处理视频的动作识别结果。

11、作为本申请的一种具体实现方式，步骤s1具体为：

12、使用深度相机以固定帧率对所述人类活动视频数据进行等间隔采样，得到rgb片段和depth片段。

13、作为本申请的一种具体实现方式，步骤s2具体为：

14、将所述rgb片段和depth片段统一裁剪成24寸，并使用在imagenet上预训练的resnet101卷积神经网络提取所述rgb片段和depth片段，得到rgb图像特征和depth图像特征。

15、作为本申请的一种具体实现方式，步骤s3具体为：

16、将所述rgb图像特征和depth图像特征输入交叉注意力双流网络；

17、采用1×1大小的卷积核，对输入的所述rgb图像特征和depth图像特征进行卷积处理，得到特征图

18、在交叉注意力双流网络的空间分支维度，对特征图进行flatten操作，将其转换为特征

19、对卷积处理后的所述rgb图像特征和depth图像特征进行三元组矩阵变换，得到(qrgb,kdepth,vdepth)、(qdepth,krgb,vrgb)；

20、采用自注意力机制挖掘单一模态的显著化特征，得到原始特征；

21、采用交叉注意力机制挖掘不同模态特征之间的交互特性，得到交叉模态特征；

22、通过跳跃连接将交叉模态特征和原始特征进行连接：

23、

24、

25、ln表示层规范化操作；

26、通过前馈神经网络ffn将上述输出结果处理得到单个多模态特征，表达式如下：

27、x′depth＝ln(ffn(xdepth)+xdepth)

28、x′rgb＝ln(ffn(xrgb)+xrgb)

29、将上述多模态特征拼接得到融合后的多模态特征，表达式如下：

30、xfuse＝x′depth+x′rgb。

31、作为本申请的一种具体实现方式，步骤s4具体为：

32、将融合后的多模态特征xfuse和单个模态特征x′depth、x′rgb进行空间维度的平均池化的处理，得到一个空间尺寸为1的特征向量；

33、将该特征向量送入分类器，通过多任务损失函数实现对人体活动的有效识别。

34、第二方面，本专利技术实施例还提供了一种电子设备，包括处理器、输入设备、输出设备和存储器，所述处理器、输入设备、输出设备和存储器相互连接，其中，所述存储器用于存储计算机程序，所述计算机程序包括程序指令，所述处理器被配置用于调用所述程序指令，执行如上述第一方面所述的方法步骤。

35、第三方面，本专利技术实施例提供了一种计算机可读存储介质，所述计算机存储介质存储有计算机程序，所述计算机程序包括程序指令，所述程序指令被处理器执行时实现如上述第一方面所述的方法步骤。

36、本专利技术实施例提供的技术方案，首先，从人类活动视频数据中提取rgb帧和depth深度图像，并等间隔采样一定长度的视频图像序列。接着，通过卷积神经网络(convnets)提取rgb帧和depth深度图像的时空特征，作为双流网络模型的输入。然后，利用交叉注意力网络捕捉单个分支网络的显著特性及其交互特性。最后，将双路分支网络的输出进行融合，并将融合后的特征和单个分支网络的输出送入分类器以有效识别人体活动。本专利技术利用双流交叉注意力融合网络对depth图像和rgb图像进行多模数据的协同学习，实现了两个分支网络之间互补性的有效挖掘。此外，本专利技术还利用双流交叉注意力网络增强了rgb帧和depth图像的特征表达和融合能力，从而显著提高了人体活动识别的性能，满足了现实生活场景对于人体动作识别技术的需求。

本文档来自技高网...

【技术保护点】

1.一种多模态人体活动识别方法，其特征在于，所述方法基于交叉注意力双流融合网络实现，包括训练阶段和测试阶段；所述训练阶段包括：

2.如权利要求1所述的方法，其特征在于，步骤S1具体为：

3.如权利要求2所述的方法，其特征在于，步骤S2具体为：

4.如权利要求3所述的方法，其特征在于，步骤S3具体为：

5.如权利要求4所述的方法，其特征在于，步骤S4具体为：

6.如权利要求4所述的方法，其特征在于，所述前馈神经网络FFN的隐层节点数设置为2048。

7.一种电子设备，其特征在于，包括处理器、输入设备、输出设备和存储器，所述处理器、输入设备、输出设备和存储器相互连接，其中，所述存储器用于存储计算机程序，所述计算机程序包括程序指令，所述处理器被配置用于调用所述程序指令，执行如权利要求1-6任一项所述的方法步骤。

8.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序包括程序指令，其特征在于，所述程序指令被处理器执行时实现如权利要求1-6任一项所述的方法步骤。

【技术特征摘要】

1.一种多模态人体活动识别方法，其特征在于，所述方法基于交叉注意力双流融合网络实现，包括训练阶段和测试阶段；所述训练阶段包括：

2.如权利要求1所述的方法，其特征在于，步骤s1具体为：

3.如权利要求2所述的方法，其特征在于，步骤s2具体为：

4.如权利要求3所述的方法，其特征在于，步骤s3具体为：

5.如权利要求4所述的方法，其特征在于，步骤s4具体为：

6.如权利要求4所述的方法，其特征在于，所述前馈神经网络ffn的隐层...

【专利技术属性】
技术研发人员：汪影影，金彪，杨东，
申请(专利权)人：浙江绿色慧联有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人