多提示信息引导的零样本人体行为识别方法技术

技术编号：43780613 阅读：22 留言：0更新日期：2024-12-24 16:16

本发明专利技术公开了多提示信息引导的零样本人体行为识别方法，包括以下步骤：S100、构建策略，并通过该策略引导模型在视觉特征提取的早期阶段重点关注与行为类别相关的特征信息；S200、利用预训练的视觉语言模型中的不同模态之间的先验知识，通过与骨架序列特征的对齐，帮助模型从中获取与行为类别相关的语义信息；S300、通过视觉和语义提示信息的共同引导，基于该策略使得模型在未见类别的推理任务中实现有效的识别；通过视觉和语义提示信息的共同引导，该策略使得模型在未见类别的推理任务中能够取得更好的识别性能，这种策略同时关注人体姿态特征变化和与行为类别高度相关的视觉语义特征，从而弥补了模型在未见类别上推理泛化能力不足的问题。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及模型特征数据处理，具体为多提示信息引导的零样本人体行为识别方法。

技术介绍

1、近年来，在人体行为识别领域，研究的焦点逐渐从传统的全监督学习方法向更具挑战性的零样本/少样本人体行为识别领域转变。全监督学习方法在使用大量标注数据进行模型训练方面取得了显著的成功，但在实际应用中面临部分类别数据获取难度大、标注成本高等问题。这促使研究者们将目光投向零样本学习，以实现在没有见过的新的行为类别样本的前提下，根据提示信息实现对未见类别的预测。当前研究中，零样本人体行为识别的一个关键挑战是如何有效地处理未见过的类别。学术界普遍认为，这一挑战的解决方案需要结合多模态信息和先进的深度学习技术。

2、零样本人体行为识别任务中缺乏多个模态信息的有效融合，基于模态孤立的学习方法不能很好的理解提示信息造成的数据歧义。零样本学习中提示信息未得到充分利用，视觉模态和语义特征信息的提取之间缺乏有效的交互和引导，缺乏和人体行为任务高度关联的多个模态的信息的有效融合，模型预测结果受到提示信息影响较大，导致模型对未见类别的语义理解能力不足。

3、因此，设计多提示信息引导的零样本人体行为识别方法是很有必要的。

技术实现思路

1、本专利技术的目的在于提供多提示信息引导的零样本人体行为识别方法，以解决上述
技术介绍
中提出的问题。

2、为了解决上述技术问题，本专利技术提供如下技术方案：

3、多提示信息引导的零样本人体行为识别方法，包括以下步骤：

4、s10

5、s200、利用预训练的视觉语言模型中的不同模态之间的先验知识，通过与骨架序列特征的对齐，帮助模型从中获取与行为类别相关的语义信息；

6、s300、通过视觉和语义提示信息的共同引导，基于该策略使得模型在未见类别的推理任务中实现有效的识别。

7、根据上述技术方案，s200的具体工作方法如下：

8、导入一批训练数据(xs,vs,ys)，通过预训练的视觉语言模型，即vlm提取出视觉类别语义引导特征信息p′，并通过骨架序列特征和类别提示信息的对齐生成骨架特征预测得分向量p，得到样本中k个类别的预测值计算公式如下：

9、

10、式中，是在骨架序列和视觉两个模态特征在提示信息引导下预测为a中每个类别预测的概率值，p′(v|a)是视觉语义特征对第每个类别提示信息的引导得分，p(x|a)是骨架序列特征对第每个类别的预测得分，其中：

11、p′(v|a)的计算公式如下：

12、

13、p(v1,ai)是将视觉特征v1预测为第i个类别的概率值，ai是第i个类别的文本提示信息的特征向量，p(ai)是第i个行为类别是真实类别的概率；

14、p(x|a)的计算公式如下：

15、

16、同理，p(v2,ai)是将骨架序列特征v2预测为第i个类别的概率值，p(ai)是第i个行为类别是真实类别的概率。

17、根据上述技术方案，每个视觉特征向量与语义信息之间的距离需进行衡量，则采用余弦相似度作为度量方式：

18、d(pi,aj)＝cosine(pi,aj) (4)

19、pi是第i个骨架序列特征向量，aj是第j个类别的语义特征向量，d(pi,aj)是第i个骨架序列特征向量和第j个类别的语义特征向量的余弦相似度：

20、

21、其中，表示在提示信息引导下与pi最相似的语义特征向量的类别，argminj是和pi与和a中弦相似度值最小的类别；

22、

23、其中，pos(p)表示骨架征中预测结果中同一簇内正样本对和负样本对之间的距离，b为数据的batch size，即提示信息的类别数量，为指示函数，用于指示视觉特征向量聚类结果是否与第j个类别的语义特征向量aj属于同一簇，指示函数的定义如下：

24、

25、这里的取值为1表示与aj属于同一簇，取值为0表示与aj不属于同一簇；

26、定义同一簇内和不同簇间的正负样本对，并计算它们的距离：

27、

28、neg(p)表示骨架征中预测结果中不同簇间的正样本对和负样本对之间的距离；

29、同理，pos(p′)表示视觉特征中预测结果中同一簇内正样本对和负样本对之间的距离，neg(p′)表示视觉特征中预测结果中不同簇间的正样本对和负样本对之间的距离；

30、最终，通过构建对比损失函数losscc来约束不同模态特征向量对齐到同一个空间中：

31、losscc＝pos(p)+pos(p′)-neg(p)-neg(p′) (9)

32、该损失函数的设计在优化过程中引导模型使同一簇内的特征更加接近，不同簇间的特征更加分散，以实现有效的多模态数据对齐。

33、与现有技术相比，本专利技术所达到的有益效果是：

34、通过视觉和语义提示信息的共同引导，该策略使得模型在未见类别的推理任务中能够取得更好的识别性能，这种策略同时关注人体姿态特征变化和与行为类别高度相关的视觉语义特征，从而弥补了模型在未见类别上推理泛化能力不足的问题。

本文档来自技高网...

【技术保护点】

1.多提示信息引导的零样本人体行为识别方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的多提示信息引导的零样本人体行为识别方法，其特征在于，S200的具体工作方法如下：

3.根据权利要求2所述的多提示信息引导的零样本人体行为识别方法，其特征在于，每个视觉特征向量与语义信息之间的距离需进行衡量，则采用余弦相似度作为度量方式：

【技术特征摘要】

1.多提示信息引导的零样本人体行为识别方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的多提示信息引导的零样本人体行为识别方法，其特征在于，s200的具体工作...

【专利技术属性】
技术研发人员：宋晴，刘宏杰，刘春，胡梦婕，
申请(专利权)人：北京邮电大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人