一种基于动作引导的群组活动识别方法及系统技术方案

技术编号：36424149 阅读：21 留言：0更新日期：2023-01-20 22:33

本发明专利技术涉及计算机视觉技术领域，公开了一种基于动作引导的群组活动识别方法及系统，该识别方法，通过以动作为中心的聚合策略聚合动作主体的个体级特征计算动作级特征，再依据动作级特征构建动作依赖关系，最后利用动作依赖关系进行群组活动识别。本发明专利技术解决了现有技术存在的群组活动识别准确率低等问题。存在的群组活动识别准确率低等问题。存在的群组活动识别准确率低等问题。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于动作引导的群组活动识别方法及系统

[0001]本专利技术涉及计算机视觉
，具体是一种基于动作引导的群组活动识别方法及系统。

技术介绍

[0002]群组活动识别旨在理解多人场景中的整体活动，在视频监控、社会行为理解、运动视频分析等方面具有广泛的应用。与个体动作识别任务(例如，跳跃或滑雪)相比，群组活动识别是一项更具挑战性的任务(例如，排队或说话)，它不仅收集个人动作，还探寻多人之间的交互。
[0003]当前，已经有各种各样的解决方案致力于识别群组活动，可以概括为以下过程。首先，基于骨干网络(例如ResNet18和Inception
‑
v3)提取视频剪辑中随机抽取的视频帧的个体级特征。其次，通过图卷积网络(GCN)、循环神经网络(RNN)或最近的transformer探索多人之间的时空关系。最后，通过融合特征生成一个整体特征向量来表示群组活动。然而，现有的大多数方法都仅限于粗糙的个体级特征，而忽略了一些特定的关系。尽管一些基于深度学习的方法取得了重大成功，但由于复杂的运动变化和动作转换，群组活动识别在学习空间和时间关系方面仍然面临很大困难。事实上，只有少数人和他们的互动或动作会对推断群组活动产生重要影响，为了关注这些相关人员，CCG
‑
LSTM通过时空上下文相关性和全局上下文约束来量化对某一运动的贡献。P2CTDM将整个过程中运动平稳或某一时刻有显著变化的人定义为关键参与者，然后通过逐步捕捉时空长时动作和瞬时动作来学习视觉和空间特征。但是，这些方法仅限于对人级关系...

【技术保护点】

【技术特征摘要】
1.一种基于动作引导的群组活动识别方法，其特征在于，通过以动作为中心的聚合策略聚合动作主体的个体级特征计算动作级特征，再依据动作级特征构建动作依赖关系，最后利用动作依赖关系进行群组活动识别。2.根据权利要求1所述的一种基于动作引导的群组活动识别方法，其特征在于，包括以下步骤：S1，个体级特征提取：对RGB视频帧进行特征提取，得到RGB视频帧中每个动作主体的个体级特征；其中，个体级特征指用于表征RGB视频帧中动作主体的外观特征；S2，动作级特征计算：将步骤S1得到的个体级特征进行聚合，计算得到动作级特征；其中，动作级特征指用于表征RGB视频帧中动作的特征；S3，动作级特征学习：利用具备自注意力机制的编码器对步骤S2得到的动作级特征进行自注意力计算，得到细化后的动作级特征；S4，动作依赖关系构建：利用步骤S3得到的细化后的动作级特征，构建语义动作图，然后基于语义动作图构建动作依赖关系；S5，群组活动识别：利用步骤S4构建的动作依赖关系，对RGB视频帧进行群组活动识别，并输出群组活动类别；其中，群组活动类别指对RGB视频帧中所有动作主体的动作进行全局判定的动作类别。3.根据权利要求2所述的一种基于动作引导的群组活动识别方法，其特征在于，步骤S1包括以下步骤：S11，接受要识别的视频，从中随机抽取T帧RGB视频帧；其中，每帧具有N个动作主体的边界框，T表示抽取的视频帧数，N表示每帧中的动作主体数量；S12，利用骨干网络提取RGB视频帧的图片特征；S13，提取视频帧的图片特征中的个体级特征，个体级特征表示为X∈R
T
×
N
×
D
，其中，X表示个体级特征，D表示骨干网络提取的特征维度，R表示向量空间，i表示动作主体的编号，1≤i≤T
×
N，x
i
为第i个动作主体的个体级特征。4.根据权利要求3所述的一种基于动作引导的群组活动识别方法，其特征在于，步骤S2包括以下步骤：S21，将每个帧中的个体级特征分配给所有动作词，计算与个体级特征与动作词的残差；S22，将每个帧中的个体级特征输入至LP得到线性化后的个体级特征，再将N个线性化后的个体级特征输入至Softmax得到每个个体级特征对应的软分配权重；S23，将步骤S21得到的每个个体级特征与动作的残差与步骤S22得到的每个个体级特征对应的软分配权重相乘，得到每个个体级特征对应的动作特征分量；S24，将步骤S23得到的每个个体级特征对应的动作特征分量进行相加，K个动作词对应的动作级特征叠加得到该帧的动作级特征x
′
k
的计算公式为：
其中，K表示动作词的数量，k表示动作词的编号，x
′
k
表示该帧第k个动作词对应的动作级特征，i、j表示任意两个动作主体的编号，w
j
表示将x
j
投影为标量的可学习权重，b
j
表示将x
j
投影为标量的偏置，A
K
表示第k个动作词，w
i
表示x
i
投影到标量的可以学习权重，b
i
表示将x
i
投影为标量的偏置，x
j
表示第j个动作主体的个体级特征。5.根据权利要求4所述的一种基于动作引导的群组活动识别方法，其特征在于，步骤S3包括以下步骤：S31，使用具有自注意机制的时间编码器和空间编码器分别计算查询、键和值：其中，使用时间编码器根据T帧的动作级特征X
′
∈R
T
×
K
×
D
计算动作级特征在n个自注意力头的查询、键和值：使用空间编码器根据第t帧的动作级特征X
′
t
∈R
K
×
D
,计算动作级特征在n个自注意力头的查询、键和值：的查询、键和值：其中，n表示注意力头的序号，1≤n≤S，S表示注意力头的个数，t表示帧的序号，1≤t≤T，表示时间编码器第n个注意力头的查询，表示时间编码器第n个注意力头的查询权重，表示时间编码器第n个注意力头的键，表示时间编码器第n个注意力头的键权重，表示时间编码器第n个注意力头的值，表示第n个注意力头的值权重，表示空间编码器中第t帧在第n个注意力头上的查询，表示空间编码器中第n个注意力头的查询权重，表示空间编码器中第t帧在第n个注意力头上的键，表示空间编码器中第n个注意力头的查询权重，表示空间编码器中第t帧在第n个注意力头上的值，表示...

【专利技术属性】
技术研发人员：李威，李佳辰，吴晓，杨添朝，
申请(专利权)人：西南交通大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人