一种基于动作引导的群组活动识别方法及系统技术方案

技术编号:36424149 阅读:21 留言:0更新日期:2023-01-20 22:33
本发明专利技术涉及计算机视觉技术领域,公开了一种基于动作引导的群组活动识别方法及系统,该识别方法,通过以动作为中心的聚合策略聚合动作主体的个体级特征计算动作级特征,再依据动作级特征构建动作依赖关系,最后利用动作依赖关系进行群组活动识别。本发明专利技术解决了现有技术存在的群组活动识别准确率低等问题。存在的群组活动识别准确率低等问题。存在的群组活动识别准确率低等问题。

【技术实现步骤摘要】
一种基于动作引导的群组活动识别方法及系统


[0001]本专利技术涉及计算机视觉
,具体是一种基于动作引导的群组活动识别方法及系统。

技术介绍

[0002]群组活动识别旨在理解多人场景中的整体活动,在视频监控、社会行为理解、运动视频分析等方面具有广泛的应用。与个体动作识别任务(例如,跳跃或滑雪)相比,群组活动识别是一项更具挑战性的任务(例如,排队或说话),它不仅收集个人动作,还探寻多人之间的交互。
[0003]当前,已经有各种各样的解决方案致力于识别群组活动,可以概括为以下过程。首先,基于骨干网络(例如ResNet18和Inception

v3)提取视频剪辑中随机抽取的视频帧的个体级特征。其次,通过图卷积网络(GCN)、循环神经网络(RNN)或最近的transformer探索多人之间的时空关系。最后,通过融合特征生成一个整体特征向量来表示群组活动。然而,现有的大多数方法都仅限于粗糙的个体级特征,而忽略了一些特定的关系。尽管一些基于深度学习的方法取得了重大成功,但由于复杂的运动变化和动作转换,群组活动识别在学习空间和时间关系方面仍然面临很大困难。事实上,只有少数人和他们的互动或动作会对推断群组活动产生重要影响,为了关注这些相关人员,CCG

LSTM通过时空上下文相关性和全局上下文约束来量化对某一运动的贡献。P2CTDM将整个过程中运动平稳或某一时刻有显著变化的人定义为关键参与者,然后通过逐步捕捉时空长时动作和瞬时动作来学习视觉和空间特征。但是,这些方法仅限于对人级关系进行建模。为了群组活动的推理,进一步探索他们之间潜在的关系是很有必要的。
[0004]由于关系推理的优势,基于图神经网络的方法越来越受到关注,其中节点表示个体级特征,边表示两个人之间的关系。为了捕获特定人的交互上下文,研究者提出了一个动态推理网络来联合建模全局级关系。通过图卷积的操作,这些方法具有以端到端的方式捕获丰富的关系信息的自然而灵活的能力。然而,仅仅基于个人层面的特征及其空间信息很难区分可混淆的群组活动,其中没有综合考虑时间的演化。受视觉transformer所取得进展的启发,人们开始使用编码器

解码器架构来细化个体级特征。ActorFormer首先引入了transformer,通过利用编码器结构来捕获群组相关的表示。为了整体探索时空信息,GroupFormer用聚类时空transformer来增强个体和群组特征。尽管这些努力加强了时空关系,但并未在群组中所有人之间明确建模语义动作依赖。此外,个体级特征直接输入到自我注意模块中,没有任何细化,使得这些方法难以处理不平衡的时空交互。综上,现有技术存在局部和全局特征表示存在差距、没有细化个体级特征、没有明确建模语义动作依赖关系等不足,从而导致群组活动识别准确率低等问题。

技术实现思路

[0005]为克服现有技术的不足,本专利技术提供了一种基于动作引导的群组活动识别方法及
系统,解决现有技术存在的群组活动识别准确率低等问题。
[0006]本专利技术解决上述问题所采用的技术方案是:
[0007]一种基于动作引导的群组活动识别方法,通过以动作为中心的聚合策略聚合动作主体的个体级特征计算动作级特征,再依据动作级特征构建动作依赖关系,最后利用动作依赖关系进行群组活动识别。
[0008]作为一种优选的技术方案,包括以下步骤:
[0009]S1,个体级特征提取:对RGB视频帧进行特征提取,得到RGB视频帧中每个动作主体的个体级特征;其中,个体级特征指用于表征RGB视频帧中动作主体的外观特征;
[0010]S2,动作级特征计算:将步骤S1得到的个体级特征进行聚合,计算得到动作级特征;其中,动作级特征指用于表征RGB视频帧中动作的特征;
[0011]S3,动作级特征学习:利用具备自注意力机制的编码器对步骤S2得到的动作级特征进行自注意力计算,得到细化后的动作级特征;
[0012]S4,动作依赖关系构建:利用步骤S3得到的细化后的动作级特征,构建语义动作图,然后基于语义动作图构建动作依赖关系;
[0013]S5,群组活动识别:利用步骤S4构建的动作依赖关系,对RGB视频帧进行群组活动识别,并输出群组活动类别;其中,群组活动类别指对RGB视频帧中所有动作主体的动作进行全局判定的动作类别。
[0014]作为一种优选的技术方案,步骤S1包括以下步骤:
[0015]S11,接收T帧RGB视频帧;其中,每帧具有N个动作主体的边界框,T表示RGB视频帧的帧数,N表示每帧中的动作主体数量;
[0016]S12,利用骨干网络提取RGB视频帧的图片特征;
[0017]S13,提取图片特征中的个体级特征,个体级特征表示为X∈R
T
×
N
×
D
,其中,X表示个体级特征,D表示骨干网络提取的图片特征维度,R表示向量空间,i表示动作主体的编号,1≤i≤T
×
N,x
i
为第i个动作主体的个体级特征。
[0018]作为一种优选的技术方案,步骤S2包括以下步骤:
[0019]S21,将每个帧中的个体级特征分配给所有动作词,计算与个体级特征与动作词的残差;
[0020]S22,将每个帧中的个体级特征输入至LP得到线性化后的个体级特征,再将N个线性化后的个体级特征输入至Softmax得到每个个体级特征对应的软分配权重;
[0021]S23,将步骤S21得到的每个个体级特征与动作的残差与步骤S22得到的每个个体级特征对应的软分配权重相乘,得到每个个体级特征对应的动作特征分量;
[0022]S24,将步骤S23得到的每个个体级特征对应的动作特征分量进行相加,K个动作词对应的动作级特征叠加得到该帧的动作级特征x

k
的计算公式为:
[0023][0024]其中,K表示动作词的数量,k表示动作词的编号,x

k
表示该帧第k个动作词对应的
动作级特征,i、j表示任意两个动作主体的编号,w
j
表示将x
j
投影为标量的可学习权重,b
j
表示将x
j
投影为标量的偏置,A
K
表示第k个动作词,w
i
表示x
i
投影到标量的可以学习权重,b
i
表示将x
i
投影为标量的偏置,x
j
表示第j个动作主体的个体级特征。
[0025]作为一种优选的技术方案,步骤S3包括以下步骤:
[0026]S31,使用具有自注意机制的时间编码器和空间编码器分别计算查询、键和值:
[0027]其中,使用时间编码器根据T帧的动作级特征X

∈R
T
×
K
×
D
计算动作级特征在n个自注意本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于动作引导的群组活动识别方法,其特征在于,通过以动作为中心的聚合策略聚合动作主体的个体级特征计算动作级特征,再依据动作级特征构建动作依赖关系,最后利用动作依赖关系进行群组活动识别。2.根据权利要求1所述的一种基于动作引导的群组活动识别方法,其特征在于,包括以下步骤:S1,个体级特征提取:对RGB视频帧进行特征提取,得到RGB视频帧中每个动作主体的个体级特征;其中,个体级特征指用于表征RGB视频帧中动作主体的外观特征;S2,动作级特征计算:将步骤S1得到的个体级特征进行聚合,计算得到动作级特征;其中,动作级特征指用于表征RGB视频帧中动作的特征;S3,动作级特征学习:利用具备自注意力机制的编码器对步骤S2得到的动作级特征进行自注意力计算,得到细化后的动作级特征;S4,动作依赖关系构建:利用步骤S3得到的细化后的动作级特征,构建语义动作图,然后基于语义动作图构建动作依赖关系;S5,群组活动识别:利用步骤S4构建的动作依赖关系,对RGB视频帧进行群组活动识别,并输出群组活动类别;其中,群组活动类别指对RGB视频帧中所有动作主体的动作进行全局判定的动作类别。3.根据权利要求2所述的一种基于动作引导的群组活动识别方法,其特征在于,步骤S1包括以下步骤:S11,接受要识别的视频,从中随机抽取T帧RGB视频帧;其中,每帧具有N个动作主体的边界框,T表示抽取的视频帧数,N表示每帧中的动作主体数量;S12,利用骨干网络提取RGB视频帧的图片特征;S13,提取视频帧的图片特征中的个体级特征,个体级特征表示为X∈R
T
×
N
×
D
,其中,X表示个体级特征,D表示骨干网络提取的特征维度,R表示向量空间,i表示动作主体的编号,1≤i≤T
×
N,x
i
为第i个动作主体的个体级特征。4.根据权利要求3所述的一种基于动作引导的群组活动识别方法,其特征在于,步骤S2包括以下步骤:S21,将每个帧中的个体级特征分配给所有动作词,计算与个体级特征与动作词的残差;S22,将每个帧中的个体级特征输入至LP得到线性化后的个体级特征,再将N个线性化后的个体级特征输入至Softmax得到每个个体级特征对应的软分配权重;S23,将步骤S21得到的每个个体级特征与动作的残差与步骤S22得到的每个个体级特征对应的软分配权重相乘,得到每个个体级特征对应的动作特征分量;S24,将步骤S23得到的每个个体级特征对应的动作特征分量进行相加,K个动作词对应的动作级特征叠加得到该帧的动作级特征x

k
的计算公式为:
其中,K表示动作词的数量,k表示动作词的编号,x

k
表示该帧第k个动作词对应的动作级特征,i、j表示任意两个动作主体的编号,w
j
表示将x
j
投影为标量的可学习权重,b
j
表示将x
j
投影为标量的偏置,A
K
表示第k个动作词,w
i
表示x
i
投影到标量的可以学习权重,b
i
表示将x
i
投影为标量的偏置,x
j
表示第j个动作主体的个体级特征。5.根据权利要求4所述的一种基于动作引导的群组活动识别方法,其特征在于,步骤S3包括以下步骤:S31,使用具有自注意机制的时间编码器和空间编码器分别计算查询、键和值:其中,使用时间编码器根据T帧的动作级特征X

∈R
T
×
K
×
D
计算动作级特征在n个自注意力头的查询、键和值:使用空间编码器根据第t帧的动作级特征X

t
∈R
K
×
D
,计算动作级特征在n个自注意力头的查询、键和值:的查询、键和值:其中,n表示注意力头的序号,1≤n≤S,S表示注意力头的个数,t表示帧的序号,1≤t≤T,表示时间编码器第n个注意力头的查询,表示时间编码器第n个注意力头的查询权重,表示时间编码器第n个注意力头的键,表示时间编码器第n个注意力头的键权重,表示时间编码器第n个注意力头的值,表示第n个注意力头的值权重,表示空间编码器中第t帧在第n个注意力头上的查询,表示空间编码器中第n个注意力头的查询权重,表示空间编码器中第t帧在第n个注意力头上的键,表示空间编码器中第n个注意力头的查询权重,表示空间编码器中第t帧在第n个注意力头上的值,表示...

【专利技术属性】
技术研发人员:李威李佳辰吴晓杨添朝
申请(专利权)人:西南交通大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1