一种端到端的局部视频行为语义预测方法技术

技术编号:37875684 阅读:22 留言:0更新日期:2023-06-15 21:04
本发明专利技术提出一种端到端的局部视频行为语义预测方法,包括,获取包含人体运动的视频;对视频中的片段采样x帧原始帧,对x帧原始帧的RGB差分信息进行下采样,通过2D卷积网络对下采样得到的RGB差分特征进行特征提取,获得局部运动特征,对局部运动特征进行上采样,获得最终的局部运动特征;将原始帧通过2D卷积网络得到局部空间特征,将最终的局部运动特征与局部空间特征融合得到融合特征;将融合特征与局部运动特征融合得到片段的时空特征;根据视频中所有片段的时空特征,得到历史全局尺度,根据历史全局尺度对视频进行动作类别预测。通过本发明专利技术提出的方法,实现了以端到端的方式预测局部视频中的人体行为语义。局部视频中的人体行为语义。局部视频中的人体行为语义。

【技术实现步骤摘要】
一种端到端的局部视频行为语义预测方法


[0001]本专利技术属于行为分析领域。

技术介绍

[0002]视频中的人体行为语义预测的目标是根据观察到的正在进行的人体行为动作来预测其语义标签。它是人类行为分析研究领域的一个子领域。与具有完全执行的传统行为语义识别不同,该任务由于人体行为的不完整性和动作的持续演化,使其语义预测更具挑战性。由于其在一些实时性要求较高的场景中的广泛应用,如人机交互、安全监控等,今年来该领域引起了大量的研究关注。
[0003]尽管先前的工作通过采用两阶段方法取得了令人满意的结果,但通常存在建模复杂和特征冗余的问题。先前的方法将特征提取与行为预测分离。这种分离操作使得所获得的时空表征可能偏离预测任务本身,并且使模型设计复杂化。其次,由于特征是离线生成的,因此必须提前将完整的动作划分为固定的片段,这不仅导致了特征在时间维度上的冗余,而且不适用于实际场景。
[0004]与空间多尺度技术在图像领域的应用类似,在视频分析中,时间维度的多尺度研究也在增加。与图像相比,视频中时间尺度的变化带来了额外的挑战。如何有效地利用不同时间尺度的运动演化信息,在视频运动分析中逐渐受到关注。Feichtenhofer等人提出了用于视频识别的SlowFast网络。他们的方法利用两个分支,一个是低帧率的慢路径,另一个是高帧率的快路径,以精细的时间分辨率捕获空间语义和运动。Wang等人提出了一种有效的多尺度动作识别模型,该模型利用短期和长期时间差分模块更好地捕捉短时和长时运动信息。
[0005]大多数现有的行为预测方法对时间多尺度信息关注不足,使得模型无法捕获细粒度的时序信息。他们使用固定的帧速率对每个局部视频进行采样,并使用固定的时间尺度进行特征生成和行为语义预测。尽管这些方法在一定程度上简化了特征生成输入的处理并减少了计算,但它们忽略了动作是出于不断演化中的。过多的细粒度信息将丢失,视频中的时序信息无法充分利用。
[0006]本专利技术考虑了人体行为相邻帧之间的局部演化信息和整个视频已观测序列的历史全局演化信息。因此,我们设计了两个时间尺度来增加时序的细粒度信息。首先,局部尺度使用视频帧的RGB差分信息来捕获每个局部视频中的时序信息。其次,历史全局尺度使用LSTM模块融合所有观测到的行为演化信息。通过在短时和长时时间尺度上建模,我们的方法可以在不增加计算负载的情况下挖掘更丰富的时序信息。

技术实现思路

[0007]本专利技术旨在至少在一定程度上解决相关技术中的技术问题之一。
[0008]为此,本专利技术的目的在于提出一种端到端的局部视频行为语义预测方法,用于在不增加计算负载的情况下挖掘目标视频丰富的时序信息。
[0009]为达上述目的,本专利技术第一方面实施例提出了一种端到端的局部视频行为语义预测方法,包括:
[0010]获取包含人体运动的视频;
[0011]对所述视频中的片段采样x帧原始帧,对所述x帧原始帧的RGB差分信息进行下采样,通过2D卷积网络对下采样得到的RGB差分特征进行特征提取,获得局部运动特征,对所述局部运动特征进行上采样,获得最终的局部运动特征;
[0012]将所述原始帧通过2D卷积网络得到局部空间特征,将所述最终的局部运动特征与所述局部空间特征融合得到融合特征;将所述融合特征与所述局部运动特征融合得到所述片段的时空特征;
[0013]根据所述视频中所有片段的时空特征,得到历史全局尺度,根据所述历史全局尺度对所述视频进行动作类别预测。
[0014]另外,根据本专利技术上述实施例的一种端到端的局部视频行为语义预测方法还可以具有以下附加的技术特征:
[0015]进一步地,在本专利技术的一个实施例中,在获取包含人体运动的视频之后,还包括:
[0016]将所述视频等分成K个片段,其中K为大于1的正整数。
[0017]进一步地,在本专利技术的一个实施例中,在对所述视频中的片段采样x帧原始帧之后,还包括:
[0018]利用所述x帧原始帧做差,计算所述x帧原始帧的RGB差分信息,得到RGB差分特征。
[0019]进一步地,在本专利技术的一个实施例中,所述根据所述视频中所有片段的时空特征,得到历史全局尺度,包括:
[0020]通过LSTM模型将所述视频中所有片段的时空特征按时间维度添加到历史序列中,实现对历史全局时空特征的提取,得到历史全局尺度。
[0021]为达上述目的,本专利技术第二方面实施例提出了一种端到端的局部视频行为语义预测装置,包括以下模块:
[0022]获取模块,用于获取包含人体运动的视频;
[0023]提取模块,用于对所述视频中的片段采样x帧原始帧,对所述x帧原始帧的RGB差分信息进行下采样,通过2D卷积网络对下采样得到的RGB差分特征进行特征提取,获得局部运动特征,对所述局部运动特征进行上采样,获得最终的局部运动特征;
[0024]融合模块,用于将所述原始帧通过2D卷积网络得到局部空间特征,将所述最终的局部运动特征与所述局部空间特征融合得到融合特征;将所述融合特征与所述局部运动特征融合得到所述片段的时空特征;
[0025]预测模块,用于根据所述视频中所有片段的时空特征,得到历史全局尺度,根据所述历史全局尺度对所述视频进行动作类别预测。
[0026]进一步地,在本专利技术的一个实施例中,所述获取模块,还用于:
[0027]将所述视频等分成K个片段,其中K为大于1的正整数。
[0028]进一步地,在本专利技术的一个实施例中,所述提取模块,还用于:
[0029]利用所述x帧原始帧做差,计算所述x帧原始帧的RGB差分信息,得到RGB差分特征。
[0030]进一步地,在本专利技术的一个实施例中,所述预测模块,还用于:
[0031]通过LSTM模型将所述视频中所有片段的时空特征按时间维度添加到历史序列中,
实现对历史全局时空特征的提取,得到历史全局尺度。
[0032]为达上述目的,本专利技术第三方面实施例提出了一种计算机设备,其特征在于,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时,实现如上所述的一种端到端的局部视频行为语义预测方法。
[0033]为达上述目的,本专利技术第四方面实施例提出了一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如上所述的一种端到端的局部视频行为语义预测方法。
[0034]本专利技术实施例提出的端到端的局部视频行为语义预测方法,首先提出了一种端到端的方法,该方法有效地降低了模型的复杂性,并引入了更细粒度的时空信息。其次从采样方法、局部时空信息表征和长期时间序列融合三个方面设计了端到端网络。为了减少计算消耗以实现端到端的结构,使用了2D卷积而不是双流网络或3D卷积来提取局部时空特征。最后,为了增强行为动作演化的时序信息,提出了一个历史全局尺度,以融合行为动作的历史演化信息。
附图说明
[0035]本专利技术上述本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种端到端的局部视频行为语义预测方法,其特征在于,包括以下步骤:获取包含人体运动的视频;对所述视频中的片段采样x帧原始帧,对所述x帧原始帧的RGB差分信息进行下采样,通过2D卷积网络对下采样得到的RGB差分特征进行特征提取,获得局部运动特征,对所述局部运动特征进行上采样,获得最终的局部运动特征;将所述原始帧通过2D卷积网络得到局部空间特征,将所述最终的局部运动特征与所述局部空间特征融合得到融合特征;将所述融合特征与所述局部运动特征融合得到所述片段的时空特征;根据所述视频中所有片段的时空特征,得到历史全局尺度,根据所述历史全局尺度对所述视频进行动作类别预测。2.根据权利要求1所述的方法,其特征在于,在获取包含人体运动的视频之后,还包括:将所述视频等分成K个片段,其中K为大于1的正整数。3.根据权利要求1所述的方法,其特征在于,在对所述视频中的片段采样x帧原始帧之后,还包括:利用所述x帧原始帧做差,计算所述x帧原始帧的RGB差分信息,得到RGB差分特征。4.根据权利要求1所述的方法,其特征在于,所述根据所述视频中所有片段的时空特征,得到历史全局尺度,包括:通过LSTM模型将所述视频中所有片段的时空特征按时间维度添加到历史序列中,实现对历史全局时空特征的提取,得到历史全局尺度。5.一种端到端的局部视频行为语义预测装置,其特征在于,包括以下模块:获取模块,用于获取包含人体运动的视频;提取模块,用于对所述视频中的片段采样x帧原始帧,对所述x帧原始帧的RGB差分信息进行下采样,通过2D卷积...

【专利技术属性】
技术研发人员:尹建芹刘孝发孙源张志成唐进
申请(专利权)人:北京邮电大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1