一种连续多阶段建模的方法技术

技术编号:27847933 阅读:31 留言:0更新日期:2021-03-30 13:02
本发明专利技术提供了一种连续多阶段建模的方法,用于在连续视频流中进行活动检测的新型网络,其特征在于,该网络以一段未剪切的视频作为输入,输出每个小片时间段对应的动作建议类别,类别共分为6类:背景,准备,开始,确定,结束,后续;连续多阶段建模的方法的步骤如下:行为阶段类别分类预设;特征提取,使用各种卷积网络来进行动作识别;行为阶段分类;提案生成;候选区域评估;由于行为阶段分类的输出与真实实况非常吻合,为每个建议设置了一个预设分数;非极大值抑制:使用非最大抑制NMS删除多余的建议,最后得到最终的行为建议区域。议,最后得到最终的行为建议区域。议,最后得到最终的行为建议区域。

【技术实现步骤摘要】
一种连续多阶段建模的方法


[0001]本专利技术涉及一种新的时序检测网络,是一种用于在连续视频流中进行活动检测的新型网络。

技术介绍

[0002]时间动作检测任务专注于预测动作类别以及未修剪视频中动作实例的时间边界。大多数动作检测方法的灵感都来自图像对象检测的成功{faster

cnn,yolo,ssd}。主流方法可以分为两种,一种是两阶段流水线另一种是单阶段流水线。对于两阶段流水线,第一步是生成提案,第二步是对提案进行分类。根据先前工作的发现,在相同条件下,两阶段方法的性能优于单阶段方法。在提案生成任务中,较早的工作主要使用滑动窗口作为候选对象。近来,很多方法都引用预设的固定时间锚点来生成建议。例如TAG将活动实例分为三个阶段,然后使用动作分类器评估二进制动作概率。SMS假定每个时间窗口都从一个开始帧开始,然后是一个或多个中间帧,最后是一个结束帧。BSN定位具有高概率的时间边界,然后评估由这些边界生成的候选提议的置信度。BMN提出了一种边界匹配机制来评估密集分布提案的置信度得分。MGG提出了一种多粒度生成器,用于从不同粒度的角度生成时间动作建议。与上述工作不同,我们使用六个阶段来表示一个完整的动作实例。每个阶段对应一个动作的周期而不是一个帧。我们不仅预测每帧属于行为的可能性,而且将动作作为连续的多阶段序列进行预测。
[0003]在一段视频中准确的定位行为的开始和结束时间仍然是一个开放性的难题,特别是把2d的目标检测方法套用到行为检测中时,往往得出不合人意的效果。
[0004]其中一个重要原因是在行为检测中,确定一个行为的开始和结束的时间点往往是模糊的,这使得开始的时间点与之前之后的特征区分并不明显。

技术实现思路

[0005]为了解决上述现有技术的问题,本专利技术提出了一种连续多阶段建模的方法,用于在连续视频流中进行活动检测新型网络。
[0006]本专利技术把一段完整行为分为5个阶段,准备,开始,行为确认,结束,后续。再加上不属于行为的背景阶段,对每个视频的某个点都可以对应于这6种阶段中的一种。一段视频必须包含开始,行为确认,结束才认为是一段行为。本专利技术关注于行为提议的生成,在开放性数据上的实验表明,仅用RGB图片序列作为输入,在同样提取特征网络下,本专利技术所提的方法是达到了可以和所有双流网络竞争甚至超越的性能。
[0007]本专利技术的目的是提出一种连续多阶段建模的方法,用于在连续视频流中进行活动检测的新型网络。如图1所示,该网络以一段未剪切的视频作为输入,输出每个小片时间段对应的动作建议类别,类别共分为6类:背景,准备,开始,确定,结束,后续。如图1网络结构如下:(a)特征提取(Feature Extractor Subnet):使用3D卷积网络或者双流网络,比如r

c3d,用于对输入视频进行编码。(2)行为阶段分类(Action Stage Subnet):输入特征序列,
经过两个conv

3d后送入一个双向lstm网络,再接一个分类网络,输出动作完成度类别(3)建议生成网络(Proposal Generation Subnet),对动作网络进行组合以生成建议。(4)建议评估网络(IoU Evaluation Subnet),对每个生成建议计算得分(5)Soft

NMS非极大值抑制。
[0008]本专利技术连续多阶段建模的方法的步骤如下:
[0009]步骤一行为阶段类别分类预设:假设我们视频输入v={S1,

,St,

,Sn},其中St表示第t帧,n是视频的总帧数,{Ga,Gb}表示一组提案,Ga表示开始时间,Gb表示结束时间,则持续时间D=Gb

Ga。为了更好的利用上下文信息,特别是避免硬性区分开始时间点前后的特征,我们首先把提案扩充如下:增加准备点Gp=Ga

D/2,后续点Gf=Gb+D/2;其次我们把{Ga,Gb}分成3段,两个分割点分别是:开始点Gs=Ga+D/3,结束点Ge=Gb

D/3.通过这种方式,扩展提案按顺序分为5段,分别是准备{Gp,Ga},开始{Ga,Gs},确认{Gs,Ge},结束{Ge,Gb},后续{Gb,Gf},其他的帧属于背景阶段。按此划分,我们有六个行为阶段类别:背景,准备,开始,确认,结束,后续。输入视频的每个帧对应于六个行为阶段类别之一。
[0010]步骤二特征提取(Feature Extractor Subnet):为了从给定的视频中提取特征,我们可以使用各种卷积网络来进行动作识别。在我们的框架中,我们将3D卷积网络用作特征提取器(比如经典C3D卷积网络),并且还尝试了双流网络。以C3D网络为例,特征提取的输入为一系列RGB图片,尺寸为[3
×
Li
×
Hi
×
Wi]的输入帧,并输出基本特征,Li指输入图片长度,Hi指输入图片的高度,Wi指输入图片的宽度。输出特征的尺寸为:[Co
×
Lo
×
Ho
×
Wo],Co指输出特征的通道数,Lo指输出特征的长度,Ho指输出特征的高度,Wo指输出特征的宽度。Lo,Ho,Wo通过网络相对于原始输入特征大小进行缩放。例如,假设特征提取在输入长度上的缩放比例为sc,则输出特征长度Lo=Li/sc。
[0011]步骤三行为阶段分类(Action Stage Subnet):如附图2所示,行为阶段分类由CNN网络和LSTM网络组成。CNN网络可缩放或扩大特征提取到的特征矩阵,使其适合LSTM网络的输入,包含N个卷积网络层(内核大小为k,隐藏大小为h)和一个最大池化层。CNN网络的输出特征大小为[Lc
×
Lo],Lc指特征的通道数,Lo指特征的长度,特征的宽高都比缩放为1,其中Lc也是LSTM网络的输入通道数。我们使用的LSTM网络是具有N层的双向LSTM,它可以最大程度地利用上下文信息。CNN网络的输出馈入LSTM网络,并且输出动作阶段类别序列对应于长度Lo,即特征的长度不变。令Q=[q1,q2,

,qi,

,qn]表示经过LSTM网络后输出的动作阶段类别序列,qi指序列中第i个输出,n=Lo即输出的序列总长度。由于输出长度Lo是按比例缩放的,因此预设的帧级动作阶段类别也按相同比例缩放。
[0012]步骤四提案生成(Proposal Generation Subnet):步骤三的输出是操作类别序列Q,该序列可能包含了准备,开始,确认,结束,后续,背景等一个或多个阶段。在序列Q的子序列中,令Qr=[r1,r2,

,ri,

,rn]表示准备序列,ri表示Qr中第i个输出的类别;Qs=[s1,s2,

,si,

,sn]表示开始顺序,si表示Qs中第i个输出的类别;Qc=[c1,c2,
本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种连续多阶段建模的方法,用于在连续视频流中进行活动检测的新型网络,其特征在于,该网络以一段未剪切的视频作为输入,输出每个小片时间段对应的动作建议类别,类别共分为6类:背景,准备,开始,确定,结束,后续;网络结构如下:(1)特征提取:rgb或者双流网络,用于对输入视频进行编码;(2)行为阶段分类:输入特征序列,经过两个conv

3d后送入一个双向lstm网络,再接一个分类网络,输出动作完成度类别;(3)建议生成网络,对动作网络进行组合以生成建议;(4)建议评估网络;(5)Soft

NMS;连续多阶段建模的方法的步骤如下:步骤一 行为阶段类别分类预设:设视频输入v={S1,

,St,

,Sn},其中St表示第t帧,n是视频的总帧数,{Ga,Gb}表示一组提案,Ga表示开始时间,Gb表示结束时间,则持续时间D=Gb

Ga;为了更好的利用上下文信息,避免硬性区分开始时间点前后的特征,首先把提案扩充如下:增加准备点Gp=Ga

D/2,后续点Gf=Gb+D/2;其次把{Ga,Gb}分成3段,两个分割点分别是:开始点Gs=Ga+D/3,结束点Ge=Gb

D/3.通过这种方式,扩展提案按顺序分为5段,分别是准备{Gp,Ga},开始{Ga,Gs},确认{Gs,Ge},结束{Ge,Gb},后续{Gb,Gf},其他的帧属于背景阶段;按此划分,有六个行为阶段类别:背景,准备,开始,确认,结束,后续;输入视频的每个帧对应于六个行为阶段类别之一;步骤二 特征提取:为了从给定的视频中提取特征,使用各种卷积网络来进行动作识别;将3D卷积网络用作特征提取器,并且双流网络;以C3D网络为例,特征提取的输入为一系列RGB图片,尺寸为[3
×
Li
×
Hi
×
Wi]的输入帧,并输出基本特征,Li指输入图片长度,Hi指输入图片的高度,Wi指输入图片的宽度;输出特征的尺寸为:[Co
×
Lo
×
Ho
×
Wo],Co指输出特征的通道数,Lo指输出特征的长度,Ho指输出特征的高度,Wo指输出特征的宽度;Lo,Ho,Wo通过网络相对于原始输入特征大小进行缩放;设特征提取在输入长度上的缩放比例为sc,则输出特征长度Lo=Li/sc;步骤三 行为阶段分类:行为阶段分类由CNN网络和LSTM网络组成;CNN网络可缩放或扩大特征提取到的特征矩阵,使其适合LSTM网络的输入,包含N个卷积网络层(内核大小为k,隐藏大小为h)和一个最大池化层;CNN网络的输出特征大小为[Lc
×
Lo],Lc指特征的通道数,Lo指特征的长度,特征的宽高都比缩放为1,其中Lc也是LSTM网络的输入通道数;使用的LSTM网络是具有N层的双向LSTM,它可以最大程度地利用上下文信息;CNN网络的输出馈入LSTM网络,并且输出动作阶段类别序列对应于长度Lo,即特征的长度不变;令Q=[q1,q2,

,qi,

,qn]表示经过LSTM网络后输出的动作阶段类别序列,qi指序列中第i个输出,n=Lo即输出的序列总长度;由于输出长度Lo是按比例缩放的,预设的帧级动作阶段类别也按相同比例缩放;步骤四 提案生成:步骤三的输出是操作类别序列Q,该序列可能包含了准备,开始,确认,结束,后续,背景等一个或多个阶段;在序列Q的子序列中,令Qr=[r1,r2,...

【专利技术属性】
技术研发人员:胡玉帅沈修平
申请(专利权)人:上海悠络客电子科技股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1