基于高精度边界预测的时序动作检测方法及计算机设备技术

技术编号:36286358 阅读:20 留言:0更新日期:2023-01-13 09:57
本发明专利技术公开了一个基于高精度边界预测的时序动作检测方法及计算机设备。该方法的任务是对候选提名由粗到细的多阶段修正从而高质量、高效率地完成时序动作定位,主要包含以下步骤:针对起始、中间和结束三个过程进行高斯过程建模,输出每帧为某个动作起始、中间和结束的概率,用于提升边界预测和动作分类的质量;针对从视频中提取到的特征图进行帧级分类;生成高质量的时序候选动作提名和对应的置信度分数;对回归网络结果、帧级动作分类网络结果以及精细动作提名生成网络结果设计总损失函数对时序动作检测架构进行优化。本发明专利技术提高了时序动作检测的精度和效率。高了时序动作检测的精度和效率。高了时序动作检测的精度和效率。

【技术实现步骤摘要】
基于高精度边界预测的时序动作检测方法及计算机设备


[0001]本专利技术涉及时序动作检测
,具体地,涉及一种基于高精度边界预测的时序动作检测方法及计算机设备。

技术介绍

[0002]随着互联网的时代来临,网络视频的数量呈现爆炸式增长,每天至少有上千万的视频上传网络并需要审核过滤。目前来看,仅靠人工已经无法满足海量视频数据审核的需求,从而促进了自动视频内容理解技术的发展。视频理解包括了时序动作检测、动作识别、视频描述、异常事件检测等,其中时序动作检测最为重要。摄像设备拍摄的视频通常较长,而我们感兴趣的动作只发生在视频的一小部分。因此,需要在时序上定位每个动作片段,同时精确的检测出动作开始和结束的时间点,为后续的动作分类、视频描述以及异常事件检测等提供更具判别力的视频特征表达。时序动作检测已经广泛应用于诸如:监控视频内容分析、精彩片段剪辑和选取以及视频推荐等真实应用场景中,同时对于视频处理技术的智能化具有重大的推动意义。
[0003]现有的时序动作检测一般可以分为时序动作提名生成和分类两个过程。虽然动作识别方法已经取得了令人印象深刻的分类精度,但在几个主流数据集例如HACS、ActivityNet

v1.3和THUMOS14的评估中,时序动作检测的性能仍然不能令人满意。因此,许多研究者的首要目标是提高时序动作提名的质量。因此,对生成的动作时序候选提名精度提高的算法是关键。
[0004]常用的时序动作检测方法包括基于预定义锚点的方法,以及基于边界的方法。预定义锚点的方法基于密集多尺度的锚点片段来生成时序动作检测结果。由于一个动作片段实例的持续时间从几秒到几分钟不等,基于预定义锚点的方法很难在合理的算力约束下检测出所有不同长度的动作片段。基于边界的方法首先预测起始点和终止点的边界置信度,然后采用自底向上的分组策略匹配起始和结束帧。该方法对边界信息变化敏感,从而能够生成较精确的边界。然而,基于边界的方法主要利用局部特征提取边界信息。因此,较容易受到局部噪声的影响,并且容易产生不完整的预测框。此外,这两类方法大都依赖冗余的多尺度锚点或者边界匹配模块来产生时序提名,需要大量的先验知识和手工调参。
[0005]近期,以基于时序上下文聚合的动作提名修正网络为主的方法利用边界信息和提名的内部信息分别进行帧级边界回归和片段级边界回归。具体来说,帧级边界回归优化对边界敏感候选提名的起始和结束位置,同时片段级边界回归通过候选提名的全局信息优化提名的中心位置和提名的持续时间,最后通过局部帧级边界回归和全局片段级边界回归的互补融合来逐步细化边界的精度,从而得到较高质量的提名。基于时序上下文聚合的动作提名修正网络既提高了提名边界的准确性也突破了锚点不灵活的限制。然而,尽管该网络在性能和效率上相比于前人的方法都取得了显著的领先,但仍存在一些弊端:(1)在进行时序动作生成任务时将起始和终止定义为单帧的点,忽视了起始或终止动作变化性,可以看作多帧的一个过程,导致生成的边界概率序列具有很多局部或者全局的噪声,从而使得动
作提名边界质量不佳。(2)效率低下:基于时序上下文聚合的动作提名修正网络分别完成动作提名生成任务和动作分类任务,使得两阶段缺乏联合优化。

技术实现思路

[0006]为了解决现有技术的不足,本专利技术一种基于高精度边界预测的时序动作检测方法,针对动作检测任务中各类动作起始、结束时间点定位不精确的问题,采用高斯模型将动作起始和结束时间点描述为一个高斯变化的多帧过程,避免定义单一的起始帧和结束帧带来的过度自信对动作定位精度的影响。此外,使用单帧动作分类的时序动作检测方法,通过对包含动作的每帧视频进行分类,提升动作边界定位精度。最后,提出基于每帧图像动作分类和候选动作提名的融合策略进一步提升密集动作视频中不同类动作起始、结束时间点的定位精度。
[0007]为了实现上述目的,本专利技术提供一种基于高精度边界预测的时序动作检测方法,包括以下步骤:
[0008]S1:采用特征提取器对未剪辑的视频X进行特征提取,得到特征S1:采用特征提取器对未剪辑的视频X进行特征提取,得到特征其中T
×
D表示特征维度,T是视频的总片段个数,i表示片段序号,D是每个片段特征的维度,f
i
表示第i个片段的视觉特征;
[0009]S2:通过高斯过程建模每个时序动作实例的开始、中间和结束三个过程生成对应的置信度曲线,得到第t帧的第k类动作开始置信度分数中间过程的置信度分数和结束置信度分数
[0010]S3:通过动作回归模块预测视频第t帧的第k类动作置信度分数S3:通过动作回归模块预测视频第t帧的第k类动作置信度分数其中C为数据集动作总类别数;
[0011]S4:将S1的特征F输入时序动作分割模型,输出每一帧的动作分类y
o
∈R
T
×
k
和每类动作的置信度分数S
action
,其中k为动作类别;
[0012]S5:使用S3中得到的置信度分数修正由S4中得到的每一帧的动作分类,得到每一帧修正后的动作分类y
n
∈R
T
×
k
以及提名的动作类别Y,并根据帧级别的动作分类进一步获得帧级别的动作提名信息N
P
为提名个数;
[0013]S6:将S1的特征F输入TCANet模型(基于时序上下文聚合的动作提名修正网络),得到视频X的片段级别的候选动作提名信息和每个候选动作提名的置信度分数S
props

[0014]S7:使用非极大抑制算法去除S6中冗余的时序提名;
[0015]S8:计算S5获得的帧级别的动作提名信息和S7获得的片段级别的候选动作提名信息的交叠率IoU值,当交叠率IoU值大于阈值时,进行融合得到时序动作提名信息并计算对应的时序动作检测置信度分数S
det

[0016]S9:根据整个时序动作检测任务S2

S8构建多任务学习模型,通过融合回归损失、
分类损失、时序提名定位损失对多任务学习模型进行训练,训练完成后,通过训练好的多任务学习模型输出最终的时序动作检测结果,所述时序动作检测结果包括:融合得到时序动作提名信息动作类别Y以及对应的时序动作检测置信度分数S
det

[0017]优选地,步骤S3中,所述动作回归模块包括:L层的扩张卷积层,每个扩张卷积层包含一个一维空洞卷积层、一个激活函数层和一个1
×
1卷积将输出映射到动作置信度分数向量
[0018]优选地,步骤S3中,使用均方误差损失函数作为回归损失,回归损失计算公式如下:
[0019][0020]其中,n为未剪辑的视频X的总帧数,为动作置信度分数向量y
i
为真实标签即S2生成的开始置信度中间置信度和结束置信度
[0021]优选地,步骤S4中,使用交叉熵损失和平滑损失构成分类损失,计算公式如下:<本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于高精度边界预测的时序动作检测方法,其特征在于,包括以下步骤:S1:采用特征提取器对未剪辑的视频X进行特征提取,得到特征S1:采用特征提取器对未剪辑的视频X进行特征提取,得到特征其中T
×
D表示特征维度,T是视频的总片段个数,i表示片段序号,D是每个片段特征的维度,f
i
表示第i个片段的视觉特征;S2:通过高斯过程建模每个时序动作实例的开始、中间和结束三个过程生成对应的置信度曲线,得到第t帧的第k类动作开始置信度分数中间过程的置信度分数和结束置信度分数S3:通过动作回归模块预测视频第t帧的第k类动作置信度分数S3:通过动作回归模块预测视频第t帧的第k类动作置信度分数其中C为数据集动作总类别数;S4:将S1的特征F输入时序动作分割模型,输出每一帧的动作分类y
o
∈R
T
×
k
和每类动作的置信度分数S
action
,其中k为动作类别;S5:使用S3中得到的置信度分数修正由S4中得到的每一帧的动作分类,得到每一帧修正后的动作分类y
n
∈R
T
×
k
以及提名的动作类别Y,并根据帧级别的动作分类进一步获得帧级别的动作提名信息N
P
为提名个数;S6:将S1的特征F输入TCANet模型,得到视频X的片段级别的候选动作提名信息和每个候选动作提名的置信度分数S
props
;S7:使用非极大抑制算法去除S6中冗余的时序提名;S8:计算S5获得的帧级别的动作提名信息和S7获得的片段级别的候选动作提名信息的交叠率IoU值,当交叠率IoU值大于阈值时,进行融合得到时序动作提名信息并计算对应的时序动作检测置信度分数S
det
;S9:根据整个时序动作检测任务S2

S8构建多任务学习模型,通过融合回归损失、分类损失、时序提名定位损失对多任务学习模型进行训练,训练完成后,通过训练好的多任务学习模型输出最终的时序动作检测结果,所述时序动作检测结果包括:融合得到时序动作提名信息动作类别Y以及对应的时序动作检测置信度分数S
det
。2.如权利要求1所述的基于高精度边界预测的时序动作检测方法,其特征在于,步骤S3中,所述动作回归模块包括:L层的扩张卷积层,每个扩张卷积层包含一个一维空洞卷积层、一个激活函数层和一个1
×
1卷积将输出映射到动作置信度分数向量3.如权利要求1所述的基于高精度边界预测的时序动作检测方法,其特征在于,步骤S3中,使用均方误差损失函数作为回归损失,回归损失计算公式如下:其中,n为未剪辑的视频X的总帧数,为动作置信度分数向量y
i
为真实标签即S2生成
的开始置信度分数中间过程的置信度分数和结束置信度分数4.如权利要求1所述的基于高精度边界预测的时序动作检测方法,其特征在于,步骤S4中,使用交叉熵损失和平滑损失构成分类损失,计算公式如下:其中,是t时动作为真实标签的预测概率,y
t,c
是t时动作为c的预测概率,y
t

1,c
是t

1时动作为c的预测概率,∑
t

c
是对每一帧每个动作进行求和,λ是一个平衡权重。5.如权利要求1所述的基于高精度边界预测的时序动作检测方法,其特征在于,步骤S6中,使用IoU预测损失L
iou
和回归损失L
reg
作为时序提名定位损失L
loc
,计算公式如下:L
loc
=L<...

【专利技术属性】
技术研发人员:殷蔚明陈思微黄罗琪罗大鹏陈应程卓李欣王良波柳旭辉
申请(专利权)人:中建三局智能技术有限公司中建三局第二建设工程有限责任公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1