一种用于动作的时间轴定位的回归分类模块和方法技术

技术编号:25309505 阅读:38 留言:0更新日期:2020-08-18 22:28
一种用于动作的时间轴定位的回归分类模块,包括:回归器,用于根据最初的动作的特征计算出回归后的动作位置,其中,动作的特征是指由特征提取器学习到的视频特征;池化层,用于根据整段视频特征以及回归后的动作位置为输入,输出回归后的动作特征;以及分类器,用于使用回归后的动作特征预测出对应于回归后位置的动作类别,其中,回归器位于分类器前。本发明专利技术的回归分类模块首次将回归器放置于分类器前,从而消除了并行的分类器与回归器所带来的最终预测结果中动作类别与位置不相符的问题。本发明专利技术同时也设计了新的分类损失函数,使用经过回归器回归后的位置来计算分类损失函数中的分类目标标签。

【技术实现步骤摘要】
一种用于动作的时间轴定位的回归分类模块和方法
本专利技术涉及视频分析
,尤其是一种用于动作的时间轴定位的回归分类模块和方法。
技术介绍
动作的时间轴定位是指检测出视频中特定动作在时间上的位置以及其类别,目前这项技术主要借助深度神经网络来实现。动作的时间轴定位以视频作为输入,以预测出的视频中包含的特定动作的时间位置及类别作为输出。其一般步骤包括:1、提取出视频的特征;2、根据视频特征预测出初步的动作实例;3、根据初步的动作实例位置以及整个视频的特征计算出其对应的动作特征,并进一步预测出动作实例更精确的位置以及其类别。在大多数动作的时间轴定位模型中,步骤1一般由传统的时空特征提取器(比如I3DNetwork)来完成;步骤2则可分为单阶段和双阶段两种:单阶段一般采用设定好的不同位置和比例的框作为初步的动作实例,双阶段则采用一些经典算法(比如卷积神经网络)来生成初步的动作实例;步骤3一般使用初步动作的特征分别输入到并行的分类器和回归器中。但是并行的分类器和回归器会带来一个问题:回归器产生了新的动作位置,但是与此同时分类器所预测的类别确是针对初步的动作位置的。这样就导致了最终结果中动作的位置与类别不对应。另外,这种以为神经网络为基础的模型一般都包含训练和测试两个部分。设计好的模型通过训练得到合适的参数,并将训练得到的最终结果用于测试即检测视频中的动作。值得一提的是,在训练的过程中,大部分动作的时间轴定位模型会固定特征提取部分的权重来节省时间和空间的开销。
技术实现思路
本专利技术的用于动作的时间轴定位的回归分类模块及方法,设计了新的回归分类模块,将回归分类模块将回归器放置在分类器前,有效地解决了位置与类别不对应的问题。本专利技术所的技术方案为:根据本专利技术的一个方面,提供了一种用于动作的时间轴定位的回归分类模块,包括:回归器,用于根据最初的动作的特征计算出回归后的动作位置,其中,动作的特征是指由特征提取器学习到的视频特征;池化层,用于根据整段视频特征以及回归后的动作位置为输入,输出回归后的动作特征;以及分类器,用于使用回归后的动作特征预测出对应于回归后位置的动作类别,其中,回归器位于分类器前。可选的,在上述用于动作的时间轴定位的回归分类模块中,回归分类模块将回归后的动作位置和其对应的回归后的动作类别作为最终输出。可选的,在上述用于动作的时间轴定位的回归分类模块中,回归分类模块用于模型的训练的分类损失函数Lcls表示为:其中,表示第i个实例第k个类别所对应的类别标签(比如跳远、跳高或者背景),是使用回归后的动作的位置计算与目标动作之间的交并比并得到相应的类别标签。根据本专利技术的另一方面,提供了一种用于动作的时间轴定位的回归分类方法,包括:步骤1:回归器首先根据最初的动作的特征计算出回归后的动作位置,其中,动作的特征是指由特征提取器学习到的视频特征;步骤2:池化层根据整段视频特征以及回归后的动作位置为输入,输出回归后的动作特征;步骤3:分类器使用回归后的动作特征预测出对应于回归后位置的动作类别;以及步骤4:回归分类模块将回归后的动作位置和其对应的回归后的动作类别作为最终输出。可选的,在上述用于动作的时间轴定位的回归分类方法中,回归分类模块用于模型的训练的分类损失函数Lcls表示为:其中,表示第i个实例第k个类别所对应的类别标签(比如跳远、跳高或者背景),是使用回归后的动作的位置计算与目标动作之间的交并比并得到相应的类别标签。本专利技术的有益效果为:本专利技术的回归器以最初动作的特征为输入,计算出新的更准确的动作的位置;随后池化层以整段视频的特征以及回归后的动作位置为输入,计算出回归后的动作的特征;最后分类器根据回归后的动作的特征对动作进行分类得到回归后的动作所对应的类别。最终结果中动作的位置与类别相匹配,即动作的位置为回归后的坐标且动作的类别为回归后的位置上动作的随对应的类别。附图说明为了更清楚地说明本专利技术具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍。图1为本专利技术的回归分类模块与传统的动作的时间轴定位模型中回归与分类部分的对比;图2为本专利技术的回归分类模块的回归分类模块的内部结构示意图;图3为本专利技术的用于动作的时间轴定位的回归分类方法的流程图。具体实施方式下面结合附图,通过实施例进一步描述本专利技术,但不以任何方式限制本专利技术的范围。图1为本专利技术回归分类模块中的回归分来模块与传统的动作的时间轴定位方法中回归与分类部分的对比。从图1中可以发现,传统方法(左)中的分类器是基于回归前的动作进行类别预测的,而本专利技术(右)中的分类器则是基于回归后的动作进行分类的。具体地,图1中最上方的矩形框代表着视频特征,而其中,左图和右图中在视频上框起来的左右两个框分别代表着预测的动作回归后和回归前的位置。其中回归表示使用回归器输出的结果对原始位置进行校正以期能够获得更准确的位置,动作的动作特征一般指动作的关键信息的集合,用于对动作进行分析,比如分类。预测目标表示动作所对应的类别标签,分类器用于预测动作的类别。得到动作特征指根据动作的位置在视频特征上截取动作对应的特征。总的来说,图1(左)之中,通过回归,本专利技术对动作的位置进行修订,动作从回归前的动作转化为回归后的动作;最终结果中动作的位置来自于回归后动作输出的位置;最终结果中动作的类别来自分类器通过回归前的动作的特征进行预测输出的类别。图1(右)与图1(左)基本一致,除了右图中动作的特征来自于回归后的动作而不是回归前的动作。图2为本专利技术的回归分类模块的内部结构示意图,如图2所示,回归分类模块主要括回归器、池化层以及分类器三个部分,其中回归器位于分类器前,回归分类模块通过将回归器放置在分类器前消除了最终预测结果中动作的位置与类别的不一致问题,该回归分类模块以视频的特征作为输入,输出预测的动作位置和动作类别。图3为本专利技术的用于动作的时间轴定位的回归分类方法的流程图,包括以下步骤:步骤1:回归器首先根据最初的动作的特征计算出回归后的动作位置,其中,动作的特征是指由特征提取器学习到的视频特征;步骤2:池化层根据整段视频特征以及回归后的动作位置为输入,输出回归后的动作特征;步骤3:分类器使用回归后的动作特征预测出对应于回归后位置的动作类别;步骤4:回归分类模块将回归后的动作位置和其对应的回归后的动作类别作为最终输出。在训练过程中,该回归分类模块利用分类损失函数和回归损失函数进行优化。同时,回归分类模块也设计了相应的新的分类损失函数用于模型的训练。在传统方法中,分类损失函数(Lcls)一般表示为:其中N表示动作实例的数目,K表示动作类别的数目,表示第i个实例第k个类别所对应的类别标签(比如跳远、跳高或者背景),cik表示分类器预测出的第i个实例第k个类别对应的置信度。本专利技术中新的分类损失函数表示为:本文档来自技高网...

【技术保护点】
1.一种用于动作的时间轴定位的回归分类模块,其特征在于,包括:/n回归器,用于根据最初的动作的特征计算出回归后的动作位置,其中,动作的特征是指由特征提取器学习到的视频特征;/n池化层,用于根据整段视频特征以及回归后的动作位置为输入,输出回归后的动作特征;以及/n分类器,用于使用回归后的动作特征预测出对应于回归后位置的动作类别,/n其中,回归器位于分类器前。/n

【技术特征摘要】
1.一种用于动作的时间轴定位的回归分类模块,其特征在于,包括:
回归器,用于根据最初的动作的特征计算出回归后的动作位置,其中,动作的特征是指由特征提取器学习到的视频特征;
池化层,用于根据整段视频特征以及回归后的动作位置为输入,输出回归后的动作特征;以及
分类器,用于使用回归后的动作特征预测出对应于回归后位置的动作类别,
其中,回归器位于分类器前。


2.根据权利要求1所述的用于动作的时间轴定位的回归分类模块,其特征在于,所述回归分类模块将回归后的动作位置和其对应的回归后的动作类别作为最终输出。


3.根据权利要求1所述的用于动作的时间轴定位的回归分类模块,其特征在于,所述回归分类模块用于模型的训练的分类损失函数Lcls表示为:



其中,表示第u个实例第k个类别所对应的类别标签(比如跳远、跳高或者背景),是使用回归后的动作的位置计算与目标动...

【专利技术属性】
技术研发人员:李革靳策策张涛孔伟杰
申请(专利权)人:北京大学深圳研究生院
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1