当前位置: 首页 > 专利查询>江南大学专利>正文

一种基于多层次时空特征融合增强的双流网络行为识别方法技术

技术编号:25757305 阅读:43 留言:0更新日期:2020-09-25 21:06
一种基于多层次时空特征融合增强的双流网络行为识别方法。该方法采用了一种基于时空双流网络的网络架构,称作多层次时空特征融合增强网络。针对传统双流网络仅仅在最后层融合两个流的类别概率分布导致浅层特征的作用被忽视以及双流网络的互补特点无法被充分利用的问题,本发明专利技术提出多层次时空特征融合模块,在双流不同深度层级通过时空特征融合模块捕获多深度级别的混合特征以充分利用双流网络。此外,在网络中,平等地对待所有特征会削弱那些对分类贡献大的特征的作用。本发明专利技术在网络中提出分组增强注意力模块,自动增强特征上的有效区域以及通道的显著性。最终本发明专利技术通过汇集双流网络以及特征融合的分类结果,进一步提高了行为识别模型的鲁棒性。

【技术实现步骤摘要】
一种基于多层次时空特征融合增强的双流网络行为识别方法
本专利技术属于机器视觉领域,特别涉及一种基于多层次时空特征融合增强的双流网络行为识别方法。
技术介绍
动作识别已成为计算机视觉界的活跃领域,并广泛应用于视频监视,暴力检测,人机交互等各个领域。视频动作识别是为了挖掘可以表达视频所代表的目标动作的关键特征,相比于静态图像,它包含了丰富的运动信息,然而动作场景的多样性仍使得有效特征的提取具有挑战性。因此,本专利技术以视频为研究对象,针对网络提取视频中的空间和时间特征所面临的问题,提出独特的特征融合方法和注意力方法来有效地提取辨别性特征用于行为识别。目前,面向视频的行为识别主要使用双流网络,并且发展趋势十分良好。在双流网络中,双流架构通过在外观上和光流堆上分别训练各自的卷积网络来捕获外观信息和运动信息,最后使用分数融合两个卷积网络的分类结果。但是传统双流网络仍旧面临以下问题:(1)如何有效利用两个流分别捕获的信息?(2)网络中平等的对待特征的每个区域与通道会削弱那些对分类有用的区域与通道的作用,如何有效地对捕获特征进行提炼?(3)如何有效地融合获取的空间信息和时间信息?基于以上考虑,本专利技术提出一个基于多层次时空特征融合增强的双流网络行为识别方法。首先,使用提出的时空特征融合模块对双流网络不同深度层模块的特征进行融合来提取多深度级别混合特征。其次,利用提出的分组增强注意力模块对提取的混合特征进一步提炼,使网络自动关注特征中对于分类有作用的区域与通道。
技术实现思路
本专利技术的主要目的是提出一种基于多层次时空特征融合增强的双流网络(Multipledepth-levelsfeaturefusionenhancedNetwork,MDFFEN)行为识别方法,更好地获取视频的有效特征以及特征上的辨别性信息,以进行高效的行为识别。为了实现上述目的,本专利技术提供如下技术方案:一种基于多层次时空特征融合增强的双流网络行为识别方法,步骤如下:步骤一、获取RGB帧:对于数据集中的每个视频进行取帧处理,获得RGB原始帧N为帧数;步骤二、计算光流图:应用TVL1[ColomaBallester,LluisGarrido,VanelLazcano,andVicentCaselles.Atv-l1opticalflowmethodwithocclusiondetection.InJointDagm,2013.]算法对RGB原始帧frgb两两进行计算得到光流图步骤三、对提取的所有RGB帧与光流图分段:将步骤一、步骤二获取的所有RGB帧与光流图平均分成三段每段时序上连续,且任意两段间不重叠。步骤四、从srgb中每段分别随机获取RGB帧构建空间网络的输入:其中步骤五、从sopt中每段分别随机获取多张光流图构建时间的网络输入:其中步骤六、基于空间网络Ns计算空间类别概率分布QS:将步骤四构建的空间网络的输分别送入空间网络Ns提取特征,空间网络Ns基于InceptionV3[2]网络构建,再经过全局平均池化操作和全连接操作得到空间类别概率分布其中表示步骤三的第i个RGB帧分段RGBi对应的空间类别概率分布;步骤七、基于时间网络Nt计算时间类别概率分布OT:将步骤五构建的时间网络的输入分别送入时间网络Nt提取特征,时间网络Nt基于InceptionV3[ChristianSzegedy,VincentVanhoucke,SergeyIoffe,JonathonShlens,andZbigniewWojna.Rethinkingtheinceptionarchitectureforcomputervision.InComputerVision&PatternRecognition,2016.]网络构建,再经过全局平均池化操作和全连接操作得到时间类别概率分布其中表示步骤三中第i个光流图分段OPTi对应的时间类别概率;步骤八、基于双流融合网络NTSFF计算特征融合类别概率分布OF:使用多层次时空特征融合模块将时空特征融合模块STFF分别嵌入至空间网络Ns和时间网络Nt的InceptionV3的多个子模块中以融合提取多深度级别混合特征,然后通过分组增强注意力模块对提取的特征进一步提炼,最后通过全局平均池化操作和全连接操作得到特征融合类别概率分布其中表示步骤三的第i个RGB帧分段RGBi和第i个光流图分段OPTi对应的特征融合类别概率分布;步骤九、计算多段融合的类别概率分布:根据步骤六、步骤七和步骤八得到的多段类别概率分布与通过三段平均值得到多段融合的类别概率分布步骤十、计算三个流加权融合的类别概率分布δ:在双流网络的基础上融合步骤九得到的多段融合的空间类别概率分布δs、多段融合的时间类别概率分布δt和多段融合的特征融合类别概率分布δf,本专利技术使用加权平均融合方法。步骤十一、计算最终分类结果P:P=argmax(δ),其中argmax(δ)为计算δ向量中最大值的索引值,即计算所有行为类别中类别概率分布最高的类别。与现有的技术相比,本专利技术具有以下有益效果:1.通过步骤八构建的双流特征融合网络,在双流的不同深度层进行特征融合获取多深度级别的时空混合特征,充分利用了浅层特征以及双流互补的特点。2.步骤八构建的双流特征融合网络提出了分组增强注意力模块对提取的混合特征进行进一步提炼局部信息以及全局信息,有效提升了行为识别精度。附图说明图1为本专利技术的算法流程图;图2为本专利技术的算法模型图;图3为双流特征融合网络NTSFF图;图4为时空特征融合图;图5为分组增强注意力模块。具体实施方式图2为本专利技术的整体模型图;图2表示本专利技术的算法模型图。算法以多段RGB图像与光流图为输入,模型包括空间网络,时间网络,特征融合网络,多段类别概率分布融合及多流类别概率分布融合五个关键部分。空间网络和时间网络均基于InceptionV3构建的,而特征融合网络是通过空间网络和时间网络构建的,简单来说使用提出的多层次时空特征融合模块以融合不同深度级别的时空混合特征,其中时空混合特征是利用提出的时空特征融合模块融合分别从空间网络和时间网络提取的特征,然后通过提出的分组增强注意力模块以进一步提炼多深度级别混合特征,同空间网络和时间网络一样,使用全局平均池化与全连接操作获得特征融合类别概率分布。然后将每个流的三个分段输入提取的对应的类别概率分布进行融合获取对应流的多段融合类别概率分布,最终,采用加权平均方法融合三个流对应的多段融合类别概率分布。为了对本专利技术进行更好的说明,下面以公开的行为数据集UCF101为例进行阐述。上述技术方案中步骤四中从srgb中每段分别随机获取RGB帧的具体方法为:从步骤三中获得的第i段RGB帧序列RGBi的随机位置获取连续的Ls张RGB帧得到其中Ls在本示例中为1。上述技术方案中步骤五中从sopt中每段分别随机获取多张光流图的具体方法为:本文档来自技高网...

【技术保护点】
1.一种基于多层次时空特征融合增强的双流网络行为识别方法,其特征在于,步骤如下:/n步骤一、获取RGB帧:对于数据集中的每个视频进行取帧处理,获得RGB原始帧

【技术特征摘要】
1.一种基于多层次时空特征融合增强的双流网络行为识别方法,其特征在于,步骤如下:
步骤一、获取RGB帧:对于数据集中的每个视频进行取帧处理,获得RGB原始帧N为帧数;
步骤二、计算光流图:应用TVL1算法对RGB原始帧frgb两两进行计算得到光流图
步骤三、对提取的所有RGB帧与光流图分段:将步骤一、步骤二获取的所有RGB帧与光流图平均分成三段每段时序上连续,且任意两段间不重叠;
步骤四、从srgb中每段分别随机获取RGB帧构建空间网络的输入:其中
步骤五、从sopt中每段分别随机获取多张光流图构建时间的网络输入:其中
步骤六、基于空间网络Ns计算空间类别概率分布OS:将步骤四构建的空间网络的输入分别送入空间网络Ns提取特征,空间网络Ns基于InceptionV3网络构建,再经过全局平均池化操作和全连接操作得到空间类别概率分布其中表示步骤三的第i个RGB帧分段RGBi对应的空间类别概率分布;
步骤七、基于时间网络Nt计算时间类别概率分布OT:将步骤五构建的时间网络的输入分别送入时间网络Nt提取特征,时间网络Nt基于InceptionV3网络构建,再经过全局平均池化操作和全连接操作得到时间类别概率分布其中表示步骤三中第i个光流图分段OPTi对应的时间类别概率;
步骤八、基于双流融合网络NTSFF计算特征融合类别概率分布OF:使用多层次时空特征融合模块将时空特征融合模块STFF分别嵌入至空间网络Ns和时间网络Nt的InceptionV3的多个子模块中以融合提取多深度级别混合特征,然后通过分组增强注意力模块对提取的特征进一步提炼,最后通过全局平均池化操作和全连接操作得到特征融合类别概率分布其中表示步骤三的第i个RGB帧分段RGBi和第i个光流图分段OPTi对应的特征融合类别概率分布;
步骤九、计算多段融合的类别概率分布:根据步骤六、步骤七和步骤八得到的多段类别概率分布与通过三段平均值得到多段融合的类别概率分布
步骤十、计算三个流加权融合的类别概率分布δ:在双流网络的基础上融合步骤九得到的多段融合的空间类别概率分布δs、多段融合的时间类别概率分布δt和多段融合的特征融合类别概率分布δf,本发明使用加权平均融合方法;
步骤十一、计算最终分类结果P:P=argmax(δ),其中argmax(δ)为计算δ向量中最大值的索引值,即计算所有行为类别中类别概率分布最高的类别。


2.根据权利要求1所述的一种基于多层次时空特征融合增强的双流网络行为识别方法,其特征在于,完成双流网络行为识别方法的模型包括空间网络、时间网络、特征融合网络、多段类别概率分布融合和多流类别概率分布融合;空间网络和时间网络均是基于InceptionV3构建的,而特征融合网络是通过空间网络和时间网络构建的;使用多层次时空特征融合模块以融合不同深度级别的时空混合特征,其中时空混合特征是利用时空特征融合模块融合分别从空间网络和时间网络提取的特征,然后通过分组增强注意力模块以进一步提炼多深度级别混合特征,同空间网络和时间网络一样,使用全局平均池化与全连接操作获得特征融合类别概率分布;然后将每个流的三个分段输入提取的对应的类别概率分布进行融合,获取对应流的多段融合类别概率分布,最终,采用加权平均方法融合三个流对应的多段融合类别概率分布。


3.根据权利要求1所述的一种基于多层次时空特征融合增强的双流网络行为识别方法,其特征在于,所述步骤八的全过程从形式上写成如下公式:



其中MMDFF(·,·)表示多层次时空特征融合模块,MGSCE(·)表示分组增强注意力模块的输出特征;FC表示完全连接操作,GAP表示全局平均池化操作。


4.根据权利要求3所述的一种基于多层次时空特征融合增强的双流网络行为识别方法,其特征在于,所述步骤八中应用的多层次时空特征融合方法为:InceptionV3由j个串联的子模块组成,分别为Inc.1-Inc.j,能够从中提取不同的深度级别特征;将时空特征融合模块STFF嵌入至空间网络和时间网络的各个子模块中,以捕获具有不同深度层次的新颖特征;通过将网络的多个深度的子模块生成的所有混合时空特征进行级联,从而获取具有多个深度级别的抽象卷积混合时空特征;多层次时空特征融合模块MMDFF(·,·)的流程如下式所示:


【专利技术属性】
技术研发人员:孔军王圣全蒋敏
申请(专利权)人:江南大学
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1