本发明专利技术的基于双尺寸注意力机制的人群过马路运动追踪方法,包括以下步骤:S1.基本模型搭建;S2.建立双尺寸注意力机制模块;以及S3.使用双尺寸注意力机制模块改进基本模型。通过使用双尺寸注意力机制模块,针对人群过马路的场景,本发明专利技术能从视频数据中获取包含不同语义信息的全局与局部特征,从而提高人群过马路的运动趋势预测的准确度。此外,本发明专利技术的方法与目前深度学习的算法相比,能大大减少视频数据处理的时间,甚至能达到实时输出的效果;相反,深度学习模型的运算量较大,需花费比较长时间去处理视觉数据。所以,从工业产品落地的角度考虑,本发明专利技术更适合使用于人群过马路运动追踪的算法产品中。的算法产品中。的算法产品中。
【技术实现步骤摘要】
一种基于双尺寸注意力机制的人群过马路运动追踪方法
[0001]本专利技术涉及计算机视觉领域,特别地,涉及一种基于双尺寸注意力机制的人群过马路运动追踪方法。
技术介绍
[0002]在计算机视觉领域中,密集人群运动追踪是目标追踪任务的一个重要分支;而对人群过马路的场景下对人群的运动趋势进行预测和追踪,更是有利于防止交通事故的发生。在很多密集人群运动追踪的算法中,其主要的算法流程是从含有密集人群的视频帧中提取相应的特征,再从这些特征中检测出每个目标个体的大概位置。然后,在一段连续视频序列中,识别出每个目标个体的位置变化,就可以把每个目标个体的运动趋势预测出来。
[0003]目前,针对人群运动追踪这个问题,已有不少算法和模型被提出去提高人群运动追踪的准确度。一部分算法在视频帧中提取目标的颜色与轮廓等低级特征,从而用于确定目标在该视频帧中的位置;此外,还有一些算法与模型通过提取视频帧的语义信息和视频序列的时序信息等高级特征来检测出目标在视频中的位置。然而,现有技术存在的主要问题是:在过马路场景中,过马路人群的密度不断增加,仅仅依靠以上算法与模型去提取视频序列中的传统特征不足以在高密度人群场景下精确地检测每个目标的位置。因此,随着具有强大特征提取能力的深度学习模型被广泛应用于计算机视觉领域,也有一部分基于深度学习模型的算法被提出并用于密集人群运动追踪任务。
[0004]而解决上述问题的难度为:虽然深度学习模型具有很强的特征学习与提取能力,但由于它复杂的模型结构导致其在视频数据特征提取上需要花费一定的时间去完成。在很多以目标检测技术为核心的落地产品中,往往需要检测算法对被输入的视觉数据进行实时处理和输出结果。由于这个原因,尽管深度学习模型能实现高精度的目标检测,它也不适合用于实时追踪和预测人群过马路的运动趋势。
[0005]解决上述问题的意义为:在现阶段的很多方法中,注意力机制(Attention Mechanism)也是被广泛用于计算机视觉领域去进行特征提取。正是因为其具有很好的特征提取能力,本专利技术尝试把注意力机制模块运用到人群过马路的实际场景中,通过这样的方法更准确地提取目标的特征。此外,由于人群过马路场景下,人群密度大,人群数量较多,算法需要在视频帧中提取更多的语义信息才能准确地把人群中每个目标检测出来。因此,本专利技术提出双尺寸注意力机制模块去获取不同语义信息,并在该模块实现把包含不同语义信息的全局特征与局部特征有效地融合起来,从而更好地产生高质量的特征。为了实现这一目标,本专利技术选取一个用于密集人群运动追踪的框架作为基本模型,该基本模型包含特征模板、高斯混合模型和运动趋势预测算法。基于该基本模型,把本专利技术所提出的可以获取不同语义信息的双尺寸注意力机制模块加入到该基本模型的特征提取算法中,进而提高检测人群中每个目标的位置,从而提高运动趋势预测的准确度。
技术实现思路
[0006]本专利技术提供了一种基于双尺寸注意力机制的人群过马路运动追踪方法,能提高人群过马路的运动趋势追踪的精度以及运动趋势预测的准确度。
[0007]本专利技术的技术方案如下:
[0008]本专利技术的基于双尺寸注意力机制的人群过马路运动追踪方法,包括以下步骤:S1.基本模型搭建;S2.建立双尺寸注意力机制模块;以及S3.使用双尺寸注意力机制模块改进基本模型。
[0009]优选地,在上述基于双尺寸注意力机制的人群过马路运动追踪方法中,在步骤S1中,把包含特征模板、高斯混合模型和运动趋势预测算法的基本模型应用于人群过马路运动追踪的实际问题中。
[0010]优选地,在上述基于双尺寸注意力机制的人群过马路运动追踪方法中,在步骤S1中,通过选取一个运算量不大的密集人群运动追踪框架作为基本模型,在人群过马路场景的实际应用中,对视频数据达到实时、低延时处理的效果。
[0011]优选地,在上述基于双尺寸注意力机制的人群过马路运动追踪方法中,在步骤S2中,双尺寸注意力机制模块包含两次注意力机制运算以进行语义信息提取,在每次注意力运算中,都采用不同尺寸的特征向量去获取目标个体的特征,以这样的方式获取不同语义信息并把包含不同语义信息的全局特征与局部特征都融合优化生成更高质量特征。
[0012]优选地,在上述基于双尺寸注意力机制的人群过马路运动追踪方法中,在步骤S2中,双尺寸注意力机制模块的算法为:首先,视频帧被特征模板提取特征后会生成特征图F1;特征图F1会被送至两个不同的注意力机制分支:注意力机制分支A和注意力机制分支B;
[0013]假设F1在注意力机制分支A上选中区域特征R1的特征的大小为h1×
w1,则其在注意力机制分支B上选中区域特征R2的特征的大小为通过设置不同尺寸卷积核的方式,让这些不同尺寸的卷积核与F1在进行卷积操作,则可从中获取不同的语义信息;在注意力机制分支A和B中,经过一层卷积操作后,卷积运算的结果向量会进行一次归一化的操作;然后,包含不同语义信息的两个特征图F2和F3则会分别从注意力机制分支A和B中输出;
[0014]包含全局特征的特征图F1与包含局部特征的特征图F2和F3会采用特征融合的方式把全局特征与局部特征进行融合,首先,特征图F1与特征图F2会先进行一次特征融合,其实现公式如下:
[0015]F4=F1*α1+F2*β1[0016]其中,特征图F4表示经特征融合后得到的特征图;α1与β1表示加权平均运算公式中的系数且α1+β1=1,然后,特征图F4会继续通过特征融合的方法与特征图F1以及特征图F3进行进一步融合,其实现公式如下:
[0017]F5=F4*α2+F3*β2[0018]F6=F1*α3+F5*β3[0019]其中,特征图F5表示特征图F3和F4经特征融合后得到的特征图;特征图F6表示特征图F1和F5经特征融合后得到的特征图,α2与β2表示加权平均运算公式中的系数且α2+β2=1;α3与β3表示加权平均运算公式中的系数且α3+β3=1;
[0020]最后,特征图F6会被输送至高斯混合模型检测人群个体的位置。
[0021]优选地,在上述基于双尺寸注意力机制的人群过马路运动追踪方法中,在步骤S3中,把双尺寸注意力机制模块用于改进基本模型的特征提取算法,使双尺寸注意力机制模块能对基本模型所提取的行人目标特征进一步优化。
[0022]根据本专利技术的技术方案,产生的有益效果是:
[0023]与现有的通过提取低级特征或高级特征来实现人群运动轨迹追踪的方法相比,本专利技术通过使用能提取不同语义信息的双尺寸注意力机制模块,从视频帧的特征图中获取不同语义信息,并把包含不同语义信息的全局与局部特征融合,进而产生高质量特征。通过使用这些高质量特征,高斯混合模型能更高效地检测出人群个体在视频帧中的位置,提高人群过马路场景下运动追踪的准确度;通过把本专利技术在人群过马路的数据集进行消融实验,该实验证明了包含双尺寸注意力机制模块的新框架所达到的精准度高于不包含该模块的框架的精准度。
[0024]另一方面,与目前深度学习的算法相比,本专利技术能大大减少视频数据处理的本文档来自技高网...
【技术保护点】
【技术特征摘要】
1.一种基于双尺寸注意力机制的人群过马路运动追踪方法,其特征在于,包括以下步骤:S1.基本模型搭建;S2.建立双尺寸注意力机制模块;以及S3.使用所述双尺寸注意力机制模块改进所述基本模型。2.根据权利要求1所述的基于双尺寸注意力机制的人群过马路运动追踪方法,其特征在于,在步骤S1中,把包含特征模板、高斯混合模型和运动趋势预测算法的所述基本模型应用于人群过马路运动追踪的实际问题中。3.根据权利要求1所述的基于双尺寸注意力机制的人群过马路运动追踪方法,其特征在于,在步骤S1中,通过选取一个运算量不大的密集人群运动追踪框架作为基本模型,在人群过马路场景的实际应用中,对视频数据达到实时、低延时处理的效果。4.根据权利要求1所述的基于双尺寸注意力机制的人群过马路运动追踪方法,其特征在于,在步骤S2中,所述双尺寸注意力机制模块包含两次注意力机制运算以进行语义信息提取,在每次注意力运算中,都采用不同尺寸的特征向量去获取目标个体的特征,以这样的方式获取不同语义信息并把包含不同语义信息的全局特征与局部特征都融合优化生成更高质量特征。5.根据权利要求1所述的基于双尺寸注意力机制的人群过马路运动追踪方法,其特征在于,在步骤S2中,所述双尺寸注意力机制模块的算法为:首先,视频帧被特征模板提取特征后会生成特征图F1;所述特征图F1会被送至两个不同的注意力机制分支:注意力机制分支A和注意力机制分支B;假设所述特征图F1在所述注意力机制分支A上选中区域特征R1的特征的大小为h
11
,则其在所述...
【专利技术属性】
技术研发人员:黎俊良,张世雄,魏文应,陶键源,
申请(专利权)人:深圳龙岗智能视听研究院,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。