本发明专利技术提供了一种利用ReCNN融合上下文信息的行人检测方法,包括以下步骤:步骤A:提取输入图像中包含上下文信息的特征;步骤B:利用ReCNN对输入图像中的行人位置进行预测,获取预测行人位置的掩码图;步骤C:确定输入图像中行人的位置;步骤D:训练融合上下文信息的ReCNN网络的参数;本发明专利技术所述的一种利用ReCNN融合上下文信息的行人检测方法利用ReCNN融合了视频中连续多张帧的图像信息,与利用单张图像信息相比可以获得更加准确的掩码图,进而提高行人位置检测的准确度。
【技术实现步骤摘要】
一种利用ReCNN融合上下文信息的行人检测方法
本专利技术涉及污水处理站格栅机监测领域,尤其涉及一种利用ReCNN融合上下文信息的行人检测方法。
技术介绍
视频监控场景下的行人检测是智慧城市的重要组成部分,也是计算机视觉的重要组成部分。但是,由于光照、视角、遮挡等因素的影响,监控场景下的行人检测仍亟需进一步提高。当前,在视频监控下的行人检测主要有两大类方法,一种是传统的行人检测方法,一种是基于深度学习的行人检测方法。传统的行人检测,主要是利用手工特征和分类模型进行行人检测。例如,DOT特征+SVM、HOG特征+Boosting、HOG+LBP联合特征+SVM等等。该类方法主要利用人为设计的低层特征,进行行人表征的刻画,缺乏抗干扰性和准确性。基于深度学习的行人检测主要指利用卷积神经网络(ConvolutionalNeuralNetwork,简称CNN)直接从大量图像中提取更高层的数据抽象,自动学习表达能力强和判别能力好的行人特征。但该类方法主要利用单张检测图像的信息进行行人检测,而忽略了视频中多帧图像的上下文信息。为此,本方案提出了一种利用递归卷积神经网络(RecurrentConvolutionalNeuralNetwork,简称ReCNN)融合上下文信息的行人检测方法,该方法利用ReCNN学习视频中连续帧的上下文信息,提高掩码图中行人位置预测的准确度,相较于当前方法,利用了视频多帧形成的上下文信息,从而进一步提高了行人检测的准确性。
技术实现思路
本专利技术的目的在于提供一种利用ReCNN融合上下文信息的行人检测方法,能够实时监控格栅机是否正常工作,防止出现由于操作工没有及时发现格栅机损坏而导致污水处理失败的情况。为了实现上述目的,本专利技术采用以下技术方案:一种利用ReCNN融合上下文信息的行人检测方法,包括以下步骤:步骤A:提取输入图像中包含上下文信息(行人的位置信息和背景信息)的特征;步骤B:利用ReCNN对输入图像中的行人位置进行预测,获取预测行人位置的掩码图;步骤C:确定输入图像中行人的位置;步骤D:训练融合上下文信息的ReCNN网络的参数。所述的步骤A包括以下步骤:步骤A1:定义监控视频图像总共包含N帧图像,第t帧图像表示为I(t),其中,t=1,2...,N;步骤A2:利用一个截断的卷积神经网络提取I(t-2)、I(t-1)和I(t)连续三帧输入图像的三个特征图组,分别表示为X(t-2)、X(t-1)和X(t),其中,X(t)={x1(t),X2(t),...,xM(t)},其中,M表示特征图的数量。所述的步骤C包括以下步骤:步骤C1:按比例将掩码图y放大,直至掩码图y的尺寸与输入图像的尺寸相同;步骤C2:根据视频(输入图像)中不同行人的尺寸,设置多个大小与行人尺寸对应的行人位置检测框;步骤C3:在掩码图y上以遍历的方式滑动行人位置检测框,若检测框中所有元素值之和小于检测框面积的60%,那么判断此区域的行人位置检测框中不包含行人,行人位置检测框滑动到下一位置继续检测;反之,则判断此位置的行人位置检测框中包含行人;步骤C4:所有尺寸的行人位置检测框在掩码图y上滑动后,使用非最大抑制算法合并相交的检测框,其中,当大检测框覆盖小检测框时,保留大检测框。所述的步骤D包括以下步骤:步骤D1:确定训练集;步骤D2:确定目标函数;步骤D3:训练融合上下文信息的递归卷积神经网络的参数。所述的步骤D3包括以下步骤:步骤D31:按照以下方式计算掩码图对于目标函数的梯度;步骤D32:按照以下方式计算递归卷积核关于目标函数的梯度;步骤D33:按照以下方式计算前向卷积核关于目标函数的梯度。本专利技术的有益效果:本专利技术所述的一种利用ReCNN融合上下文信息的行人检测方法利用ReCNN融合了视频中连续多张帧的图像信息,与利用单张图像信息相比可以获得更加准确的掩码图,进而提高行人位置检测的准确度。附图说明为了更清楚地说明本专利技术具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本专利技术的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1为本专利技术的方法流程图;图2为本专利技术的结构示意图;图3位本专利技术在三种不同数据集上的效果示意图。具体实施方式下面将结合附图对本专利技术的技术方案进行清楚、完整地描述,显然,所描述的实施例是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。如图1和图2所示,本专利技术所述的一种利用ReCNN融合上下文信息的行人检测方法包括以下步骤:步骤A:提取输入图像中包含上下文信息(行人的位置信息和背景信息)的特征,具体采用以下方法:步骤A1:定义监控视频图像总共包含N帧图像,第t帧图像表示为I(t),其中,t=1,2...,N;步骤A2:利用一个截断的卷积神经网络提取I(t-2)、I(t-1)和I(t)连续三帧输入图像的三个特征图组,分别表示为X(t-2)、X(t-1)和X(t),其中,X(t)={x1(t),x2(t),...,xM(t)},其中,M表示特征图的数量;所述的一个截断的卷积神经网络采用深度神经网络VGG采用VGG的前16层结构,众所周知,深度神经网络VGG的前16层结构可由每帧输入图像提取512张特征图输出,既X(t)={x1(t),x2(t),...,xM(t)},其中,M表示特征图的数量,取值512,既每个特征图组中包含相同尺寸和数量的512特征图,由于深度神经网络VGG中含有几个池化层,因此上述特征图的尺寸按照输入图像的尺寸等比例缩小,但是特征图中上下文信息之间的位置关系不变。步骤B:利用ReCNN对输入图像中的行人位置进行预测,获取预测行人位置的掩码图,具体采用以下方法:在包含上下文信息的特征提取之后,本专利技术利用递归卷积神经网络ReCNN融合步骤A2中所述的连续三帧图像I(t-2)、I(t-1)和I(t)的三个特征图组X(t-2)、X(t-1)和X(t),输出一张预测行人位置的掩码图y:其中,表示递归卷积核,表示前向卷积核,本专利技术中,两类卷积核的大小均为3×3,表示卷积操作,b表示偏移量,函数f(x)采用sigmoid激活函数;通过sigmoid激活函数,掩码图y中所有元素的取值范围可归一化到0到1之间,表示行人在输入图像中相应位置的概率值。如图1所示,如果区域趋近于红色,表示该区域是有较大可能性是行人位置。在掩码图y中,输入图像I(t-2)和I(t-1)的特征图组X(t-2)和特征组X(t-1)通过卷积递归卷积核作用于掩码图y,而输入图像I(t)的特征图组X(t通过卷积前向卷积核作用于掩码图y;在此过程中,借助输入图像I(t-2)和I(t-1)中行人的位置信息和背景信息,也就是相关的上下文信息可预判输入图像I(t)中行人的位置以及排除输入图像I(t)中不可能出现行人的位置,这样不仅有助于检测遮挡的行人,还可以有效地减少行人位置的误报数量。步骤C:确定输入图像中行人的位置,具体采用以下方法:步骤C1:按比例将掩码图y放大,直至掩码图y的尺寸与输入图像的尺寸相本文档来自技高网...
【技术保护点】
一种利用ReCNN融合上下文信息的行人检测方法,其特征在于,包括以下步骤:步骤A:提取输入图像中包含上下文信息的特征;步骤B:利用ReCNN对输入图像中的行人位置进行预测,获取预测行人位置的掩码图;步骤C:确定输入图像中行人的位置;步骤D:训练融合上下文信息的ReCNN网络的参数。
【技术特征摘要】
1.一种利用ReCNN融合上下文信息的行人检测方法,其特征在于,包括以下步骤:步骤A:提取输入图像中包含上下文信息的特征;步骤B:利用ReCNN对输入图像中的行人位置进行预测,获取预测行人位置的掩码图;步骤C:确定输入图像中行人的位置;步骤D:训练融合上下文信息的ReCNN网络的参数。2.根据权利要求1所述的一种利用ReCNN融合上下文信息的行人检测方法,其特征在于,所述的步骤A包括以下步骤:步骤A1:定义监控视频图像总共包含N帧图像,第t帧图像表示为I(t),其中,t=1,2...,N;步骤A2:利用一个截断的卷积神经网络提取I(t-2)、I(t-1)和I(t)连续三帧输入图像的三个特征图组,分别表示为X(t-2)、X(t-1)和X(t),其中,X(t)={x1(t),x2(t),...,xM(t)},其中,M表示特征图的数量。3.根据权利要求1所述的一种利用ReCNN融合上下文信息的行人检测方法,其特征在于,所述的步骤C包括以下步骤:步骤C1:按比例将掩码图y放大,直至掩码图y的尺寸与输入图像的尺寸相...
【专利技术属性】
技术研发人员:李涛,李冬梅,赵雪专,裴利沈,朱晓珺,赵俊彬,汪伟,邹香玲,郭航宇,
申请(专利权)人:盐城禅图智能科技有限公司,
类型:发明
国别省市:江苏,32
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。