基于视频监控图像处理的人数统计系统技术方案

技术编号:20426088 阅读:27 留言:0更新日期:2019-02-23 08:48
本申请实施例公开了基于视频监控图像处理的人数统计系统,包括:存储器、处理器以及存储在存储器上并在处理器上运行的计算机指令,所述计算机指令被处理器运行时,完成以下步骤:对三个卷积神经网络分别采用对应尺寸的人脸图像进行训练;将经过训练的三个卷积神经网络进行并联,三个并联的卷积神经网络的输出端均连接到同一个输出层;将经过缩放处理的三张图像均输入到每个卷积神经网络中进行检测,三个并联的卷积神经网络均将各自输出的带有人脸检测框的三张图像通过输出层映射到原始图像上,从而每一个人脸包括若干个检测框;采用非极大值抑制算法对每一个人脸的若干个检测框进行筛选,保留最优的人脸检测框,获得最终的人脸检测结果。

【技术实现步骤摘要】
基于视频监控图像处理的人数统计系统
本申请实施例涉及计算机视觉领域,尤其涉及基于视频监控图像处理的人数统计系统。
技术介绍
视频监控是利用计算机视觉技术对视频信号进行处理、分析和理解,在不需要人为干预的情况下,通过对序列图像自动分析对监控场景中的目标进行定位、识别和跟踪等。随着经济的发展,各种教学、办公、休闲场所越来越多,人群的活动越来越频繁,如何在特定区域内中自动对人员进行检测并统计人数是智能视频监控领域中的一个重要和热门课题。有效掌握实时的人数信息,对于人流控制,公共空间设计,意外事件控制等非常重要。比如统计课堂、会议等人员数量,不仅免除课堂、会议口头点名、手动签到等繁琐,也更利于学校对学生到课率情况的整体了解,学生在去自习前可以先查询哪些教室有空位来决定去哪自习,避免盲目的在教学楼寻找而耽误时间等等。目前现有的监控视频人数统计系统大致有两大类:一类方法是在特定出入口安装视频采集设备,对过往行人等进行目标检测,连续视频随时间出现目标增减计数这类应用场景在同时出入人数较少的情况下较为容易实现,而在没有特定出入口的开放式场所就无能为力了,同时对视野较大且人数过多的情况也很难做到精确计数。另一类人数监控系统主要针对大视野,目标密集(百人甚至千人以上)场景,不做单个目标检测,而是做基于单帧的人群密度估计,也就是做非精确计数,因而也无法对连续视频中出现目标增减计数。
技术实现思路
本申请实施例的目的主要针对较大视野,且人数较多(百人以上)场景下,如大型教室、会议室等,监控视频做人数统计,且不限定视频背景是固定的,也就是说对带有云台装置的监控摄像头拍摄的背景变化的视频也同样可以做到统计整段视频内出现的人数。为了解决上述技术问题,本申请实施例提出基于视频监控图像处理的人数统计系统;基于视频监控图像处理的人数统计系统,包括:存储器、处理器以及存储在存储器上并在处理器上运行的计算机指令,所述计算机指令被处理器运行时,完成以下步骤:构建人脸检测器模型:人脸检测器模型包括:包含第一卷积神经网络、第二卷积神经网络和第三卷积神经网络;三个卷积神经网络进行并联,三个并联的卷积神经网络的输出端均连接到一个输出层上;训练三个卷积神经网络:对三个卷积神经网络分别采用对应尺寸的人脸图像进行训练;人脸检测:选取一帧待检测场景的图像,对所选取的图像按照设定尺寸进行放大处理和缩小处理;得到三张图像:经放大处理后的图像、经缩小处理后的图像和原始图像;将三张图像均输入到一个区域候选网络RPN后得到所有候选检测框,所有候选检测框分别送给所述的人脸检测器模型,输出每个检测框是人脸的概率,如果概率超过设定阈值则判定为人脸,并标记当前检测框,最终返回三张图像的检测结果,每一张输出图像均带有所有的人脸检测框;带有人脸检测框的三张图像通过输出层映射到原始图像上,从而每一个人脸包括至少一个检测框;采用非极大值抑制算法对每一个人脸的所有检测框进行筛选,保留最优的人脸检测框,获得最终的人脸检测结果。可选的,在一种实现方式中,对第M帧图像采用人脸检测器模型进行人脸检测,得到一个人脸列表,所述人脸列表包括:第M帧图像的所有人脸位置、所有人脸尺寸和所有人脸计数总和。可选的,在一种实现方式中,将第M+N帧图像的人脸与第M帧图像的人脸进行匹配,N表示计数更新区间;以第M帧图像为参考图像,以第M+N帧图像为待匹配图像;判断第M+N帧图像的人脸与第M帧图像的人脸是否一一匹配,如果一一匹配,则认为人脸计数不变;否则,认为人脸数量有更新,更新人脸列表。该实现方式的优势一方面在于:对于第M帧图像中未检测到的人脸,但是在第M+N帧中出现时,能够及时对人脸数量进行更新;第二方面在于对于拍摄角度会实时变化的摄像头,如果第M帧拍摄到待检测场景左侧的60%,而第M+N帧拍摄到待检测场景右侧的60%,则通过人脸匹配,可以有效实现人脸数量的更新。可选的,在一种实现方式中,人脸进行匹配的步骤:采用回归树ERT算法分别对第M帧图像和第M+N图像的人脸进行人脸对齐;采用预训练的Facenet神经网络对人脸对齐后的第M帧图像和第M+N图像所有人脸图像进行特征提取,将所有人脸图像均映射到128维向量空间,得到人脸的特征向量;将第M帧的人脸图像的人脸特征向量和第M+N帧人脸图像的人脸特征向量均输入到SVM分类器中,输出第M帧图像和第M+N帧图像的人脸匹配的结果。可选的,在一种实现方式中,将第M帧的人脸图像的人脸特征向量和第M+N帧人脸图像的人脸特征向量均输入到SVM分类器中,输出第M帧图像和第M+N帧图像的人脸匹配的结果:训练SVM分类器;设首帧中得到的人脸列表为L={S1…SM},其中,Sj为第j个人脸,M是人脸个数;在第M+N帧得到的人脸列表为L’={S’1…S’N},其中,N是人脸个数;假设当前待匹配人脸为Sj=(x,y,w,h),其中,(x,y)代表人脸位置坐标,(w,h)代表人脸尺寸宽和高;那么在第M+N帧中只在(x+Δw,y+Δh)的范围内做匹配,Δw和Δh分别表示横向和纵向的扩展的范围尺寸。可选的,在一种实现方式中,如果视频背景是运动的,则加大匹配范围参数(Δw,Δh)。可选的,在一种实现方式中,用于训练SVM分类器所用样本的构造:当前待匹配人脸Sj的正样本:来自实时采集的第M帧图像,按照Sj的位置和大小在第M+1和M+2帧截取同样位置和大小的矩形区域也作为正样本;通过添加高斯噪声、几何形变、翻转或剪切对三个帧的正样本进行调整,得到20个正样本;当前待匹配人脸Sj的负样本为:随机抽取的第M帧图像中除Sj的其他20张人脸图片。每N帧进行一次人脸列表和计数的更新,最终完成整个视频的人数统计。可选的,在一种实现方式中,对三个卷积神经网络分别采用对应尺寸的人脸图像进行训练的具体步骤为:视频监控采集若干个待检测场景的整幅图像,基于人脸识别候选窗口将人脸从整幅图像中分割出来;根据人脸识别候选窗口的尺寸,将分割出来的人脸图像分类为:大尺寸人脸图像、中尺寸人脸图像和小尺寸人脸图像;利用大尺寸人脸图像对第一卷积神经网络进行训练,得到训练好的第一卷积神经网络;利用中尺寸人脸图像对第二卷积神经网络进行训练,得到训练好的第二卷积神经网络;利用小尺寸人脸图像对第三卷积神经网络进行训练,得到训练好的第三卷积神经网络。可选的,在一种实现方式中,卷积神经网络的训练正负样本集构建步骤:以杰卡德相似系数Jaccard相似度定义正负样本,正样本定义为与训练图像中的人脸框Jaccard相似度大于0.7图像区域;负样本定义为与训练图像中的人脸框Jaccard相似度小于0.3图像区域。对所有正样本按照尺寸的不同分为大、中、小三组,分别用于训练独立同结构的卷积神经网络CNN。本申请实施例的有益效果是:为了处理同一帧图像上出现的人脸大小差别过大的情况,对每一个待识别候选窗口用3个独立同结构的CNN进行识别,因为这3个CNN分别用3种尺度的人脸数据集训练得到的,因此结构虽然相同,但是权重参数不同,分别用于针对不同尺度的人脸。把3个CNN多个层的输出中提取的卷积深度特征串联作为该候选窗口的特征,该特征同时包含大尺度上的高分辨率细节线索和模糊的低分辨率概貌线索。整幅图像的所有候选窗口的特征最终通过一个输出层,得到所有位置的响应结果。解本文档来自技高网...

【技术保护点】
1.基于视频监控图像处理的人数统计系统,其特征是,包括:存储器、处理器以及存储在存储器上并在处理器上运行的计算机指令,所述计算机指令被处理器运行时,完成以下步骤:构建人脸检测器模型:人脸检测器模型包括:包含第一卷积神经网络、第二卷积神经网络和第三卷积神经网络;三个卷积神经网络进行并联,三个并联的卷积神经网络的输出端均连接到一个输出层上;训练三个卷积神经网络:对三个卷积神经网络分别采用对应尺寸的人脸图像进行训练;人脸检测:选取一帧待检测场景的图像,对所选取的图像按照设定尺寸进行放大处理和缩小处理;得到三张图像:经放大处理后的图像、经缩小处理后的图像和原始图像;将三张图像均输入到一个区域候选网络RPN后得到所有候选检测框,所有候选检测框分别送给所述的人脸检测器模型,输出每个检测框是人脸的概率,如果概率超过设定阈值则判定为人脸,并标记当前检测框,最终返回三张图像的检测结果,每一张输出图像均带有所有的人脸检测框;带有人脸检测框的三张图像通过输出层映射到原始图像上,从而每一个人脸包括至少一个检测框;采用非极大值抑制算法对每一个人脸的所有检测框进行筛选,保留最优的人脸检测框,获得最终的人脸检测结果...

【技术特征摘要】
1.基于视频监控图像处理的人数统计系统,其特征是,包括:存储器、处理器以及存储在存储器上并在处理器上运行的计算机指令,所述计算机指令被处理器运行时,完成以下步骤:构建人脸检测器模型:人脸检测器模型包括:包含第一卷积神经网络、第二卷积神经网络和第三卷积神经网络;三个卷积神经网络进行并联,三个并联的卷积神经网络的输出端均连接到一个输出层上;训练三个卷积神经网络:对三个卷积神经网络分别采用对应尺寸的人脸图像进行训练;人脸检测:选取一帧待检测场景的图像,对所选取的图像按照设定尺寸进行放大处理和缩小处理;得到三张图像:经放大处理后的图像、经缩小处理后的图像和原始图像;将三张图像均输入到一个区域候选网络RPN后得到所有候选检测框,所有候选检测框分别送给所述的人脸检测器模型,输出每个检测框是人脸的概率,如果概率超过设定阈值则判定为人脸,并标记当前检测框,最终返回三张图像的检测结果,每一张输出图像均带有所有的人脸检测框;带有人脸检测框的三张图像通过输出层映射到原始图像上,从而每一个人脸包括至少一个检测框;采用非极大值抑制算法对每一个人脸的所有检测框进行筛选,保留最优的人脸检测框,获得最终的人脸检测结果。2.如权利要求1所述的基于视频监控图像处理的人数统计系统,其特征是,对第M帧图像采用人脸检测器模型进行人脸检测,得到一个人脸列表,所述人脸列表包括:第M帧图像的所有人脸位置、所有人脸尺寸和所有人脸计数总和。3.如权利要求1所述的基于视频监控图像处理的人数统计系统,其特征是,将第M+N帧图像的人脸与第M帧图像的人脸进行匹配,N表示计数更新区间;以第M帧图像为参考图像,以第M+N帧图像为待匹配图像;判断第M+N帧图像的人脸与第M帧图像的人脸是否一一匹配,如果一一匹配,则认为人脸计数不变;否则,认为人脸数量有更新,更新人脸列表。4.如权利要求3所述的基于视频监控图像处理的人数统计系统,其特征是,人脸进行匹配的步骤:采用回归树ERT算法分别对第M帧图像和第M+N图像的人脸进行人脸对齐;采用预训练的Facenet神经网络对人脸对齐后的第M帧图像和第M+N图像所有人脸图像进行特征提取,将所有人脸图像均映射到128维向量空间,得到人脸的特征向量;将第M帧的人脸图像的人脸特征向量和第M+N帧人脸图像的人脸特征向量均输入到SVM分类器中,输出第M帧图像和第M+N帧图像的人脸匹配的结果。5.如权利要求4所述的基于视频监控图像处理的人数统计系统,其特征是,将第M帧的人脸图像的人脸特征向量和第M+...

【专利技术属性】
技术研发人员:王磊孔得越
申请(专利权)人:齐鲁工业大学
类型:发明
国别省市:山东,37

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1