一种基于手势和面部表情的行为异常人群检测方法技术

技术编号:26731270 阅读:19 留言:0更新日期:2020-12-15 14:33
本发明专利技术公开了一种基于手势和面部表情的行为异常人群检测方法,其步骤包括:利用摄像机进行现场人群的实时检测,获取含有手势和面部表情的图像;进行手势动作识别,提取手势的情绪特征;进行面部表情识别,判断表情开始‑结束时间,提取面部的情绪特征;融合手势和面部的情绪特征,进行情绪识别,判断行为是否异常。对于表情识别过程,将面部表情图像数据输入到卷积神经网络,进行相邻帧图像特征的学习训练,将特征数据输入到BiLSTM网络进行特征融合;然后输入到卷积网络进行卷积运算,再通过聚变网络进行聚类运算,得到面部表情的情绪特征。该方法对人员目标识别具有较高的精准性,应用于复杂人群、空旷单人和其他目标场景具有较高的自适应性。

【技术实现步骤摘要】
一种基于手势和面部表情的行为异常人群检测方法
本专利技术涉及行为异常人群检测领域,尤其涉及到一种基于手势和面部表情的情绪识别技术。
技术介绍
人群复杂环境下行为异常的检测对于如商场中的顾客、广场中的休闲人员、候车室中的乘客等的安全保障都有重要作用。手势动作识别提取情绪特征和面部表情开始-结束时间截取是其中最重要的关键因素。检测系统需要能够实时高效的进行手势动作识别和面部表情识别来判断当前人员的情绪状态,但当前对于手势动作识别,还没有权威的判断情绪状态的手势动作库,部分公开资料中手势动作所代表的情绪含义也没有特别明确的标注出来,这将会导致无法精准高效地提取情绪特征。面部表情识别技术是情绪识别领域中最被重视的识别技术,但是实际应用中的动态识别与数据库中已经被处理过的情绪样本不同,如何精准的定位表情的开始-结束时间,这是一个技术的难点。融合手势动作识别和面部表情来判断人员情绪状态,是人群行为检测方法的核心问题。但当前依据手势动作识别提取情绪特征的效果还不是很好,手势动作和情绪分类之间的关系库还没有被广泛公开地使用;面部表情识别提取情绪特征的准确率已经提升到95.06%,但是在实际应用中如何动态的截取出表情的开始-结束时间仍是一个技术难题。本专利技术从手势动作识别提取情绪特征和面部表情动态识别时间截取入手,利用相机自动合理拍摄方法,开发了基于深度学习的神经网络映射模型,通过机器学习的方式提高识别自主性和人群复杂环境的适应性,融合手势动作识别和面部表情来强化情绪特征。在使用该技术时,只需在开始时配置好系统硬件参数和设定人群复杂环境下的当前人员目标,无需其他人工干预过程,整个技术流程自动实时运行检测,依据手势动作和面部表情,使得可以在人群复杂环境下检测当前人员的情绪状态。
技术实现思路
针对人群复杂环境下人员的情绪识别问题,本专利技术的目的在于提供一种基于深度神经网络的行为异常人群检测方法。本专利技术提供一种基于手势和面部表情的行为异常人群检测方法,其步骤包括:S1,利用摄像机进行现场人群的实时检测,获取含有手势和面部表情的图像。S2,进行手势动作识别,提取手势的情绪特征。S3,进行面部表情识别,判断表情开始-结束时间,提取面部的情绪特征。S4,融合手势和面部的情绪特征,进行情绪识别,判断行为是否异常。步骤S1具体包括:S11,摄像头实时拍摄现场人群的高清图像。S12,对摄像头拍摄的高清图像使用加权平均法进行灰度化处理,加权公式如下:其中β=0.59,γ=0.11,R(i,j)为图像中第i行第j列像素在R颜色通道的取值,G(i,j)为图像中第i行第j列像素在G颜色的取值,B(i,j)为图像中第i行第j列像素在B颜色的取值,f(i,j)为图像中第i行第j列的输出。再对图像进行平移、转置、镜像等几何变换,以改正摄像头拍摄造成的系统误差和仪器位置(成像角度、透视关系乃至镜头自身原因)的随机误差;使用最近邻插值算法进行映射矫正,使用低通滤波器减除图像中的噪声;采用高通滤波法,增强边缘高频信号,使模糊的图片变得清晰。S13,将预处理后的图像使用空间聚类算法进行图像分割,将图像空间中的像素用对应的特征空间点表示,根据它们在特征空间的聚集对特征空间进行分割,然后将它们映射回原图像空间,得到手势动作图像和面部表情图像分割结果。步骤S2具体包括:S21,将手势动作图像数据输入到深度残差网络(ResNet)得到2048D特征向量,通过图形卷积(GrapthConvolution)网络得到预测的手势2D坐标。再通过自适应图卷积网络(AdaptiveGraphU-Net)得到预测的手势3D坐标。自适应图卷积网络分为两部分,第一部分是5个由图卷积网络和pool层组成的模块,第二部分是5个由图卷积网络和unpool层组成的模块,第一部分的输出为第二部分的输入。S22,将手势3D坐标和图像输入到可变形卷积(DeformConvolution)网络进行转置,然后输入到卷积网络进行卷积运算,再通过5个由Dense全连接神经网络和Inception-v3模块组成的网络块进行特征提取。最后再通过聚变网络(FusionNetwork)进行聚类运算,得到当前人员26D情绪特征和3D情感强烈程度。其中损失函数如下所示:Ltotal=Ldisc+Lcont,其中,26D情绪特征损失函公式如下:表示预测值的概率,pij为实际值概率,M表示一次处理的图片数量,C表示离散类别分类个数,是计算出的每个情绪类别的权重值,第j类的样本数量为nj,所有样本的数量是N。和用来平衡第j个情绪类别。通过一系列的网络训练,最终得到当前人员手势动作的26D情绪特征和3D情感强烈程度。3D情感强烈程度损失函数如下:y表示真实值,表示网络预测值,和分别为三个连续维度的权值nk表示样本i的第k个指标值所属区间下的样本个数。步骤S3具体包括:S31,将某一时段的面部表情图像数据输入到卷积神经网络,进行相邻帧图像特征的学习训练,输出n个特征数据。S32,将n个特征数据输入到BiLSTM网络进行特征的融合,根据帧间差分法输出面部表情的开始-结束预测时间。S33,依据开始-结束时间,对n个特征数据利用可变形卷积网络进行转置,然后输入到卷积网络进行卷积运算,再通过连续5个由Dense全连接神经网络和Inception-v3模块组成的网络块进行特征提取,最后再通过聚变网络进行聚类运算,得到当前人员面部表情的26D情绪特征和3D情感强烈程度。步骤S4具体包括:S41,将两个模态的26D情绪特征和3D情感强烈程度,通过concat方法进行多个通道的特征连接,并进行Softmax网络分类,得到情绪识别结果。S42,依据预测结果,判断3D情感强烈程度中的Arousal范围是否大于7、Dominance范围是否小于3以及情绪特征分类为26种情绪标签里面最极端的情况,若是,就判断当前人员行为异常,若否,则当前人员无行为异常。本专利技术公布的一种基于手势和面部表情的行为异常人群检测方法,具有以下有益效果:(1)该方法部署成功后,能够自主智能运行,支持协助监管人员同步作业,支持特定目标长时间的监控检测,支持大范围人群密集性作业,支持多个目标同步识别检测,无需大量人工操作;(2)该方法对当前人员目标识别具有较高的精准性,行为异常监测具有实时性,多目标同步检测体现出系统具有较高的鲁棒性,应用于复杂人群场景、空旷单人场景和其他目标场景具有较高的自适应性;(3)该方法对于不同的人群复杂环境,具有较高的适应性。该方法能在人群复杂环境下依然能够正常有效的运行;能够依据当前人员的手势动作和面部表情来进行情绪的状态检测;能够根据当前人员的情绪识别结果判断其行为是否异常。附图说明图1显示为结合手势和面部表情进行行为异常人群检测流程图。图2显示为对含有手势和面部表情图像的预处本文档来自技高网
...

【技术保护点】
1.一种基于手势和面部表情的行为异常人群检测方法,其特征在于,其步骤包括:/nS1,利用摄像机进行现场人群的实时检测,获取含有手势和面部表情的图像;/nS2,进行手势动作识别,提取手势的情绪特征;/nS3,进行面部表情识别,判断表情开始-结束时间,提取面部的情绪特征;/nS4,融合手势和面部的情绪特征,进行情绪识别,判断行为是否异常。/n

【技术特征摘要】
1.一种基于手势和面部表情的行为异常人群检测方法,其特征在于,其步骤包括:
S1,利用摄像机进行现场人群的实时检测,获取含有手势和面部表情的图像;
S2,进行手势动作识别,提取手势的情绪特征;
S3,进行面部表情识别,判断表情开始-结束时间,提取面部的情绪特征;
S4,融合手势和面部的情绪特征,进行情绪识别,判断行为是否异常。


2.一种如权利要求1所述的基于手势和面部表情的行为异常人群检测方法,其特征在于,步骤S1具体包括:
S11,摄像头实时拍摄现场人群的高清图像;
S12,对摄像头拍摄的高清图像使用加权平均法进行灰度化处理,加权公式如下:



其中β=0.59,γ=0.11,R(i,j)为图像中第i行第j列像素在R颜色通道的取值,G(i,j)为图像中第i行第j列像素在G颜色的取值,B(i,j)为图像中第i行第j列像素在B颜色的取值,f(i,j)为图像中第i行第j列的输出;再对图像进行平移、转置、镜像几何变换,以改正摄像头拍摄造成的系统误差和仪器位置(成像角度、透视关系乃至镜头自身原因)的随机误差;使用最近邻插值算法进行映射矫正,使用低通滤波器减除图像中的噪声;采用高通滤波法,增强边缘高频信号,使模糊的图片变得清晰;
S13,将预处理后的图像使用空间聚类算法进行图像分割,将图像空间中的像素用对应的特征空间点表示,根据它们在特征空间的聚集对特征空间进行分割,然后将它们映射回原图像空间,得到手势动作图像和面部表情图像分割结果。


3.一种如权利要求1所述的基于手势和面部表情的行为异常人群检测方法,其特征在于,步骤S2具体包括:
S21,将手势动作图像数据输入到深度残差网络(ResNet)得到2048D特征向量,通过图形卷积(GrapthConvolution)网络得到预测的手势2D坐标;再通过自适应图卷积网络(AdaptiveGraphU-Net)得到预测的手势3D坐标;自适应图卷积网络分为两部分,第一部分是5个由图卷积网络和pool层组成的模块,第二部分是5个由图卷积网络和unpool层组成的模块,第一部分的输出为第二部分的输入;
S22,将手势3D坐标和图像输入到可变形卷积(DeformConvolution)网络进行转置...

【专利技术属性】
技术研发人员:闫野凡凯歌印二威谢良邓宝松闫慧炯范晓丽罗治国
申请(专利权)人:中国人民解放军军事科学院国防科技创新研究院天津滨海人工智能军民融合创新中心
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1