本发明专利技术公开了一种基于人脸外观的深度学习注视预测方法及系统,方法包括:获取待测对象的人脸外观图片;对所述待测对象的人脸外观图片进行处理,提取人脸图片;将所述人脸图片输入训练好的注视预测模型中,预测所述人脸图片中人眼注视方向。本发明专利技术通过将卷积神经网络、窗口多头注意力机制和移动窗口多头注意力机制结合,提高了网络的图片局部空间特征学习能力和全局特征建模能力,解决了现有基于视觉变压器的注视预测方法无法多尺度特征学习以及图片全局自注意力计算困难的问题。及图片全局自注意力计算困难的问题。及图片全局自注意力计算困难的问题。
【技术实现步骤摘要】
一种基于人脸外观的深度学习注视预测方法及系统
[0001]本专利技术属于图像处理
,尤其涉及一种基于人脸外观的深度学习注视预测方法及系统。
技术介绍
[0002]人眼注视方向是一种重要的人类行为信息,它蕴含了丰富的人类心理信息,是理解人类意图与情感的重要线索之一,人眼注视方向预测在医疗、虚拟现实、人机交互、市场调研等各个领域有着广泛的应用需求。为了实现这些需求,有关于注视方向预测的研究一直是相关领域的研究重点,而基于人脸外观的注视方向预测更是该领域中的一项重要的核心任务。
[0003]注视任务通常是指预测注视者在相机坐标系下的方向,通常使用单位向量的x,y,z值或俯仰角(pitch)和偏航角(yaw)描述视线的方向。传统的预测方法通常需要使用虹膜半径、Kappa角、瞳孔位置等眼部特征建立几何模型进行预测。由于需要精确的眼部特征信息,这类方法往往需要佩戴专用设备采集高质量的图像,拥有较高的使用成本与局限性,难以推广。现有的深度学习方法实现了输入一张人眼图片,输出该人眼图片在相机坐标系下的注视方向。深度学习方法需要大量可训练的数据集,从数据集中学习人脸图像特征,使得在光照变化,头部姿势变化下,保持一定的精度。
[0004]尽管目前的深度学习方法表现出色,但仍存在一些问题。一方面现阶段的深度学习方法以卷积神经网络(CNN)为主,但CNN在池化层丢失大量信息,全局建模能力受限,预测精度受限。另一方面,一些现阶段较为先进的研究使用视觉变压器的结构进行注视预测,但视觉变压器的结构不适合于视觉任务的多尺度特征学习,此外图像全局自注意力计算存在较高的计算复杂度对设备要求较高,而且视觉变压器的分片映射处理机制会破坏Patch的空间信息,不利于网络学习图像局部空间信息,限制了预测精度的提高。
技术实现思路
[0005]本专利技术目的是提供一种基于人脸外观的深度学习注视预测方法及系统,以实现更好的图像全局建模能力和图像特征多尺度学习能力,同时拥有更高全局自注意力计算效率。
[0006]一方面为了实现上述目的,本专利技术提供了一种基于人脸外观的深度学习注视预测方法,包括:
[0007]获取待测对象的人脸外观图片;
[0008]对所述待测对象的人脸外观图片进行处理,提取人脸图片;
[0009]将所述人脸图片输入训练好的注视预测模型中,预测所述人脸图片中人眼注视方向。
[0010]可选的,预测所述人脸图片中人眼注视方向包括:
[0011]对所述人脸图片进行特征提取,获取特征矩阵;
[0012]对所述特征矩阵进行多尺度特征学习和全局建模,获取融合特征;
[0013]基于所述融合特征,获取所述人脸图片中人眼注视向量;
[0014]根据所述人眼注视向量,预测所述人脸图片中人眼注视方向。
[0015]可选的,所述特征矩阵包括细粒度左右人眼特征和粗粒度人脸特征。
[0016]可选的,对所述人脸图片进行特征提取,获取所述特征矩阵包括:
[0017]对所述人脸图片进行特征提取,获取特征信息;
[0018]调整特征通道数,并通过层归一化和RELU激活函数对所述特征信息进行处理,获取所述特征矩阵。
[0019]可选的,对所述特征矩阵进行多尺度特征学习和全局建模具体包括:
[0020]对所述特征矩阵进行层次化下采样,获取多尺度特征图;
[0021]基于窗口多头自注意力和移动窗口多头注意力对所述多尺度特征图进行多头自注意力计算,获取多尺度特征和全局建模特征。
[0022]可选的,基于所述融合特征,获取所述人脸图片中人眼注视向量的方法包括:
[0023]将所述融合特征进行归一化、池化、全连接处理,获得所述人脸图片中人眼注视向量。
[0024]另一方面为实现上述目的,本专利技术还提供了一种基于人脸外观的深度学习注视预测系统,包括:采集模块、卷积特征提取模块、混合学习模块和预测模块;
[0025]所述采集模块,用于采集待测对象的人脸外观图片,对所述待测对象的人脸外观图片进行处理获取人脸图片;
[0026]所述卷积特征提取模块,用于对所述人脸图片进行特征提取,获取特征矩阵;
[0027]所述混合学习模块,用于对所述特征矩阵进行多尺度特征学习和全局建模,获取融合特征;
[0028]所述预测模块,用于基于所述融合特征,预测所述人脸图片中人眼注视方向。
[0029]可选的,所述卷积特征提取模块包括特征提取子模块和通道调整子模块;
[0030]所述特征提取子模块用于对所述人脸图片进行特征提取,获取特征信息;
[0031]所述通道调整子模块用于调整特征通道数并通过层归一化和RELU激活函数对所述特征信息进行处理。
[0032]可选的,所述混合学习模块包括下采样子模块和多头自注意力学习子模块;
[0033]所下采样子模块用于对所述特征矩阵进行下采样,获取多尺度特征图;
[0034]所述多头自注意力学习子模块用于对所述多尺度特征图进行多头自注意力计算。
[0035]可选的,所述多头自注意力学习子模块包括窗口多头自注意力单元和移动窗口多头自注意力单元;
[0036]所述窗口多头自注意力单元用于对所述多尺度特征图进行窗口自注意力计算;
[0037]所述移动窗口多头自注意力单元用于对所述窗口多头自注意力子模块的输出的特征图进行移动窗口自注意力计算。
[0038]本专利技术技术效果:本专利技术通过多头自注意力机制去对人脸图片特征进行全局建模,避免了传统基于CNN的方法多次使用池化层丢失信息的问题,提高了网络的全局建模能力;本专利技术通过使用残差网络提取特征,避免了传统视觉变压器结构的分片映射处理机破坏Patch空间信息,提高了对人脸图片的局部空间信息学习能力;本专利技术采用窗口多头自注
意力计算和移动窗口多头自注意力计算取代传统的全局自注意力计算,大幅度提高了图片自注意力计算效率。
附图说明
[0039]构成本申请的一部分的附图用来提供对本申请的进一步理解,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
[0040]图1为本专利技术实施例基于人脸外观的深度学习注视预测方法流程图;
[0041]图2为本专利技术实施例混合自注意力网络示意图;
[0042]图3为本专利技术实施例卷积特征提取网络示意图;
[0043]图4为本专利技术实施例混合学习网络示意图;
[0044]图5为本专利技术实施例多头自注意力学习子模块示意图。
具体实施方式
[0045]需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。
[0046]需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤本文档来自技高网...
【技术保护点】
【技术特征摘要】
1.一种基于人脸外观的深度学习注视预测方法,其特征在于,包括:获取待测对象的人脸外观图片;对所述待测对象的人脸外观图片进行处理,提取人脸图片;将所述人脸图片输入训练好的注视预测模型中,预测所述人脸图片中人眼注视方向。2.如权利要求1所述的基于人脸外观的深度学习注视预测方法,其特征在于,预测所述人脸图片中人眼注视方向包括:对所述人脸图片进行特征提取,获取特征矩阵;对所述特征矩阵进行多尺度特征学习和全局建模,获取融合特征;基于所述融合特征,获取所述人脸图片中人眼注视向量;根据所述人眼注视向量,预测所述人脸图片中人眼注视方向。3.如权利要求2所述的基于人脸外观的深度学习注视预测方法,其特征在于,所述特征矩阵包括细粒度左右人眼特征和粗粒度人脸特征。4.如权利要求2所述的基于人脸外观的深度学习注视预测方法,其特征在于,对所述人脸图片进行特征提取,获取所述特征矩阵包括:对所述人脸图片进行特征提取,获取特征信息;调整特征通道数,并通过层归一化和RELU激活函数对所述特征信息进行处理,获取所述特征矩阵。5.如权利要求2所述的基于人脸外观的深度学习注视预测方法,其特征在于,对所述特征矩阵进行多尺度特征学习和全局建模具体包括:对所述特征矩阵进行层次化下采样,获取多尺度特征图;基于窗口多头自注意力和移动窗口多头注意力对所述多尺度特征图进行多头自注意力计算,获取多尺度特征和全局建模特征。6.如权利要求2所述的基于人脸外观的深度学习注视预测方法,其特征在于,基于所述融合特征,获取所述人脸图片中人眼注视向量的方法包括:将所述融合特征进行归一化、池化、全连接...
【专利技术属性】
技术研发人员:李玉洁,陈佳辉,马佳鑫,黄龙钊,王希闻,丁数学,
申请(专利权)人:桂林电子科技大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。