一种基于人脸外观的深度学习注视预测方法及系统技术方案

技术编号：38340066 阅读：20 留言：0更新日期：2023-08-02 09:20

本发明专利技术公开了一种基于人脸外观的深度学习注视预测方法及系统，方法包括：获取待测对象的人脸外观图片；对所述待测对象的人脸外观图片进行处理，提取人脸图片；将所述人脸图片输入训练好的注视预测模型中，预测所述人脸图片中人眼注视方向。本发明专利技术通过将卷积神经网络、窗口多头注意力机制和移动窗口多头注意力机制结合，提高了网络的图片局部空间特征学习能力和全局特征建模能力，解决了现有基于视觉变压器的注视预测方法无法多尺度特征学习以及图片全局自注意力计算困难的问题。及图片全局自注意力计算困难的问题。及图片全局自注意力计算困难的问题。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于人脸外观的深度学习注视预测方法及系统

[0001]本专利技术属于图像处理
，尤其涉及一种基于人脸外观的深度学习注视预测方法及系统。

技术介绍

[0002]人眼注视方向是一种重要的人类行为信息，它蕴含了丰富的人类心理信息，是理解人类意图与情感的重要线索之一，人眼注视方向预测在医疗、虚拟现实、人机交互、市场调研等各个领域有着广泛的应用需求。为了实现这些需求，有关于注视方向预测的研究一直是相关领域的研究重点，而基于人脸外观的注视方向预测更是该领域中的一项重要的核心任务。
[0003]注视任务通常是指预测注视者在相机坐标系下的方向，通常使用单位向量的x，y，z值或俯仰角(pitch)和偏航角(yaw)描述视线的方向。传统的预测方法通常需要使用虹膜半径、Kappa角、瞳孔位置等眼部特征建立几何模型进行预测。由于需要精确的眼部特征信息，这类方法往往需要佩戴专用设备采集高质量的图像，拥有较高的使用成本与局限性，难以推广。现有的深度学习方法实现了输入一张人眼图片，输出该人眼图片在相机坐标系下的注视方向。深度学习方法需要大量可训练的数据集，从数据集中学习人脸图像特征，使得在光照变化，头部姿势变化下，保持一定的精度。
[0004]尽管目前的深度学习方法表现出色，但仍存在一些问题。一方面现阶段的深度学习方法以卷积神经网络(CNN)为主，但CNN在池化层丢失大量信息，全局建模能力受限，预测精度受限。另一方面，一些现阶段较为先进的研究使用视觉变压器的结构进行注视预测，但视觉变压器的结构不适合于视觉任务的多尺度特征...

【技术保护点】

【技术特征摘要】
1.一种基于人脸外观的深度学习注视预测方法，其特征在于，包括：获取待测对象的人脸外观图片；对所述待测对象的人脸外观图片进行处理，提取人脸图片；将所述人脸图片输入训练好的注视预测模型中，预测所述人脸图片中人眼注视方向。2.如权利要求1所述的基于人脸外观的深度学习注视预测方法，其特征在于，预测所述人脸图片中人眼注视方向包括：对所述人脸图片进行特征提取，获取特征矩阵；对所述特征矩阵进行多尺度特征学习和全局建模，获取融合特征；基于所述融合特征，获取所述人脸图片中人眼注视向量；根据所述人眼注视向量，预测所述人脸图片中人眼注视方向。3.如权利要求2所述的基于人脸外观的深度学习注视预测方法，其特征在于，所述特征矩阵包括细粒度左右人眼特征和粗粒度人脸特征。4.如权利要求2所述的基于人脸外观的深度学习注视预测方法，其特征在于，对所述人脸图片进行特征提取，获取所述特征矩阵包括：对所述人脸图片进行特征提取，获取特征信息；调整特征通道数，并通过层归一化和RELU激活函数对所述特征信息进行处理，获取所述特征矩阵。5.如权利要求2所述的基于人脸外观的深度学习注视预测方法，其特征在于，对所述特征矩阵进行多尺度特征学习和全局建模具体包括：对所述特征矩阵进行层次化下采样，获取多尺度特征图；基于窗口多头自注意力和移动窗口多头注意力对所述多尺度特征图进行多头自注意力计算，获取多尺度特征和全局建模特征。6.如权利要求2所述的基于人脸外观的深度学习注视预测方法，其特征在于，基于所述融合特征，获取所述人脸图片中人眼注视向量的方法包括：将所述融合特征进行归一化、池化、全连接...

【专利技术属性】
技术研发人员：李玉洁，陈佳辉，马佳鑫，黄龙钊，王希闻，丁数学，
申请(专利权)人：桂林电子科技大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人