一种基于差分网络融合ViT的注视点预测方法技术

技术编号：40972861 阅读：20 留言：0更新日期：2024-04-18 21:21

本发明专利技术公开了一种基于差分网络融合ViT的注视点预测方法，包括：获取待测面部图像对；对待测面部图像对进行预处理得到预处理图像；构建基于差分网络融合ViT的注视点预测模型，将所述预处理图像输入所述注视点预测模型得到注视方向。本方法采用多层特征的融合策略，将差分网络和ViT模型学习到的不同特征层级进行融合，从而提高了算法的鲁棒性和泛化能力。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及计算机视觉图像分类，特别涉及一种基于差分网络融合vit的注视点预测方法。

技术介绍

1、计算机视觉中的注视点预测技术已经引起了广泛的关注。注视点预测是指预测人眼在观看图像或视觉任务时的注视点位置，即人眼在一段时间内聚焦的区域。注视点预测技术的应用远不止于眼动追踪和用户界面设计，它还可以应用于图像压缩、视频编码和智能监控等领域，具有广阔的应用前景。

2、传统的注视点预测方法主要基于局部特征或全局特征。其中，基于局部特征的方法注重从图像的局部特征中预测注视点位置，常采用局部特征提取器如hog、sift、orb等进行特征提取，并使用分类器如svm、lda、knn等方法进行分类。由于缺乏全局语义信息的支持，这些方法往往无法捕获图像的整体信息，难以提高注视点预测的准确性和鲁棒性。

3、为解决这一问题，近年来出现了基于全局特征的注视点预测方法。其中，深度学习技术在注视点预测中得到了广泛的应用。现有的基于全局特征的方法主要基于卷积神经网络(cnn)和循环神经网络(rnn)等网络结构，这些方法通过训练神经网络模型来进行图像的特征学习和注视点预测，可以较好地解决注视点预测中的全局语义信息表示问题，但仍存在训练数据不足、耗时长、鲁棒性差等问题。

4、另外个性化的问题也是不能忽视的，例如每个人的眼睛内部结构不同，难以用普通cnn学习。本专利技术提供了基于差分网络和vit模型相结合的注视点预测方法，该方法通过融合局部特征和全局语义信息，提高了注视点预测的准确性和鲁棒性。

技术实现思路

1、本专利技术的目的是提供一种基于差分网络融合vit的注视点预测方法，以解决上述现有技术存在的问题。

2、本专利技术提供的一种基于差分网络融合vit的注视点预测方法，包括：

3、获取待测面部图像对；对待测面部图像对进行预处理得到预处理图像；

4、构建基于差分网络融合vit的注视点预测模型，将所述预处理图像输入所述注视点预测模型得到注视方向。

5、可选地，所述待测面部图像对包括来自同一个体的一对眼睛图像、一对脸部图像和一对包括脸部和眼睛的图像块。

6、可选地，将所述预处理图像输入所述注视点预测模型得到注视方向的过程包括：

7、基于卷积神经网络对所述预处理图像进行特征提取得到特征图；

8、将所述特征图输入至vit网络中进行全局语义信息学习得到注视方向预测结果。

9、可选地，获取所述特征图的过程包括：

10、将经过预处理后的一对待测面部图像分别输入两个卷积神经网络中，得到第一特征图和第二特征图；

11、所述第一特征图和所述第二特征图依次经concat特征融合和1×1的卷积得到特征图。

12、可选地，两个卷积神经网络共享权重。

13、可选地，将所述特征图输入vit网络进行全局语义信息学习的过程包括：

14、将所述特征图进行划分得到若干特征图块；

15、将所述特征图块输入嵌入层后得到带token的嵌入向量；

16、将位置信息融合至所述带token的嵌入向量得到特征向量；

17、所述特征向量经多层transformer encoder处理得到最终输出结果。

18、可选地，所述transformer encoder包括：若干层归一化、多头注意力层和多层感知器；所述特征向量经多层transformer encoder处理的过程包括：

19、s1、所述特征向量经层归一化，再经过多头注意力层得到重要信息矩阵；

20、s2、将所述重要信息矩阵经层归一化后输入多层感知器得到抽象特征；

21、s3、循环执行s1-s2，得到最终输出结果。

22、本专利技术具有如下技术效果：

23、本专利技术的基于差分网络融合vit的注视点预测方法，采用差分网络和vit模型相结合的方法，差分网络可以提取出不同层次的图像特征，而vit则能够对图像中的信息进行多维度的学习，从而提高了注视点预测的准确性。

24、本方法采用多层特征的融合策略，将差分网络和vit模型学习到的不同特征层级进行融合，从而提高了算法的鲁棒性和泛化能力。

25、本方法采用了注意力机制，能够减少计算开销，提高了算法的速度和灵活性。并且可以应用于多种注视点预测问题，例如眼动追踪、用户行为分析、人机交互等领域，具有较好的可扩展性和应用前景。

本文档来自技高网...

【技术保护点】

1.一种基于差分网络融合ViT的注视点预测方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的基于差分网络融合ViT的注视点预测方法，其特征在于，所述待测面部图像对包括来自同一个体的一对眼睛图像、一对脸部图像和一对包括脸部和眼睛的图像块。

3.根据权利要求2所述的基于差分网络融合ViT的注视点预测方法，其特征在于，将所述预处理图像输入所述注视点预测模型得到注视方向的过程包括：

4.根据权利要求3所述的基于差分网络融合ViT的注视点预测方法，其特征在于，获取所述特征图的过程包括：

5.根据权利要求4所述的基于差分网络融合ViT的注视点预测方法，其特征在于，两个卷积神经网络共享权重。

6.根据权利要求4所述的基于差分网络融合ViT的注视点预测方法，其特征在于，将所述特征图输入ViT网络进行全局语义信息学习的过程包括：

7.根据权利要求6所述的基于差分网络融合ViT的注视点预测方法，其特征在于，所述Transformer Encoder包括：若干层归一化、多头注意力层和多层感知器；所述特征向量经多层Transformer Encoder处理的过程包括：

...

【技术特征摘要】

1.一种基于差分网络融合vit的注视点预测方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的基于差分网络融合vit的注视点预测方法，其特征在于，所述待测面部图像对包括来自同一个体的一对眼睛图像、一对脸部图像和一对包括脸部和眼睛的图像块。

3.根据权利要求2所述的基于差分网络融合vit的注视点预测方法，其特征在于，将所述预处理图像输入所述注视点预测模型得到注视方向的过程包括：

4.根据权利要求3所述的基于差分网络融合vit的注视点预测方法，其特征在于，获取所述特征图的过程包...

【专利技术属性】
技术研发人员：李玉洁，刘宁，丁数学，
申请(专利权)人：桂林电子科技大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人