基于注视点预测模型的驾驶员注视点预测方法技术

技术编号:35150321 阅读:46 留言:0更新日期:2022-10-05 10:28
本发明专利技术公开了一种基于注视点预测模型的驾驶员注视点预测方法,主要解决现有技术不能有效提取视频中的全局与局部特征,导致注视点预测不准确的问题。其方案是:读取基于真实道路场景的驾驶员眼动视频数据构成训练集和测试集,并对其进行光照修正;设置视觉时空注意力层,构建基于注视点预测模型的驾驶员眼动注视点预测模型;将训练集输入到构建的预测模型中,得到训练集图像的初步预测结果;用初步预测结果和注视点真实值图像计算损失值,利用梯度下降法对眼动注视点预测模型进行网络参数更新,得到训练好的注视点预测模型;将测试集输入到训练好的预测模型中,得到其注视点预测结果。本发明专利技术相比现有技术提高了预测精度,可用于智能驾驶辅助系统。用于智能驾驶辅助系统。用于智能驾驶辅助系统。

【技术实现步骤摘要】
基于注视点预测模型的驾驶员注视点预测方法


[0001]本专利技术属于图像处理
,更进一步涉及一种驾驶员注视点预测方法,可用于智能驾驶辅助系统。

技术介绍

[0002]交通场景中,道路及其周遭环境是复杂多变。从交通事故根源出发,需要设计能检测驾驶员状态和驾驶行为的系统,以在出现异常时提醒驾驶员改变当前状态,从而减少事故发生概率。传统的视频序列注视点预测模型由图像视觉显著性预测发展而来,对不同的底层视觉特征如颜色、对比度、亮度等进行手工提取,但这种模型只能分析低级特征,缺乏高级的语义特征,无法有效提取视频序列中的帧间运动信息,生成的注视预测图与通过眼动仪记录的真值图间存在误差,导致无法处理动态变化的真实场景。
[0003]随着人工神经网络的发展,大量研究成果涌现,如SALGAN、SALICON、ACLNet、TASED

Net、UNISAL方法,这些方法均结合了深度神经网络进行注视点检测,虽然通过引入长短期记忆网络可捕获帧间的运动信息,但却由于会丢失时序距离较远的信息,导致全局信息不完整。
[0004]为了解决上述问题,研究人员提出了视觉自注意力模型,arXiv preprint arXiv:2010.11929。该模型采用编码器

解码器网络结构,其中编码器主要由多个相同的结构(多头注意力层、归一化层、多层感知器层)组成,并且编码器之间使用了残差神经网络中的残差结构。该模型结合位置编码以及自注意力机制,扩大了感受野,从而能够获取空间距离较远的特征间的依赖关系,得到序列的全局与局部特征。使用该模型进行注视点预测时,首先将图像切分为若干个小块,并记录每个小块的位置信息,再将每个小块经过线性映射得到指定维度的特征向量,结合已有的位置信息,共同送入视觉自注意力模型编码器进行编码;最后将编码器的结果送入多层感知器进行分类,得到注视点的预测值。由于驾驶员注视点预测任务中需要全局与局部特征来预测驾驶员注视区域的变化,而该模型的自注意力机制不能有效地同时提取视频序列中的时间和空间特征,导致编码器不能得到完整的全局特征,进而导致模型预测结果的准确率降低。

技术实现思路

[0005]本专利技术的目的在于针对上述现有技术的不足,提出一种基于注视点预测模型的驾驶员注视点预测方法,以从原始图像序列中捕获帧间的运动信息以及序列的全局与局部特征,实现对驾驶员注视点的精准预测。
[0006]为实现上述目的,本专利技术的技术方案包括如下:
[0007](1)采集不同驾驶员在不同场景、时间、天气的行车驾驶视频,并让驾驶员用眼动仪测试对应的视频数据得到预测点的真实值视频,将采集的原始视频和真实值视频一一对应打包,按照4:1的比例分为训练集和测试集;
[0008](2)构建注视点预测模型D:
[0009]2a)将视频中的每张图像分解为相同大小的若干个小块,并将这些图像小块排成序列,再将序列中的每个图像小块编码成包含每个时刻位置信息的特征向量a:
[0010]2b)根据特征向量a,计算得到最适合查找注视点区域的查询向量Q和提升查找注视点区域准确率的键向量K:
[0011]Q=W
Q
a,K=W
K
a
[0012]其中,W
Q
、W
K
分别为查询向量Q和键向量K的权重系数;
[0013]2c)根据查询向量Q、键向量K计算特征向量a的注意力Attention(Q,K):
[0014][0015]其中,表示视频中第n张图像的第t个图像小块的编码向量在s位置处的查询向量,
[0016]表示视频中第n张图像的第i个图像小块的编码向量在s位置处的键向量,
[0017]表示视频中第n张图像的第t个图像小块的编码向量在s位置处的键向量,
[0018]表示视频中第n

张图像的第t

个图像小块的编码向量在s位置处的键向量,
[0019]N表示视频中图像的总数,T表示每幅图像中的图像块数目,n表示视频中的第n张图像,t表示每幅图像的第t个图像小块,s表示编码特征向量的位置,t

表示对应时间邻域上的邻接图像小块集合,其中w∈{

1,0,1},b∈{

1,0,1};
[0020]2d)将现有视觉注意力模型Vit

T2T中视觉注意力层的计算部分替换为2c中设计的注意力计算公式Attention(Q,K),构成时空视觉注意力层,得到新建注视点预测模型D;
[0021](3)对训练集进行光照修正:
[0022]3a)计算训练集视频中第i幅图像F的平均光照度PMI,并根据平均光照度PMI计算动态序列的平均光照值ASI;
[0023]3b)设置图像平均光照强度PMI的最低阈值系数λ1=0.5,最高阈值系数λ2=1.5,按照如下条件选择图像F最终的光照强度U:
[0024][0025]3c)设置图像F的光照强度为U,得到修改光照强度的图像F',再利用Retinex算法调整图像F'的亮度,得到光照修正图像F”:
[0026]F”=Retinex(F');
[0027](4)将全部光照修正图像F”送入构建的注视点预测模型D,采用梯度下降法对其进行训练,得到训练好的注视点预测模型;
[0028](5)对测试集按照与步骤(3)相同的方法进行光照修正;
[0029](6)将光照修正的测试集送入训练好的注视点预测模型,得到预测的注视点图像。
[0030]本专利技术与现有技术相比,具有以下优点:
[0031]1)本专利技术由于使用眼动数据作为原始图像序列的预测点真实值,相比于传统的眼睛图像分析、鼠标点击等方式生成的注视点,注视区域更加准确,同时极大减少了数据标注
阶段所需要的工作量;
[0032]2)本专利技术针对输入图像序列的特点,先用光照修正模块弥补光照变化对数据造成的影响,并通过改进现有视觉注意力模型中的注意力计算方式,构建新的注视点预测模型,用该模型能够获取图像序列空间距离较远的特征间的依赖关系,得到图像序列的全局与局部特征,从而提高预测网络的预测准确率。
附图说明
[0033]图1是本专利技术的实现流程图;
[0034]图2是本专利技术中训练驾驶员眼动点预测模型的示意图;
[0035]图3是本专利技术中设计的时空注意力计算原理图;
[0036]图4是用本专利技术在采集的数据集上对注视点预测的效果图;
[0037]图5是用本专利技术在公共数据集UCFSports上对注视点预测的效果图;
[0038]图6是用本专利技术在公共数据集DHF1K上对注视点预测的效果图。
具体实施方式
[0039]以下结合附图对本专利技术的实施例及效果做进一步描述。
[0040]参照图1,本实例的实施步骤如下:
[0041]步骤1,获取基于真实道路场景的驾驶员眼本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于注视点预测模型的驾驶员注视点预测方法,特征在于,包括如下步骤:(1)采集不同驾驶员在不同场景、时间、天气的行车驾驶视频,并让驾驶员用眼动仪测试对应的视频数据得到预测点的真实值视频,将采集的原始视频和真实值视频一一对应打包,按照4∶1的比例分为训练集和测试集;(2)构建注视点预测模型D:2a)将视频中的每张图像分解为相同大小的若干个小块,并将这些图像小块排成序列,再将序列中的每个图像小块编码成包含每个时刻位置信息的特征向量a:2b)根据特征向量a,计算得到最适合查找注视点区域的查询向量Q和提升查找注视点区域准确率的键向量K:Q=W
Q
a,K=W
K
a其中,W
Q
、W
K
分别为查询向量Q和键向量K的权重系数;2c)根据查询向量Q、键向量K计算特征向量a的注意力Attention(Q,K):其中,表示视频中第n张图像的第t个图像小块的编码向量在s位置处的查询向量,表示视频中第n张图像的第i个图像小块的编码向量在s位置处的键向量,表示视频中第n张图像的第t个图像小块的编码向量在s位置处的键向量,表示视频中第n

张图像的第t

个图像小块的编码向量在s位置处的键向量,N表示视频中图像的总数,T表示每幅图像中的图像块数目,n表示视频中的第n张图像,t表示每幅图像的第t个图像小块,s表示编码特征向量的位置,t

表示对应时间邻域上的邻接图像小块集合,其中w∈{

1,0,1},b∈{

1,0,1};2d)将现有视觉注意力模型Vit

T2T中视觉注意力层的计算部分替换为2c中设计的注意力计算公式Attention(Q,K),构成视觉时空注意力层,得到新建注视点预测模型D;(3)对训练集进行光照修正:3a)计算训练集视频中第i幅图像F的平均光照度PMI,并根据平均光照度PMI计算动态序列的平均光照值ASI;3b)设置图像平均光照强度PMI的最低阈值系数λ1=0.5,最高阈值系数λ2=1.5,按照如下条件选择图像F最终的光照强度U:3c)设置图像F的光照强度为U,得到修改光照强度的图像F

,再利用Retinex算法调整图像F

的亮度,得到光照修正图像F

:F

=Retinex(F

);(4)将全部光照修正图像F

送入构建的注视点预测模型D,采用梯度下降法对其进行训练,得到训练好的注视点预测模型;(5)对测试集按照与步骤(3)相同的方法进行光照修正;(6)将光照修正的测试集送入训练好的注视点预测模型,得到预测的注视点图像。2.根据权利要求1所述的方法,其中步骤2a)将序列中的每个图像小...

【专利技术属性】
技术研发人员:韩冰王海桐申天啸韩怡园高新波杨铮周洋
申请(专利权)人:西安电子科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1