System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种目标导向的扫视路径预测方法技术_技高网

一种目标导向的扫视路径预测方法技术

技术编号:44781588 阅读:5 留言:0更新日期:2025-03-28 19:38
本发明专利技术公开了一种目标导向的扫视路径预测方法,属于路径预测领域。本发明专利技术提取目标语义信息和场景图像的多层级视觉信息;将目标语义信息和多层级视觉信息融合为联合特征信息;将所有注视点的查询信息和联合特征信息一起输入到扫视路径解码器中,采用并行的方式预测所有注视点的隐藏状态信息;将所有注视点的隐藏状态信息一起输入一个扫视路径头中,将其转化为坐标值X、坐标值Y、持续时间T和终止概率值V等参数;最后遍历所有的注视点,如果当前注视点的终止概率值小于0.5,则将该注视点的坐标值和持续时间加入扫视路径,否则,停止遍历。本发明专利技术提出的模型可以在目标导向的场景中生成更加真实可靠的扫视路径。

【技术实现步骤摘要】

本专利技术涉及路径预测,特别涉及一种目标导向的扫视路径预测方法


技术介绍

1、扫视路径预测是一种动态预测人类注意力的过程。随着增强现实(augmentedreality,ar)和虚拟现实(virtural reality,vr)等技术的发展,近年来扫视路径预测领域受到了越来越多的关注,因为它可以预测人类的注意力并且可以被运用到视口渲染、疲劳检测和图像/视频质量评估等多种方面。

2、和自由观看的方式不同,目标导向的扫视路径预测是任务驱动的以及有目的的。它往往相对复杂,因为需要考虑目标的语义信息和场景图像信息并对其进行建模。目前对于目标导向的扫视路径预测的研究较少,但这种场景在现实中却十分的常见(例如:父母可能会在游乐园复杂的人群中搜索他们的孩子),因此目标导向的扫视路径预测的研究对于丰富和完善扫视路径预测的理论有着重要意义。

3、早期目标导向的扫视路径预测方法往往采用语义引导图的方式来对目标信息进行编码。但是这些方法往往依赖于已经训练好的目标检测模型来对目标的文本信息进行编码,并且往往局限于目标检测模型的训练集包括的类别,而这往往是比较少的。当需要对未见类别进行预测时,需要先收集包含相应类别的数据集然后对该目标检测模型重新进行训练。最近一些方法提出采用视觉-语义匹配的方式(即利用预训练好的语言模型和视觉模型良好的表达能力)来对目标导向的扫视路径进行预测。但目前已有的这种方式往往采用独立的视觉编码器和语义编码器,并没有充分考虑到视觉-语义信息之间对齐的关系。这会导致同一物体在不同的特征空间之间的距离差距较远,往往需要大量的训练数据来学习两种表达方式之间的对应关系。因此,已有的基于视觉-语义匹配的方法也不能对未见类别产生较好的效果,而且对于训练集充分的已见类别效果也往往不佳。


技术实现思路

1、本专利技术提供一种目标导向的扫视路径预测方法,可以在目标导向的场景中生成更加真实可靠的扫视路径。

2、本专利技术实施例提供一种目标导向的扫视路径预测方法,包括以下步骤:

3、步骤1,利用clip(contrastive language-image pre-training,对比语言-图像预训练)文本/视觉编码器提取目标语义信息;

4、步骤2,利用clip视觉编码器提取场景图像的多层级视觉信息;

5、步骤3,利用层级式的视觉-语义特征融合模块,将目标语义信息和多层级视觉信息融合为联合特征信息;

6、步骤4,将所有注视点的查询信息和联合特征信息一起输入到扫视路径解码器中,采用并行的方式预测所有注视点的隐藏状态信息;

7、步骤5,将所有注视点的隐藏状态信息一起输入一个扫视路径头中,转化为坐标值x、坐标值y、持续时间t和终止概率值v的参数;

8、步骤6,遍历所有的注视点,如果当前注视点的终止概率值小于等于0.5,则将该注视点的坐标值和持续时间加入扫视路径,否则,停止遍历。

9、可选地,在本专利技术的一个实施例中,在步骤1中,利用clip文本/视觉编码器提取目标语义信息为:

10、ftarget=clip(target)

11、其中,target是代表目标的文本提示或视觉提示,clip代表相应的clip文本/视觉编码器,ftarget代表目标的语义信息嵌入。

12、可选地,在本专利技术的一个实施例中,在步骤2中,利用clip视觉编码器来提取场景图像的多层级视觉信息为:

13、a1,a2,...,an=clipvisual(image)

14、其中,image代表场景的二维平面图像,clipvisual代表clip视觉编码器,a1,a2,...,an分别代表clip视觉编码器中n个不同特征层输出的特征图嵌入。

15、可选地,在本专利技术的一个实施例中,步骤3具体包括如下步骤:

16、步骤301,将步骤1提取的目标语义信息ftarget经过n个独立的线性映射,将维度转化为后续transformer架构的内部维度d,得到n个新的目标特征向量嵌入ftarget1,ftarget2,...,ftargetn;

17、步骤302,将步骤2提取到的多层级视觉信息的视觉特征图a1,a2,...,an经过n个独立的线性映射,将维度转化为后续transformer架构的内部维度d,得到n个新的视觉特征图a1',a'2,...,a'n;

18、步骤303,将第一个目标特征向量嵌入ftarget1和最后一个视觉特征图a'n经过一个film结构进行融合,得到融合特征图fjoint1;

19、步骤304,将得到的融合特征图fjoint1添加一个二维位置编码,得到新的特征图fj'oint1;

20、步骤305,将特征图fj'oint1经过一个标准的transformer编码层,使得到的融合特征感知到相互之间的对应关系,得到新的特征图fj”oint1;

21、步骤306,将得到的特征图f″joint1和倒数第二个视觉特征图a'n-1直接相加,得到新的特征图f″′joint1;

22、步骤307,将第二个目标特征向量ftarget2取代步骤303中的第一个目标特征向量ftarget1,然后用得到的特征图f″′joint1取代步骤303中的最后一个视觉特征图a'n,并通过新的film结构来得到一个新的融合特征图fjoint2,并以此类推,重复步骤303-步骤307,直到得到最终的联合特征信息f″jointn。

23、可选地,在本专利技术的一个实施例中,在步骤4中,扫视路径解码器采用并行的方式生成扫视路径所有注视点的隐藏状态。

24、可选地,在本专利技术的一个实施例中,步骤4具体包括如下步骤:

25、步骤401,所有注视点查询信息q0,q1,...,qn-1的值被初始化为全零向量,然后将维度映射为扫视路径解码器中transformer架构的内部维度d,得到新的查询信息表达q′0,q′1,...,q'n-1;

26、步骤402,为映射后的注视点查询信息q′0,q′1,...,q'n-1添加一维位置编码信息,得到新的查询信息q″0,q″1,...,q″n-1;

27、步骤403,将查询信息q″0,q″1,...,q″n-1和融合后的联合特征信息f″jointn一起输入m个transformer解码层,在这一过程中将transformer解码层中所有的掩码信息置为空,最终得到所有注视点的隐藏状态z0,z1,...,zn-1。

28、可选地,在本专利技术的一个实施例中,在步骤5中,将所有注视点的隐藏状态信息一起输入一个扫视路径头中,转化为坐标值x、坐标值y、持续时间t和终止概率值v的公式为:

29、{xi,yi,ti,vi}=fhead(zi;θhead),i∈[0,1,...,n-1]

30、其中,fhead代表扫视路径头,扫视路径头包括四个独本文档来自技高网...

【技术保护点】

1.一种目标导向的扫视路径预测方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的目标导向的扫视路径预测方法,其特征在于,在步骤1中,利用CLIP文本/视觉编码器提取目标语义信息为:

3.根据权利要求1所述的目标导向的扫视路径预测方法,其特征在于,在步骤2中,利用CLIP视觉编码器来提取场景图像的多层级视觉信息为:

4.根据权利要求3所述的目标导向的扫视路径预测方法,其特征在于,步骤3具体包括如下步骤:

5.根据权利要求1所述的目标导向的扫视路径预测方法,其特征在于,在步骤4中,扫视路径解码器采用并行的方式生成扫视路径所有注视点的隐藏状态。

6.根据权利要求4所述的目标导向的扫视路径预测方法,其特征在于,步骤4具体包括如下步骤:

7.根据权利要求4所述的目标导向的扫视路径预测方法,其特征在于,在步骤5中,将所有注视点的隐藏状态信息一起输入一个扫视路径头中,转化为坐标值X、坐标值Y、持续时间T和终止概率值V的公式为:

8.根据权利要求1所述的目标导向的扫视路径预测方法,其特征在于,在步骤6中,在遍历所有的注视点的过程中,具体步骤包括:

9.根据权利要求1所述的目标导向的扫视路径预测方法,其特征在于,在步骤3之后,所述方法还包括以下步骤:

10.根据权利要求1所述的目标导向的扫视路径预测方法,其特征在于,当模型在相应的扫视路径数据集上进行训练过程中CLIP文本/视觉编码器、分割头的参数不参与训练,层级式视觉-语义特征融合模块、扫视路径解码器以及扫视路径头参与训练;

...

【技术特征摘要】

1.一种目标导向的扫视路径预测方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的目标导向的扫视路径预测方法,其特征在于,在步骤1中,利用clip文本/视觉编码器提取目标语义信息为:

3.根据权利要求1所述的目标导向的扫视路径预测方法,其特征在于,在步骤2中,利用clip视觉编码器来提取场景图像的多层级视觉信息为:

4.根据权利要求3所述的目标导向的扫视路径预测方法,其特征在于,步骤3具体包括如下步骤:

5.根据权利要求1所述的目标导向的扫视路径预测方法,其特征在于,在步骤4中,扫视路径解码器采用并行的方式生成扫视路径所有注视点的隐藏状态。

6.根据权利要求4所述的目标导向的扫视路径预测方法,其特征在于,步骤4具体包括如下步...

【专利技术属性】
技术研发人员:权荣赖彦涛梁栋秦杰
申请(专利权)人:南京航空航天大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1