System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种自注意力下空间自感知的视觉场景识别方法技术_技高网

一种自注意力下空间自感知的视觉场景识别方法技术

技术编号:43854785 阅读:5 留言:0更新日期:2024-12-31 18:45
本发明专利技术涉及机器人自主导航与视觉识别技术领域,公开了一种自注意力下空间自感知的视觉场景识别方法,采用主要由ViTbackbone和特征聚合模块Token Module两部分所构成的S3VPR模型实现,包括下述步骤:1)对于给定的输入图像,利用ViTbackbone提取基础特征,得到特征图,而后形成新特征图;2)对新特征图进行reshape操作,将其从二维特征图转换为三维特征图;3)使用特征聚合模块Token Module先沿空间维度对三维特征图进行处理得到空间交互特征图,然后再沿通道维度进行处理得到通道交互特征图,而后进一步处理得到全局描述子;4)利用相似度算法将查询图像的全局描述子和数据库中所有数据库图像的全局描述子进行一一比较,找出所有和查询图像归属同一场景的数据库图像。

【技术实现步骤摘要】

本专利技术涉及机器人自主导航与视觉识别,具体的说,是一种自注意力下空间自感知的视觉场景识别方法


技术介绍

1、视觉场景识别(visual place recognition,vpr)技术可以为自主智能体(例如无人机、机器人)的自我感知环境定位和路径规划提供有效的解决方案。在之前的研究中,学者们把vpr的研究分为两类:单阶段检索与双阶段检索。单阶段检索把图像特征融合为全局描述子,并基于欧式距离筛选出top-k张候选图,从而得出结论;双阶段检索使用图像局部特征,并利用重排序算法对最优候选图再次排序,进一步明确结论。

2、虽然双阶段检索可以提升性能,但是其需要额外的内存与时间开销。众多研究工作表明,若单阶段检索的全局描述子生成算法能够有效消除复杂拍摄环境的干扰,得到高鲁棒的具有视觉不变性信息的全局描述子,它的性能甚至更加高效。

3、近年来,vpr领域的大多数方法倾向于使用基于或者涉及自注意力机制的模型提取图像的基础特征,并使用特定的特征融合算法从中得到高鲁棒性的描述子。然而,作者们很少关注图像特征本身所具有的强判别性的视觉属性信息。


技术实现思路

1、本专利技术的目的在于解决现有技术的不足,提供一种自注意力下空间自感知的视觉场景识别方法,通过新设计的简单高效的特征聚合模块token module可从提取的图像基础特征中聚合出高鲁棒的具有视觉不变性信息的全局描述子。

2、本专利技术通过下述技术方案实现:一种自注意力下空间自感知的视觉场景识别方法,采用主要由vit backbone和特征聚合模块token module两部分所构成的s3vpr模型实现,包括下述步骤:

3、1)对于给定的输入图像q,且q∈r3×w×h(w,h分别表示输入图像的宽和高,优选设置w×h为224×224,也可其它尺寸)利用vit backbone提取基础特征,得到wh+1个token向量组成的特征图fcls,且fcls∈r(wh+1)×c,而后形成新特征图f2d,且f2d∈rwh×c,其中,w,h分别表示输入图像的宽和高,c表示token向量的维度,输入图像q包括查询图像和数据库图像;

4、2)对新特征图f2d进行reshape操作,将其从二维特征图转换为三维特征图f,且f∈rw×h×c;

5、3)使用新设计的特征聚合模块token module先沿空间维度对三维特征图f进行处理得到空间交互特征图fsi,且fsi∈rw×h×c,然后从通道维度对空间交互特征图fsi进行处理得到通道交互特征图fci,且fci∈rw×h×c,而后进一步处理得到全局描述子z;

6、即使用新设计的特征聚合模块token module对三维特征图f先后沿着空间方向、通道方向进行处理,以增强其最显著特征的表达能力,然后进一步利用token module中的特征聚合组件gem head处理后得到了用于最终判别的鲁棒的全局描述子z;

7、4)利用相似度算法将查询图像的全局描述子z和数据库中所有数据库图像的全局描述子z进行一一比较,找出所有和查询图像归属同一场景的数据库图像。

8、进一步为更好地实现本专利技术所述的一种自注意力下空间自感知的视觉场景识别方法,特别采用下述设置方式:所述新特征图f2d为丢弃特征图fcls中的class token向量,只取patch tokens向量集得到。

9、进一步为更好地实现本专利技术所述的一种自注意力下空间自感知的视觉场景识别方法,特别采用下述设置方式:所述相似度算法为余弦相似度(也可为欧氏距离等其它相似度算法)。

10、进一步为更好地实现本专利技术所述的一种自注意力下空间自感知的视觉场景识别方法,特别采用下述设置方式:所述特征聚合模块token module包括主体部分token block和特征聚合组件gem head,主体部分token block包括从空间维度上增强特征图的显著特征的表达能力的space interaction模块和从通道维度上增强特征图的显著特征的表达能力的channel interaction模块。

11、进一步为更好地实现本专利技术所述的一种自注意力下空间自感知的视觉场景识别方法,特别采用下述设置方式:所述space interaction模块包括space self-awareness单元和space fusion单元,且在空间维度上space interaction模块对三维特征图f进行处理的过程包括:

12、3.1.1)基于单像素与周围其它像素在视觉属性上的联系,首先使用space self-awareness单元挖掘三维特征图f内部的视觉结构属性,计算出通道式空间自感知特征图(包含更丰富视觉信息的特征)fhp,且fhp∈rw×h×c×p×p;其中,p×p为感知区域的宽和高尺寸;

13、3.1.2)然后,使用space fusion单元对通道式空间自感知特征图fhp进行降维操作,缩小单像素感知域;

14、3.1.3)最后,经步骤3.1.2)后,通过“残差连接”的方式将降维后的新三维特征图fsf与三维特征图f融合,且fsf∈rw×h×c,得到空间交互特征图fsi,且fsi∈rw×h×c;使得到的新特征fsi在饱含增强了的视觉信息的同时,保持内在的几何结构属性。

15、进一步为更好地实现本专利技术所述的一种自注意力下空间自感知的视觉场景识别方法,特别采用下述设置方式:所述步骤3.1.1)具体为:

16、3.1.1.1)space self-awareness单元将三维特征图f通过pad操作填充边缘后,使用expand操作逐个通道地提取以每个像素为中心的大小为p×p(p优选设置为3)的周围区域,得到新的特征f′,且f′∈rw×h×c×p×p;

17、3.1.1.2)针对新的特征f′,再使用hadamard product操作计算每个像素及其p×p周围区域的通道式空间自感知特征图fhp,即:

18、fhp=expand(pad(f))⊙broadcast(f),fhp∈rw×h×c×p×p (1);

19、其中,⊙表示hadamard product操作;broadcast是python的一种运算机制;在hadamard product计算过程中,broadcast会把三维特征图f自动扩张到与新的特征f′相同的形状,即得到广播特征f″∈rw×h×c×p×p。

20、进一步为更好地实现本专利技术所述的一种自注意力下空间自感知的视觉场景识别方法,特别采用下述设置方式:space fusion单元把包含视觉结构信息的高维度的通道式空间自感知特征图fhp重新编码为新三维特征图fsf。所述步骤3.1.2)具体为:首先spacefusion单元对通道式空间自感知特征图fhp进行l2normalization操作,然后使用gempooling对其进行降维,使单像素感知域的大小从p×p缩小为1×1。

21本文档来自技高网...

【技术保护点】

1.一种自注意力下空间自感知的视觉场景识别方法,其特征在于:采用主要由ViTbackbone和特征聚合模块Token Module两部分所构成的S3VPR模型实现,包括下述步骤:

2.根据权利要求1所述的一种自注意力下空间自感知的视觉场景识别方法,其特征在于:所述新特征图F2D为丢弃特征图Fcls中的class token向量,只取Patch tokens向量集得到。

3.根据权利要求1或2所述的一种自注意力下空间自感知的视觉场景识别方法,其特征在于:所述相似度算法为余弦相似度。

4.根据权利要求1所述的一种自注意力下空间自感知的视觉场景识别方法,其特征在于:所述特征聚合模块Token Module包括主体部分Token Block和特征聚合组件GeM head,主体部分TokenBlock包括从空间维度上增强特征图的显著特征的表达能力的Spaceinteraction模块和从通道维度上增强特征图的显著特征的表达能力的Channelinteraction模块。

5.根据权利要求4所述的一种自注意力下空间自感知的视觉场景识别方法,其特征在于:所述Space interaction模块包括Space self-awareness单元和Space fusion单元,且在空间维度上Space interaction模块对三维特征图F进行处理的过程包括:

6.根据权利要求5所述的一种自注意力下空间自感知的视觉场景识别方法,其特征在于:所述步骤3.1.1)具体为:

7.根据权利要求5所述的一种自注意力下空间自感知的视觉场景识别方法,其特征在于:所述步骤3.1.2)具体为:Space fusion单元对通道式空间自感知特征图Fhp进行L2normalization操作,然后使用GeM pooling对其进行降维,使单像素感知域的大小从p×p缩小为1×1。

8.根据权利要求4所述的一种自注意力下空间自感知的视觉场景识别方法,其特征在于:所述Channel interaction模块主要由中间带有激活函数的两个全连接层组成,且在通道维度上对空间交互特征图Fsi的处理过程包括:

9.根据权利要求4所述的一种自注意力下空间自感知的视觉场景识别方法,其特征在于:所述特征聚合组件GeM head包括用于对输入的Fci进行降维的池化层和用于将降维后的特征表达进行变换得到全局描述子z的全连接层,且z=GeMHead(Fci)=WGeM(Fci)+b,z∈Rd,其中,W,b分别是全连接层的权重参数与归纳偏置;W∈Rc×d,d是全局描述子z的向量维度。

...

【技术特征摘要】

1.一种自注意力下空间自感知的视觉场景识别方法,其特征在于:采用主要由vitbackbone和特征聚合模块token module两部分所构成的s3vpr模型实现,包括下述步骤:

2.根据权利要求1所述的一种自注意力下空间自感知的视觉场景识别方法,其特征在于:所述新特征图f2d为丢弃特征图fcls中的class token向量,只取patch tokens向量集得到。

3.根据权利要求1或2所述的一种自注意力下空间自感知的视觉场景识别方法,其特征在于:所述相似度算法为余弦相似度。

4.根据权利要求1所述的一种自注意力下空间自感知的视觉场景识别方法,其特征在于:所述特征聚合模块token module包括主体部分token block和特征聚合组件gem head,主体部分tokenblock包括从空间维度上增强特征图的显著特征的表达能力的spaceinteraction模块和从通道维度上增强特征图的显著特征的表达能力的channelinteraction模块。

5.根据权利要求4所述的一种自注意力下空间自感知的视觉场景识别方法,其特征在于:所述space interaction模块包括space self-awareness单元和space fusion单元,且...

【专利技术属性】
技术研发人员:候少麒武辰宇秦泽邦殷光强刘学婷周楠安俊企张钰淞
申请(专利权)人:电子科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1