当前位置: 首页 > 专利查询>复旦大学专利>正文

基于transformer的全景图像特征表示学习方法技术

技术编号:38001967 阅读:7 留言:0更新日期:2023-06-30 10:15
本发明专利技术提供了一种基于transformer的全景图像特征表示学习方法,包括:将第一全景图像划分为若干方格,用多层深度卷积神经网络提取各方格的特征,得到各方格的第一特征向量;基于方格划分若干第一窗口,对各第一窗口内的所有方格进行自注意力操作,得到各方格的第二特征向量;使整张第一全景图像的所有方格经过滑动变换及自注意力操作,得到各方格的第三特征向量;将复制后的第一全景图像进行90

【技术实现步骤摘要】
基于transformer的全景图像特征表示学习方法


[0001]本专利技术涉全景图像特征提取
,尤其涉及一种基于transformer的全景图像特征表示学习方法。

技术介绍

[0002]近年来,随着VR领域和自动驾驶等技术的高速发展,全景图像的应用愈加广泛。全景图像相关的任务正在持续获得学者的关注,包括语义分割、目标检测、图像分类、室内布局预测等。在深度学习时代,这些任务一般是基于全景图像的深度特征来完成的。因此,如何提取全景图像的深度特征就成为了一个重要课题。现在的360
°
全景图像基本上采用等距柱状投影图形式来表达(ERP),这种投影把球面坐标的经度和纬度映射到二维平面的横坐标和纵坐标上。然而,ERP的这种映射方式为全景图像表示学习技术带来了很大挑战。
[0003]虽然CNN被广泛用于二维平面图像的特征提取,但是传统的CNN无法有效提取全景图像的特征。因为ERP带来了两个问题:(1)边界不连续性,南极或者北极本来是一个点,但是却被映射成为了一条线,而且本来相邻的左右边界也被映射到了全景图像的两端;(2)空间扭曲,全景投影会使得物体产生畸变,特别是高纬度的物体。解决全景图像的这两个问题成为了选择全景图像表示学习研究的热点。
[0004]为了提取全景图像的特征,常用的方法是把卷积操作适应到球面空间上。SphereNet对某点附近做卷积的时候,在该点做切平面,并把附近像素投影到平面上进行卷积;Kernel Transformer Network(KTN)用多种不同的卷积来适应不同纬度的畸变;S2CNN通过一种傅里叶变换滤波器来使得卷积满足全景图像的旋转一致性;SphereNet在球面均匀地采样,使得这些点支持平面卷积操作;SpherePHD用多面体来逼近球面,从而把球面卷积转化为平面卷积;DeepSphere则用球面卷积来使得模型满足全景图像的旋转一致性。这类方法要么因为使用了大量的采样和投影导致计算效率低下,比如SphereNet的计算时间几乎是平面CNN是十倍;要么如同SpherePHD一样破坏了球面原有的性质。
[0005]也有一些基于ViT的方法(PanoFormer,Sphrical Transformer等)会将全景图像映射回球面之后,将球面划分为不同的块,类似足球皮表面的六边形块,然后在这些块中进行注意力运算。但是这类方法不兼容二维平面图像,无法与大量基于平面图像的训练方法相结合,不利用充分利用常见的预训练模型以进一步提升模型性能。

技术实现思路

[0006]本专利技术的目的在于提供一种基于transformer的全景图像特征表示学习方法,有效克服了现有全景图像特征提取方法带来的空间畸变问题和边界不连续问题,弥补传统CNN或ViT面对全景图像特征嵌入的不足。
[0007]为达到上述目的,本专利技术提供一种基于transformer的全景图像特征表示学习方法,包括:
[0008]S1、将第一全景图像划分为若干方格,用多层深度卷积神经网络提取各个方格的
特征,并为每个方格的特征赋予基于笛卡尔坐标的位置编码,得到各方格的第一特征向量;
[0009]S2、基于所述方格将所述第一全景图像划分为若干第一窗口,对各个第一窗口内的所有方格的第一特征向量进行局部的自注意力操作,得到各方格的第二特征向量;
[0010]S3、使整张第一全景图像的所有方格经过一个支持第一全景图像边界连续性的滑动变换,得到新的方格排列,重复S2,基于各方格的第二特征向量得到各方格的第三特征向量;
[0011]S4、将所述第一全景图像复制一次,将复制后的第一全景图像进行90
°
的俯仰角旋转得到第二全景图像,所述第一全景图像中的第一窗口对应变换为所述第二全景图像中第二窗口,将所述第二全景图像中的第二窗口与所述第一全景图像中的第一窗口进行交叉注意力操作,基于各方格的第三特征向量得到对应原第一全景图像的各方格的第四特征向量;
[0012]S5、基于各方格的第四特征向量,以每四个相邻的方格的特征作为一组进行合并,得到所述第一全景图像的处理后特征。
[0013]可选的,在所述S1中,对于每个方格,其中心用经度u∈[

π,π]和纬度v∈[

0.5π,0.5π]表示,则得到以球心为中心的笛卡尔坐标如下:
[0014]x=sin(u)cos(v)
[0015]y=cos(u)cos(v)
[0016]z=

sin(v)
[0017]将x,y,z,u,v这五个标量组合为第一向量,并通过全连接层神经网络编码得到具有相同特征维度的第二向量,将所述第一向量与所述第二向量相加之后得到各方格的第一特征向量。
[0018]可选的,基于所述方格将所述第一全景图像划分为若干第一窗口之后,所述第一窗口内的方格会被压扁成一行,从而把所述方格的第一特征向量转换为对应的所述第一窗口的二维矩阵,所述二维矩阵表示为方格数量*特征维度。
[0019]可选的,在所述S2的自注意力操作中,每对查询Q
i
和键值k
j
进行点积运算之后都会被加上一个基于大圆距离的相对位置偏移量,其中,Q
i
表示所述二维矩阵的第i行,k
j
表示所述二维矩阵的第j列。
[0020]可选的,设定所述自注意力操作为函数attention,用公式表示attention函数如下:
[0021][0022][0023]式中,B
ij
表示第i个方格和第j个方格之间的位置关系,α
ij
表示所述第一全景图像的偏移量,β
ij
表示平面图像的偏移量,u
i
和u
i
分别表示第i个方格的经度和纬度,u
j
和v
j
分别表示第j个方格的经度和纬度,Q,K,V表示同一个第一窗口的二维矩阵。
[0024]可选的,使整张第一全景图像的所有方格经过一个支持第一全景图像边界连续性的滑动变换的步骤具体包括:
[0025]S31、将所述第一全景图像整体向左循环滑动半个窗口大小的距离;
[0026]S32、将所述第一全景图像从中间竖直切开,并使得右半部分绕着左半部分的右上角逆时针旋转180
°

[0027]S33、将所述第一全景图像整体向下循环滑动半个窗口大小的距离。
[0028]可选的,在所述S3中,得到各方格的第三特征向量之后,各方格会被恢复原来的排序方式。
[0029]可选的,在所述S4中,对于所述第一全景图像中的任意一点P(u,v),设使得所述第一全景图像的北极点从P0(0,

0.5π)旋转到目标位置P1(u1,v1)之后,P(u,v)会被旋转到P

(u

,v

),所述俯仰角旋转操作用公式表述如下本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于transformer的全景图像特征表示学习方法,其特征在于,包括:S1、将第一全景图像划分为若干方格,用多层深度卷积神经网络提取各个方格的特征,并为每个方格的特征赋予基于笛卡尔坐标的位置编码,得到各方格的第一特征向量;S2、基于所述方格将所述第一全景图像划分为若干第一窗口,对各个第一窗口内的所有方格的第一特征向量进行局部的自注意力操作,得到各方格的第二特征向量;S3、使整张第一全景图像的所有方格经过一个支持第一全景图像边界连续性的滑动变换,得到新的方格排列,重复S2,基于各方格的第二特征向量得到各方格的第三特征向量;S4、将所述第一全景图像复制一次,将复制后的第一全景图像进行90
°
的俯仰角旋转得到第二全景图像,所述第一全景图像中的第一窗口对应变换为所述第二全景图像中第二窗口,将所述第二全景图像中的第二窗口与所述第一全景图像中的第一窗口进行交叉注意力操作,基于各方格的第三特征向量得到对应原第一全景图像的各方格的第四特征向量;S5、基于各方格的第四特征向量,以每四个相邻的方格的特征作为一组进行合并,得到所述第一全景图像的处理后特征。2.根据权利要求1所述的基于transformer的全景图像特征表示学习方法,其特征在于,在所述S1中,对于每个方格,其中心用经度u∈[

π,π]和纬度v∈[

0.5π,0.5π]表示,则得到以球心为中心的笛卡尔坐标如下:x=sin(u)cos(v)y=cos(u)cos(v)z=

sin(v)将x,y,z,u,v这五个标量组合为第一向量,并通过全连接层神经网络编码得到具有相同特征维度的第二向量,将所述第一向量与所述第二向量相加之后得到各方格的第一特征向量。3.根据权利要求1所述的基于transformer的全景图像特征表示学习方法,其特征在于,基于所述方格将所述第一全景图像划分为若干第一窗口之后,所述第一窗口内的方格会被压扁成一行,从而把所述方格的第一特征向量转换为对应的所述第一窗口的二维矩阵,所述二维矩阵表示为方格数量*特征维度。4.根据权利要求3所述的基于transformer的全景图像特征表示学习方法,其特征在于,在所述S2的自注意力操作中,每对查询Q
i
和键值k
j
进行点积运算之后都会被加上一个基于大圆距离的相对位置偏移量,其中,Q
i
表示所述二维矩阵的第i行,k
j
表示所述二维矩阵的第j列。5.根据权利要求4所述的基于transformer的全景图像特征表示学习方法,其特征在于,设定所述自注意力操作为函数attention,用公式表示attention函数如下:于,设定所述自注意力操作为函数attention,...

【专利技术属性】
技术研发人员:周向东凌致新
申请(专利权)人:复旦大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1