基于transformer的全景图像特征表示学习方法技术

技术编号：38001967 阅读：7 留言：0更新日期：2023-06-30 10:15

本发明专利技术提供了一种基于transformer的全景图像特征表示学习方法，包括：将第一全景图像划分为若干方格，用多层深度卷积神经网络提取各方格的特征，得到各方格的第一特征向量；基于方格划分若干第一窗口，对各第一窗口内的所有方格进行自注意力操作，得到各方格的第二特征向量；使整张第一全景图像的所有方格经过滑动变换及自注意力操作，得到各方格的第三特征向量；将复制后的第一全景图像进行90

全部详细技术资料下载

【技术实现步骤摘要】
基于transformer的全景图像特征表示学习方法

[0001]本专利技术涉全景图像特征提取
，尤其涉及一种基于transformer的全景图像特征表示学习方法。

技术介绍

[0002]近年来，随着VR领域和自动驾驶等技术的高速发展，全景图像的应用愈加广泛。全景图像相关的任务正在持续获得学者的关注，包括语义分割、目标检测、图像分类、室内布局预测等。在深度学习时代，这些任务一般是基于全景图像的深度特征来完成的。因此，如何提取全景图像的深度特征就成为了一个重要课题。现在的360
°
全景图像基本上采用等距柱状投影图形式来表达(ERP)，这种投影把球面坐标的经度和纬度映射到二维平面的横坐标和纵坐标上。然而，ERP的这种映射方式为全景图像表示学习技术带来了很大挑战。
[0003]虽然CNN被广泛用于二维平面图像的特征提取，但是传统的CNN无法有效提取全景图像的特征。因为ERP带来了两个问题：(1)边界不连续性，南极或者北极本来是一个点，但是却被映射成为了一条线，而且本来相邻的左右边界也被映射到了全景图像的两端；(2)空间扭曲，全景投影会使得物体产生畸变，特别是高纬度的物体。解决全景图像的这两个问题成为了选择全景图像表示学习研究的热点。
[0004]为了提取全景图像的特征，常用的方法是把卷积操作适应到球面空间上。SphereNet对某点附近做卷积的时候，在该点做切平面，并把附近像素投影到平面上进行卷积；Kernel Transformer Network(KTN)用多种不同的卷积来适应不...

【技术保护点】

【技术特征摘要】
1.一种基于transformer的全景图像特征表示学习方法，其特征在于，包括：S1、将第一全景图像划分为若干方格，用多层深度卷积神经网络提取各个方格的特征，并为每个方格的特征赋予基于笛卡尔坐标的位置编码，得到各方格的第一特征向量；S2、基于所述方格将所述第一全景图像划分为若干第一窗口，对各个第一窗口内的所有方格的第一特征向量进行局部的自注意力操作，得到各方格的第二特征向量；S3、使整张第一全景图像的所有方格经过一个支持第一全景图像边界连续性的滑动变换，得到新的方格排列，重复S2，基于各方格的第二特征向量得到各方格的第三特征向量；S4、将所述第一全景图像复制一次，将复制后的第一全景图像进行90
°
的俯仰角旋转得到第二全景图像，所述第一全景图像中的第一窗口对应变换为所述第二全景图像中第二窗口，将所述第二全景图像中的第二窗口与所述第一全景图像中的第一窗口进行交叉注意力操作，基于各方格的第三特征向量得到对应原第一全景图像的各方格的第四特征向量；S5、基于各方格的第四特征向量，以每四个相邻的方格的特征作为一组进行合并，得到所述第一全景图像的处理后特征。2.根据权利要求1所述的基于transformer的全景图像特征表示学习方法，其特征在于，在所述S1中，对于每个方格，其中心用经度u∈[
‑
π,π]和纬度v∈[
‑
0.5π,0.5π]表示，则得到以球心为中心的笛卡尔坐标如下：x＝sin(u)cos(v)y＝cos(u)cos(v)z＝
‑
sin(v)将x,y,z,u,v这五个标量组合为第一向量，并通过全连接层神经网络编码得到具有相同特征维度的第二向量，将所述第一向量与所述第二向量相加之后得到各方格的第一特征向量。3.根据权利要求1所述的基于transformer的全景图像特征表示学习方法，其特征在于，基于所述方格将所述第一全景图像划分为若干第一窗口之后，所述第一窗口内的方格会被压扁成一行，从而把所述方格的第一特征向量转换为对应的所述第一窗口的二维矩阵，所述二维矩阵表示为方格数量*特征维度。4.根据权利要求3所述的基于transformer的全景图像特征表示学习方法，其特征在于，在所述S2的自注意力操作中，每对查询Q
i
和键值k
j
进行点积运算之后都会被加上一个基于大圆距离的相对位置偏移量，其中，Q
i
表示所述二维矩阵的第i行，k
j
表示所述二维矩阵的第j列。5.根据权利要求4所述的基于transformer的全景图像特征表示学习方法，其特征在于，设定所述自注意力操作为函数attention，用公式表示attention函数如下：于，设定所述自注意力操作为函数attention，...

【专利技术属性】
技术研发人员：周向东，凌致新，
申请(专利权)人：复旦大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人