一种图像特征学习方法、装置、设备及可读存储介质制造方法及图纸

技术编号：38105019 阅读：12 留言：0更新日期：2023-07-06 09:26

本申请涉及一种图像特征学习方法、装置、设备及可读存储介质，涉及计算机视觉技术领域，包括基于浅层特征生成网络对原始特征图进行初步卷积和池化，以生成浅层特征图；基于空间感知残差网络对浅层特征图进行空间感知采样学习，以得到空间感知特征图，空间感知残差网络包括至少一个空间感知残差单元，每个空间感知残差单元包括残差块和空间感知自注意力模块，残差块用于对浅层特征图进行残差处理以得到残差特征图，空间感知自注意力模块基于预设的空间感知可变采样策略对残差特征图中的十字区域进行空间感知学习，以得到空间感知特征图。本申请通过空间可变采样实现十字交叉自注意力模块的区域选择，增强了模型对图像空间变换的表达鲁棒性。变换的表达鲁棒性。变换的表达鲁棒性。

全部详细技术资料下载

【技术实现步骤摘要】
一种图像特征学习方法、装置、设备及可读存储介质

[0001]本申请涉及计算机视觉
，特别涉及一种图像特征学习方法、装置、设备及可读存储介质。

技术介绍

[0002]图像特征表达(Image Feature Embedding)是计算机视觉领域最重要的研究任务和范畴之一，图像特征表达是使用机器学习的方法构建图像特征描述算子，将原始图像数据映射至图像特征数据(如图像特征张量)的技术。该技术根据不同的任务导向，将样本从图像空间转换至特征空间中，利用特征空间中样本的分布特征实现既定的视觉计算任务。图像特征表达作为极其关键且不可或缺的技术环节已被广泛应用在如图像分类、目标检测以及语义分割等重要领域，且其输出的图像特征结果将直接影响到整个视觉计算任务的性能表现。
[0003]相关技术中，由于卷积滤波器固定空间滤波模型和Transformer模型中自注意力机制的全局计算架构设计的快速发展，基于卷积和Transformer的图像特征表达方法在视觉计算领域大放异彩的同时，也愈发凸显其局限性，具体的：由于卷积滤波固定的空间采样设计，以致卷积操作只能从特定的像素位置分布模式中获取深度特征，导致其缺少对图像空间变换(如仿射变换、透视变换等)的内在感知机制，以致在处理存在局部形变和空间变换的图像时，无法鲁棒表达图像的深度语义特征。例如图像不同空间位置上可能存在大小和形变程度不同，但纹理相同的局部图案，固定的采样模式和池化操作难以准确区分与鲁棒表达这些特征。

技术实现思路

[0004]本申请提供一种图像特征学习方法...

【技术保护点】

【技术特征摘要】
1.一种图像特征学习方法，其特征在于，包括以下步骤：基于浅层特征生成网络对原始特征图进行初步卷积和池化，以生成浅层特征图；基于空间感知残差网络对浅层特征图进行空间感知采样学习，以得到空间感知特征图，所述空间感知残差网络包括至少一个空间感知残差单元，每个空间感知残差单元包括残差块和空间感知自注意力模块，残差块用于对浅层特征图进行残差处理以得到残差特征图，空间感知自注意力模块基于预设的空间感知可变采样策略对残差特征图中的十字区域进行空间感知学习，以得到空间感知特征图。2.如权利要求1所述的图像特征学习方法，其特征在于，所述空间感知自注意力模块基于预设的空间感知可变采样策略对残差特征图中的十字区域进行空间感知学习，以得到空间感知特征图，包括：将所述残差特征图分别映射为基础特征张量和空间感知张量SP，所述基础特征张量包括特征张量Q、特征张量K和特征张量V，所述空间感知张量SP中存在与基础特征张量中每一位置对应的二维向量sp
u
，sp
u
表示基础特征张量中每一位置在采样阶段的位移量；对基础特征张量中各个位置对应的基础十字区域进行定义；基于所述基础十字区域和所述空间感知张量SP对所述基础特征张量中各个位置对应的空间感知十字区域进行定义；分别对特征张量Q中各个位置以及在特征张量K中与各个位置对应的空间感知十字区域进行交叉映射处理，得到关联张量集合P；分别对关联张量集合P中的每一个关联张量进行归一化处理，得到归一化系数张量集合L；基于特征张量V中各个位置对应的空间感知十字区域、所述归一化系数张量集合L以及所述残差特征图生成空间感知特征图。3.如权利要求2所述的图像特征学习方法，其特征在于，所述对基础特征张量中各个位置对应的基础十字区域进行定义，包括：将基础特征张量中的目标像素区域作为基础特征张量中某一目标位置t的基础十字区域，所述目标像素区域的横坐标和纵坐标分别与目标位置t的横坐标和纵坐标相同。4.如权利要求2所述的图像特征学习方法，其特征在于，所述基于所述基础十字区域和所述空间感知张量SP对所述基础特征张量中各个位置对应的空间感知十字区域进行定义，包括：基于特征张量K中某一目标位置t的基础十字区域CM
tk
和空间感知张量SP确定出所述目标位置t对应的空间感知十字区域CSK
t
，所述空间感知十字区域CSK
t
的数学表达式为：{(x,y)|x＝x0+SP
(x,y)
(u),y＝y0+SP
(x，y)
(v),(x0，y0)∈CM
tk
Λ(x,y)∈[0,W]
×
[0,H]}式中，(x,y)表示空间感知十字区域CSK
t
中与目标位置t对应的坐标，(x0,y0)表示基础十字区域CM
tk
中与目标位置t对应的坐标，SP
(x,y)
(u)表示在空间感知张量SP中空间位置为(x,y)处的向量的第一维度数值，SP
(x,y)
(v)表示在空间感知张量SP中空间位置为(x,y)处的向量的第二维度数值，W和H分别表示空间感知张量SP的宽度和高度。5.如权利要求2所述的图像特征学习方法，其特征在于，所述分别对特征张量Q中各个位置以及在特征张量K中与各个位置对应的空间感知十字区域进行交叉映射处理，得到关联张量集合P，包括：
通过以下公...

【专利技术属性】
技术研发人员：朱玟谦，刘程，杨颖，张澳，刘会凯，
申请(专利权)人：岚图汽车科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人