基于语言与视觉细节特征融合的遥感图像跨模态检索方法技术

技术编号:38875312 阅读:24 留言:0更新日期:2023-09-22 14:09
本发明专利技术涉及一种基于语言与视觉细节特征融合的遥感图像跨模态检索方法,其包括以下步骤,步骤1:处理遥感图文检索模型的训练数据;步骤2:构建多细节语言与视觉融合模型;步骤3:训练多目标优化的细节语言与视觉融合模型;步骤4:构建遥感图像

【技术实现步骤摘要】
基于语言与视觉细节特征融合的遥感图像跨模态检索方法


[0001]本申请涉及图像处理
,具体地涉及一种基于语言与视觉细节特征融合的遥感图像跨模态检索方法。

技术介绍

[0002]近年来,遥感卫星和无人机科技发展迅速,遥感技术作为其核心,在地理定位、灾难救援、军事侦察、灾害监测等领域的应用取得了显著效果。随着遥感技术的广泛应用,遥感图像呈现爆炸式增长,给大规模遥感图像识别、检测、分类和检索等多个任务带来了极大的困难。其中,遥感图像跨模态检索任务指的是根据给出的自然语言描述,在大规模遥感图像数据集中找到与它内容相同或相似的遥感图像,反之亦然。相较于传统的遥感图像检索,图文跨模态检索呈现出更好的人机交互特性,具有更强的应用价值。
[0003]在遥感图像跨模态检索应用场景中,用户的一个重点需求是输入一段对场景的描述,在庞大的遥感图像库中检索出与输入描述一致或相似的图像。在此过程中,查询数据和数据库存储的数据具有不同的模态类型,不同模态之间的特征表达往往存在巨大表示鸿沟,需要将不同模态具有相同语义的样本之间建立联系。现阶段面向遥感图像的跨模态检索方法主要分为基于图像标签检索的方法和图文特征向量检索的方法。基于图像标签检索的方法主要是对每个图像进行关键词描述,作为图像的特征标签。在检索过程中,将用户输入的描述拆解为关键词,与图像的关键词标签进行匹配,找到相似的目标图像。而图文特征向量检索的方法是利用训练好的图像文本编码器,将具有相同或相似语义的图文编码为具有更近距离的特征向量,反之亦然。当前的两种检索方式均有不同程度的缺陷,主要体现在以下几个方面:
[0004]1、基于图像标签检索的方法依赖对现有的图像数据进行高质量的标签描述,需要花费大量的时间,在大规模数据检索过程中不适用;
[0005]2、基于图文特征向量的检索方法需要对图像内容和文本描述进行特征对齐,由于图像和文本的数据结构差异,导致对两种类型数据的特征提取、对齐、融合的过程非常困难;
[0006]3、当前的图像特征编码器往往依赖一个高质量的遥感图像目标识别模型来对图像的细节进行表示,此模型的精确度对于整体的检索效果有很大影响,并且训练此目标识别模型也需要花费更多的途径。
[0007]为解决上述提到的问题,本专利技术提出了基于语言

视觉细节特征融合的遥感图像跨模态检索方法,通过设计一个包含视觉和语言两个单模态编码器和一个多模态编码器的遥感图像跨模态检索框架,利用单模态编码器分别对图像和文本特征进行表示,利用多模态编码器对两个模态的特征进行融合学习,通过特征融合和多任务优化训练来提高各个编码器对相应模态数据的细粒度语义特征的表达能力,通过语义特征的相似性计算来完成跨模态检索任务。本专利技术为了能表达图像的细节特征,通过设计一个浅层视觉transformer模型来提取图像的局部特征,将流水线式的“目标检测+检索”过程转变为端到端的训练过程;
这个端到端的框架弥补了目标检测器和检索模型训练过程之间的差距,降低整个检索模型的训练开销;本专利技术通过给模型设计一套多目标的优化策略,在此策略下对整体模型进行训练,使得模型对遥感图像和文本描述同时具备多重细节的特征表达能力;训练结果收敛的模型完成端到端的、不需要图像标签的文本

图像检索任务。

技术实现思路

[0008]为了克服现有技术的不足,利用单模态编码器分别对图像和文本特征进行表示,利用多模态编码器对两个模态的特征进行融合,通过特征融合和多任务优化训练来提高各个编码器对相应模态数据的细粒度语义特征的表达,通过语义特征的相似性计算完成跨模态检索;通过给模型设计多目标的优化策略,使得模型对遥感图像和文本描述同时具备多重细节的特征表达能力。
[0009]为实现上述目的,本专利技术所采用的解决方案为提供一种基于语言与视觉细节特征融合的遥感图像跨模态检索方法,其包括以下步骤:
[0010]步骤1:处理遥感图文检索模型的训练数据;
[0011]所述遥感图文检索模型的训练数据是基于图像数据和文本数据构成,所述图像数据为实测图像,所述文本数据为遥感图像对应的描述信息;首先,获取文本数据中的单词个数len
words
和停用词个数len
stops
;删除所有满足len
words
=len
stops
以及len
words
=len
stops
+1的图像

文本数据对,避免图像

文本数据对中的停用词干扰检索模型训练的效果;然后,处理图像数据及对应的文本数据;最后,将清洗后的遥感图文检索训练数据用于训练图像局部编码器和全局编码器;
[0012]步骤2:构建多细节语言与视觉融合模型;
[0013]基于图像

文本特征的跨模态检索主要是分别对图像数据和文本数据的特征提取和表达,通过优化各个提取器的表达能力,将具备语义相似性的图像数据和文本数据的特征表示在向量空间中距离最小;基于多细节语言与视觉融合模型的整体架构包括:遥感图像视觉编码器F
enc

V
,遥感图像描述语言特征编码器F
enc

L
和基于视觉

语言融合模型的多模态编码器F
enc

Mul
,如下所示:
[0014][0015]式中:I表示输入的遥感图像数据;T表示输入的文本数据;f
IL
表示遥感图像的局部特征;f
IGL
表示遥感图像的局部

全局融合特征;f
T
表示遥感图像描述文本特征;S
distance
表示特征向量间的距离相似性;S
pairwise
表示图像

文本对的匹配概率值;F
enc

V
表示遥感图像视觉编码器;F
enc

L
表示遥感图像描述语言特征编码器;F
enc

Mul
表示基于视觉

语言融合模型的多模态编码器;
[0016]步骤3:训练多目标优化的细节语言与视觉融合模型;
[0017]构建包含四个损失函数的多目标综合监督优化方法,在中间分支引入深层监督策略;完成模型训练过程,所述训练过程主要针对图像编码器、文本编码器以及多模态编码器进行优化;将经过步骤1处理后的图像数据和文本数据按照第一比例值的方式划分为训练集、验证集以及测试集,并将划分后的训练集送入到步骤2构建的模型中,模型参数采用正
态分布进行初始化,不使用预训练参数;在计算图像

文本匹配损失时冻结图像编码器部分,专注于优化多模态编码器;
[0018]步骤4:构建遥感图像

文本描述特征库;
[0019]步本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于语言与视觉细节特征融合的遥感图像跨模态检索方法,其特征在于,其包括以下步骤:步骤1:处理遥感图文检索模型的训练数据;所述遥感图文检索模型的训练数据包括图像数据和文本数据,所述图像数据为实测图像,所述文本数据为遥感图像对应的描述信息;首先,获取文本数据中的单词个数len
words
和停用词个数len
stops
;删除所有满足len
words
=len
stops
以及len
words
=len
stops
+1的图像

文本数据对,避免图像

文本数据对中的停用词干扰检索模型训练;然后,处理图像数据及对应的文本数据;最后,将清洗后的遥感图文检索训练数据用于训练图像局部编码器和全局编码器;步骤2:构建多细节语言与视觉融合模型;基于图像

文本特征的跨模态检索是分别对图像数据和文本数据的特征提取和表达,通过优化各个提取器的表达能力,将具备语义相似性的图像数据和文本数据的特征表示在向量空间中距离最小;基于多细节语言与视觉融合模型的整体架构包括:遥感图像视觉编码器F
enc

V
,遥感图像描述语言特征编码器F
enc

L
和基于视觉

语言融合模型的多模态编码器F
enc

Mul
,如下所示:式中:I表示输入的遥感图像数据;T表示输入的文本数据;f
IL
表示遥感图像的局部特征;f
IGL
表示遥感图像的局部

全局融合特征;f
T
表示遥感图像描述文本特征;S
distance
表示特征向量间的距离相似性;S
pairwise
表示图像

文本对的匹配概率值;F
enc

V
表示遥感图像视觉编码器;F
enc

L
表示遥感图像描述语言特征编码器;F
enc

Mul
表示基于视觉

语言融合模型的多模态编码器;步骤3:训练多目标优化的细节语言与视觉融合模型;构建包含四个损失函数的多目标综合监督优化方法,在中间分支引入深层监督策略;完成模型训练过程,所述训练过程主要针对图像编码器、文本编码器以及多模态编码器进行优化;将经过步骤1处理后的图像数据和文本数据按照第一比例值划分为训练集、验证集以及测试集,并将划分后的训练集送入到步骤2构建的模型中,模型参数采用正态分布进行初始化,不使用预训练参数;在计算图像

文本匹配损失时冻结图像编码器部分,专注于优化多模态编码器;8:1:1的方式步骤4:构建遥感图像

文本描述特征库;步骤41:在检索任务中,用召回率表示检索算法在返回的N个候选样本中正确样本的比例;首先用R
i2t
表示图像到文本的检索召回率以及R
t2i
表示文本到图像的检索召回率;然后计算在验证集上检索两个任务的top1,top5,top10的图像至文本召回率R
i2t
@N和文本至图像召回率R
t2i
@N;最后计算图像至文本召回率R
i2t
@N和文本至图像召回率R
t2i
@N在测试样本中的平均值mR
i2t
@N和mR
i2t
@N,并保存召回率最高的模型用于后续的检索任务中,具体计算公式如下所示:
式中:mR
i2t
@N和mR
t2i
@N分别表示图像至文本召回率R
i2t
@N和文本至图像召回率R
t2i
@N在测试样本中的平均值;Image
k
表示第k个具有相似语义的图像

文本对;Text
k
表示第k个具有相似语义的文本

图像对;R
i2t
@N(Image
k
)表示输入图像Image
k
;R
t2i
@N(Text
k
)表示输入文本Text
k
;k表示图像与文本对编号;m表示图像与文本对总数;N表示检索任务编号;步骤42:构建图像特征数据库,利用步骤3中训练好的图像编码器对所有图像数据进行特征提取,并将生成的图像特征存储在数据库中以提高后续应用时的检索效率;步骤43:构建文本特征数据库,利用步骤3中训练好的文本编码器对所有文本数据进行特征提取,并将生成的文本特征存储在数据库中;步骤5:完成遥感图像

文本描述的跨模态检索;所述跨模态检索包含四个模块:图像编码模块、文本编码模块、相似性判断召回模块以及多模态重排序模块;其中,图像编码模块与文本编码模块并联,随后级联相似性判断召回模块以及多模态重排序模块;通过以上四个模块完成遥感图像

文本描述的跨模态检索。2.根据权利要求1所述的基于语言与视觉细节特征融合的遥感图像跨模态检索方法,其特征在于,所述步骤1中的处理图像数据及对应的文本数据,具体为;所述图像数据的处理过程如下:步骤111:将所有图像数据统一调整为278x278x3的尺寸;步骤112:对输入图像数据按照50%的概率进行基础数据增强,包括随机旋转、随机翻转以增强模型的泛化能力;步骤113:对输入图像数据进行数据量的扩充,采用图像数据拼接方法,根据类别标签,在同一个类别内部,随机选取两张图像I_a和I_b并进行像素级别的叠加,对于文本部分,直接进行文本描述的拼接,将T_b直接拼接在T_a的后面;步骤114:对经过步骤112和步骤113后的图像数据进行随机裁剪,裁剪区域大小为256x256x3以适应后续神经网络模型的输入;步骤115:对经过步骤114后的图像数据进行归一化处理,以将图像灰度范围变换至0

1之间;所述文本数据的处理过程如下:步骤121:对于文本数据进行去停用词处理,同时设置最大单词长度为64,对文本数据进行截断,丢弃超出最大单词长度的部分;步骤122:构建“随机掩码”结合“定向掩码”策略,如下所示:步骤1221:构建布尔类型的文本数据掩码描述符S_T,长度与处理后的文本数据中的单词长度一致,以False进行初始化,默认不进行任何掩码操作;步骤1222:按照伯努利分布随机选中S_T中15%的位置并以True进行标记;步骤1223:记录所有图像的类别标签imgs_cls,遍历文本数据,将包含imgs_cls的位置在S_T上以True进行对应标记以在后续掩码操作时着重关注目标的类别信息;步骤1224:构建数量信息描述符S_N,存储0

10内的英文数字单词,遍历文本数据,将包含S_N的位置在S_T上以True进行对应标记以在后续掩码操作时着重关注目标的数量信息;
步骤1225:对于所有S_T中以True标记的位置,按照80%的概率对文本数据单词进行[MASK]空白替换;按照10%的概率进行随机单词的替换,将原有单词替换成随机的任意其余单词;其余10%位置的单词不进行替换。3.根据权利要求1所述的基于语言与视觉细节特征融合的遥感图像跨模态检索方法,其特征在于,所述步骤2中的遥感图像视觉编码器,具体为:在遥感图像

文本跨模态检索任务中,图像数据中包含的语义信息的信息量和复杂程度要高于其对应的文本数据,因此在视觉编码器F
enc

V
中设计提取图像全局特征的模块M
cnn

mvsa
和提取局部特征的模块M
vit
,同时设计融合全局特征和局部特征的模块M
midf
,具体如下所示:式中:f
IG
表示遥感图像的全局特征;M
cnn

mvsa
表示遥感图像全局特征提取模块;M
vit
表示遥感图像的局部特征提取模块;M
midf
表示融合全局特征和局部特征的模块;所述遥感图像的全局特征提取模块M
cnn

mvsa
是由一个ResNet

50残差卷积神经网络作为特征提取器,利用多尺度自注意力模型来优化特征提取的效果,将步骤1中的经过清洗和增强后的整幅图像输入到M
cnn

mvsa
中,得到f
IG
...

【专利技术属性】
技术研发人员:何柳刘姝妍安然卓雨东陶剑李润岐王孝天武铎孙郁文
申请(专利权)人:中国航空综合技术研究所
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1