System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 图像文本双向特征增强的遥感图像指向性分割方法技术_技高网

图像文本双向特征增强的遥感图像指向性分割方法技术

技术编号:44208519 阅读:1 留言:0更新日期:2025-02-06 18:41
本发明专利技术提出图像文本双向特征增强的遥感图像指向性分割方法,所述方法包括以下步骤:步骤一、通过骨干网络分别提取图像特征和文本特征,使用图像特征对文本特征进行增强;步骤二:基于步骤一获得的原始图像特征和文本特征,使用文本特征对图像特征进行注意力补充增强;步骤三、基于步骤一和步骤二中获得的增强文本特征和增强图像特征进行交互解码,最终获得遥感图像指向性分割的掩码结果。本发明专利技术提出了图像与文本的双向特征增强方法,充分挖掘跨模态特征之间的相似性与互补性,实现特征的精准对齐,显著提升了指向性分割的精度。

【技术实现步骤摘要】

本专利技术涉及遥感图像处理,特别涉及一种图像文本双向特征增强的遥感图像指向性分割方法


技术介绍

1、近年来,大型语言模型在语言理解、分析和生成方面取得了显著进展,尤其是在上下文推理和多任务处理上展现了强大的能力。这些突破推动了视觉语言模型的发展,视觉语言模型能够将视觉信息与语言表达相结合,在图像生成描述、图像文本检索、视觉问答等任务中取得了广泛应用。尤其在遥感领域,如何将自然语言与遥感图像融合,成为当前的研究重点,推动了从传统图像处理到智能化遥感分析的转变。

2、遥感图像的指向性分割任务是一项新兴技术,旨在通过自然语言描述,在遥感图像中生成特定目标的像素级掩码。这项任务的关键在于,通过匹配语言描述与图像内容,实现对特定区域或物体的精准定位与分割。与传统的遥感图像处理方法相比,遥感图像指向性分割不仅提高了用户的交互性和便利性,还突破了语义理解的技术壁垒,使非专业用户也能通过简单的语言描述快速检索和分析遥感图像中的内容。

3、遥感图像指向性分割技术在多个领域展现了广泛的应用前景。首先,在土地利用监测中,它可以自动生成特定区域的分割结果,帮助决策者实时评估土地变化。在搜索和救援行动中,遥感图像指向性分割能通过描述特定环境或物体,快速定位目标,提高行动效率。在环境监测中,它可以通过语言描述检测污染源或环境变化。此外,军事情报、农业评估和城市规划等领域也能从这一技术中受益,实现更加精准的遥感数据分析。

4、然而,遥感图像指向性分割仍面临挑战。遥感图像通常具有高分辨率和复杂的场景,如何从大量数据中高效提取与语言匹配的目标仍是技术难点。


技术实现思路

1、本专利技术的目的是为了解决现有的遥感图像指向性分割模型精度低的问题,同时也为了解决现有的遥感图像指向性分割模型对于图像文本信息利用率不足以及不同模态信息交互不充分的问题,而提出图像文本双向特征增强的遥感图像指向性分割方法。

2、本专利技术是通过以下技术方案实现的,本专利技术提出图像文本双向特征增强的遥感图像指向性分割方法,所述方法包括以下步骤:

3、步骤一、通过骨干网络分别提取图像特征和文本特征,使用图像特征对文本特征进行增强;

4、步骤二:基于步骤一获得的原始图像特征和文本特征,使用文本特征对图像特征进行注意力补充增强;

5、步骤三、基于步骤一和步骤二中获得的增强文本特征和增强图像特征进行交互解码,最终获得遥感图像指向性分割的掩码结果。

6、进一步地,所述步骤一具体为:

7、步骤一一、获取遥感图像v和其对应的文本描述l;

8、步骤一二、使用视觉骨干网络对遥感图像进行处理,提取其多尺度视觉特征视觉骨干网络通过卷积或自注意力机制,逐层提取不同尺度和不同语义层次的特征;与此同时,文本特征则通过文本骨干网络进行提取;这些网络能够根据输入的自然语言文本提取相应的上下文信息,生成具有语义表示的文本特征

9、步骤一三、将多尺度视觉特征通过自适应池化层进行降维处理;自适应池化层根据输入的图像特征大小动态调整池化参数,以便生成固定大小的特征图;通过将不同尺度的图像特征压缩到相同的特征空间中,可以避免后续操作中的尺寸不匹配问题;随后,经过降维处理的图像特征通过拼接操作进行融合,形成紧凑且包含全局信息的特征向量;

10、

11、步骤一四、将降维后的图像特征与一个可训练的随机提示层进行交互注意力计算;

12、

13、步骤一五、将包含图像信息的提示层pv与提取出的文本特征lv进行拼接,生成增强后的文本特征。

14、进一步地,所述步骤二具体为:

15、步骤二一、将步骤一中获得的多尺度图像特征进行展平操作;展平后的图像特征包含了空间维度和通道维度的信息,可以在不同尺度上捕捉图像的空间结构;

16、viq=flatten(ωiq(vi))

17、步骤二二、将展平后的图像特征与文本特征li通过交互注意力机制进行融合,计算不同尺度下的交互注意力得分;交互注意力机制通过计算图像和文本特征之间的注意力矩阵,识别出哪些图像区域与文本描述最为相关;

18、

19、步骤二三、对步骤二二中计算得到的交互注意力得分进行归一化处理;使用softmax函数对注意力得分进行归一化,归一化后的注意力得分与展平后的图像特征相乘,以强调图像中与文本相关的部分;

20、

21、步骤二四、对步骤一中的图像特征vi进行重新加权;通过将步骤二三中得到的归一化注意力得分与图像特征重新整合,获得一个跨模态的特征图

22、vli=conv1×1((atti)☉vi

23、步骤二五、将不同尺度下的交互注意力得分进行重新采样,统一尺寸后计算跨尺度的注意力差异图;跨尺度的注意力差异图可以显示出不同尺度下图像与文本的对应关系,通过选择差异性最大的前k个区域,可以进一步引导模型关注到那些与文本描述最为相关的图像区域,从而提升特征提取的准确性;

24、

25、步骤二六、将步骤二五中选择出的前k个区域进行投影和拼接操作;通过将这些区域投影到不同的尺度上,可以获得一个统一的注意力缺陷图;所述注意力缺陷图融合了来自多个尺度的注意力信息,能够在保持局部细节的同时反映出全局的特征差异;

26、

27、步骤二七、对不同尺度的图像特征进行注意力缺陷补偿;通过将文本增强的多尺度图像特征与原始图像特征相结合,进一步提升图像特征的表达能力,确保最终得到的特征图能够反映出图像中的不同尺度下关注的不同重点,从而实现多尺度特征注意力的统一;

28、

29、进一步地,所述步骤三具体为:

30、步骤三一、将步骤二中经过文本增强的多尺度图像特征进行展平操作;展平后的视觉特征保留了图像的全局信息和空间布局,使得接下来的融合步骤更加平滑;在图像特征展平后,进行文本特征与图像特征的对齐;

31、

32、步骤三二、引入多层次的跨模态特征交互机制;该跨模态特征交互机制依赖以下三大核心模块:交叉注意力机制、自注意力机制和前馈神经网络;

33、步骤三三、在文本和视觉特征经过交叉注意力、自注意力和前馈神经网络的多层交互后,接下来需要将两种特征进行逐像素对齐;所述对齐采用了多尺度可变形注意力机制;多尺度可变形注意力通过对不同尺度的视觉特征进行动态采样,确保模型能够在所有层次上有效地捕捉到与文本特征相关的图像细节;通过这一过程,视觉特征与文本特征在像素级别上实现了精细对齐;上述过程数学表达为:

34、

35、步骤三四、在完成视觉特征与文本特征的双向交互后,进入最终的特征融合与掩码生成阶段。

36、进一步地,所述交叉注意力机制用于在每一层交互中,建立视觉特征与文本特征之间的全局关联;通过计算视觉特征和文本特征的注意力权重矩阵,模型可以自动捕捉哪些视觉区域与文本描述最为相关;交本文档来自技高网...

【技术保护点】

1.图像文本双向特征增强的遥感图像指向性分割方法,其特征在于:所述方法包括以下步骤:

2.根据权利要求1所述的方法,其特征在于,所述步骤一具体为:

3.根据权利要求2所述的方法,其特征在于,所述步骤二具体为:

4.根据权利要求3所述的方法,其特征在于,所述步骤三具体为:

5.根据权利要求4所述的方法,其特征在于,所述交叉注意力机制用于在每一层交互中,建立视觉特征与文本特征之间的全局关联;通过计算视觉特征和文本特征的注意力权重矩阵,模型可以自动捕捉哪些视觉区域与文本描述最为相关;交叉注意力机制能够确保文本特征中蕴含的关键信息能够正确地引导模型关注图像中的目标区域。

6.根据权利要求4所述的方法,其特征在于,所述自注意力机制通过计算文本特征内部的注意力权重,强化文本特征之间的上下文关系。

7.根据权利要求4所述的方法,其特征在于,在每一层的交叉注意力和自注意力处理之后,前馈神经网络对融合后的特征进行非线性变换,残差连接和层归一化被引入每一层操作中;经过该引入处理,文本特征和视觉特征通过多个交互层,逐步被增强为能更好地表达多模态语义的特征;上述步骤的数学表达为:

8.根据权利要求4所述的方法,其特征在于,所述步骤三四具体为:

...

【技术特征摘要】

1.图像文本双向特征增强的遥感图像指向性分割方法,其特征在于:所述方法包括以下步骤:

2.根据权利要求1所述的方法,其特征在于,所述步骤一具体为:

3.根据权利要求2所述的方法,其特征在于,所述步骤二具体为:

4.根据权利要求3所述的方法,其特征在于,所述步骤三具体为:

5.根据权利要求4所述的方法,其特征在于,所述交叉注意力机制用于在每一层交互中,建立视觉特征与文本特征之间的全局关联;通过计算视觉特征和文本特征的注意力权重矩阵,模型可以自动捕捉哪些视觉区域与文本描述最为相关;交叉注意力机制能够确保文本特征...

【专利技术属性】
技术研发人员:谷延锋孙钰哲刘天竹
申请(专利权)人:哈尔滨工业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1