一种基于域泛化的SAR图像零样本目标检测方法技术

技术编号：41848370 阅读：2 留言：0更新日期：2024-06-27 18:26

本发明专利技术公开了一种基于域泛化的SAR图像零样本目标检测方法，属于图像处理技术领域，该方法包括：通过数据增强扩充SAR图像数据集；根据增强后的SAR图像数据集进行多模态特征编码，包括：将SAR图像及其文本类别标签输入CLIP预训练模型的进行，得到图像特征和文本类别特征；通过基于多头自注意力的可学习图像编码，得到SAR图像目标特征；对SAR图像特征进行多尺度域不变特征学习，使用梯度匹配技术使得各张图像分类损失的梯度方向一致；通过SAR图像目标特征和文本类别特征的相似度实现零样本目标检测。本发明专利技术使目标检测模型具备处理多种环境下多种尺度的基础类别和新类别目标的能力。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及图像处理领域，特别涉及一种基于域泛化的sar图像零样本目标检测方法。

技术介绍

1、合成孔径雷达（sar）图像是指通过合成孔径雷达系统利用雷达波束获取的地表信息图像。相较于传统的光学图像，sar图像能够在不同时间段，各种天气条件下进行有效采集；除此之外，sar图像能够实现高分辨率、高质量的地表检测。在军事领域，图像是信息获取的重要来源。军事领域要求在各种天气状况下都能随时获取高分辨率、高质量的图像，从而保证信息的准确性。因此，相较于光学图像，sar图像更适合应用于军事领域。

2、在军事领域，通常基于图像识别和定位各种军事目标，从而获取战场的准确信息。但是，传统的目标检测方法存在以下问题：1）传统目标检测方法只能检测已知类别目标，不能检测未知目标；2）对于未知环境下的已知目标和未知目标不能准确的识别和定位；3）对不同尺度的目标不敏感，容易因尺度变化而降低检测准确率。因此需要一种能够适应各种环境，具备识别和定位不同尺度的已知类别和未知类别能力的目标检测方法。

技术实现思路

1、为了解决上述存在的目标检测问题，同时目标检测模型具有可靠的图像数据来源，本专利技术提供了一种基于域泛化的sar图像零样本目标检测方法，旨在基于域泛化技术和多模态技术实现sar图像的零样本目标检测。该方法基于梯度匹配学习域不变特征，同时利用视觉-语言模型的多模态匹配方式，能够实现在多种环境下，对已知目标和未知目标的识别和定位，从而实现整个目标区域准确的信息获取。

2、本专利技术

3、通过数据增强扩充sar图像数据集；

4、根据增强后的sar图像数据集进行多模态特征编码，包括：将sar图像及其文本类别标签输入clip预训练模型的进行，得到图像特征和文本类别特征；通过基于多头自注意力的可学习图像编码，得到sar图像目标特征；

5、对sar图像特征进行多尺度域不变特征学习，使用梯度匹配技术使得各张图像分类损失的梯度方向一致；

6、通过sar图像目标特征和文本类别特征的相似度实现零样本目标检测。

7、进一步的，还包括：通过数据增强扩充sar图像数据集；包括：

8、获取原始sar图像数据集，其中d表示原始数据集合，dk表示第k个数据来源，k表示数据集d共包含的数据来源的数目，各个数据来源具有不同的数据分布；sar图像数据集中的数据以（i，t）成对存在，其中i为图像，t为文本类别标签；

9、数据增强包括翻转和旋转两个操作；

10、对原数据集d中任意一张图像i进行翻转操作得到图像if进行旋转操作得到图形ir，并设置if和ir对应的文本类别标签与i相同；增强后的图像和原始图像共同构成增强数据集，其中表示数据集dk对应的增强数据集。

11、进一步的，所述多模态特征编码包括基于clip多模态模型的文本编码网络、图像编码网络；文本编码网络和图像编码网络参数不参与训练，获取的文本类别特征和图像特征用于监督信号；

12、所述文本编码包括：

13、文本类别标签t使用clip预训练的文本编码网络et进行特征提取，公式如下：

14、

15、式中，de表示总增强数据集，表示第k个增强数据集，表示中的第i个文本类别标签t；et表示clip预训练的文本编码网络，表示提取的文本类别特征。

16、所述图像编码包括：

17、图像i使用clip预训练的图像编码网络ev进行特征提取，公式如下：

18、

19、式中ev表示clip预训练的图像编码网络，表示提取的图像特征。

20、进一步的，文本编码网络和图像编码网络均采用transformer实现，所述transformer由n个重复的transformer block（b）构成，因此文本编码网络和图像编码网络可表示为bn，即连续n个b操作；b由层归一化、自注意力、多层感知机、层归一化组成；将输入图像x等分为p个图像块，x表示增强数据集的图像或文本类别标签，b对其处理过程如下：

21、

22、其中，e表示全连接层，epos表示位置编码；s表示全连接层e编码后的特征，s’表示多头自注意力模块处理后的特征，s’’表示感知机处理后的特征；xcls为类别编码，用于融合整个输入图像或文本的信息；xout表示输入x经过一个b后输出的中间特征；mlp表示多层感知机；ln表示层归一化；mhsa表示多头自注意力模块，其计算方式为：

23、

24、其中，将归一化后的整个图像或文本类别特征，按照通道维度拆分成h部分，表示为head1～headh，qh，kh，vh分别表示第h个head的query，key和value，表示归一化项；wo为输出变换矩阵，concat表示拼接操作，attention表示注意力操作，mhsa表示多头自注意力操作，softmax为归一化操作。

25、进一步的，所述可学习图像编码包括：

26、可学习的图像编码网络包括卷积网络resnet和多头自注意力模块；其中卷积网络resnet包括串联的f个包含残差连接的卷积块，卷积块操作公式为：

27、

28、其中表示增强后的数据集中任意图像，conv表示卷积操作，f表示第f个卷积层，cf表示第f个卷积层提取的特征；

29、可学习图像编码网络输出sar图像目标特征：c3，c4，c5和，计算公式如下：

30、

31、其中表示卷积网络resnet输出的不同层的特征图，表示经过全局平均池化操作后的结果，表示多头自注意力模块mhsa的输出。

32、进一步的，所述多尺度域不变特征学习通过特征处理、分类处理、回归处理、梯度匹配进行；

33、将可学习图像编码网络输出的sar图像目标特征进行特征处理；所述特征处理由卷积网络resnet实现，公式为：

34、

35、其中，,为可学习图像编码网络输出的sar图像目标特征，fd为降维函数，表示5个不同尺度的输出特征；

36、将特征处理输出特征进行分类处理，得到不同尺度的目标特征；所述分类处理通过全连接层网络ec实现，公式为：

37、

38、其中表示特征处理输出特征，表示不同尺度的目标特征；

39、不同尺度的特征图进行回归处理，得到目标在图像中的位置特征；所述回归处理通过全连接层网络er实现，公式为：

40、

41、其中表示特征处理输出特征，表示目标在图像中的位置特征；

42、所述梯度匹配包括：

43、对齐不同数据集数据的损失函数的梯度，公式为：

44、

45、式中，lmatch表示梯度匹配损失，d表示梯度计算，d()·d()表示点积运算，||表示模运算，k表示数据集的数目，表示数据集中数据对本文档来自技高网...

【技术保护点】

1.一种基于域泛化的SAR图像零样本目标检测方法，其特征在于，包括：

2.如权利要求1所述基于域泛化的SAR图像零样本目标检测方法，其特征在于，还包括：通过数据增强扩充SAR图像数据集；包括：

3.如权利要求1所述的基于域泛化的SAR图像零样本目标检测方法，其特征在于，所述多模态特征编码包括基于CLIP多模态模型的文本编码网络、图像编码网络；文本编码网络和图像编码网络参数不参与训练，获取的文本类别特征和图像特征用于监督信号；

4.如权利要求3所述的基于域泛化的SAR图像零样本目标检测方法，其特征在于，文本编码网络和图像编码网络均采用Transformer实现，所述Transformer由N个重复的Transformer Block（B）构成，因此文本编码网络和图像编码网络可表示为B N，即连续N个B操作；B由层归一化、自注意力、多层感知机、层归一化组成；将输入图像x等分为P个图像块，x表示增强数据集的图像或文本类别标签，B对其处理过程如下：

5.如权利要求1所述的基于域泛化的SAR图像零样本目标检测方法，其特征在于，所述可学习图像编码包括：

6.如权利要求1所述的基于域泛化的SAR图像零样本目标检测方法，其特征在于，所述多尺度域不变特征学习通过特征处理、分类处理、回归处理、梯度匹配进行；

7.如权利要求1所述的基于域泛化的SAR图像零样本目标检测方法，其特征在于，所述零样本目标检测包括：

8.如权利要求1所述的基于域泛化的SAR图像零样本目标检测方法，其特征在于，还包括：计算损失函数实现模型优化，损失函数包括4个部分：图像损失Limage、梯度匹配损失Lmatch、分类损失Lc、回归损失Lr，因此整体损失Loss为：

...

【技术特征摘要】

1.一种基于域泛化的sar图像零样本目标检测方法，其特征在于，包括：

2.如权利要求1所述基于域泛化的sar图像零样本目标检测方法，其特征在于，还包括：通过数据增强扩充sar图像数据集；包括：

3.如权利要求1所述的基于域泛化的sar图像零样本目标检测方法，其特征在于，所述多模态特征编码包括基于clip多模态模型的文本编码网络、图像编码网络；文本编码网络和图像编码网络参数不参与训练，获取的文本类别特征和图像特征用于监督信号；

4.如权利要求3所述的基于域泛化的sar图像零样本目标检测方法，其特征在于，文本编码网络和图像编码网络均采用transformer实现，所述transformer由n个重复的transformer block（b）构成，因此文本编码网络和图像编码网络可表示为b n，即连续n个b操作；b由层归一化...

【专利技术属性】
技术研发人员：李俊杰，李若仪，孔德宇，李杨，刘威，
申请(专利权)人：山东军地信息技术集团有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人