一种基于ViT的无人机深度哈希图像检索方法、设备、介质技术

技术编号：41485387 阅读：16 留言：0更新日期：2024-05-30 14:33

本发明专利技术涉及一种基于ViT的无人机深度哈希图像检索方法、设备、介质，利用预先训练好且微调后的基于ViT网络的网络模型，基于输入的无人机图像的图像特征进行检索，方法包括如下步骤：针对输入的图像特征，通过卷积提取浅层特征；基于所述浅层特征，通过分块和线性嵌入处理，利用多个多头注意力模块提取深层特征；基于所述浅层特征和所述深层特征，通过残差连接得到融合特征；基于所述融合特征，通过哈希层生成哈希编码；基于所述哈希编码和所述融合特征，从图像库中进行由粗到细的分级搜索，得到检索结果。与现有技术相比，本发明专利技术提高了无人机图像检索的准确率。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及无人机图像检索，尤其是涉及一种基于vit的无人机深度哈希图像检索方法、设备、介质。

技术介绍

1、在大数据时代，每天都会有无数的数据产生，在海量数据快速捕获有效信息非常重要。卷积神经网络可以通过模型学习来自主提取图片特征，而哈希算法可以大大提高检索性能，故而将深度学习和哈希算法结合进行图像检索就成为一种必然的趋势。传统深度哈希模型的主干网络是卷积神经网络，需要进行多次卷积操作才能获得全局信息，使得最终提取到的特征图丢失掉很多浅层的细节信息，导致网络结构复杂、检索准确率低等问题。

2、中国专利申请号cn 110688501 a公开了一种基于深度学习的全卷积网络的哈希检索方法，其能够利用哈希编码重构原始标签信息，使得待训练的哈希模型在学习二进制编码的同时，能更加精细地利用标签信息。然而，该申请并未解决需要进行多次卷积操作获得全局信息导致丢失细节信息的问题。

3、综上，当前缺少一种哈希图像检索方法，以解决或部分解决前述问题。

技术实现思路

1、本专利技术的目的就是为了克服上述现有技术存在的缺陷而提供一种基于vit的无人机深度哈希图像检索方法、设备、介质，以解决或部分解决现有方法容易丢失细节信息的问题。

2、本专利技术的目的可以通过以下技术方案来实现：

3、本专利技术的一个方面，提供了一种基于vit的无人机深度哈希图像检索方法，利用预先训练好且微调后的基于vit网络的网络模型，基于输入的无人机图像的图像特征进行检索，所述方法包括如下步骤：

4、针对输入的图像特征，通过卷积提取浅层特征；

5、基于所述浅层特征，通过分块和线性嵌入处理，利用多个多头注意力模块提取深层特征；

6、基于所述浅层特征和所述深层特征，通过残差连接得到融合特征；

7、基于所述融合特征，通过哈希层生成哈希编码；

8、基于所述哈希编码和所述融合特征，从图像库中进行由粗到细的分级搜索，得到检索结果。

9、作为优选的技术方案，所述网络模型的微调过程包括如下步骤：

10、获取无人机图像数据集并进行扩充处理；

11、基于扩充后的无人机图像数据集中的样本的图像特征，得到样本对应的哈希编码；

12、基于样本的图像特征和所述图像库的语义标签，计算成对损失函数值；

13、基于所述哈希编码输入分类层得到的输出和样本的语义标签，计算分类损失函数值；

14、基于所述成对损失函数值和所述分类损失函数值对所述网络模型的参数进行微调。

15、作为优选的技术方案，所述扩充处理包括随机旋转和翻转、随机缩放、颜色变换、加入噪声和随机裁剪。

16、作为优选的技术方案，所述成对损失函数值采用下式计算：

17、

18、其中，lps为成对损失函数值，sij为成对标签相似性矩阵s＝{sij},sij∈{0,1}第i行第j列的元素，||·||f表示矩阵的范数，λ2为超参数，bi、bj表示样本xi、xj对应的哈希编码。

19、作为优选的技术方案，所述分类损失函数值采用下式计算：

20、

21、其中，lc为分类损失函数值，fi为所述分类层的输出，fij是模型对样本xi的真实类别的预测值，fij是模型对样本xi的第j个类别的预测值，θ表示所有层的参数，表示分类层的激活函数，表示权重矩阵，为偏置参数。

22、作为优选的技术方案，所述哈希层的激活函数为：

23、

24、其中，sign(x)表示激活函数，λ1为超参数，通过逐渐增大λ1取值来保证在输出哈希编码的同时，能够进行反向梯度传播来更新参数。

25、作为优选的技术方案，所述分级搜索的过程包括：

26、计算所述图像特征对应的哈希编码与所述图像库中各个图像对应的哈希编码之间的汉明距离并进行排序，筛选前m个图像添加至备选图像池中；

27、计算所述图像特征对应的融合特征和所述备选图像池中各个图像对应的融合特征之间的欧几里得距离并进行排序，筛选前k个图像作为最终的检索结果。

28、作为优选的技术方案，所述vit网络预先训练好，在微调和检索过程中网络参数保持冻结。

29、本专利技术的另一个方面，提供了一种电子设备，包括：一个或多个处理器以及存储器，所述存储器内储存有一个或多个程序，所述一个或多个程序包括用于执行上述基于vit的无人机深度哈希图像检索方法的指令。

30、本专利技术的另一个方面，提供了一种计算机可读存储介质，包括供电子设备的一个或多个处理器执行的一个或多个程序，所述一个或多个程序包括用于执行上述基于vit的无人机深度哈希图像检索方法的指令。

31、与现有技术相比，本专利技术具有以下优点：

32、(1)增强信息提取的能力，提高检索准确性：本专利技术采用基于vit(visiontransformer)的网络模型，加入残差连接，一次性捕获输入图像的浅层特征和深层特征，减少细节信息的丢失，同时引入残差连接，将浅层特征信息与深层特征信息融合，以保证最终提取到的特征信息的完备性，进而提高图像检索的准确性。

33、(2)减少量化误差：本专利技术的哈希层使用tanh函数作为量化函数，改善了反向传播中的梯度消失问题，减少量化误差。

本文档来自技高网...

【技术保护点】

1.一种基于ViT的无人机深度哈希图像检索方法，其特征在于，利用预先训练好且微调后的基于ViT网络的网络模型，基于输入的无人机图像的图像特征进行检索，所述方法包括如下步骤：

2.根据权利要求1所述的一种基于ViT的无人机深度哈希图像检索方法，其特征在于，所述网络模型的微调过程包括如下步骤：

3.根据权利要求2所述的一种基于ViT的无人机深度哈希图像检索方法，其特征在于，所述扩充处理包括随机旋转和翻转、随机缩放、颜色变换、加入噪声和随机裁剪。

4.根据权利要求2所述的一种基于ViT的无人机深度哈希图像检索方法，其特征在于，所述成对损失函数值采用下式计算：

5.根据权利要求2所述的一种基于ViT的无人机深度哈希图像检索方法，其特征在于，所述分类损失函数值采用下式计算：

6.根据权利要求1所述的一种基于ViT的无人机深度哈希图像检索方法，其特征在于，所述哈希层的激活函数为：

7.根据权利要求1所述的一种基于ViT的无人机深度哈希图像检索方法，其特征在于，所述分级搜索的过程包括：

8.根据权利要求1所述的

9.一种电子设备，其特征在于，包括：一个或多个处理器以及存储器，所述存储器内储存有一个或多个程序，所述一个或多个程序包括用于执行如权利要求1-8任一所述基于ViT的无人机深度哈希图像检索方法的指令。

10.一种计算机可读存储介质，其特征在于，包括供电子设备的一个或多个处理器执行的一个或多个程序，所述一个或多个程序包括用于执行如权利要求1-8任一所述基于ViT的无人机深度哈希图像检索方法的指令。

...

【技术特征摘要】

1.一种基于vit的无人机深度哈希图像检索方法，其特征在于，利用预先训练好且微调后的基于vit网络的网络模型，基于输入的无人机图像的图像特征进行检索，所述方法包括如下步骤：

2.根据权利要求1所述的一种基于vit的无人机深度哈希图像检索方法，其特征在于，所述网络模型的微调过程包括如下步骤：

3.根据权利要求2所述的一种基于vit的无人机深度哈希图像检索方法，其特征在于，所述扩充处理包括随机旋转和翻转、随机缩放、颜色变换、加入噪声和随机裁剪。

4.根据权利要求2所述的一种基于vit的无人机深度哈希图像检索方法，其特征在于，所述成对损失函数值采用下式计算：

5.根据权利要求2所述的一种基于vit的无人机深度哈希图像检索方法，其特征在于，所述分类损失函数值采用下式计算：

6.根据权利要求1所述的一种基于v...

【专利技术属性】
技术研发人员：张卫东，王欣怡，薛珊，贾泽华，沈春华，方宇凡，王咸鹏，陈挚，刘大可，何鹭飞，刘若楠，束锋，
申请(专利权)人：海南大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人