基于卷积多头注意力的多类型建筑图像检索方法及系统技术方案

技术编号：42939878 阅读：21 留言：0更新日期：2024-10-11 15:59

本发明专利技术提供一种基于卷积多头注意力的多类型建筑图像检索方法及系统，将待检测多类型建筑图像输入卷积多头注意力多类型建筑图像检索网络模型中，得到多类型建筑图像检索结果；所述卷积多头注意力多类型建筑图像检索网络模型包括依次连接的Resnet图像检索骨干网络和卷积注意力模块，Resnet图像检索骨干网络用于获取具有局部深度描述的原始特征，卷积注意力模块包括复合池化模块、自适应卷积注意力模块与卷积前馈模块用于得到细化的具有远距离特征依赖关系的显著局部特征，本发明专利技术有效缓解了因建筑布局分散而导致的检索精度受限的问题。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于图像检索方法，涉及一种基于卷积多头注意力的多类型建筑图像检索方法及系统。

技术介绍

1、随着数字化时代的到来，建筑图像数据呈现出爆炸性增长，在此背景下，因建筑图像检索技术能够从海量的数据库中高效筛选出用户所需图像，而被广泛应用。建筑可分为具有独特功能和特征的单体建筑与由多个建筑单元连接而成、规模较大且结构复杂的多体建筑。目前，建筑图像检索主要依赖于基于深度学习的模型，这些模型通常包括卷积神经网络(cnn)、视觉变换器(vision transformers,vits)等先进技术。这些方法在单体建筑的识别和检索中表现优异，能够准确捕捉建筑物的关键特征，并从大规模图像数据库中高效筛选出相似的建筑图像。

2、尽管现有的建筑图像检索模型已经取得了较为优秀的成果，但大多数方法仅针对单体建筑，而多体建筑往往由多个相互独立但又相互关联的建筑单元组成，这些单元的空间排列并不固定，可能形成复杂的布局。这样的布局分散性增加了图像中信息的复杂性，模型需要识别的不仅是单个建筑单元的特征，还要理解这些单元之间的空间关系和结构逻辑，因而使得现有模型在检索准确率上表现不佳。

技术实现思路

1、为了解决现有技术中存在的问题，本专利技术提供一种基于卷积多头注意力的多类型建筑图像检索方法及系统，通过卷积注意力模块，借助自适应大小的自注意力矩阵，采用卷积的方式在卷积神经网络中实现类似于transformer的注意力计算，使网络更易于挖掘建筑间的远程特征依赖关系，进而有效缓解了因建筑布局分散而导致的检索精度受限的问题。

2、为实现上述目的，本专利技术提供如下技术方案：一种基于卷积多头注意力的多类型建筑图像检索方法，将待检测多类型建筑图像输入卷积多头注意力多类型建筑图像检索网络模型中，得到多类型建筑图像检索结果；所述卷积多头注意力多类型建筑图像检索网络模型包括依次连接的resnet图像检索骨干网络和卷积注意力模块，resnet图像检索骨干网络用于获取具有局部深度描述的原始特征，卷积注意力模块包括复合池化模块、自适应卷积注意力模块与卷积前馈模块用于得到具有远距离特征依赖关系的显著局部特征。

3、进一步的，所述resnet图像检索骨干网络采用resnet101组成。

4、进一步的，复合池化模块包括一个cbr模块、d个最大池化层和cbr模块，cbr模块包括3×3的卷积核、批归一化处理和relu激活函数，cbr模块用于捕获局部特征，利用最大池化层和cbr模块对局部特征进行下采样调整局部特征的大小。

5、进一步的，自适应卷积注意力模块中构建局部特征中每一像素的可扩展卷积核ai,j，具体为：

6、

7、其中，eq和为可学习的投影矩阵，与cq分别对应于transformer中的查询向量q、键向量k和值向量v的嵌入维度；

8、将3×3邻域中相邻像素的特征合并到局部特征的像素中，利用余弦相似性得到像素的初始定制卷积核

9、

10、其中，

11、通过可学习的高斯距离图m动态确定卷积核的大小，得到可扩展卷积核ai,j，具体为：

12、ai,j＝ii,j×mi,j

13、

14、其中，θ∈(0,1)是控制ai,j感受野的可学习网络参数，α是控制感受野趋势的超参数；

15、将可扩展卷积核ai,j与值向量v相乘，即建立自适应长程依赖关系，对可扩展卷积核ai,j与值向量v相乘结果进行cbr处理，得到具有远距离特征依赖关系的特征数据。

16、进一步的，卷积前馈模块包括多组的1×1卷积、批处理归一化和relu。

17、进一步的，采用madacos损失、三元组损失和哈希损失对卷积多头注意力多类型建筑图像检索网络进行训练得到卷积多头注意力多类型建筑图像检索网络模型。

18、进一步的，将待检测多类型建筑图像输入卷积多头注意力多类型建筑图像检索网络模型，得到细化的具有远距离特征依赖关系的显著局部特征，通过madacos损失、三元组损失和哈希损失进行相似性度量，在完成查询图像哈希码和数据库图像哈希码的获取后，通过计算哈希码之间的汉明距离进行相似度计算，按照从小到大的次序对计算结果进行排序并输出最终图像检测结果。

19、本专利技术提供一种基于卷积多头注意力的多类型建筑图像检索系统，包括：

20、图像获取模块，用于获取待检测多类型建筑图像；

21、多类型建筑图像检索模块，用于将待检测多类型建筑图像输入卷积多头注意力多类型建筑图像检索网络模型中，得到多类型建筑图像检索结果；

22、所述卷积多头注意力多类型建筑图像检索网络模型包括依次连接的resnet图像检索骨干网络和卷积注意力模块，resnet图像检索骨干网络用于获取具有局部深度描述的原始特征，卷积注意力模块包括复合池化模块、自适应卷积注意力模块与卷积前馈模块用于得到细化的具有远距离特征依赖关系的显著局部特征。

23、本专利技术提供一种终端设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述一种基于卷积多头注意力的多类型建筑图像检索方法的步骤。

24、本专利技术提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现上述一种基于卷积多头注意力的多类型建筑图像检索方法的步骤。

25、与现有技术相比，本专利技术至少具有以下有益效果：

26、本专利技术提供的一种基于卷积多头注意力的多类型建筑图像检索方法，以resnet网络为特征提取骨干网络，能够提取到丰富的局部深度特征；通过引入复合池化模块、自适应卷积注意力模块和卷积前馈模块，网络能够更有效地关注图像中的显著性局部和全局信息。特别是自适应卷积注意力模块，它允许网络为每个像素点构建自适应感受野，从而捕捉和整合远距离特征依赖关系，这极大增强了网络对复杂建筑特征的理解和建模能力，进而有效缓解了因建筑布局分散而导致的检索精度受限的问题。

27、本专利技术将madacos损失、三元组损失和哈希损失结合使用，使得网络在训练过程中能够同时考虑全局特征、局部特征以及哈希编码的相似性，这有助于提升网络的整体检索性能，使提高本专利技术提出的多类型建筑图像检索方法的检索精度。

28、本专利技术提出的卷积多头注意力多类型建筑图像检索网络能够捕捉和整合远距离特征依赖关系，以及关注显著性局部和全局信息，因此可适用于多种类型的建筑图像检索，包括不同风格、结构和布局的建筑；同时通过引入卷积注意力机制和组合使用多种损失函数，网络能够学习到更具判别性的特征表示，从而提高检索精度。

本文档来自技高网...

【技术保护点】

1.一种基于卷积多头注意力的多类型建筑图像检索方法，其特征在于，将待检测多类型建筑图像输入卷积多头注意力多类型建筑图像检索网络模型中，得到多类型建筑图像检索结果；所述卷积多头注意力多类型建筑图像检索网络模型包括依次连接的Resnet图像检索骨干网络和卷积注意力模块，Resnet图像检索骨干网络用于获取具有局部深度描述的原始特征，卷积注意力模块包括复合池化模块、自适应卷积注意力模块与卷积前馈模块用于得到具有远距离特征依赖关系的显著局部特征。

2.根据权利要求1所述的一种基于卷积多头注意力的多类型建筑图像检索方法，其特征在于，所述Resnet图像检索骨干网络采用Resnet101组成。

3.根据权利要求1所述的一种基于卷积多头注意力的多类型建筑图像检索方法，其特征在于，复合池化模块包括一个CBR模块、d个最大池化层和CBR模块，CBR模块包括3×3的卷积核、批归一化处理和Relu激活函数，CBR模块用于捕获局部特征，利用最大池化层和CBR模块对局部特征进行下采样调整局部特征的大小。

4.根据权利要求1所述的一种基于卷积多头注意力的多类型建筑图像检索

5.根据权利要求1所述的一种基于卷积多头注意力的多类型建筑图像检索方法，其特征在于，卷积前馈模块包括多组的1×1卷积、批处理归一化和Relu。

6.根据权利要求1所述的一种基于卷积多头注意力的多类型建筑图像检索方法，其特征在于，采用MadaCos损失、三元组损失和哈希损失对卷积多头注意力多类型建筑图像检索网络进行训练得到卷积多头注意力多类型建筑图像检索网络模型。

7.根据权利要求1所述的一种基于卷积多头注意力的多类型建筑图像检索方法，其特征在于，将待检测多类型建筑图像输入卷积多头注意力多类型建筑图像检索网络模型，得到细化的具有远距离特征依赖关系的显著局部特征，通过MadaCos损失、三元组损失和哈希损失进行相似性度量，在完成查询图像哈希码和数据库图像哈希码的获取后，通过计算哈希码之间的汉明距离进行相似度计算，按照从小到大的次序对计算结果进行排序并输出最终图像检测结果。

8.一种基于卷积多头注意力的多类型建筑图像检索系统，其特征在于，包括：

9.一种终端设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1～7任意一项所述的一种基于卷积多头注意力的多类型建筑图像检索方法的步骤。

10.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1～7任意一项所述的一种基于卷积多头注意力的多类型建筑图像检索方法的步骤。

...

【技术特征摘要】

1.一种基于卷积多头注意力的多类型建筑图像检索方法，其特征在于，将待检测多类型建筑图像输入卷积多头注意力多类型建筑图像检索网络模型中，得到多类型建筑图像检索结果；所述卷积多头注意力多类型建筑图像检索网络模型包括依次连接的resnet图像检索骨干网络和卷积注意力模块，resnet图像检索骨干网络用于获取具有局部深度描述的原始特征，卷积注意力模块包括复合池化模块、自适应卷积注意力模块与卷积前馈模块用于得到具有远距离特征依赖关系的显著局部特征。

2.根据权利要求1所述的一种基于卷积多头注意力的多类型建筑图像检索方法，其特征在于，所述resnet图像检索骨干网络采用resnet101组成。

3.根据权利要求1所述的一种基于卷积多头注意力的多类型建筑图像检索方法，其特征在于，复合池化模块包括一个cbr模块、d个最大池化层和cbr模块，cbr模块包括3×3的卷积核、批归一化处理和relu激活函数，cbr模块用于捕获局部特征，利用最大池化层和cbr模块对局部特征进行下采样调整局部特征的大小。

4.根据权利要求1所述的一种基于卷积多头注意力的多类型建筑图像检索方法，其特征在于，自适应卷积注意力模块中构建局部特征中每一像素的可扩展卷积核ai,j，具体为：

5.根据权利要求1所述的一种基于卷积多头注意力的多类型建筑图像检索方法，其特征在于，卷积前馈模块包括多组的1×1卷积、...

【专利技术属性】
技术研发人员：刘光辉，张泽慧，孟月波，
申请(专利权)人：西安建筑科技大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人