基于孪生Transformer的多模态图像地面建筑识别方法及装置制造方法及图纸

技术编号:36405479 阅读:15 留言:0更新日期:2023-01-18 10:13
本发明专利技术公开了一种基于孪生Transformer的多模态图像地面建筑识别方法及装置,属于地面建筑识别技术领域。所述多模态图像地面建筑识别方法,包括:建立具有N个Transformer结构的多孪生神经网络,所述多孪生神经网络为伪孪生神经网络;获取N幅不同模态的目标图像;将所述目标图像输入所述多孪生神经网络,所述多孪生神经网络输出识别结果。本发明专利技术实现了多平台多模态地面建筑图像的准确识别。模态地面建筑图像的准确识别。模态地面建筑图像的准确识别。

【技术实现步骤摘要】
基于孪生Transformer的多模态图像地面建筑识别方法及装置


[0001]本专利技术属于地面建筑识别
,特别是涉及一种基于孪生Transformer的多模态图像地面建筑识别方法及装置。

技术介绍

[0002]随着城市化不断推进,现代城市建筑的地形占比越来越大,城市建筑的类型也越来越丰富,建筑与建筑之间的连通区域;内部布局各异的居民小区,办公楼高低不一的商业区,房屋低矮,占地面积广阔的工业园区,这些多样的建筑场景对地面建筑搜索都产生了不同的困难。
[0003]从侦察图像来源来看,目前常用于地面建筑目标侦察的主要有可见光图像、红外图像,SAR雷达图像等,可以使用相应的遥感卫星或无人机等设备来捕获这些侦察图片信息。其中可见光图像主要包含目标的颜色和纹理信息,它分辨率较高,具有更多的细节和明暗对比,对目标的描述更加具体,更贴近于人眼所看到的目标信息。但是可见光在成像过程中受光照和天气条件的影响较大;红外图像捕获目标的热辐射,穿透力较强,对目标的轮廓捕获性较强,但通常分辨率较低且质地较差。而SAR图像属于雷达图像,它具有全天候、全天时、不受天气影响的特点,它的成像分辨率较高,幅宽大,可以记录相位、振幅、强度等信息,通过一定的聚焦处理等方式,可以获得清晰高分辨率的灰度图。
[0004]全方位的地面建筑的感知平台包括天基、空基、岸基、海基等平台,通过各类传感器,感知地面建筑、环境及地理等信息。然而这些平台拍摄的目标都存在较大的角度、尺度变化,给地面建筑的识别带来巨大的困难。

技术实现思路

[0005]本专利技术的目的在于克服现有技术的不足,提供一种基于孪生Transformer的多模态图像地面建筑识别方法及装置。
[0006]本专利技术的目的是通过以下技术方案来实现的:根据本专利技术的第一方面,基于孪生Transformer的多模态图像地面建筑识别方法,包括:建立具有N个Transformer结构的多孪生神经网络,所述多孪生神经网络为伪孪生神经网络;获取N幅不同模态的目标图像;将所述目标图像输入所述多孪生神经网络,所述多孪生神经网络输出识别结果;所述多孪生神经网络包括多个神经网络单元,所述神经网络单元包括图像预处理网络、位置和图像数据编码网络、编码器网络、全连接层,编码器网络包括L个串联的编码器;所述图像预处理网络用于将输入的目标图像转换为归一化的图像特征图;
所述位置和图像数据编码网络用于将图像特征图转换成包含位置和图像数据的特征向量;所述编码器网络用于完成特征向量的提取;所述全连接层用于完成编码器网络输出的特征向量到目标类别的映射,输出目标的类别概率。
[0007]进一步地,所述目标图像为红外图像、可见光图像、SAR雷达图像、多光谱图像或激光雷达图像。
[0008]进一步地,建立具有N个Transformer结构的多孪生神经网络,包括:获取多幅源图像形成数据集,对所述数据集进行标注形成多孪生神经网络的训练数据;建立多孪生神经网络的联合损失函数;利用联合损失函数对多孪生神经网络进行训练,得到多孪生神经网络的参数。
[0009]根据本专利技术的第二方面,基于孪生Transformer的多模态图像地面建筑识别装置,包括:模型构建模块,用于建立具有N个Transformer结构的多孪生神经网络,所述多孪生神经网络为伪孪生神经网络;图像获取模块,用于获取N幅不同模态的目标图像;目标识别模块,用于将所述目标图像输入所述多孪生神经网络以得到所述多孪生神经网络输出的识别结果。
[0010]本专利技术的有益效果是:(1)本专利技术利用Transformer的注意力机制来实现对场景中全局有效信息的提取、以及对局部特征点的聚焦关注,然后使用多孪生神经网络对多个模态和多个视角的目标图像进行特征的提取和相似性的计算,实现对同一目标场景的不同信息源的关联性合成,完成目标场景的整体性建模表达,实现了多平台多模态地面建筑图像的准确识别;(2)本专利技术中采用更加典型的伪孪生神经网络,通过设计伪孪生网络的损失函数,构建在不同模态数据之间具有一致性表达的神经网络模型,解决了不同模态图像之间目标的匹配问题。
附图说明
[0011]图1为本专利技术中多模态图像地面建筑识别方法的一个实施例的流程图;图2为伪孪生神经网络的一个示意图;图3为Transformer作为编码器

解码器结构的一个示意图;图4为多孪生神经网络训练过程的一个示意图;图5为图像预处理网络的一个示意图;图6为位置和图像数据编码网络将图像特征图进行划分得到的多个模块的示意图;图7为编码器的一个示意图;图8 为输入多孪生神经网络的目标图像的处理过程的示意图;图9为本专利技术中多模态图像地面建筑识别装置的一个实施例的组成框图。
具体实施方式
[0012]下面将结合实施例,对本专利技术的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域技术人员在没有付出创造性劳动的前提下所获得的所有其他实施例,都属于本专利技术保护的范围。
[0013]参阅图1

图4,本专利技术提供一种基于孪生Transformer的多模态图像地面建筑识别方法及装置:本专利技术的第一方面提供了一种基于孪生Transformer的多模态图像地面建筑识别方法,如图1所示,所述多模态图像地面建筑识别方法包括步骤S100~步骤S300,以下详细说明。
[0014]S100.建立具有N个Transformer结构的多孪生神经网络,所述多孪生神经网络为伪孪生神经网络。
[0015]所述伪孪生神经网络的每个输入图像分支中采用的神经网络结构不同或参数不共享,如图2所示。本实施例中采用伪孪生神经网络,通过设计伪孪生网络的损失函数,从而构建在不同模态数据之间具有一致性表达的神经网络模型,解决了不同模态图像之间目标的匹配问题。
[0016]本实施例中通过比较欧式距离、余弦距离、指数距离等向量之间的距离表达方式,选取同类距离最小、异类距离最大的距离度量方法作为所述多孪生神经网络的距离度量方法。由于孪生网络的输入是多个经过深度神经网络后的向量,在新的向量空间中,只要能判断向量之间的距离,让同类的距离越小、异类的距离越大就能达到目的,而本实施例中选取的距离表达方式使得同类距离最小、异类距离最大,因此,本实施例中的多孪生神经网络具有更好的识别效果。
[0017]Transformer作为编码器

解码器时,它完全基于注意力机制,没有任何卷积层或循环神经网络层,其整体结构如图3所示。输入(源)序列和输出(目标)序列的嵌入表示加上位置编码,再分别输入到编码器和解码器中。不同于卷积操作只会建模邻域像素之间的关系,Transformer是全局操作,可以建模所有像素之间的关系,具有更强的建模能力,使用它可以更好的提取场景的全局特征,突出局部与整体的关系。本实施例中使用Transformer代替卷积操作,从而实现了更好的场景特征提取以及后续的任务需求。本实施例中将Transform本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.基于孪生Transformer的多模态图像地面建筑识别方法,其特征在于,包括:建立具有N个Transformer结构的多孪生神经网络,所述多孪生神经网络为伪孪生神经网络;获取N幅不同模态的目标图像;将所述目标图像输入所述多孪生神经网络,所述多孪生神经网络输出识别结果;所述多孪生神经网络包括多个神经网络单元,所述神经网络单元包括图像预处理网络、位置和图像数据编码网络、编码器网络、全连接层,编码器网络包括L个串联的编码器;所述图像预处理网络用于将输入的目标图像转换为归一化的图像特征图;所述位置和图像数据编码网络用于将图像特征图转换成包含位置和图像数据的特征向量;所述编码器网络用于完成特征向量的提取;所述全连接层用于完成编码器网络输出的特征向量到目标类别的映射,输出目标的类别概率。2.根据权利要求1所述的基于孪生Transformer的多模态图像地面建筑识别方法,...

【专利技术属性】
技术研发人员:蒙顺开瞿锐恒李叶雨
申请(专利权)人:海豚乐智科技成都有限责任公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1