基于孪生Transformer的多模态图像地面建筑识别方法及装置制造方法及图纸

技术编号：36405479 阅读：23 留言：0更新日期：2023-01-18 10:13

本发明专利技术公开了一种基于孪生Transformer的多模态图像地面建筑识别方法及装置，属于地面建筑识别技术领域。所述多模态图像地面建筑识别方法，包括：建立具有N个Transformer结构的多孪生神经网络，所述多孪生神经网络为伪孪生神经网络；获取N幅不同模态的目标图像；将所述目标图像输入所述多孪生神经网络，所述多孪生神经网络输出识别结果。本发明专利技术实现了多平台多模态地面建筑图像的准确识别。模态地面建筑图像的准确识别。模态地面建筑图像的准确识别。

全部详细技术资料下载

【技术实现步骤摘要】
基于孪生Transformer的多模态图像地面建筑识别方法及装置

[0001]本专利技术属于地面建筑识别
，特别是涉及一种基于孪生Transformer的多模态图像地面建筑识别方法及装置。

技术介绍

[0002]随着城市化不断推进，现代城市建筑的地形占比越来越大，城市建筑的类型也越来越丰富，建筑与建筑之间的连通区域；内部布局各异的居民小区，办公楼高低不一的商业区，房屋低矮，占地面积广阔的工业园区，这些多样的建筑场景对地面建筑搜索都产生了不同的困难。
[0003]从侦察图像来源来看，目前常用于地面建筑目标侦察的主要有可见光图像、红外图像，SAR雷达图像等，可以使用相应的遥感卫星或无人机等设备来捕获这些侦察图片信息。其中可见光图像主要包含目标的颜色和纹理信息，它分辨率较高，具有更多的细节和明暗对比，对目标的描述更加具体，更贴近于人眼所看到的目标信息。但是可见光在成像过程中受光照和天气条件的影响较大；红外图像捕获目标的热辐射，穿透力较强，对目标的轮廓捕获性较强，但通常分辨率较低且质地较差。而SAR图像属于雷达图像，它具有全天候、全天时、不受天气影响的特点，它的成像分辨率较高，幅宽大，可以记录相位、振幅、强度等信息，通过一定的聚焦处理等方式，可以获得清晰高分辨率的灰度图。
[0004]全方位的地面建筑的感知平台包括天基、空基、岸基、海基等平台，通过各类传感器，感知地面建筑、环境及地理等信息。然而这些平台拍摄的目标都存在较大的角度、尺度变化，给地面建筑的识别带来巨大的困难。

技术实现思路

...

【技术保护点】

【技术特征摘要】
1.基于孪生Transformer的多模态图像地面建筑识别方法，其特征在于，包括：建立具有N个Transformer结构的多孪生神经网络，所述多孪生神经网络为伪孪生神经网络；获取N幅不同模态的目标图像；将所述目标图像输入所述多孪生神经网络，所述多孪生神经网络输出识别结果；所述多孪生神经网络包括多个神经网络单元，所述神经网络单元包括图像预处理网络、位置和图像数据编码网络、编码器网络、全连接层，编码器网络包括L个串联的编码器；所述图像预处理网络用于将输入的目标图像转换为归一化的图像特征图；所述位置和图像数据编码网络用于将图像特征图转换成包含位置和图像数据的特征向量；所述编码器网络用于完成特征向量的提取；所述全连接层用于完成编码器网络输出的特征向量到目标类别的映射，输出目标的类别概率。2.根据权利要求1所述的基于孪生Transformer的多模态图像地面建筑识别方法，...

【专利技术属性】
技术研发人员：蒙顺开，瞿锐恒，李叶雨，
申请(专利权)人：海豚乐智科技成都有限责任公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人