System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术属于图像识别领域,具体涉及一种多模态信息融合目标识别方法。
技术介绍
1、检测识别技术作为计算机视觉领域最重要的分支之一,近年来被广泛应用于场景态势理解、医学辅助诊断、自动驾驶系统、军事目标监测等领域。随着电磁频谱中各波段传感器(如可见光、红外、高光谱、sar等)成像技术的不断发展,基于各种不同模态图像的目标检测识别技术成为当前研究热点。
2、在不断变化的复杂环境中保持输出结果的鲁棒性和稳定性是目标检测方法应用于在医学诊断、自动驾驶、军事侦测等一系列关乎社会经济和国家安全领域的关键需求。目前基于单一种类感器获取的单模态图像数据的目标识别技术,由于传感器捕获的图像目标的物理信息不完备,在面临复杂场景和不利环境条件时目标特征易受到干扰,从而导致识别性能的稳定可靠性遇到较大挑战。
3、针对单一数据所获得的信息无法完全表示事物信息,导致最终识别性能指标难以满足实际应用的需求这一难题,多模态信息融合应运而生。采用一定的方式将不同光谱波段传感器获取的图像中呈现的不同特征信息进行有效融合,可以最大程度的利用不同模态数据的互补信息,去除冗余信息,从而获得对事物更多元更全面表征,提升识别性能。
4、工作在可见光、红外、微波波段的传感器因其成本低和技术更新迭代快的优势在众多领域得到广泛应用。可见光图像分辨率高,包含的细节信息丰富,但易受环境因素影响。红外、sar图像虽面临目标背景对比度低和目标细节特征不丰富的缺点,但抗干扰,穿透能力强,可有效应对不良照明条件,遮挡等视觉障碍,雨、雾、雪等不利天气条件。基
5、目前多模态图像融合技术可分为像素级图像融合的低层次融合方法和特征级图像融合的高层次融合方法。由于不同模态图像数据尺寸和分辨率的的差异通常较大,难以实现像素级精度的配准,不适于像素层面的图像数据融合。
6、目前特征层级的图像数据融合通过传统的图像特征提取方法(如主成分分析、奇异值分解、dsift方法、经验模态分解等)和基于深度学习的深度神经网络提取图像抽象特征后融合。然而从不同模态数据提取的特征具有不同的表达特性,现有的特征融合方法(如矢量拼接、复合核方式等)缺乏不同模态间信息的有效交互,且难以应对融合过程中信息相互干扰,从而影响以此为基础的识别系统的可靠性和鲁棒性。
技术实现思路
1、针对现有特征层级的多模态数据融合方法存在信息跨模态交互能力不足且信息融合面临相互干扰的问题,本专利提出一种基于跨模态transformer和对比学习的多模态信息融合目标识别方法。
2、本专利技术解决其技术问题所采用的技术方案是:一种多模态信息融合目标识别方法,包括如下步骤:
3、s1,各单一模态内图像特征预提取:构建包含编码器encoder的transformer模型,通过transformer模型将输入的可见光、红外、高光谱和sar等图像分成固定尺寸的若干图像片,再将图像片序列展平,通过线性映射及位置编码得到各图像的输入特征向量,最后将位置编码表示与线性嵌入表示合并,生成新的编码嵌入表示,作为编码器encoder的输入;
4、s2,基于跨模态transformer的跨模态信息交互:构建基于跨模态注意力机制的跨模态transformer模型,在跨模态信息交互阶段,跨模态transformer模型提供潜在跨模适应信息传递不同模态的特征向量,各特征向量分别与属于不同模态的特征向量通过跨模态transformer模型提供的潜在跨模适应信息进行信息传递;
5、s2,构建基于跨模态注意力机制的跨模态transformer模型,各输入图像进行特征提前得到的向量分别与分属于不同模态xα,xβ的特征向量通过跨模态transformer模型提供的潜在跨模适应信息进行信息传递;其中对于每个分属于不同模态xα,xβ的查询矩阵wqα,wqβ,键值矩阵wkα,wkβ,值矩阵wvα,wvβ,计算模态β从模态α接收的潜在跨模适应信息为
6、s3,基于transformer的多模态信息融合特征提取:将分别与其他不同模态数据进行信息交互后的所有模态的特征向量直接拼接,将拼接后的特征通过传统transformer模型进行特征融合编码,得到的各个特征增强的模态与其余模态信息交互,通过跨模态transformer模型提取到更完备的特征;
7、s4,构建基于对比学习的损失函数使得语义信息相同的输入图像数据在特征空间中的距离拉近,语义信息不匹配的数据在特征空间中相互远离,以消除跨模态信息相互干扰对多模态信息融合的影响;
8、s41,模态内自监督学习函数:将属于同一模态的图片xi进行数据增广得到两个视角的图像数据xi和将经过数据增广的两个图像数据送入编码器encoder编码后得到一对嵌入向量通过度量函数sim(·,·)计算嵌入向量之间的距离,得到模态内自监督学习函数模态内自监督学习函数lss使得用于表征数据增广后图像数据的嵌入向量在特征空间最大程度的靠近;
9、s42,跨模态多视角监督学习函数:定义两个不同模态的数据xi和xt,将属于不同模态的图片xi和xt数据分别进行数据增广得到图像数据xi,和xt,送入同一个编码器encoder编码后得到两对嵌入向量和定义四组向量对和通过设计infonce损失函数分别计算四次infonce损失得到跨模态多视角监督学习函数跨模态多视角监督学习函数lmvs实现跨模态数据编码后的嵌入向量在特征空间的对齐,数据增广操作则使得编码器对不同模态数据语义一致性对齐的效果更加鲁棒;
10、s43,最近邻监督学习函数:最近邻监督学习的目的同样是为实现编码器对不同模态数据语义一致性对齐的效果更加鲁棒,基本思想是:对于某一模态数据xi,若与互为数据分布中的近邻点,即表达了相似的语义信息,则对应的其他模态数据与在编码器编码后得到的嵌入向量与也应该具有相似性,选择最近邻监督学习函数用于最近邻监督学习;
11、s5,输出多模态数据融合特征用于目标识别。
12、进一步,步骤s1中的编码器encoder采用如下公式进行正余弦位置编码:
13、pe(pos,2i)=sin(pos/100002i/d),
14、pe(pos,2i+1)=cos(pos/100002i/d),
15、其中pos是图像片序列中元素的位置,d表示transformer模型向量的维度,2i表示偶数维度,2i+1表示奇数维度。
16、进一步,所述的每个跨模态transformer模型都由d层跨模态注意力模块组成,通过如下公式计算初始层到输出层的前馈信息:
17、
18、
19、其中为以θ为参数的位置前馈子层,为第i层从模态α到模态β的多头版的跨模态注意力,ln为层归一化操作。
20、再进一步,所述的步骤s3中,模态α拼接后本文档来自技高网...
【技术保护点】
1.一种多模态信息融合目标识别方法,其特征在于,包括如下步骤:
2.根据权利要求1所述的一种多模态信息融合目标识别方法,其特征在于,所述步骤S1中的编码器encoder采用如下公式进行正余弦位置编码:
3.根据权利要求2所述的一种多模态信息融合目标识别方法,其特征在于,所述的步骤S2中每个跨模态transformer模型都由D层跨模态注意力模块组成,通过如下公式计算初始层到输出层的前馈信息:
4.根据权利要求3所述的一种多模态信息融合目标识别方法,其特征在于,所述的步骤S3中,模态α拼接后的特征其中βi代表与模态α相异的模态。
5.根据权利要求4所述的一种多模态信息融合目标识别方法,其特征在于,所述的步骤S5中将融合后的特征用于后续目标检测识别模块的检测头模块D(·),将模块输出结果与实际标签比对,并通过最小化对比学习损失函数和识别损失函数之和计算出的损失,优化识别模块的各组成部分。
【技术特征摘要】
1.一种多模态信息融合目标识别方法,其特征在于,包括如下步骤:
2.根据权利要求1所述的一种多模态信息融合目标识别方法,其特征在于,所述步骤s1中的编码器encoder采用如下公式进行正余弦位置编码:
3.根据权利要求2所述的一种多模态信息融合目标识别方法,其特征在于,所述的步骤s2中每个跨模态transformer模型都由d层跨模态注意力模块组成,通过如下公式计算初始层到输出层的前馈信息:
【专利技术属性】
技术研发人员:何亦舟,张智杰,李勋卓,舒朗,
申请(专利权)人:武汉华中天经通视科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。