基于注意力机制及多尺寸信息提取的双图像识别分类方法技术

技术编号：33291203 阅读：17 留言：0更新日期：2022-05-01 00:10

本发明专利技术公开了基于注意力机制及多尺寸信息提取的双图像识别分类方法，包括：获取待分类物体的两幅图像；其中，两幅图像为同一位置不同情况下所拍摄的图像；并行的多尺寸特征提取网络融合了不同尺寸的信息以同时提取两幅图像的不同尺寸的特征；利用双图像空间注意力模块将两幅图像的特征从空间的角度进行融合，得到空间融合特征信息；利用双图像通道注意力模块将两幅图像的特征从通道的角度进行融合，得到通道融合特征信息；多种方法提取的特征相互交互融合，形成的融合信息输入到分类网络，得到待分类物体的类别。本发明专利技术结合了不同情况下的相同物体的两幅图像，克服了单幅图像的特征信息不全面的问题，提高了分类的准确率。提高了分类的准确率。提高了分类的准确率。

全部详细技术资料下载

【技术实现步骤摘要】
基于注意力机制及多尺寸信息提取的双图像识别分类方法

[0001]本专利技术涉及图像分类和人工智能
，尤其涉及基于注意力机制及多尺寸信息提取的双图像识别分类方法。

技术介绍

[0002]在相机拍摄物体表面的图像过程中，不同的拍摄角度、不同波长的光源和位置所成的像是不同的。受到拍摄角度、光源的影响，单独一种情况下拍摄的图像不能完全反映物体的真实状况。如果两种物体在相同的角度或光源下拍摄的图像是相似的，但是在不同角度或光源下拍摄的图像是不同的。神经网络将相似的图像作为输入很容易将不同的物体的类别预测为同一类。
[0003]由于深度学习的快速发展，基于卷积神经网络的图像分类方法得到广泛的应用。图像分类通常只输入图像的某个角度或者某个光源下拍摄的图像。单一角度或光源下拍摄的物体图像可能会相似，导致模型对物体识别准确率低。因此，为了更好的反映物体表面的特征信息，考虑多种情况下拍摄的物体图像是一个很好的解决方案。

技术实现思路

[0004]为了解决上述技术问题，本专利技术的目的是提供基于注意力机制及多尺寸信息提取的双图像识别分类方法，以解决现有的图像分类方法由于只输入物体表面的一幅图像，忽略了物体其他情况下的特征导致了特征不全面，图像分类准确率低的问题。
[0005]为了实现上述技术目的，本专利技术提供了基于注意力机制及多尺寸信息提取的双图像识别分类方法，包括以下步骤：
[0006]采集待分类物体的同一位置处具有不同表征的两幅图像；
[0007]构建多尺寸特征提取网络，多尺寸特...

【技术保护点】

【技术特征摘要】
1.基于注意力机制及多尺寸信息提取的双图像识别分类方法，其特征在于，包括以下步骤：采集待分类物体的同一位置处具有不同表征的两幅图像；构建多尺寸特征提取网络，所述多尺寸特征提取网络用于提取所述两幅图像的图像特征，其中，所述多尺寸特征提取网络包括：双图像空间注意力模块，用于将所述两幅图像的特征从空间的角度进行融合，得到空间融合特征信息；双图像通道注意力模块，将所述两幅图像的特征从通道的角度进行融合，得到通道融合特征信息；特征融合交互模块，用于将所述空间融合特征信息和所述通道融合特征信息进行特征融合，并提取所述两幅图像的图像特征。2.根据权利要求1所述基于注意力机制及多尺寸信息提取的双图像识别分类方法，其特征在于：在采集两幅图像的过程中，保持所述待分类物体的位置不变，基于不同情况，获取所述待分类物体的两幅图像，其中，所述不同情况包括角度不同和/或光源不同。3.根据权利要求2所述基于注意力机制及多尺寸信息提取的双图像识别分类方法，其特征在于：在构建多尺寸特征提取网络的过程中，所述多尺寸特征提取网络为并行网络，通过两个结构相同的多尺寸分支网络同时提取所述两幅图像的特征。4.根据权利要求3所述基于注意力机制及多尺寸信息提取的双图像识别分类方法，其特征在于：在构建多尺寸特征提取网络的过程中，所述多尺寸分支网络由多个多尺寸并行卷积模块组成，其中，所述多尺寸并行卷积模块用于对输入的特征使用点卷积进行升维，并按照通道维度对特征进行切分得到四个子特征；将四个所述子特征分别被输入到不同尺寸的深度可分离卷积进行特征提取，得到不同尺寸的特征，并按照通道维度进行拼接后，使用点卷积对拼接后的特征进行降维，输入到下一个多尺寸并行卷积模块。5.根据权利要求4所述基于注意力机制及多尺寸信息提取的双图像识别分类方法，其特征在于：在提取所述两幅图像的特征的过程中，提取的具体方法如下：在提取所述两幅图像的特征的过程中，提取的具体方法如下：在提取所述两幅图像的特征的过程中，提取的具体方法如下：在提取所述两幅图像的特征的过程中，提取的具体方法如下：在提取所述两幅图像的特征的过程中，提取的具体方法如下：
Y＝f1×1(Concat(Y1，Y2，Y3，Y4))+X其中，X表示输入的特征；Split表示按通道维度进行切分操作；Xi表示切分得到的第i块特征；f
1x1
表示卷积核尺寸为1的点卷积；表示间隔尺寸为1，卷积核尺寸为1的深度可分离卷积；BN表示归一化操作；PRelu表示非线性激活函数；Y
i
表示经过不同尺寸的卷积得到的子特征；Concat表示按通道维度进行特征信息拼接；Y表示输出的所述两幅图像的特征。6.根据权利要求5所述基于注意力机制及多尺寸信息提取的双图像识别分类方法，其特征在于：在获取空间融合特征信息的过程中，将所述两幅图像的特征进行点卷积降维，通过外积得到空间注意力掩膜，其中，所述空间注意力掩膜用于反映不同情况下的物体特征图中任意两个像素点之间的相关性；将所述空间注意力掩膜分别与初始的所述两幅图像的特征，进行外积得到融合后的特征；将所述融合后的特征与所述两幅图像的特征相加，得到融合特征，将所述融合特征输入到所述双图像通道注意力模块。7.根据权利要求6所述基于注意力机制及多尺寸信息提取的双图像识别分类方法，其特征在于：在获取空间融合特征信息的过程中，获取所述空间融合特征信息的具体方法如下：X
S_Mask
＝softmax(|f1×1(X
A1
)|2×
|f...

【专利技术属性】
技术研发人员：张桃红，郭徐徐，范素丽，
申请(专利权)人：北京科技大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人