基于多尺度特征融合的对动物图像的零样本分类方法技术

技术编号：44380753 阅读：11 留言：0更新日期：2025-02-25 09:55

本发明专利技术公开了一种基于多尺度特征融合的对动物图像的零样本分类方法，该方法包括：通过利用ResNet101第三层与第四层的不同尺度特征，在零样本分类任务中进行局部特征的挖掘；将第三层与第四层特征输入多尺度特征增强模块，增强特征判别性；设立跨层融合模块，通过学习对方层的特征产生交互，增强模型泛化能力；将同层的特征融合，并输入到属性关注模块。本发明专利技术充分利用了不同层的特征信息，减少了零样本分类任务中，模型对可见类的偏见，提升了广义零样本和零样本分类的准确性。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于零样本学习领域，具体涉及一种基于多尺度特征融合的对动物图像的零样本分类方法。

技术介绍

1、零样本学习(zero-shot learning,zsl)是机器学习领域中一项关键的研究方向。传统监督学习通常要求在训练阶段接触到所有可能的类别样本数据，但在现实中，获取所有类别的样本数据是不可行的。这导致了一个重要的挑战：当模型在实际应用中遇到未见过的类别时，传统方法会失效，因为它们无法从已有数据中学习到关于新类别的信息。在实际场景中，新类别的样本数据可能极其有限甚至不存在。例如，一个动物识别模型可能在训练阶段只接触到猫和狗的图像数据，但在现实中可能会遇到斑马、大象等模型未见过的动物。这种情况下，传统的监督学习模型无法正确分类或识别这些新类别。

2、为解决这一问题，零样本学习的出现成为了必然。其核心思想是通过利用已知类别的信息来辅助模型对未见类别进行推断和分类。这种方式被视为一种泛化能力的体现，即使在没有直接观测到的类别情况下，模型也能做出合理的推断。为了实现这一目标，研究者们尝试了多种方法和技术。零样本学习的一个关键思路是基于属性的方法。这种方法认为每个类别都可以由一组属性描述，例如，动物可以由毛发颜色、体型大小等属性来刻画。通过利用已知类别的属性信息，模型可以推断出新类别的属性，从而实现对未知类别的识别。另一个重要的思路是生成式模型，如生成对抗网络(gans)。生成式模型可以生成类似于训练数据的新样本，即使没有直接观测到的类别，也能通过生成模型生成该类别的样本，帮助模型学习新类别的特征。

3、零

4、零样本分类任务中，局部信息捕获和挖掘十分重要。局部信息通常与特定类别或属性相关联。在零样本分类中，即使没有见过某个类别的样本，局部信息仍然可以提供关于该类别特征的重要线索。局部信息如纹理、形状、边缘等，能有助于提供更具体和细致的图像描述，通过这些信息，模型可以更好地理解图像内容，并将其与已知类别进行关联。并且局部信息能够提供更具判别性的特征，有助于区分不同类别之间的差异。在零样本分类中，这些特征可以帮助模型准确地识别和归类未知类别，并提高模型的泛化能力。

技术实现思路

1、本专利技术的目的在于提供一种基于多尺度特征融合的对动物图像的零样本分类方法。

2、实现本专利技术目的的技术解决方案为：一种基于多尺度特征融合的对动物图像的零样本分类方法，包括如下步骤：

3、步骤s1：将一张动物图像x输入到resnet101网络，获取网络的第三层和第四层的特征输出f3和f4；

4、步骤s2：将提取的特征f3和f4分别输入进多尺度特征增强模块，获得多尺度特征增强模块的输出f`3和f`4；

5、步骤s3：考虑到两个层的特征之间的信息交互，设立跨层融合模块，将f`3和f`4一同输入获得输出f``3和f``4；

6、步骤s4：为不丢失各自原本维度的特征信息，将f`3和f``3融合获得f3_final，f`4和f``4融合获得f4_final；

7、步骤s5：将f3_final和f4_final分别输入属性关注模块，模块内引入glove模型得到的语义词向量，获得损失lreg3和lreg4；

8、步骤s6：将f3_final和f4_final分别输入嵌入层，进行余弦相似度计算，获得损失lcls3和lcls4，以及分类结果和

9、步骤s7：将和融合获得作为最后的输出结果，即动物类别。

10、进一步的，所述步骤s1包括：对于图像数据集其中x为输入图像，y为其对应的真实样本标签，是数据集中包含的属性信息，x为数据集，ys为可见类的类别标签，这些图像在训练阶段作为输入，训练并更新网络；在测试阶段会有y∈yu的图像作为输入，yu为不可见类的类别标签，是已知的，但{y|y∈yu}是未知的；

11、将一张图像输入resnet101网络，选取第三层与第四层的特征作为输出，即f3和f4，resnet101网络读取了在其他图像数据集上预训练的参数，且整个网络的参数都随着训练更新。

12、进一步的，所述步骤s2包括：提取的特征f3和f4分别输入进多尺度特征增强模块，模块中包含五个分支，对输入特征进行处理，最终对五个分支拼接，获得特征增强后的输出f`3和f`4；

13、对输入特征f3或f4，输入不同的五个分支；第一个分支为一个卷积核大小为1的卷积并获得输出，另外三个分支为三个卷积核大小为3的空洞卷积，不同分支的空洞卷积的扩张率不同，分别为[3,6,9]，不同的扩张率也会有不同的卷积填充，以保证输入特征与输出特征尺寸的一致：

14、

15、

16、其中hin，win分别为输入特征的长和宽，hout，wout分别为输出特征的长和宽，padding为填充，dilation为扩张率，kernel与stride分别为卷积的卷积核大小和步长；

17、最后一个分支包括自适应均值池化，卷积核大小为1的卷积以及最近邻插值上采样操作；最终将五个分支的输出拼接为与输入特征相同的维度，获得输出f`3或f`4。

18、进一步的，所述步骤s3包括：

19、将输入的f`3和f`4通过两个不同的1×1卷积核，变换维度到对方维度，即对f`3变换其通道数为2048，获得对f`4变换其通道数为1024，获得将通道数一致的f`3和进行叉乘，获得一个融合矩阵，代表不同层之间特征的相似性，再将和分别与融合矩阵相乘，获得最后的输出f`3`和f`4`。

20、进一步的，所述步骤s4包括：融合各层的原特征以及结合对方层信息的特征，通过一个自适应参数α，获得特征f3_final和f4_final

21、ffinal＝α*f`+(1-α)*f``。

22、进一步的，所述步骤s5包括：将属性描述输入glove模型，得到的输出v，维度为k×300，k为数据集含有属性的数目；将语义词向量v通过设定的维度转换层t获得v`，v`代表属性的语义信息；将v`与输入的视觉特征f3_final或f4_final分别进行叉乘后，获得网络从视觉特征上关注到的属性信息，即注意力图m，mk为对第k属性的注意力图，k∈k，w×h为注意力图的尺寸，宽为w，高为h；再对注意力图m进行最大值池化，可获得网络对输入图像x的关注属性

23、

24、其中i和j表示在注意力图上不同的像素位置；将关注属性与图像具有的属性真值进行均方误差计算：

25、

26、从而获得损失lreg3和lreg4。

27、进一步的，所述步骤s6包括：将f3_final和f4_final分别输入不同的嵌入层c×k为嵌入层维度，c为输入特征本文档来自技高网...

【技术保护点】

1.一种基于多尺度特征融合的对动物图像的零样本分类方法，其特征在于，该方法包括如下步骤：

2.根据权利要求1所述的一种基于多尺度特征融合的对动物图像的零样本分类方法，其特征在于，所述步骤S1包括：对于图像数据集其中x为输入图像，y为其对应的真实样本标签，是数据集中包含的属性信息，X为数据集，Ys为可见类的类别标签，这些图像在训练阶段作为输入，训练并更新网络；在测试阶段会有y∈Yu的图像作为输入，Yu为不可见类的类别标签，是已知的，但{y|y∈Yu}是未知的；

3.根据权利要求2所述的一种基于多尺度特征融合的对动物图像的零样本分类方法，其特征在于，所述步骤S2包括：提取的特征f3和f4分别输入进多尺度特征增强模块，模块中包含五个分支，对输入特征进行处理，最终对五个分支拼接，获得特征增强后的输出f`3和f`4；

4.根据权利要求3所述的基于多尺度特征融合的对动物图像的零样本分类方法，其特征在于，所述步骤S3包括：

5.根据权利要求4所述的基于多尺度特征融合的对动物图像的零样本分类方法，其特征在于，所述步骤S4包括：融合各层的原特征以及结

6.根据权利要求5所述的基于多尺度特征融合的对动物图像的零样本分类方法，其特征在于，所述步骤S5包括：将属性描述输入Glove模型，得到的输出V，维度为K×300，K为数据集含有属性的数目；将语义词向量V通过设定的维度转换层T获得V`，V`代表属性的语义信息；将V`与输入的视觉特征f3_final或f4_final分别进行叉乘后，获得网络从视觉特征上关注到的属性信息，即注意力图M，Mk为对第k属性的注意力图，k∈K，W×H为注意力图的尺寸，宽为W，高为H；再对注意力图M进行最大值池化，可获得网络对输入图像x的关注属性

7.根据权利要求6所述的基于多尺度特征融合的对动物图像的零样本分类方法，其特征在于，所述步骤S6包括：将f3_final和f4_final分别输入不同的嵌入层C×K为嵌入层维度，C为输入特征的通道数，K为数据集含有属性的数目，再进行余弦相似度度量获得分类结果和并通过交叉熵损失计算Lcls3和Lcls4：

8.根据权利要求7所述的基于多尺度特征融合的对动物图像的零样本分类方法，其特征在于，所述步骤S7包括：将分类结果和以不同比例结合，遍历{0.1：0.9，0.2：0.8，...，0.9：0.1}选取最优的组合作为最后的分类结果输出。

9.一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1～8中任一项所述的方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-8中任一所述的方法的步骤。

...

【技术特征摘要】

1.一种基于多尺度特征融合的对动物图像的零样本分类方法，其特征在于，该方法包括如下步骤：

2.根据权利要求1所述的一种基于多尺度特征融合的对动物图像的零样本分类方法，其特征在于，所述步骤s1包括：对于图像数据集其中x为输入图像，y为其对应的真实样本标签，是数据集中包含的属性信息，x为数据集，ys为可见类的类别标签，这些图像在训练阶段作为输入，训练并更新网络；在测试阶段会有y∈yu的图像作为输入，yu为不可见类的类别标签，是已知的，但{y|y∈yu}是未知的；

3.根据权利要求2所述的一种基于多尺度特征融合的对动物图像的零样本分类方法，其特征在于，所述步骤s2包括：提取的特征f3和f4分别输入进多尺度特征增强模块，模块中包含五个分支，对输入特征进行处理，最终对五个分支拼接，获得特征增强后的输出f`3和f`4；

4.根据权利要求3所述的基于多尺度特征融合的对动物图像的零样本分类方法，其特征在于，所述步骤s3包括：

5.根据权利要求4所述的基于多尺度特征融合的对动物图像的零样本分类方法，其特征在于，所述步骤s4包括：融合各层的原特征以及结合对方层信息的特征，通过一个自适应参数α，获得特征f3_final和f4_final

6.根据权利要求5所述的基于多尺度特征融合的对动物图像的零样本分类方法，其特征在于，所述步骤s5包括：将属性描述输入glove模型，得到的输出v，维度为k×30...

【专利技术属性】
技术研发人员：周哲贤，肖亮，谢国森，
申请(专利权)人：南京理工大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人