一种基于深度互学习的多标记零样本学习方法技术

技术编号:34821756 阅读:17 留言:0更新日期:2022-09-03 20:32
本发明专利技术公开了一种基于深度互学习的多标记零样本学习方法,涉及机器学习领域的多标记学习技术。本发明专利技术利用深度互学习技术,首先设计两个子网络,分别对CNNs提取的特征学习出两种表示,即基于区域的视觉特征和基于语义的视觉特征,在图像区域特征与区域特征相关联的基础上,融合了图像特征与标签语义的关系;并在整个训练过程中使两个子网络进行深度互学习,相互协作、相互促进,使得结果分布尽可能保持一致;同时在深度互学习过程中能够不断增强区域特征与区域特征、区域特征与标签语义之间的关联,从而提升多标记零样本问题下分类的准确性。性。性。

【技术实现步骤摘要】
一种基于深度互学习的多标记零样本学习方法


[0001]本专利技术属于涉及机器学习领域的多标记学习技术,针对深度多标记学习中的零样本学习问题,本专利技术设计两个子网络并进行深度互学习,同时增强视觉特征与视觉特征、视觉特征和标签语义之间的相关性,从而提升多标记零样本分类的准确性。

技术介绍

[0002]传统监督学习主要是单标记学习,即一张图像对应唯一的一个标签。而现实生活中目标样本往往比较复杂,传统的单标记标注方法无法满足对复杂样本进行标注的需求,因为在现实世界当中,一个样本通常同时属于多个类别,也即所谓的多标记分类问题。
[0003]然而,传统的多标记学习中,大多数的方法是通过有标签的训练集进行学习,侧重于对已经在训练过程中出现过标签类别的样本进行分类,需要大量的已标记数据去训练模型。在现实场景中,许多任务需要对以前从未见过的实例类别进行分类,尽管大量科研相关人员已经标注了很多标准数据集,而在现实世界中已经标注的数据仍然只占少数,且有诸多场景如疾病图像数据难以大量获取,这样就使得原有训练方法不再适用。零样本学习便应运而生,它旨在通过将已知类的语义知识转移到未知类中来解决对未知类的预测问题。传统零样本问题的训练实例所涉及的类与测试集中要预测的类是不相交的、完全不同的,根据训练集中的已知类别数据,通过相关先验知识(属性、词向量、文本描述等),实现对未知类别的识别和预测。零样本学习不仅可以对难以标注的样例进行识别分类,相关解决方法也模拟了人类对于从未见过的对象的认知过程,零样本学习方法的研究,也会在一定程度上促进认知科学的研究。
[0004]但当下对零样本学习的研究几乎都分布在单标记分类领域,而对多标记零样本学习的研究比较少。在多标记零样本学习中,需要训练出的模型能够预测每个输入实例中的多个在训练过程中未见过的类标签。同样地,在传统零样本学习设置中,训练数据中的类标签集合和测试数据中的类标签集合没有交集,两两互斥;在广义零样本学习设置中,测试数据集中同时包含已知标签和未知标签。在零样本学习中进行多标记分类的挑战主要在于:一是在模型训练过程中没有未知标签所对应的样本参与训练,导致训练出的模型缺乏识别未知标签的能力;二是一幅图像中包含多个类别,不同类别之间内容和关系的复杂性,导致图像中存在的已知和未知标签更加难以预测。

技术实现思路

[0005]1.要解决的问题
[0006]针对现有零样本学习过程中存在的上述问题,本专利技术利用一种深度互学习的技术,通过设计两个子网络,产生两种特征表示,使两个子网络在模型训练过程中相互学习、相互促进,同时能够进一步增强视觉特征与视觉特征、视觉特征与语义特征之间的关联,从而解决多标记零样本学习的问题。
[0007]2.技术方案
[0008]为了解决上述问题,本专利技术所采用的技术方案如下:
[0009]本专利技术的一种基于深度互学习的多标记零样本学习方法,包括以下步骤:
[0010]S1、获取图像视觉特征,加载预训练的深度卷积神经网络提取图像特征;获取标签语义,加载预训练的GloVe模型提取标签语义信息;
[0011]S2、设计一个语义微调模块,用于对利用GloVe模型提取出的标签语义信息进行细化或微调,使得提取到的标签语义信息更准确;
[0012]S3、设计融合图像区域与图像区域之间相关性的子网络1:利用多头自注意力机制,将图像中每个区域都与其它各区域相关联,得到基于区域的视觉特征表示;
[0013]S4、再将S3中得到的基于区域的视觉特征映射到语义空间中,计算标签的置信度分数,即每个标签出现在该图像中的概率;
[0014]S5、设计融合标签语义与图像特征之间相关性的子网络2:将标签语义信息与视觉特征相关联,得到基于语义的视觉特征表示;
[0015]S6、再将S5中得到的基于语义的视觉特征同样映射到语义空间中,计算标签的置信度分数,即每个标签出现在该图像中的概率;
[0016]S7、利用深度互学习技术,提出一种互学习损失,使得在训练过程中,两个子网络在训练自身分类性能的同时能够互相学习对方的训练经验,达到互相增强的效果;
[0017]S8、在测试时,给定一个测试样本,输入到S1

S7训练得到的模型中,得到两个子网络的预测值,再将两个预测值加权求和进行融合,即可得到测试样本最终的预测值。
[0018]相比于现有技术,本专利技术的有益效果为:
[0019](1)本专利技术的一种基于深度互学习的多标记零样本学习方法,是针对目前多标记零样本学习存在的问题,利用深度互学习技术,提出两个子网络相互学习的方案,使得在整个训练过程中,两个子网络在训练自身的分类性能的同时也能够学习对方的训练经验;在两个子网络进行深度互学习的过程中能够不断增强区域特征与区域特征、区域特征与标签语义之间的关联,从而显著提升了在多标记零样本问题设置下图像分类的准确度。
附图说明
[0020]图1为本专利技术中多标记零样本学习两个子网络互学习模型框架图。
[0021]具体实施方式
[0022]为进一步了解本专利技术的内容,下面结合具体实施例对本专利技术进一步进行描述。
实施例
[0023]如图1所示,本实施例的一种基于深度互学习的多标记零样本学习方法,主要包含模型构建、训练与标记预测三个阶段,具体的方法步骤如下:
[0024]一、模型构建、训练:
[0025]S1、读取图像文件,获取图像视觉特征,加载预训练的深度卷积神经网络来提取图像特征;与此同时,获取标签语义,通过加载预训练的GloVe模型来提取标签语义信息。具体操作为:
[0026]x
i
∈χ表示深度卷积神经网络提取得到的图像特征,即h,w表示特征图的高和宽,d表示通道数。
[0027]y
i
∈{0,1}
S
表示图像i的相关标签,训练集中图像对应的标签都属于已知类别集合。C
S
表示已知类别集合,S表示已知类别的个数。本专利技术中图像特征的获取利用深度卷积神经网络VGG19,提取最后一个卷积层输出的图像特征用做模型的输入。
[0028]表示S个已知类别的语义向量,d
a
=300,用来表示S个已知类的语义信息以及对它们之间的关系进行编码。表示U个未知类别的语义向量,同样地,d
a
=300,C
U
表示未知类别集合,U表示未知类别的个数。本专利技术中利用GloVe模型获取标签语义向量,GloVe是一种词向量学习方法,它对标签进行词向量化表示,使得向量之间尽可能多的蕴含语义和语法信息。
[0029]S2、设计一个语义微调模块,它对利用GloVe模型提取的标签语义信息进行细化或微调,使得提取到的标签语义信息更准确。具体为:
[0030]本专利技术设计的语义微调模块G
v
,由一个可学习的3层感知机和激活函数(ReLU函数)组成,其中我们将感知机中的隐藏维度设置为1024,最本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于深度互学习的多标记零样本学习方法,其特征在于:包括以下步骤:S1、获取图像视觉特征,即加载预训练的深度卷积神经网络提取图像特征;获取标签语义,即加载预训练的GloVe模型提取标签语义信息;S2、设计一个语义微调模块,用于对利用GloVe模型提取出的标签语义信息进行细化或微调,使得提取到的标签语义信息更准确;S3、设计融合图像区域与图像区域之间相关性的子网络1:利用多头自注意力机制,将图像中每个区域都与其它各区域相关联,得到基于区域的视觉特征表示;S4、再将S3中得到的基于区域的视觉特征映射到语义空间中,计算标签的置信度分数,即每个标签出现在该图像中的概率;S5、设计融合标签语义与图像特征之间相关性的子网络2:将标签语义信息与视觉特征相关联,得到基于语义的视觉特征表示;S6、再将S5中得到的基于语义的视觉特征同样映射到语义空间中,计算标签的置信度分数,即每个标签出现在该图像中的概率;S7、利用深度互学习技术,设计互学习损失,使得在训练过程中,两个子网络在训练自身分类性能的同时能够互相学习对方的训练经验,达到互相增强的效果;S8、在测试时,给定一个测试样本,输入到S1

S7训练得到的模型中,得到两个子网络的预测值,再将两个预测值加权求和进行融合,即可得到测试样本最终的预测值。2.根据权利要求1所述的一种基于深度互学习的多标记零样本学习方法,其特征在于:步骤S1中,深度卷积神经网络提取图像特征记为x
i
∈χ,即其中,表示实数域,h,w分别表示特征图的高和宽,d表示通道数;图像i的对应标签记为y
i
∈{0,1}
S
,训练集中图像对应的标签都属于已知类别集合。C
S
表示已知类别集合,S表示已知类别的个数;表示利用GloVe模型提取出的S个已知类别的语义向量,其中,d
a
=300,用来表示S个已知类别的信息以及对它们之间的关系进行编码;表示利用GloVe模型提取出的U个未知类别的语义向量,同样,d
a
=300,C
U
表示未知类别集合,U表示未知类别的个数;C
S+U
表示同时包含已知类别和未知类别的集合。3.根据权利要求2所述的一种基于深度互学习的多标记零样本学习方法,其特征在于:步骤S2中,语义微调模块G
v
的设计方法为:利用一个可学习的3层感知机和ReLU激活函数构成语义微调模块G
v
,其中将感知机的隐藏维度设为1024,输出维度设为300;V
s
=G
v
(A
S
)
ꢀꢀꢀꢀ
(1)公式(1)中是利用GloVe模型获取的类别语义向量;是经过G
v
模块微调的类别语义向量。4.根据权利要求3所述的一种基于深度互学习的多标记零样本学习方法,其特征在于:步骤S3中,子网络1的设计方法为:步骤一、首先将提取的图像特征当作hw个区域特征,每个区域特征由d维组成,即其中表示图像i的第r个区域;将图像特征x
i
投影到低维空间d

中,其中d

=d/N;使用N个投影头创建查询向量、键向量、值向量,查询向量用来寻找
与所有区域特征的键向量的相关性,值向量则保持每个区域特征当前形式的状态;每个区域特征都有自己的查询向量

键向量

值向量,将图像特征x
i
分别经过投影变换得到:分别经过投影变换得到:分别经过投影变换得到:公式(2)

(4)中,n表示多头注意机制的投影头,n∈{1,2,...,N};表示可学习的投影权重;步骤二、将每个查询向量寻找与来自hw个区域特征的所有键向量的相关性,可得到每个区域特征与其他各区域特征的相关性权重r
n
如下:公式(5)中σ表示softmax激活函数,用来做归一化处理,使得权重值处在[0,1]之间;表示对做转置操作;步骤三、利用公式(5)得到的权重值对值向量进行加权:公式(6)中将公式(6)计算出的每个头的低维自注意特征沿着通道维度进行合并,最终得到基于区域的特征表示F
i
:F
i
=[α1;α2;...α
N
]W<...

【专利技术属性】
技术研发人员:袁志祥王雅卿
申请(专利权)人:安徽工业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1