【技术实现步骤摘要】
一种基于深度互学习的多标记零样本学习方法
[0001]本专利技术属于涉及机器学习领域的多标记学习技术,针对深度多标记学习中的零样本学习问题,本专利技术设计两个子网络并进行深度互学习,同时增强视觉特征与视觉特征、视觉特征和标签语义之间的相关性,从而提升多标记零样本分类的准确性。
技术介绍
[0002]传统监督学习主要是单标记学习,即一张图像对应唯一的一个标签。而现实生活中目标样本往往比较复杂,传统的单标记标注方法无法满足对复杂样本进行标注的需求,因为在现实世界当中,一个样本通常同时属于多个类别,也即所谓的多标记分类问题。
[0003]然而,传统的多标记学习中,大多数的方法是通过有标签的训练集进行学习,侧重于对已经在训练过程中出现过标签类别的样本进行分类,需要大量的已标记数据去训练模型。在现实场景中,许多任务需要对以前从未见过的实例类别进行分类,尽管大量科研相关人员已经标注了很多标准数据集,而在现实世界中已经标注的数据仍然只占少数,且有诸多场景如疾病图像数据难以大量获取,这样就使得原有训练方法不再适用。零样本学习便应运而生,它旨在通过将已知类的语义知识转移到未知类中来解决对未知类的预测问题。传统零样本问题的训练实例所涉及的类与测试集中要预测的类是不相交的、完全不同的,根据训练集中的已知类别数据,通过相关先验知识(属性、词向量、文本描述等),实现对未知类别的识别和预测。零样本学习不仅可以对难以标注的样例进行识别分类,相关解决方法也模拟了人类对于从未见过的对象的认知过程,零样本学习方法的研究,也会在一定程度上促进认知 ...
【技术保护点】
【技术特征摘要】
1.一种基于深度互学习的多标记零样本学习方法,其特征在于:包括以下步骤:S1、获取图像视觉特征,即加载预训练的深度卷积神经网络提取图像特征;获取标签语义,即加载预训练的GloVe模型提取标签语义信息;S2、设计一个语义微调模块,用于对利用GloVe模型提取出的标签语义信息进行细化或微调,使得提取到的标签语义信息更准确;S3、设计融合图像区域与图像区域之间相关性的子网络1:利用多头自注意力机制,将图像中每个区域都与其它各区域相关联,得到基于区域的视觉特征表示;S4、再将S3中得到的基于区域的视觉特征映射到语义空间中,计算标签的置信度分数,即每个标签出现在该图像中的概率;S5、设计融合标签语义与图像特征之间相关性的子网络2:将标签语义信息与视觉特征相关联,得到基于语义的视觉特征表示;S6、再将S5中得到的基于语义的视觉特征同样映射到语义空间中,计算标签的置信度分数,即每个标签出现在该图像中的概率;S7、利用深度互学习技术,设计互学习损失,使得在训练过程中,两个子网络在训练自身分类性能的同时能够互相学习对方的训练经验,达到互相增强的效果;S8、在测试时,给定一个测试样本,输入到S1
‑
S7训练得到的模型中,得到两个子网络的预测值,再将两个预测值加权求和进行融合,即可得到测试样本最终的预测值。2.根据权利要求1所述的一种基于深度互学习的多标记零样本学习方法,其特征在于:步骤S1中,深度卷积神经网络提取图像特征记为x
i
∈χ,即其中,表示实数域,h,w分别表示特征图的高和宽,d表示通道数;图像i的对应标签记为y
i
∈{0,1}
S
,训练集中图像对应的标签都属于已知类别集合。C
S
表示已知类别集合,S表示已知类别的个数;表示利用GloVe模型提取出的S个已知类别的语义向量,其中,d
a
=300,用来表示S个已知类别的信息以及对它们之间的关系进行编码;表示利用GloVe模型提取出的U个未知类别的语义向量,同样,d
a
=300,C
U
表示未知类别集合,U表示未知类别的个数;C
S+U
表示同时包含已知类别和未知类别的集合。3.根据权利要求2所述的一种基于深度互学习的多标记零样本学习方法,其特征在于:步骤S2中,语义微调模块G
v
的设计方法为:利用一个可学习的3层感知机和ReLU激活函数构成语义微调模块G
v
,其中将感知机的隐藏维度设为1024,输出维度设为300;V
s
=G
v
(A
S
)
ꢀꢀꢀꢀ
(1)公式(1)中是利用GloVe模型获取的类别语义向量;是经过G
v
模块微调的类别语义向量。4.根据权利要求3所述的一种基于深度互学习的多标记零样本学习方法,其特征在于:步骤S3中,子网络1的设计方法为:步骤一、首先将提取的图像特征当作hw个区域特征,每个区域特征由d维组成,即其中表示图像i的第r个区域;将图像特征x
i
投影到低维空间d
′
中,其中d
′
=d/N;使用N个投影头创建查询向量、键向量、值向量,查询向量用来寻找
与所有区域特征的键向量的相关性,值向量则保持每个区域特征当前形式的状态;每个区域特征都有自己的查询向量
‑
键向量
‑
值向量,将图像特征x
i
分别经过投影变换得到:分别经过投影变换得到:分别经过投影变换得到:公式(2)
‑
(4)中,n表示多头注意机制的投影头,n∈{1,2,...,N};表示可学习的投影权重;步骤二、将每个查询向量寻找与来自hw个区域特征的所有键向量的相关性,可得到每个区域特征与其他各区域特征的相关性权重r
n
如下:公式(5)中σ表示softmax激活函数,用来做归一化处理,使得权重值处在[0,1]之间;表示对做转置操作;步骤三、利用公式(5)得到的权重值对值向量进行加权:公式(6)中将公式(6)计算出的每个头的低维自注意特征沿着通道维度进行合并,最终得到基于区域的特征表示F
i
:F
i
=[α1;α2;...α
N
]W<...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。