一种基于多重网络合作的零样本学习算法制造技术

技术编号:25837242 阅读:25 留言:0更新日期:2020-10-02 14:17
本发明专利技术属于机器学习和迁移学习的交叉领域,公开一种基于多重网络合作的零样学习算法,包括生成网络一、生成网络二、对抗网络和重构网络。首先,将反向视觉特征空间作为嵌入空间,通过视觉特征中心生成网络实现映射。其次,采用更深层次的神经网络来生成,将残差网络模块引入到生成网络一和二中。之后,为减少过度拟合和提高可扩展性,引入一个对抗网络识别视觉特征中心的生成。最后,利用一个反向生成过程的重构网络来限制生成的视觉特征中心与每个类的原始语义表示之间的结构相关性。本发明专利技术在传统的零样本学习和广义零样本学习上都获得了令人满意的结果,对具有潜在应用前景的、识别无标注的海量未知类别的图像识别任务发挥促进作用。

【技术实现步骤摘要】
一种基于多重网络合作的零样本学习算法
本专利技术属于机器学习和迁移学习的交叉领域,涉及一种基于多重网络合作的零样本学习算法。
技术介绍
虽然例如ImageNet等大数据的收集和标注使得监督学习任务取得巨大成功。然而,当任务越复杂,标注越少,模型很难进行学习。收集和标注大量数据又是非常困难的。因此,当在训练样本数量不足、样本无标签甚至是零样本的情况下,如何充分利用网络不断产生的大数据,成为了机器学习和计算机视觉领域的新兴问题。为了解决上述问题,零样本学习被提出,其目的是不需要对未知类别图片进行标注而通过未知物体的描述就能识别未知类别。零样本学习目前主要研究的是图像分类任务。零样本学习目的是识别未知物体,其目的是通过在训练集上对已知类别的样本进行映射学习来获得泛化能力强的学习器,再利用在已知类上学习到的分类器对未知类别样本进行分类,其最早由H.Larochelle等人[15]于2008年提出。零样本学习主要利用高维语义表征来代替样本的低维视觉特征,使得训练出来的模型具有迁移性。比如,斑马的高维语义是“斑马拥有马的外形,熊猫的颜色,老虎的斑纹”,尽管缺乏更多细节,但这些高维语义表征已经足够对“斑马”这一类别进行分类,从而让机器成功预测出未知物种。其实,零样本学习解决了图像识别方向长久以来的问题,即如果一个事物从来没有在现有的数据集中出现过,机器应该如何学习和识别它,机器应该输出什么样的结果。总之,零样本学习不但降低了现有算法对数据集的依赖和标注的压力,而且零样本学习清晰有效地指向了对缩减算力需求的可行性的解决方案。更重要的是,零样本解决的不仅仅是计算机视觉的分类问题,其更是与自然语言处理的发展相辅相成。根据模糊的高维语义描述去进行物体识别,对机器的要求不仅仅是简单分类,还要理解特征一些人类的高级知识,比如一种艺术作品的风格、一种特殊的情绪等。找到这种语义上的联系,将机器视觉与自然语言技术联合在一起解决问题,零样本学习激发的技术想象。零样本学习是一门非常有趣的研究方向,其已经成为了最近机器学习领域的重要研究方向之一。按照对语义属性的使用方式不同,零样本学习工作可以被分为四类:基于属性的方法,基于映射的方法,基于合成的方法以及基于生成的方法。基于属性的方法利用两阶段方法中的属性来推断属于其中一个未见类别的图像标签。从最一般的意义上讲,输入图像的属性是在第一阶段进行预测的,然后通过搜索获得最相似属性的类别来推断其类别标签。例如,2009年C.H.Lampert等人提出了直接属性预测(DAP)和间接属性预测(IAP)模型。其中DAP模型首先通过学习概率属性分类器来估计图像的每个属性的后验。然后,它计算后验类别,并使用MAP估计来预测类别标签。与DAP不同的是,IAP首先预测所见类别的类别后验,然后使用每个类别的概率来计算图像的属性后验,其中可见类别的类别后验由多个类别分类器预测(C.H.Lampert,H.NickischandS.Harmeling,“Attribute-BasedClassificationforZero-ShotVisualObjectCategorization,”inIEEETransactionsonPatternAnalysisandMachineIntelligence,vol.36,no.3,pp.453-465,March2014.)。基于映射的方法研究从图像特征空间到语义空间的映射。传统的零样本学习通常将四种类型的空间视为嵌入空间,即将语义属性空间作为,挖掘中间潜在空间作为嵌入空间,将视觉特征空间作为嵌入空间以及将语义属性和视觉特征都作为嵌入空间的双向自动编码器模式。具体地,2013年R.Socher等人提出了CMT模型,其使用具有两个隐藏层的神经网络来学习从图像特征空间到词向量空间的非线性投影(R.Socher,M.Ganjoo,C.D.Manning,A.Ng,“Zero-shotlearningthroughcrossmodaltransfer,”in:NIPS,2013,pp.935–943.)。2015年,Z.Zhang等人提出了SSE模型,其使用可见类别比例的混合作为公共空间,并认为属于同一类别的图像应具有相似的混合模式(Z.Zhang,V.Saligrama,“Zero-shotlearningviasemanticsimilarityembedding,”in:ICCV,2015,pp.4166–4174.)。同年,Z.Akata等人提出了SJE模型,其通过优化结构SVM损失来学习双线性匹配(Z.Akata,S.Reed,D.Walter,H.Lee,B.Schiele,“Evaluationofoutputembeddingsforfine-grainedimageclassification,”in:CVPR,2015,pp.2927–2936.)。2016年Z.Akata等人提出了ALE模型,其使用排名损失学习图像和属性空间之间的双线性兼容性函数(Z.Akata,F.Perronnin,Z.Harchaoui,C.Schmid,“Label-embeddingforimageclassification,”IEEETPAMI38(7)(2016)1425–1438.)。2017年L.Zhang等人学习了一个深度嵌入模型DEM,其使用深层神经网络模型将语义属性空间映射到视觉特征空间,并在相对维度更大的视觉特征空间上进行距离测量,以增加样本的可分区分性并缓解中心点问题(L.Zhang,T.Xiang,andS.Gong,“Learningadeepembeddingmodelforzero-shotlearning,”inProc.IEEEComput.Vis.PatternRecognit.(CVPR),Honolulu,HI,USA,2017,pp.3010–3019.)。同年,E.Kodirov等人提出了一种自动编码器模型SAE,该模型限制了生成的视觉特征以重建原始的语义属性(E.Kodirov,T.Xiang,andS.Gong,“Semanticautoencoderforzero-shotlearning,”inProc.IEEEComput.Vis.PatternRecognit.(CVPR),Honolulu,HI,USA,2017,pp.3174–3183.)。此外,最新的情况是,2019年Y.Yu和Z.Ji等人提出了LSE模型,其挖掘了语义属性和视觉特征之间的潜在空间作为嵌入空间,并使用了一种在潜在空间在语义属性空间和视觉特征空间之间进行编码和解码的方法(Y.Yu,Z.Ji,J.Guo,andZ.Zhang,“Zero-ShotLearningviaLatentSpaceEncoding,”inIEEETrans.Cybern.,vol.49,no.10,pp.3755–3766,2019.)。基于合成的方法通过为未知类别合成对应样本,将传统零样本学习任务和广义零样本学习任务转换为普通的分类任务。2019年Z.Ji和J.Wang等人提出了一个利用字典学习框本文档来自技高网...

【技术保护点】
1.一种基于多重网络合作的零样本学习算法,其特征在于,包括以下步骤:/n第一步,设计生成网络一,设计生成网络一的目的是利用类别的语义属性生成类别的一个视觉特征中心,使用残差网络模块与全连接层构建生成网络一的结构,具体的:/n将残差思想引入到零样本学习中,所述生成网络一包含2个全连接层和三个单层残差网络模块;残差网络模块和生成网络的目标函数分别如公式(1)和公式(2)所示:/ny=h(h(f(a,w) (1)/n其中,a是前面的神经网络的输出值,f是完全连接函数,w是网络的权重,h是激活函数,y是残差网络模块的输出;/n

【技术特征摘要】
1.一种基于多重网络合作的零样本学习算法,其特征在于,包括以下步骤:
第一步,设计生成网络一,设计生成网络一的目的是利用类别的语义属性生成类别的一个视觉特征中心,使用残差网络模块与全连接层构建生成网络一的结构,具体的:
将残差思想引入到零样本学习中,所述生成网络一包含2个全连接层和三个单层残差网络模块;残差网络模块和生成网络的目标函数分别如公式(1)和公式(2)所示:
y=h(h(f(a,w)(1)
其中,a是前面的神经网络的输出值,f是完全连接函数,w是网络的权重,h是激活函数,y是残差网络模块的输出;



其中,L(G1)表示生成网络一的损失函数,G1表示生成网络,m表示样本个数,x表示类别的视觉特征,G1(a)表示生成网络一G1通过类别的语义向量a生成的视觉特征中心;表示在生成网络过程中的权重总称,表示正则化项,λ表示正则化系数;
第二步,设计生成网络二,设计生成网络二的目的也是利用类别的语义属性生成类别的另一个视觉特征中心,同样使用残差网络模块与全连接层构建;生成网络二的结构与生成网络一的结构完全相同,与生成网络一不同的是在训练过程中,生成网络二连接对抗网络和重构网络分别来正则化生成网络二生成的视觉特征中心;其中:
(1)对抗网络用于判别生成网络二生成的视觉特征中心的真假,发挥正规化生成网络二生成的视觉特征中心的作用;
(2)重构网络与生成网络二过程相反,将生成网络二生成的视觉特征中心映射回类似于原始语义属性的状态,从而确保生成网络二生成的视觉特征中心与类别的语义属性之间的结构相关性;所述重构网络的结构包含两个全连接层和一个单层残差网络模块,其目标函数如下:

【专利技术属性】
技术研发人员:孙亮宋俊杰葛宏伟李宝煜谭国真
申请(专利权)人:大连理工大学
类型:发明
国别省市:辽宁;21

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1