一种基于知识重组的复杂分类方法,包括:步骤1、特征重组:针对不同分类任务的教师模型,通过一系列自编码器学习得到紧凑的特征表示;步骤2、参数学习:先对学生网络模型参数进行分层的训练,然后在分层训练的基础上,做一个联合的训练。通过上述两个步骤得到的学生模型,是一个轻量级的设计,不需要人工标注的数据,就可以处理复杂的分类任务,而且在很多情况下比单个教师任务完成的效果更好。
A Complex Classification Method Based on Knowledge Reorganization
【技术实现步骤摘要】
一种基于知识重组的复杂分类方法
本专利技术涉及一种基于知识重组的复杂分类方法,在知识蒸馏的基础上,对多个教师网络的知识进行合并,而不是传统知识蒸馏对单一教师网络进行压缩。知识重组的目的是在原始训练数据或者标注信息不完整的情况下,利用训练好的多个教师网络,获取中间特征和目标向量。进而训练出一个轻量级的学生模型,利用一个学生网络完成多个教师的分类功能
技术介绍
知识蒸馏的概念由Hinton在2015年首次提出,通过引入与教师网络相关的软目标作为totalloss的一部分,以诱导学生网络的训练实现知识迁移。教师网络的预测输出除以温度参数(Temperature)之后、再做softmax变换,可以获得软化的概率分布(软目标),数值介于0~1之间,取值分布较为缓和。Temperature数值越大,分布越缓和;而Temperature数值减小,容易放大错误分类的概率,引入不必要的噪声。针对较困难的分类或检测任务,Temperature通常取1,确保教师网络中正确预测的贡献。硬目标则是样本的真实标注,可以用one-hot矢量表示。totalloss设计为软目标与硬目标所对应的交叉熵的加权平均(表示为KDloss与CEloss),其中软目标交叉熵的加权系数越大,表明迁移诱导越依赖教师网络的贡献,这对训练初期阶段是很有必要的,有助于让学生网络更轻松的鉴别简单样本,但训练后期需要适当减小软目标的比重,让真实标注帮助鉴别困难样本。另外,教师网络的推理性能通常要优于学生网络,而模型容量则无具体限制,且教师网络推理精度越高,越有利于学生网络的学习。为了能够诱导训练更深、更纤细的学生网络(deeperandthinnerFitNet),需要考虑教师网络中间层的featuremap(作为Hint),用来指导学生网络中相应的Guidedlayer。此时需要引入L2loss指导训练过程,该loss计算为教师网络Hintlayer与学生网络Guidedlayer输出FeatureMaps之间的差别,若二者输出的FeatureMaps形状不一致,Guidedlayer需要通过一个额外的回归层。具体训练过程分两个阶段完成:第一个阶段利用Hint-basedloss诱导学生网络达到一个合适的初始化状态;第二个阶段利用教师网络的softlabel指导整个学生网络的训练(即知识蒸馏),且totalloss中softtarget相关部分所占比重逐渐降低,从而让学生网络能够全面辨别简单样本与困难样本(教师网络能够有效辨别简单样本,而困难样本则需要借助真实标注,即hardtarget)跨模态知识迁移目标是将知识从特定模态的模型转移到同一场景的另一个模态的模型。比如同一场景的深度图,分割图。Gupta利用一个训练好的网络去引导一个学生网络从这些无标注的模态中学习表征。学生网络就可以作为新模态少标注模型的预训练模型。Xu利用了一系列相关的辅助任务来监督目标任务的学习。然后从这些多模态的任务中蒸馏出最终任务需要的表征。
技术实现思路
本专利技术要克服现有技术的上述缺点,提供一种基于知识重组的复杂分类方法。本专利技术针对现有的大量训练好的深度网络模型,对这些模型的再利用可以减少网络训练的花销。特别是在原始的训练数据和标注比较难获得的情况下。对于一系列已经训练好的教师模型,知识重组的方法可以训练出一个轻量级的学生模型,不需要人工标注的数据,就可以处理复杂的分类任务,而且在很多情况下比单个教师任务完成的效果更好。本专利技术是一种基于知识重组的复杂分类方法。此方法由以下两个部分组成:首先从针对不同分类任务的教师模型,通过一系列自编码器学习得到紧凑的特征表示;然后对学生网络模型参数进行分层的训练;在分层训练的基础上,做一个联合的训练。通过上述两个步骤得到的学生模型,是一个轻量级的设计,不需要人工标注的数据,就可以处理复杂的分类任务,而且在很多情况下比单个教师任务完成的效果更好。前提是教师网络的结构是相同的,学生网络的结构和教师网络是相似的。学生网络每一层的卷积核个数和特征的通道数和教师网络不同。该方法主要包括下面两个步骤:1)特征重组;通过输入数据给教师网络,可以得到教师网络每一层的特征。不同教师的同一层网络的特征会连接在一起,然后通过一个自编码器实现压缩,得到一个紧凑的表示。这也是学生网络该层的特征。自编码器用的是1*1的卷积核,主要目的就是减少特征的通道数和计算的负荷,同时保留了原始的感受野大小。对于最后一层分类的结果,不需要对其做压缩,而是直接把多个教师网络的预测结果连接,作为重组之后的结果。2)参数学习;在分层学习阶段,学生特征可以看作监督信息。通过连续两层的特征可以计算得到该层的学生网络参数。再通过一个联合的学习做一个微调。为促进分层学习,一个特征自适应层是需要的。假设和代表的是学生网络第l层和第l-1层的特征表示。在分层训练的过程中是作为输入,并且通过一系列的激活池化和卷积操作得的。是第l层的估计特征。由于激活和池化函数并没有参数,分层训练就变成了一个线性优化的过程,比整个网络的训练简单的多。由于是直接从教师特征压缩得到的,并不能很好的适用非参数的池化和激活函数。比如,ReLU会消除所有的负值,这些值对于可能是非常关键的。为了保证学习的效果,加入一个特征自适应模块,使得特征更加适合非参函数。同样也是采用了1*1的卷积核。在分层学习之后,做一个联合的端到端学习,使得每一层之间更加适应,得到最后的优化模型。本专利技术的具有的有益效果是:提出了一种新的模型再利用的任务叫做知识重组,给定多个训练好的教师网络,针对不同的分类任务,知识重组的目的是训练一个轻量级的学术网络可以处理复杂的分类问题。整个训练的过程不需要额外的标注,只利用教师网络的输出。训练得到的学生模型比单个教师任务效果更好。即减少了训练的时间开销,也消除了在训练时很难获取原始标注数据的问题。附图说明图1是递增的特征重组方式示意图,每次对两组特征进行合并。图2是直接对多个特征进行重组的示意图。具体实施方式下面结合附图进一步说明本专利技术的技术方案。本专利技术是一种基于知识重组的复杂分类方法。此方法由以下两个步骤组成:1)特征重组;首先是两个教师网络的特征重组方式,然后会介绍多个教师网络可能的重组方式。最后是得分向量的组合方式。不同任务的特征之间存在冗余的部分,所以可以进行压缩得到紧凑的表示。两个教师网络的合并,一个最直接的方式就是把输入给教师网络的数据得到的每一层的特征做一个连接,这样得到的特征就是四倍教师特征的大小,由于知识重组的目的是得到一个紧凑的网络,因此我们需要对连接后的特征做一个压缩。这里采用的是一个自编码器,在减少FeatureMap的大小的同时保留了原来的有效信息。因为自编码器重建的特征需要保持和原始连接特征的相似性。一个1*1的卷积核就能达到需要的效果,这是目前很多的CNN结构采用的自编码的实现方式。这个卷积核的主要作用就是减少FeatureMap通道的个数和计算的压力。同时保留了原始的感受野大小。多个教师网络的合并主要有两种方法,第一种我们称为“IncrementalFeatureAmalgamation(IFA)”,第二种称为“DirectFeatureAmalgamation(DFA)”。第一种方法是本文档来自技高网...
【技术保护点】
1.一种基于知识重组的复杂分类方法;前提是教师网络的结构是相同的,学生网络的结构和教师网络是相似的;学生网络每一层的卷积核个数和特征的通道数和教师网络不同;包括下面两个步骤:1)特征重组;通过输入数据给教师网络,得到教师网络每一层的特征;不同教师的同一层网络的特征会连接在一起,然后通过一个自编码器实现压缩,得到一个紧凑的表示;这也是学生网络该层的特征;自编码器用的是1*1的卷积核,主要目的就是减少特征的通道数和计算的负荷,同时保留了原始的感受野大小;对于最后一层分类的结果,不需要对其做压缩,而是直接把多个教师网络的预测结果连接,作为重组之后的结果;2)参数学习;在分层学习阶段,学生特征可以看作监督信息;通过连续两层的特征可以计算得到该层的学生网络参数;再通过一个联合的学习做一个微调;为促进分层学习,一个特征自适应层是需要的;假设
【技术特征摘要】
1.一种基于知识重组的复杂分类方法;前提是教师网络的结构是相同的,学生网络的结构和教师网络是相似的;学生网络每一层的卷积核个数和特征的通道数和教师网络不同;包括下面两个步骤:1)特征重组;通过输入数据给教师网络,得到教师网络每一层的特征;不同教师的同一层网络的特征会连接在一起,然后通过一个自编码器实现压缩,得到一个紧凑的表示;这也是学生网络该层的特征;自编码器用的是1*1的卷积核,主要目的就是减少特征的通道数和计算的负荷,同时保留了原始的感受野大小;对于最后一层分类的结果,不需要对其做压缩,而是直接把多个教师网络的预测结果连接,作为重组之后的结果;2)参数学习;在分层学习阶段,学生特征可以看作监督信息;通过连续两层的特征可以计算得到该...
【专利技术属性】
技术研发人员:宋明黎,沈成超,王鑫超,宋杰,孙立,
申请(专利权)人:浙江大学,
类型:发明
国别省市:浙江,33
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。