一种基于知识重组的复杂分类方法技术

技术编号：21972083 阅读：59 留言：0更新日期：2019-08-28 01:36

一种基于知识重组的复杂分类方法，包括：步骤1、特征重组：针对不同分类任务的教师模型，通过一系列自编码器学习得到紧凑的特征表示；步骤2、参数学习：先对学生网络模型参数进行分层的训练，然后在分层训练的基础上，做一个联合的训练。通过上述两个步骤得到的学生模型，是一个轻量级的设计，不需要人工标注的数据，就可以处理复杂的分类任务，而且在很多情况下比单个教师任务完成的效果更好。

A Complex Classification Method Based on Knowledge Reorganization

全部详细技术资料下载

【技术实现步骤摘要】
一种基于知识重组的复杂分类方法
本专利技术涉及一种基于知识重组的复杂分类方法，在知识蒸馏的基础上，对多个教师网络的知识进行合并，而不是传统知识蒸馏对单一教师网络进行压缩。知识重组的目的是在原始训练数据或者标注信息不完整的情况下，利用训练好的多个教师网络，获取中间特征和目标向量。进而训练出一个轻量级的学生模型，利用一个学生网络完成多个教师的分类功能
技术介绍
知识蒸馏的概念由Hinton在2015年首次提出，通过引入与教师网络相关的软目标作为totalloss的一部分，以诱导学生网络的训练实现知识迁移。教师网络的预测输出除以温度参数(Temperature)之后、再做softmax变换，可以获得软化的概率分布(软目标)，数值介于0～1之间，取值分布较为缓和。Temperature数值越大，分布越缓和；而Temperature数值减小，容易放大错误分类的概率，引入不必要的噪声。针对较困难的分类或检测任务，Temperature通常取1，确保教师网络中正确预测的贡献。硬目标则是样本的真实标注，可以用one-hot矢量表示。totalloss设计为软目标与硬目标所对应的交叉熵的加权平均(表示为KDloss与CEloss)，其中软目标交叉熵的加权系数越大，表明迁移诱导越依赖教师网络的贡献，这对训练初期阶段是很有必要的，有助于让学生网络更轻松的鉴别简单样本，但训练后期需要适当减小软目标的比重，让真实标注帮助鉴别困难样本。另外，教师网络的推理性能通常要优于学生网络，而模型容量则无具体限制，且教师网络推理精度越高，越有利于学生网络的学习。为了能够诱导训练更深、更纤细的学生...

【技术保护点】
1.一种基于知识重组的复杂分类方法；前提是教师网络的结构是相同的，学生网络的结构和教师网络是相似的；学生网络每一层的卷积核个数和特征的通道数和教师网络不同；包括下面两个步骤：1)特征重组；通过输入数据给教师网络，得到教师网络每一层的特征；不同教师的同一层网络的特征会连接在一起，然后通过一个自编码器实现压缩，得到一个紧凑的表示；这也是学生网络该层的特征；自编码器用的是1*1的卷积核，主要目的就是减少特征的通道数和计算的负荷，同时保留了原始的感受野大小；对于最后一层分类的结果，不需要对其做压缩，而是直接把多个教师网络的预测结果连接，作为重组之后的结果；2)参数学习；在分层学习阶段，学生特征可以看作监督信息；通过连续两层的特征可以计算得到该层的学生网络参数；再通过一个联合的学习做一个微调；为促进分层学习，一个特征自适应层是需要的；假设

【技术特征摘要】
1.一种基于知识重组的复杂分类方法；前提是教师网络的结构是相同的，学生网络的结构和教师网络是相似的；学生网络每一层的卷积核个数和特征的通道数和教师网络不同；包括下面两个步骤：1)特征重组；通过输入数据给教师网络，得到教师网络每一层的特征；不同教师的同一层网络的特征会连接在一起，然后通过一个自编码器实现压缩，得到一个紧凑的表示；这也是学生网络该层的特征；自编码器用的是1*1的卷积核，主要目的就是减少特征的通道数和计算的负荷，同时保留了原始的感受野大小；对于最后一层分类的结果，不需要对其做压缩，而是直接把多个教师网络的预测结果连接，作为重组之后的结果；2)参数学习；在分层学习阶段，学生特征可以看作监督信息；通过连续两层的特征可以计算得到该...

【专利技术属性】
技术研发人员：宋明黎，沈成超，王鑫超，宋杰，孙立，
申请(专利权)人：浙江大学，
类型：发明
国别省市：浙江,33

全部详细技术资料下载我是这个专利的主人