The invention discloses a self training semi supervised classification method based on transfer learning, this method is the use of a large number of non target labeled data can reduce the training time and resources, including the labeled data set to train the initial classifier on the target, the unlabeled data set is preprocessed for target classification; combining the target labeled data set and a plurality of the auxiliary labeled data set, using self training and learning algorithm training. The extended target has tagged data set; the extended target has a labeled data set to train the classifier; the target unlabeled data set is classified, and the final classification tag is obtained. The invention improves the classification accuracy under the condition of a small amount of training data, reduces the training time and avoids the waste of resources.
【技术实现步骤摘要】
一种基于半监督自训练的迁移学习分类方法
本专利技术涉及机器学习的
,尤其是指一种基于半监督自训练的迁移学习分类方法。
技术介绍
在传统的机器学习中,为保证训练得到的分类模型具有准确性和高可靠性,都有两个基本假设:(1)学习的训练样本与新的测试样本满足独立同分布条件;(2)必须有足够可利用的训练样本才能学习一个好的分类模型。但在实际应用中由于训练数据过期或不同分布等情况都会导致假设不成立,限制了传统机器学习方法的使用,然而获得大量有标签样本费时费力。迁移学习运用从源领域学习的知识,对不同但相关的目标领域学习问题进行求解,解决目标领域中仅有有标签训练样本数据甚至没有的学习问题。传统的机器学习方法分为监督学习和无监督学习。半监督学习是监督学习与无监督学习相结合的一种学习方法,是模式识别和机器学习领域研究的重点问题。它主要考虑如何利用有标签样本和大量无标签样本进行训练和分类的问题。半监督学习较有监督学习的最大区别就是它利用无标签样本和有标签样本共同训练分类器。自训练学习也是机器学习的一种的算法,首先利用有标签数据集训练出初始分类器,使用该分类器对一些无标签数据进行标记,将可信度最高的一些标签新示例放入到有标签数据集中,再在新的有标签数据集上进行下一次训练直到满足截止条件为止。目前,还没有在自训练过程中利用辅助训练数据计算和判断无标签数据分类标签的置信度问题,例如中国专利(一种基于半监督聚类的迁移学习方法,公开号:CN201210464867)。该专利技术通过聚类方法计算目标数据所在簇中各类标签数据所占总数据比例来分类。中国专利(一种基于半监督的迁移学习分类方 ...
【技术保护点】
一种基于半监督自训练的迁移学习分类方法,其特征在于,包括以下步骤:1)对目标有标签数据集进行训练得到初始分类器;2)用初始分类器对目标无标签数据集的实例进行预测和分配标签,得到预分类标签;3)结合目标有标签数据集和多个辅助有标签数据集,采用自训练学习算法对目标无标签数据集进行预测分类,并计算无标签数据集中每个实例的辅助分类标签置信度大小;4)根据置信度大小对正确分类的无标签数据集实例按照降序进行排序,取置信度排在前面的N个实例及其辅助分类标签,加入到当前目标有标签数据集中,其中N=1,2,3,4…;5)多次迭代,逐渐扩大目标有标签数据集规模;6)对于多次迭代后新的目标有标签数据集再次训练分类器,对目标无标签数据进行分类,得到最终分类标签。
【技术特征摘要】
1.一种基于半监督自训练的迁移学习分类方法,其特征在于,包括以下步骤:1)对目标有标签数据集进行训练得到初始分类器;2)用初始分类器对目标无标签数据集的实例进行预测和分配标签,得到预分类标签;3)结合目标有标签数据集和多个辅助有标签数据集,采用自训练学习算法对目标无标签数据集进行预测分类,并计算无标签数据集中每个实例的辅助分类标签置信度大小;4)根据置信度大小对正确分类的无标签数据集实例按照降序进行排序,取置信度排在前面的N个实例及其辅助分类标签,加入到当前目标有标签数据集中,其中N=1,2,3,4…;5)多次迭代,逐渐扩大目标有标签数据集规模;6)对于多次迭代后新的目标有标签数据集再次训练分类器,对目标无标签数据进行分类,得到最终分类标签。2.根据权利要求1所述的一种基于半监督自训练的迁移学习分类方法,其特征在于:在步骤1)中,训练过程如下:1.1)对需要训练分类器的数据集做滤波、去噪声这些预处理操作;1.2)利用主成分分析法对预处理后的数据集提取特征,将原本难以分类的训练数据变换到易于分类的数据空间;1.3)利用支撑向量机算法,根据变换后的训练数...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。