一种基于相关熵和迁移学习的分类方法技术

技术编号:20918392 阅读:19 留言:0更新日期:2019-04-20 10:05
本发明专利技术公开一种基于相关熵和迁移学习的分类方法,属于机器学习技术领域,用于解决现有技术中需要对不可预知的噪声进行稀释性假设及目标数据集标注样本不足的问题,充分利用源数据集的标签信息,通过源数据集和目标数据集共同学习,在严重噪声环境下,将源数据集中的知识鲁棒地迁移到目标数据集,从而显著提高目标数据集上的分类识别效果。

A Classification Method Based on Relevance Entropy and Transfer Learning

The invention discloses a classification method based on correlation entropy and migration learning, which belongs to the field of machine learning technology. It is used to solve the problem of dilution assumption of unpredictable noise and insufficient sample labeling of target data set in the existing technology, make full use of label information of source data set, learn together through source data set and target data set, and in severe noise environment. The knowledge from the source data set is migrated robustly to the target data set, which can significantly improve the classification and recognition effect on the target data set.

【技术实现步骤摘要】
一种基于相关熵和迁移学习的分类方法
本专利技术属于机器学习
,具体涉及一种基于相关熵和迁移学习的分类方法。
技术介绍
在传统的机器学习框架下,监督学习的任务是利用有标注的训练样本来学习一个分类模型,并利用这个模型对测试样本进行分类和预测。这些传统的监督学习模型存在一个基本假设,即大量的有标注的训练样本和测试样本服从相同的概率分布。然而在当前众多的研究领域中,由于昂贵的人工标注代价,训练样本和测试样本通常分别来自源域和目标域两个不同的领域,从而服从不同的概率分布。在这种情况下,传统的分类模型无法扩展到测试样本所在的目标域。迁移学习旨在通过挖掘两个领域间的关联,将源域的知识传递到目标域,从而帮助测试样本的分类。因此,迁移学习能有效解决标注样本不足的问题,节约人力成本,在机器学习和模式识别中占据重要地位。传统的迁移学习方法以线性模型为主,同时也逐渐向基于深度网络等非线性模型过渡。近年来,能抵抗实际噪声的知识迁移受到越来越多的关注。然而已有的鲁棒的知识迁移方法存在以下问题。这些鲁棒方法假设数据中存在的噪声是稀疏的,然而在实际问题中,数据可能被各种复杂的、不可预知的噪声所污染。这些被复杂噪声污染的数据将严重影响已有知识迁移方法的结果,甚至造成负迁移。对不可预知的噪声而言,基于相关熵的损失函数能够带来优于传统经验损失函数的鲁棒效果,对相关熵研究的重要性在鲁棒学习领域已经形成共识。如何基于相关熵理论进一步发展迁移学习技术方法仍然存在极大挑战。
技术实现思路
为克服上述问题,本专利技术提出一种基于相关熵和迁移学习的分类方法,充分利用源数据集的标签信息,通过源数据集和目标数据集共同学习,有效解决了目标数据集标注样本不足的问题。为实现上述目的,本专利技术采用的技术方案是:一种基于相关熵和迁移学习的分类方法,包括以下步骤:分别对有标签的源数据集、无标签的目标数据集进行L2范数归一化;利用基于相关熵的迁移学习算法,对所述归一化的源数据集和目标数据集进行迁移迭代训练,得到特征变换矩阵;利用所述特征变换矩阵,将所述归一化的源数据集和目标数据集都映射到一特征空间,在该特征空间中所述归一化的源数据集和目标数据集的概率分布相同;在所述特征空间中,利用所述归一化的源数据集及其标签信息进行训练,得到目标分类器;利用目标分类器对所述归一化的目标数据集进行分类预测,以实现目标数据集的分类。进一步地,所述基于相关熵的迁移学习算法的目标方程为:其中,是基于相关熵的误差损失函数,W是特征变换矩阵,C是重构系数矩阵,Xt是目标数据集组成的矩阵,Xs是源数据集组成的向量,σ是高斯函数带宽,(WXt-WXsC)i是误差矩阵(WXt-WXsC)的第i列向量,λ1和λ2是平衡系数,m表示目标数据集的数据样本个数。进一步地,引入半二次优化中的辅助变量pi,对所述基于相关熵的迁移学习算法的目标方程进行更新,更新后的目标方程为:其中,是相关熵的凸共轭函数,本专利技术的优化过程和结果并不需要的具体表达式;通过半二次优化中的循环迭代方法来得到最优的参数W,C,pi。进一步地,所述循环迭代方法的步骤包括:首先,固定W和C,根据凸共轭函数理论,获得pi的如下最优解:其次,固定pi和C,结合凸优化方法和特征分解法来求解如下W的目标方程:最后,固定pi和W,基于l1范数的凸优化方法来求解如下C的目标方程:进一步地,通过SVM或1-NN分类算法,利用所述归一化的源数据集及其标签信息进行训练,得到目标分类器。一种基于相关熵和迁移学习的分类系统,包括存储器和处理器,该存储器存储计算机程序,该程序被配置为由该处理器执行,该程序包括用于执行上述方法中各步骤的指令。一种存储计算机程序的计算机可读存储介质,该计算机程序包括指令,该指令当由服务器的处理器执行时使得该服务器执行上述方法中的各个步骤。与现有技术相比,本专利技术的优点和积极效果如下:本专利技术对相关熵理论进行深入研究,提供了基于相关熵的损失函数,能够自动检测出被污染的数据点进而对这些数据点进行抑制,有效地解决了现有技术中需要对不可预知的噪声进行稀释性等假设的问题,极大地增强了迁移学习方法的鲁棒性。因此,本专利技术有效地适用于如下复杂应用环境:大量的样本被污染,污染非常严重并且由多重复杂噪声同时引起。本专利技术所述的基于共轭理论和半二次理论的优化过程,能够保证收敛性,解决了原有方法中优化过程的收敛性缺失问题。本专利技术充分利用了源数据集的标签信息,通过源数据集和目标数据集共同学习,在严重噪声环境下,将源数据集中的知识鲁棒地迁移到目标数据集,从而显著提高目标数据集上的分类识别效果,有效解决了目标数据集标注样本不足的问题。附图说明图1为实施例中的一种基于相关熵和迁移学习的分类方法的流程图;图2为实施例提供的源数据集样本示意图;图3为实施例提供的目标数据集样本示意图;图4为实施例提供的被遮挡污染的目标数据集样本示意图。具体实施方式为使本专利技术的上述特征和优点能更明显易懂,下文特举实施例,并配合所附图作详细说明如下。本实施例提供一种基于相关熵和迁移学习的分类方法,如图1所示流程图,步骤包括:S1:对有标签的源数据集、无标签的目标数据集进行预处理,进行归一化。本实施例中采用标准的CMU-PIE人脸数据库作为实验数据。CMU-PIE人脸库包含来自68个人的41368张人脸图像。这些图像来自人脸不同的角度,每张图像的大小为32*32。本实施例中有标签的源数据集来自CMU-PIE中人脸角度为左侧脸的图像,无标签的目标数据集来自CMU-PIE中人脸角度为右侧脸的图像。图2是本实施例提供的源数据集样本示意图。图3为本实施例提供的目标数据集样本示意图。可以看出,源数据集和目标数据集服从不同但是相关的概率分布。为了验证本专利技术的鲁棒性,本实施例中目标数据集中的图像被噪声所污染,即原始人脸图像被一个16*16大小的猴子图像所遮挡。图4为本实施例提供的被遮挡污染的目标数据集样本示意图。S2:利用基于相关熵的迁移学习算法,对归一化的源数据集和目标数据集进行迁移迭代训练,得到特征变换矩阵。本步骤中,需要进行基于相关熵的迁移学习算法的表示、算法参数的优化和特征变换矩阵的获取。具体地,所述基于相关熵的迁移学习算法的目标方程的表达式如下:其中,是基于相关熵的误差损失函数,W是特征变换矩阵,C是重构系数矩阵,Xt是目标数据集组成的矩阵,Xs是源数据集组成的向量,σ是高斯函数带宽,(WXt-WXsC)i是误差矩阵(WXt-WXsC)的第i列向量,λ1和λ2是平衡系数,m表示目标数据集的数据样本个数。本方法最后需要得到的就是变换矩阵W。上述算法参数的优化过程具体包括:1)引入半二次优化中的辅助变量pi,对上述迁移学习算法的目标方程进行更新;其中,上述基于相关熵的损失函数是非线性、非凸的,很难直接求解。引入辅助变量pi可以将该非凸的相关熵损失函数转化为半二次形式,简化求解难度,更新后的目标方程表达式如下:其中,是相关熵的凸共轭函数,优化过程和结果并不需要的具体表达式。2)通过半二次优化中的循环迭代来得到最优的参数。其中,通过循环迭代来得到W,C,pi的最优解。首先,固定W和C,根据凸共轭函数理论,可以获得pi的最优解,其最优解表达公式如下:接着固定pi和C,求解W的目标方程表达式如下:其中,可以结合凸本文档来自技高网...

【技术保护点】
1.一种基于相关熵和迁移学习的分类方法,包括以下步骤:分别对有标签的源数据集、无标签的目标数据集进行归一化;利用基于相关熵的迁移学习算法,对所述归一化的源数据集和目标数据集进行迁移迭代训练,得到特征变换矩阵;利用所述特征变换矩阵,将所述归一化的源数据集和目标数据集都映射到一特征空间,在该特征空间中所述归一化的源数据集和目标数据集的概率分布相同;在所述特征空间中,利用所述归一化的源数据集及其标签信息进行训练,得到目标分类器;利用目标分类器对所述归一化的目标数据集进行分类预测,以实现目标数据集的分类。

【技术特征摘要】
1.一种基于相关熵和迁移学习的分类方法,包括以下步骤:分别对有标签的源数据集、无标签的目标数据集进行归一化;利用基于相关熵的迁移学习算法,对所述归一化的源数据集和目标数据集进行迁移迭代训练,得到特征变换矩阵;利用所述特征变换矩阵,将所述归一化的源数据集和目标数据集都映射到一特征空间,在该特征空间中所述归一化的源数据集和目标数据集的概率分布相同;在所述特征空间中,利用所述归一化的源数据集及其标签信息进行训练,得到目标分类器;利用目标分类器对所述归一化的目标数据集进行分类预测,以实现目标数据集的分类。2.如权利要求1所述的方法,其特征在于,所述归一化为L2范数归一化。3.如权利要求1所述的方法,其特征在于,所述基于相关熵的迁移学习算法的目标方程为:其中,是基于相关熵的误差损失函数,W是特征变换矩阵,C是重构系数矩阵,Xt是目标数据集组成的矩阵,Xs是源数据集组成的向量,σ是高斯函数带宽,(WXt-WXsC)i是误差矩阵(WXt-WXsC)的第i列向量,λ1和λ2是平衡系数,m表示目标数据集的数据样本个数。4.如权利要求3所述的方法...

【专利技术属性】
技术研发人员:王微武斌黄志宇于洁
申请(专利权)人:中国科学院软件研究所
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1