本发明专利技术属于机器学习的特征选择领域,尤其涉及一种基于特权信息的特征选择方法。它包括以下步骤:步骤A:将定义的特权信息作为附加信息加入训练阶段的常规信息中;步骤B:根据常规信息和特权信息的分布关系进行三种不同情况的设置,形成训练样本和测试样本,进行交叉验证;步骤C:使用内核可分性方法作为特征选择函数,对步骤B所述样本中的非线性分布情况进行处理;步骤D:对步骤C所述目标函数,使用凹凸过程算法,选出最优特征子集,放入选定的算法框架比较性能得出结论。本发明专利技术将特权学习框架与嵌入式方法结合,提出了新的一种基于类可分性,运用特权信息的非线性特征选择方法,很好地衡量了不同分布样本之间的接近程度。
A Feature Selection Method Based on Privilege Information
【技术实现步骤摘要】
一种基于特权信息的特征选择方法
本专利技术属于机器学习的特征选择领域,尤其涉及一种基于特权信息的特征选择方法。
技术介绍
近年来,计算机电子信息行业发展十分迅猛,数据的获取渠道越来越多,获取得到的数据不仅在数量上越来越多,在维度上也同样越来越大。为了更好获取海量数据中的信息,通常采用降维来消除数据中的噪声和冗余。特征选择由其较好的解释性成为许多实际应用的主流方法。监督特征选择大致可以分为过滤器模型,包装器模型和嵌入式模型。过滤器较为依赖训练数据,而包装器模型算法开销较大,故一般采用嵌入式模型来结合过滤器和包装器模型,在训练模型同时进行特征选择。特权信息学习框架是近年来提出的一种新的学习框架,它通过对仅用于训练阶段的特权信息的学习,来提高模型测试阶段的泛化能力。所谓特权信息被定为一些易获得、具有现实指导意义的信息,例如医学疾病预测的诊断结果,图像分类中图像的语义描述,网络分析中的详细用户行为信息等。其主要思想就是借鉴了人们在学习过程得到了老师的教授,从而加速了自己的学习速度而无须大量机械的练习这一现象,采用一些对于常规样本有促进意义的先验信息来加速训练。该方法框架由SVM+框架引入,目前已成功扩展到各种机器学习任务中,比如分类问题,回归问题,多标签学习问题,鲁棒学习和排序任务等。虽然特权信息学习框架对于训练有很大帮助,但极少有研究去结合特权学习框架进行特征选择的方案,主要是特权样本与常规样本之间的关系比较复杂,很难去衡量距离。如何很好的去衡量两组样本的关系并使得常规样本尽可能的靠近特权样本,由此实现训练加速也成为了一大难题。
技术实现思路
为了解决上述问题,本专利技术将特权学习框架与嵌入式方法结合作为新的正则项,提出了新的一种基于类可分性,运用特权信息的非线性特征选择方法,很好地衡量了不同分布样本之间的接近程度。为了达到上述目的,本专利技术提供一种基于特权信息的特征选择方法,包括以下步骤:步骤A:根据一些易获得、具有现实指导意义的信息定义特权信息,例如医学疾病预测的诊断结果,图像分类中图像的语义描述,网络分析中的详细用户行为信息等,然后将定义的特权信息作为附加信息加入训练阶段的常规信息中;步骤B:根据常规信息和特权信息的分布关系进行三种不同情况的设置:匹配、不匹配和部分匹配,形成训练数据和测试数据,进行交叉验证;步骤B不同情况的关系设置具体为:B1对于匹配情况,在训练阶段获得n对输入数据:其中xi∈X,yi∈{-1,+1},此时常规信息xi,特权信息和标签yi组成一个三元组;B2对于不匹配情况,输入样本从两组样本中学习:{(x1,y1),(x2.y2),…,(xn,yn)},其中m是特权数据集的数量;B3对于一部分匹配一部分不匹配的部分匹配情况,将B1、B2两种情况相结合,训练样本分为三组:{(x1,y1),(x2.y2),…,(xn,yn)},步骤C:使用现有技术的内核可分性方法作为特征选择函数,对步骤B所述样本中的非线性分布情况进行处理,根据常规信息和特权信息不同分布的情况,采取不同内核矩阵的对齐度量函数作为内核可分性特征选择函数的正则项,内核可分性特征选择函数和对齐度量函数两部分相结合形成目标函数;步骤C的具体展开为:步骤C1:对于基于类可分性的特征选择函数,它的主要思想是最大化类间散射矩阵与类内散射矩阵之间的比值,来衡量同一类样本的距离;首先修改基础类可分性函数,使其变为带有非线性映射函数曲的基于内核可分性函数,则特征选择函数形式改为:其中K=φTφ代表对应的核函数,C代表种类数目,ni代表每个类中样本的个,||K||1代表1-范数运算;步骤C2:有了步骤C1所述特征选择函数之后,根据步骤B所确立的三种不同样本分组情况确定代表内核矩阵对齐程度的函数作为步骤C1所述特征选择函数的正则项;C21、对于匹配情况,采用核对齐的核矩阵对齐度量方法,来测量核矩阵的相似性,基础形式如下:定义的取值范围为-1到1,Ki为内核矩阵,它使用内核ki。若K2=yy′,y∈{+1,-1}为二分类标签向量,则<yy′,yy′>F=n2,该式可以简化为如下形式:与所述的内核可分离优化函数结合之后,目标函数如下:其中K*代表特权特征的内核矩阵,为控制内核K规模的正则项,λ为超参数;C22、对于不匹配情况,常规和特权样本来自不同空间,对于考量两组样本之间的距离方法最大平均差异评估方式如下:其中K(·,·)为高斯核函数,对于来自不同空间分布的常规样本和特权样本,修改高斯核函数为:得到变形的最大平均差异评估方式如下:与所述的内核可分离优化函数结合之后,目标函数如下:C23、对于部分配对情况,常规样本和特权样本一部分来自同一分布,另一部分来自于不同分布,可以分别进行C21、C22所述的分组优化目标函数,最后结合起来即可:步骤D:对步骤C所述目标函数,使用现有技术的凹凸过程算法,选出最优特征子集,放入选定的算法框架比较性能得出结论。步骤D的具体展开为:步骤D1:对于本专利技术寻求最优特征子集来寻找最优特征,主要内容为求解核参数问题,对于本方法应用的高斯内核如下式:其中故可以推得寻找最佳α与找到最佳的内核参数集η等价,即求得η*=argmaxF(η);步骤D2:采用凹凸过程算法,对非凸形式的目标函数进行优化求解,对两个凸函数分别求梯度进行迭代。步骤D2的具体步骤如下:D21、设置如步骤D1所述需要求解的核函数超参数η初值;D22、通过所述步骤C的不同情况初始线性化函数;D23、迭代形式:目标函数形成两个凸函数相减或者凸函数Ecave(η)与凹函数Evex(η)之和的形式,即E(η)=Evex(η)+Ecave(η),求解E(η)的最小值。采用以上方法与现有技术相比,本专利技术具有以下优点:本专利技术将特权学习框架与嵌入式方法结合作为新的正则项,提出了新的一种基于类可分性,运用特权信息的非线性特征选择方法,很好地衡量了不同分布样本之间的接近程度,根据特权特征和常规特征的关系,提出了三种情况设置:配对,不配对和部分配对。首先该方法对于匹配情况,通过核对齐(KTA)来匹配常规特征和特权特征,将特权特征和常规特征的内核矩阵进行对齐从而学习出两个分布的相似性。对于不匹配情况,两个特征松散耦合的情况下,提出了基于最小最大平均差异(MMD)的新型方法sMMD来学习不同内核分布的相似性。对于部分配对情况,则同时应用KTA和sMMD方法进行解决,并把三种情况表示为凸函数差值形式,使用凹凸过程求解。附图说明图1是本专利技术方法的流程框架图;图2是模拟数据实验的流程图;图3是模拟数据集中部分配对情况的精度,召回率和F值的特征选择性能比较图。图4是模拟数据集中非配对情况的精度,召回率和F值的特征选择性能比较图。具体实施方式如图1所示,本专利技术提出了一种基于特权信息的特征选择方法,并在模拟数据集和真实数据集上分别进行测试来保证方法的有效性和鲁棒性。1.模拟数据集实验:本专利技术使用生成服从正态分布的随机样本进行模拟数据生成,展示了模拟数据集上的特征选择的精度,召回率和F值。在配对的情况下,将样本量大小作为实验中的参数,其值范围是100到500,并且将测试样本大小设置为1000。在未配对的情况下,本文将常规样本大小设置为100,300和500,特权样本大小设置为常规样本的50本文档来自技高网...
【技术保护点】
1.一种基于特权信息的特征选择方法,其特征在于,包括以下步骤:步骤A:定义特权信息,然后将定义的特权信息作为附加信息加入训练阶段的常规信息中;步骤B:根据常规信息和特权信息的分布关系进行三种不同情况的设置:匹配、不匹配和部分匹配,形成训练样本和测试样本,进行交叉验证;步骤C:使用内核可分性方法作为特征选择函数,对步骤B所述样本中的非线性分布情况进行处理,根据常规信息和特权信息不同分布的情况,采取不同内核矩阵的对齐度量函数作为内核可分性特征选择函数的正则项,内核可分性特征选择函数和对齐度量函数两部分相结合形成目标函数;步骤D:对步骤C所述目标函数,使用凹凸过程算法,选出最优特征子集,放入选定的算法框架比较性能得出结论。
【技术特征摘要】
1.一种基于特权信息的特征选择方法,其特征在于,包括以下步骤:步骤A:定义特权信息,然后将定义的特权信息作为附加信息加入训练阶段的常规信息中;步骤B:根据常规信息和特权信息的分布关系进行三种不同情况的设置:匹配、不匹配和部分匹配,形成训练样本和测试样本,进行交叉验证;步骤C:使用内核可分性方法作为特征选择函数,对步骤B所述样本中的非线性分布情况进行处理,根据常规信息和特权信息不同分布的情况,采取不同内核矩阵的对齐度量函数作为内核可分性特征选择函数的正则项,内核可分性特征选择函数和对齐度量函数两部分相结合形成目标函数;步骤D:对步骤C所述目标函数,使用凹凸过程算法,选出最优特征子集,放入选定的算法框架比较性能得出结论。2.如权利要求1所述的一种基于特权信息的特征选择方法,其特征在于,步骤B不同情况的关系设置具体为:B1对于匹配情况,在训练阶段获得n对输入数据:其中xi∈X,yi∈{-1,+1},此时常规信息xi,特权信息和标签yi组成一个三元组;B2对于不匹配情况,输入样本从两组样本中学习:{(x1,y1),(x2.y2),…,(xn,yn)},其中m是特权数据集的数量;B3对于一部分匹配一部分不匹配的部分匹配情况,将B1、B2两种情况相结合,训练样本分为三组:{(x1,y1),(x2.y2),…,(xn,yn)},3.如权利要求1所述的一种基于特权信息的特征选择方法,其特征在于,步骤C的具体展开为:步骤C1:对于基于类可分性的特征选择函数,它的主要思想是最大化类间散射矩阵与类内散射矩阵之间的比值,来衡量同一类样本的距离;首先修改基础类可分性函数,使其变为带有非线性映射函数φ的基于内核可分性函数,则特征选择函数形式改为:其中K=φTφ代表对应的核函数,C代表种类数目,ni代表每个类中样本的个,||K||1代表1-范数运算;步骤C2:有了步骤C1所述特征选择函数之后,根据步骤B所确立的三种不同样本分组情况确定代表内核矩阵对齐程度的函数作为步骤C1所述特征选择函...
【专利技术属性】
技术研发人员:徐毅,浦剑,王骏,
申请(专利权)人:嘉兴深拓科技有限公司,
类型:发明
国别省市:浙江,33
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。