一种基于局部线性判别分析的特征相关性评价方法技术

技术编号:25837285 阅读:21 留言:0更新日期:2020-10-02 14:17
本发明专利技术公开了一种基于局部线性判别分析的特征相关性评价方法,包括以下步骤:A:设给定某个特征

【技术实现步骤摘要】
一种基于局部线性判别分析的特征相关性评价方法
本专利技术涉及一种特征相关性评价方法,尤其涉及一种基于局部线性判别分析的特征相关性评价方法。
技术介绍
特征相关性评估是机器学习领域特征选择技术中的关键技术,其作用是评估特征与标签之间的关联程度,从而为特征选择提供特征重要性评价。线性判别分析(LinearDiscriminantAnalysis,LDA)是一种经典的线性学习方法,主要原理是将高维数据根据标签信息有监督的投影到低维空间,其投影方向需要满足使得同类样本的投影点尽可能相互接近、异类样本的投影点尽可能相互远离,即费舍尔距离最大,从而使样本在该空间具有最佳的可分离性。LDA可以用于分类任务下特征相关性的评价,即将特征数据进行LDA变换,在各LDA投影方向上费舍尔距离越大的特征,其特征相关性越大(特征可分性越强)。在样本服从高斯分布下,LDA对特征相关性的评价效果较好。然而在实际中,样本往往不服从理想高斯分布,此时使用LDA对特征进行相关性评价的效果较差。
技术实现思路
本专利技术的目的是提供一种基于局部线性判别分析的特征相关性评价方法,能够有效避免LDA对非高斯数据特征进行相关性评价时不准确的问题。本专利技术采用下述技术方案:一种基于局部线性判别分析的特征相关性评价方法,依次包括以下步骤:A:设给定某个特征f表达下的数据集ym∈{1,2,...,K},其中,是特征f表达下的第m个数据样本,ym是第m个数据样本的标签,K为类别数,K≥2,d是特征维度,M是样本数目;B:使用LDA对数据集Df进行变换,得到P个投影方向wp,p=1,2,…,P,其中P=min{K-1,d};C:将数据集Df中的所有样本分别向LDA确定的每个投影方向投影,第p个投影方向的投影样本集合记为D:对每一个投影方向上的投影样本集合中的每一类样本进行聚类,在第p个投影方向上的第i类聚类样本记为样本数记为i∈{1,2,...,K};聚类后形成的簇的数目记为的第j簇的样本记为的样本数目记为E:计算出每一个投影方向p上第i类的第j簇的样本相对于其它类别聚类样本的相关性得分其中,o∈{1,2,...,K},o≠i,表示投影方向p上第o类的第l簇,表示的簇的数目,表示的样本数目,表示的样本数目,表示和的LDA得分;其中,λ是矩阵Sb的特征值,Sω和Sb分别是LDA变换中的类内散度矩阵和类间散度矩阵;F:判断K是否大于2,若K>2,对进行校正:设除了第i类和第o类之外类别q的聚类样本的簇的样本区间与簇的样本区间重叠,并将簇的样本区间分成了个区间,q∈{1,2,...,K},q≠i且q≠o;第t个区间内除了第i类和第o类之外类别q的聚类样本为干扰样本,干扰样本的数目为第t个区间内的样本数目为则校正后的相关性得分为G:计算的相关性得分H:计算出投影方向p上第i类样本的得分I:对特征f的相关性进行评价,计算特征f对于类别标签Y=[y1,y2,...,ym]T的相关性得分Sf:其中,Np是所有类别在p方向的聚类样本数目。所述的步骤D中,采用基于密度的对噪声鲁棒的空间聚类算法分别对投影样本集合中的每一类样本进行聚类。本专利技术首先利用LDA变换得到与分类相关的全局最佳投影方向,然后在每个投影方向上对投影样本点进行局部特征评价。利用聚类的思想寻找样本分布的多个簇,化整为零,以每个投影方向下的每个类别的每个簇为基本单位进行LDA特征评价得分,然后通过一系列得分加权求和最终得到对该特征数据的相关性评价得分,能够有效避免LDA对非高斯数据特征进行相关性评价时不准确的问题。附图说明图1为本专利技术的流程示意图;图2为实施例1中局部LDA特征相关性得分校正示意图。具体实施方式以下结合附图和实施例对本专利技术作以详细的描述:如图1所示,本专利技术所述的基于局部线性判别分析的特征相关性评价方法,依次包括以下步骤:A:设给定某个特征f表达下的数据集ym∈{1,2,...,K},其中,是特征f表达下的第m个数据样本,ym是第m个数据样本的标签,K为类别数,K≥2,d是特征维度,M是样本数目;B:使用LDA对数据集Df进行变换,得到P个投影方向wp,p=1,2,…,P,其中P=min{K-1,d};C:将数据集Df中的所有样本分别向LDA确定的每个投影方向投影,第p个投影方向的投影样本集合记为D:对每一个投影方向上的投影样本集合中的每一类样本进行聚类,在第p个投影方向上的第i类聚类样本记为样本数记为i∈{1,2,...,K};聚类后形成的簇的数目记为的第j簇的样本记为的样本数目记为本实施例中,采用基于密度的对噪声鲁棒的空间聚类算法(Density-BasedSpatialClusteringofApplicationswithNoise,DBSCAN)分别对投影样本集合中的每一类样本进行聚类;E:计算出每一个投影方向p上第i类的第j簇的样本相对于其它类别聚类样本的相关性得分其中,o∈{1,2,...,K},o≠i,表示投影方向p上第o类的第l簇,表示的簇的数目,表示的样本数目,表示的样本数目;表示和的LDA得分,λ是矩阵Sb的特征值,Sω和Sb分别是LDA变换中的类内散度矩阵和类间散度矩阵;F:判断K是否大于2,若K>2,则属于多分类问题,需要考虑除第i类和第o类其它所有类别样本对的影响;在这种情况下,需要对进行校正:设除了第i类和第o类之外类别q的聚类样本的簇的样本区间与簇的样本区间重叠,并将簇的样本区间分成了个区间,q∈{1,2,...,K},q≠i且q≠o;第t个区间内这些其它类别的样本被视作干扰样本,即第t个区间内除了第i类和第o类之外类别q的聚类样本为干扰样本,干扰样本的数目为第t个区间内的样本数目为某个簇的样本区间是指该簇内最小样本到最大样本的范围;则校正后的相关性得分为G:计算的相关性得分H:计算出投影方向p上第i类样本的得分I:对特征f的相关性进行评价,计算特征f对于类别标签Y=[y1,y2,...,ym]T的相关性得分Sf:其中,Np是所有类别在p方向的聚类样本数目;实施例1:A:现有由10个3维特征,100个数据样本及一个含有4个类别的标签构成的数据集其中是第m个数据样本,ym是第m个数据样本的标签,ym∈{1,2,3,4}。使用特征fn表达的数据集记为其中,是使用特征fn表达的第m个样本;现要对每一个特征(n=1,2,...,10)计算其对于类别标签Y=[y1,y2,...,ym]T的相关性得分Sfn。B:使用LDA对数据集进行变换,得到3个投影方向wp,p=1,2,3。C:将数据集中的所有样本分别向LDA确定的每个投影方向投影,得到3组投影本文档来自技高网...

【技术保护点】
1.一种基于局部线性判别分析的特征相关性评价方法,其特征在于,依次包括以下步骤:/nA:设给定某个特征f表达下的数据集

【技术特征摘要】
1.一种基于局部线性判别分析的特征相关性评价方法,其特征在于,依次包括以下步骤:
A:设给定某个特征f表达下的数据集ym∈{1,2,...,K},其中,是特征f表达下的第m个数据样本,ym是第m个数据样本的标签,K为类别数,K≥2,d是特征维度,M是样本数目;
B:使用LDA对数据集Df进行变换,得到P个投影方向wp,p=1,2,…,P,其中P=min{K-1,d};
C:将数据集Df中的所有样本分别向LDA确定的每个投影方向投影,第p个投影方向的投影样本集合记为
D:对每一个投影方向上的投影样本集合中的每一类样本进行聚类,在第p个投影方向上的第i类聚类样本记为样本数记为i∈{1,2,...,K};聚类后形成的簇的数目记为的第j簇的样本记为的样本数目记为
E:计算出每一个投影方向p上第i类的第j簇的样本相对于其它类别聚类样本的相关性得分



其中,o∈{1,2,...,K},o≠i,表示投影方向p上第o类的第l簇,表示的簇的数目,表示的样本数目,表示的样本数目,表示和的LDA得分;

...

【专利技术属性】
技术研发人员:金松河黄伟吉星徐明明任坤鹏
申请(专利权)人:郑州轻工业大学
类型:发明
国别省市:河南;41

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1