一种特征属性约简方法技术

技术编号:31312967 阅读:18 留言:0更新日期:2021-12-12 21:49
本发明专利技术公开了一种特征属性约简方法,属于模式识别和机器学习领域,从条件属性集合中移除一个特征属性时,通过计算依赖度的变化得到该特征属性重要性的度量,依赖度的变化越高,该特征属性就越重要,再通过比较特征属性集产生的等价关系,删除特征属性使约简集能够提供与原始的决策属性具有相同的预测能力,该特征属性约简集合为条件特征属性集的最小基数子集,该特征属性约简方法能为特征属性提取算法降低时间和空间复杂度。降低时间和空间复杂度。

【技术实现步骤摘要】
一种特征属性约简方法


[0001]本专利技术属于机器学习、模式识别和信号处理领域,特指特征属性提取。
技术背景
[0002]特征属性提取是指选择那些最能预测给定结果的输入属性或特征,在机器学习、模式识别和信号处理等许多领域都遇到的问题,与其他降维方法不同,特征属性约简在降维后仍然保留属性的原始含义,这种方法应用于涉及包含大量属性(数万个数量级)的数据集的任务中,对于一些学习算法来说,这些属性可能无法进一步处理,因此,提供一种特征属性约简方法降低学习算法的时间和空间复杂度。

技术实现思路

[0003]本专利技术的目的是提供一种特征属性约简方法,以解决模式识别和机器学习领域中特征提取问题。
[0004]本专利技术的方法从条件属性集合中移除一个特征属性时,通过计算依赖度的变化得到该特征属性重要性的度量,依赖度的变化越高,该特征属性就越重要,再通过比较特征属性集产生的等价关系,删除特征属性使约简集能够提供与原始的决策属性具有相同的预测能力,该特征属性约简集合为条件特征属性集的最小基数子集。
[0005]本专利技术为实现上述目的,采取的技术方案如下:
[0006]一种特征属性约简方法,该方法具体为:一个信息系统表示为:
[0007]DT=<U,A>
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(1)
[0008]式(1)中,全域U是一个非空有限样本集{x1,x2,L x
n
},A是一个特征属性集合{a1,a2,L a
m
},n和m是任意自然数;
[0009]当任意的条件特征属性时,有一个相关的等价关系IND(C)表示为:
[0010][0011]U/IND(C)称为由IND(C)产生的划分,可计算为:
[0012][0013]式(3)中的操作用任意两个集合A和B来定义:
[0014][0015]令:(x,y)∈IND(C),则不能用条件特征属性C来区分x和y,可以用[x]C
表示条件特征属性C不可分属性的等价类。
[0016]令:X可以近似使用仅包含条件特征属性C的信息,并通过构造条件特征属性C的上、下近似来近似X,计算如下:
[0017][0018][0019]令:条件特征属性C和决策属性D是全域U上的等价关系,则正区域、负区域和边界区域定义为:
[0020][0021][0022][0023]式(7)表示正区域使用条件特征属性C的信息,能把全域U中的对象分为U/D类的集合,式(8)表示负区域使用条件特征属性C的信息,不能把全域U中的对象分为U/D类的集合,式(9)表示边界区域使用条件特征属性C的信息,可能但不确定把全域U中的对象分为U/D类的集合。
[0024]决策属性D对条件特征属性C的依赖度表示为:
[0025][0026]式(10)中,λ
P
(D)=1表示决策属性D完全依赖条件特征属性C,0<λ
C
(D)<1表示决策属性D对条件特征属性C部分依赖,依赖度为λ
C
(D),λ
C
(D)=0表示决策属性D不依赖条件特征属性C;
[0027]从条件属性集合中移除一个特征属性时,通过计算依赖度的变化得到该特征属性重要性的度量,依赖度的变化越高,该特征属性就越重要,如果重要性为0,则该特征属性是可有可无的。
[0028]给定一个特征属性a∈C,在决策属性D上特征属性a的重要性进行计算:
[0029]η
C
(D,a)=λ
C
(D)

λ
C

{a}
(D)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(11)
[0030]特征属性约简是通过比较属性集产生的等价关系来实现的,删除属性使约简集提供与原始的决策属性D相同的预测能力;特征属性约简可定义为条件特征属性集C的最小基数Reduct
min
的子集:
[0031][0032][0033]Reduct
min
内所有集合的交集称为核,其中的元素是无法消除的属性,即为约简后的特征属性集合。
[0034]本专利技术相对于现有技术的有益效果是:该方法能够降低学习算法的时间和空间复杂度。
具体实施方式
[0035]一种特征属性约简方法,该方法具体为:一个信息系统表示为:
[0036]DT=<U,A>
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(1)
[0037]式(1)中,全域U是一个非空有限样本集{x1,x2,L x
n
},A是一个特征属性集合{a1,a2,L a
m
},n和m是任意自然数;
[0038]当任意的条件特征属性时,有一个相关的等价关系IND(C)表示为:
[0039][0040]U/IND(C)称为由IND(C)产生的划分,可计算为:
[0041][0042]式(3)中的操作用任意两个集合A和B来定义:
[0043][0044]令:(x,y)∈IND(C),则不能用条件特征属性C来区分x和y,可以用[x]C
表示条件特征属性C不可分属性的等价类。
[0045]令:X可以近似使用仅包含条件特征属性C的信息,并通过构造条件特征属性C的上、下近似来近似X,计算如下:
[0046][0047][0048]令:条件特征属性C和决策属性D是全域U上的等价关系,则正区域、负区域和边界区域定义为:
[0049][0050][0051][0052]式(7)表示正区域使用条件特征属性C的信息,能把全域U中的对象分为U/D类的集合,式(8)表示负区域使用条件特征属性C的信息,不能把全域U中的对象分为U/D类的集合,式(9)表示边界区域使用条件特征属性C的信息,可能但不确定把全域U中的对象分为U/D类的集合。
[0053]决策属性D对条件特征属性C的依赖度表示为:
[0054][0055]式(10)中,λ
P
(D)=1表示决策属性D完全依赖条件特征属性C,0<λ
C
(D)<1表示决策属性D对条件特征属性C部分依赖,依赖度为λ
C
(D),λ
C
(D)=0表示决策属性D不依赖条件特征属性C;
[0056]从条件属性集合中移除一个特征属性时,通过计算依赖度的变化得到该特征属性重要性的度量,依赖度的变化越高,该特征属性就越重要,如果重要性为0,则该特征属性是可有可无的。
[0057]给定一个特征属性a∈C,在决策属性D上特征属性a的重要性进行计算:
[0058]η
C
(D,a)=λ
C
(D)

λ
C<本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种异构特征混合提取方法,其特征在于:该方法具体为:从条件属性集合中移除一个特征属性时,通过计算依赖度的变化得到该特征属性重要性的度量,依赖度的变化越高,该特征属性就越重要,如果重要性为0,则该特征属性是可有可无的;给定一个特征属性a∈C,在决策属性D上特征属性a的重要性进行计算:η
C
(D,a)=λ
C
(D)

λ
C

{a...

【专利技术属性】
技术研发人员:刘瑶乔付郝博麟刘忠艳彭增焰姜微
申请(专利权)人:岭南师范学院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1