基于映射等价关系的属性约简方法、系统及装置制造方法及图纸

技术编号:38815214 阅读:10 留言:0更新日期:2023-09-15 19:54
本发明专利技术公开了基于映射等价关系的属性约简方法,包括:从连续型数据分类的角度出发,根据样本的决策值,将样本分为不同的决策类,并寻找决策类的决策中心;根据样本与决策中心的距离,分别取与该样本距离最近与距离最远的决策类的决策值,将样本映射到新的属性空间中;根据新属性空间中的等价关系,在原论域中建立映射等价关系,通过映射等价关系进行利息粒化;将映射质量作为度量准则,利用前向贪心算法计算,当属性集合的映射质量大于全体属性的映射质量时,得到最终的约简结果。本发明专利技术通过引入映射等价关系进行信息粒化,不仅求解属性约简的时间效率得到了极大的提升,而且能保持相当的分类性能。相当的分类性能。相当的分类性能。

【技术实现步骤摘要】
基于映射等价关系的属性约简方法、系统及装置


[0001]本专利技术属于数据挖掘预处理
,具体是指基于映射等价关系的属性约简方法。

技术介绍

[0002]近几年来,随着属性约简在机器学习、数据挖掘和知识发现等领域的应用,针对属性约简的相关研究日趋成熟。属性约简作为一种特征选择技术,是粗糙集理论的核心研究方向之一。
[0003]在粗糙集理论中,全体样本称为论域,通过样本间的不可分辨关系,可将论域划分为一个个样本子集,这个过程被称为信息粒化,划分后的样本子集被称为信息粒。信息粒是论域的基本单位,论域中的任意概念都可以通过信息粒的并集进行逼近。这一方法模拟了人类的学习和推理过程,便于理解和推广,因而得到了广泛的重视。遗憾的是,作为一种有效的粒计算模型,基于不可分辨关系的经典粗糙集模型,只适合于处理离散型数据,对于现实应用中广泛存在的连续型数据却不能直接处理。为了解决这一问题,学者提出了邻域粗糙集的概念。
[0004]邻域粗糙集理论自提出以来,相关概念得到了极大的拓展。基于δ

邻域关系拓展的模型都需要预先指定一个邻域半径,而在实际应用中,获取邻域半径等先验知识是比较困难的。有学者通过一个自适应算法,动态的为每个样本生成合适的邻域半径,产生了GAP邻域粗糙集模型。以上模型的提出极大扩展了邻域粗糙集的应用范围。学者们可以根据数据集的特点灵活选用不同的模型。为了获取约简后的属性,除了选择合适的模型外,还需要对算法进行研究。
[0005]分辨矩阵和回溯策略是穷举法的典型应用,虽然该方法能够得到所有约简,但是计算过程耗时较大,无法应用于大规模数据的处理。因此,基于贪心搜索策略的启发式算法因其较快的求解属性约简的迭代速度优势受到了众多学者的青睐。在此算法中,需要进行多轮迭代,每轮迭代都需对未被选中的条件属性分别进行评估,每次评估都需进行一次信息粒化。邻域粗糙集的信息粒化需对所有样本间的距离进行两两计算,这是一个极为耗时的过程,因此如何对求取属性约简的过程进行加速是一个值得讨论的课题。
[0006]值得注意的是,现有对属性约简加速问题的研究通常聚焦于算法部分,而极少关注样本间的二元关系。邻域粗糙集中,样本的二元关系称为邻域关系,邻域关系不具有传递性,信息粒化过程中,需要在每个样本上都构建邻域信息粒,随着样本量的增多,信息粒化所需的时间成本极高,导致属性约简的效率不能获得进一步的提升。除此之外,适合问题求解的邻域半径仍要依靠搜索策略来确定,这将对算法的时间效率产生极大的影响。

技术实现思路

[0007]专利技术目的:为克服现有技术的缺陷,本专利技术提供了基于映射等价关系的属性约简方法。首先本专利技术创造性地提出了映射等价关系的概念,在充分考虑论域中样本分布的情
况下,根据样本的决策值,将样本分为不同的决策类。寻找不同决策类的决策中心,并根据样本与各决策中心的距离关系,将样本映射到新的属性空间中。根据新属性空间中的等价关系,在原论域中建立映射等价关系。通过映射等价关系进行利息粒化,极大的缩减了信息粒化所需的时间成本。其次本专利技术提出将映射质量作为度量准则,以评估相关属性组的重要程度。
[0008]技术方案如下:本专利技术提供的基于映射等价关系的属性约简方法,包括以下步骤:
[0009]步骤S1:从数据分类的角度出发,根据样本的决策值,将样本分为不同的决策类,并寻找决策类的决策中心;
[0010]步骤S2:根据样本与决策中心的距离,分别取与该样本距离最近与距离最远的决策类的决策值,将样本映射到新的属性空间中;
[0011]步骤S3:对论域进行信息粒化,即根据新属性空间中的等价关系在原论域中建立映射等价关系,对样本进行划分,相同样本的集合称为映射等价类。
[0012]步骤S4:将映射质量作为度量准则,利用前向贪心算法计算每个属性集合的映射质量,当属性集合的映射质量大于全体属性的映射质量时,得到最终的约简结果。
[0013]进一步地,步骤S1中所述的数据为连续型数据。所述基于映射等价关系的属性约简方法是将连续型数据映射到新的属性空间中,根据新属性空间中的等价关系在原论域中建立映射等价关系,通过映射等价关系快速完成信息粒化,从而达到快速获取属性约简的目的。
[0014]进一步地,步骤S2中所述的将样本映射到新的属性空间中,步骤为将不同决策中心按照与样本的距离从近到远排序,取距离样本最近和最远的决策类的决策值,作为该样本在新属性空间中的属性值。即把难以划分的连续型数据封装处理及判断转化为对数据的逻辑划分。
[0015]进一步地,步骤S3中所述的根据映射等价关系对样本进行划分,根据样本在新的属性空间中是否等价,判断样本是否满足映射等价关系,满足映射等价关系的样本会被划分到同一个映射等价类。
[0016]进一步地,步骤S4中所述的映射质量的大小作为衡量属性重要度的标准,随着加入的属性组不同而产生相应的变化;所述映射质量越大代表当前属性组导致的信息粒化更加理想,说明该组属性能够凸显样本的关键特征;映射质量越小则代表当前属性组的信息粒化不够合理,难以保留样本原有的特征。
[0017]本专利技术与现有技术相比具有以下有益效果:
[0018]本专利技术提出的映射等价关系是一种适应于在连续型数据之间建立二元关系的方法,将连续型数据映射到新的属性空间,通过新属性空间的等价关系,在原论域中建立映射等价关系,快速完成信息粒化,从而获取有效的分辨特征。
[0019]本专利技术提供的基于映射等价关系的属性约简方法大幅降低了属性约简的时间消耗,与其他属性约简的主流算法相比,通过映射等价关系进行信息粒化后,不仅求解属性约简的时间效率得到了极大的提升,而且能保持相当的分类性能。
附图说明
[0020]图1为映射等价信息粒化示意图;
[0021]图2为映射质量与分类准确率的变化趋势图。
具体实施方式
[0022]下面结合附图对本专利技术的技术方案作进一步说明。
[0023]下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例;基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。
[0024]本专利技术提供的基于映射等价关系的属性约简方法,包括以下步骤:
[0025]步骤S1:从连续型数据分类的角度出发,根据样本的决策值,将样本分为不同的决策类,并寻找决策类的决策中心;
[0026]步骤S2:根据样本与决策中心的距离,分别取与该样本距离最近与距离最远的决策类的决策值,将样本映射到新的属性空间中;
[0027]步骤S3:在新的属性空间中,对论域进行信息粒化,即根据新属性空间中的等价关系在原论域中建立映射等价关系,对样本进行划分,相同样本的集合称为映射等价类。
[0028]步骤S4:将映射质量作为度量准则,利用前向贪心算法计算每个属性集合的映射质量,当本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.基于映射等价关系的属性约简方法,其特征在于,包括以下步骤:步骤S1:从数据分类的角度出发,根据样本的决策值,将样本分为不同的决策类,并寻找决策类的决策中心;步骤S2:根据样本与决策中心的距离,分别取与该样本距离最近与距离最远的决策类的决策值,将样本映射到新的属性空间中;步骤S3:在新的属性空间中,对论域进行信息粒化,即根据新属性空间中的等价关系在原论域中建立映射等价关系,对样本进行划分,相同样本的集合称为映射等价类;步骤S4:将映射质量作为度量准则,利用前向贪心算法计算每个属性集合的映射质量,当属性集合的映射质量大于全体属性的映射质量时,得到最终的约简结果。2.根据权利要求1所述的基于映射等价关系的属性约简方法,其特征在于:步骤S1中所述的数据为连续型数据。3.根据权利要求1所述的基于映射等价关系的属性约简方法,其特征在于:步骤S2中所述的将样本映射到新的属性空间中,步骤为将不同决策中心按照与样本的距离从近到远排序,取距离样本最近和最远的决策类的决策值,作为该样本在新属性空间中的属性值。4.根据权利要求1所述的基于映射等价关系的属性约简方法,其特征在于:步骤S3中,根据样本在新的属性空间中是否等价,判断样本是否满足映射等价关系,满足映射等价关系的样本会被划分到同一个映射等价类。5.根据权利要求1所述的基于映射等价关系的属性约简方法,其特征在于:步骤S4中映射质量的大小作为衡量属性重要度的标准,依据加入的属性组不同而产生相应的变化。6.根据权利要求5所述的基于映射等价关系的属性约简方法,其特征在于:所述映射质量越大代表当前属性组导致的信息粒化更加理想,说明该组属性能够凸显样本的关...

【专利技术属性】
技术研发人员:刘长顺宋晶晶陈建军徐泰华王平心
申请(专利权)人:江苏科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1