一种无监督特征选择方法、装置、设备和存储介质制造方法及图纸

技术编号:35557268 阅读:18 留言:0更新日期:2022-11-12 15:38
本发明专利技术公开了一种无监督特征选择方法、装置、设备和存储介质,涉及机器学习中的降维领域,解决了受原始数据中包含的噪声和冗余等不良特征的影响,导致在特征选择中最终所选特征不是最优特征的问题。无监督特征选择方法具体包括:获取n个目标对象中每个目标对象的初始特征数据,确定任意两个目标对象的第一相似度,构建第一相似矩阵;基于第一相似矩阵构建第二相似矩阵,对第二相似矩阵进行迭代学习得到目标相似矩阵以及相应的目标投影矩阵,根据初始特征数据和目标投影矩阵确定目标特征数据。本发明专利技术将相似矩阵的构造和特征选择两个过程整合到一个统一的框架中,可以得到最优的相似矩阵。似矩阵。似矩阵。

【技术实现步骤摘要】
一种无监督特征选择方法、装置、设备和存储介质


[0001]本专利技术涉及机器学习中的降维领域,尤其涉及一种无监督特征选择方法、装置、设备和存储介质。

技术介绍

[0002]特征选择,是从原始特征中选择出一些最具代表性的特征以降低数据维度的过程,最终的特征集是原始特征的子集。这种方法不仅可以大大减少执行学习任务所需要的时间,而且还可以提高相应的性能。因此,特征选择被广泛应用于各种机器学习任务,例如分类和聚类。由于图模型可以模拟数据的流形结构,有很好的数据表达能力,因而近些年基于图的无监督特征选择技术受到了广泛的关注和研究。
[0003]现有技术将特征选择和局部结构学习过程相结合,可以很好地利用学习到的信息来减轻原始数据中噪声和冗余特征的不良影响。但其构造出的相似矩阵从根本上还是在原始数据的基础上进行构造的。由于原始数据中不可避免地包含有噪声和冗余等特征,因此最终所得到的相似矩阵的质量会受到一定影响,从而导致最终所选特征不是最优的。

技术实现思路

[0004]本专利技术提供一种无监督特征选择方法、装置、设备和存储介质,解决了受原始数据中包含的噪声和冗余等不良特征的影响,导致在特征选择中最终所选特征不是最优特征的问题。
[0005]为达到上述目的,本专利技术采用如下技术方案:
[0006]第一方面,本专利技术提供一种无监督特征选择方法,该方法包括:
[0007]获取用户输入的n个目标对象中每个目标对象的初始特征数据,所述初始特征数据包括d种特征数据,n和d为大于1的正整数;<br/>[0008]根据所述n个目标对象中任意两个目标对象的初始特征数据,确定所述任意两个目标对象的第一相似度;
[0009]根据所述任意两个目标对象的第一相似度,以及正则化参数,构建第一相似矩阵;
[0010]根据用户输入的多个候选对象的初始特征数据,确定任意两个候选对象的第二相似度,并根据所述任意两个候选对象的第二相似度和所述正则化参数构建第二相似矩阵,所述多个候选对象与所述n个目标对象完全不同或者部分不同;
[0011]利用损失函数,根据所述第一相似矩阵对所述第二相似矩阵进行迭代学习,得到目标相似矩阵,以及相应的目标投影矩阵,所述目标相似矩阵为与所述第一相似矩阵的相似度最高的矩阵;
[0012]根据所述初始特征数据和所述目标投影矩阵,确定目标特征数据,所述目标特征数据包括k种特征数量,k为小于d的正整数。
[0013]结合第一方面,在另一种可能的实现方式中,所述利用损失函数,根据所述第一相似矩阵对所述第二相似矩阵进行迭代学习,得到目标相似矩阵,以及相应的目标投影矩阵,
包括:
[0014]采用公式(1),确定所述目标相似矩阵,以及相应的所述目标投影矩阵,所述公式(1)满足以下条件:
[0015][0016]其中,A为第一相似矩阵,S为第二相似矩阵,W为目标投影矩阵,||
·
||
F
表示矩阵的Frobenius范数;k表示目标投影矩阵中的特征数量,λ和α都是用来调整平衡的参数,L
S
=D
S

(S+S
T
)/2表示所述第二相似矩阵S的拉普拉斯矩阵,其中的D
S
表示对角度矩阵,第i 个对角元素为Σ
j
(s
ij
+s
ji
)/2。
[0017]结合第一方面,在另一种可能的实现方式中,所述目标投影矩阵满足以下公式(2)的条件:
[0018]||W||
2,0
=k
ꢀꢀꢀ
(2)。
[0019]结合第一方面,在另一种可能的实现方式中,所述根据所述任意两个目标对象的第一相似度,以及正则化参数,构建第一相似矩阵,包括:
[0020]采用公式(3),构建所述第一相似矩阵,所述公式(3)满足以下条件:
[0021][0022]其中,a
ij
代表第i个目标对象和第j个目标对象之间的相似性,γ≥0代表正则化参数,正则化项用于避免平凡解。
[0023]第二方面,本专利技术提供一种无监督特征选择装置,该装置包括:
[0024]获取模块,用于获取用户输入的n个目标对象中每个目标对象的初始特征数据,所述初始特征数据包括d种特征数据,n和d为大于 1的正整数;
[0025]第一确定模块,用于根据所述n个目标对象中任意两个目标对象的初始特征数据,确定所述任意两个目标对象的第一相似度;
[0026]第一构建模块,用于根据所述任意两个目标对象的第一相似度,以及正则化参数,构建第一相似矩阵;
[0027]第二构建模块,用于根据用户输入的多个候选对象的初始特征数据,确定任意两个候选对象的第二相似度,并根据所述任意两个候选对象的第二相似度和所述正则化参数构建第二相似矩阵,所述多个候选对象与所述n个目标对象完全不同或者部分不同;
[0028]迭代学习模块,用于利用损失函数,根据所述第一相似矩阵对所述第二相似矩阵进行迭代学习,得到目标相似矩阵,以及相应的目标投影矩阵,所述目标相似矩阵为与所述第一相似矩阵的相似度最高的矩阵;
[0029]第二确定模块,用于根据所述初始特征数据和所述目标投影矩阵,确定目标特征数据,所述目标特征数据包括k种特征数量,k为小于 d的正整数。
[0030]结合第二方面,在另一种可能实现的方式中,所述迭代学习模块具体用于:
[0031]采用公式(1),确定所述目标相似矩阵,以及相应的所述目标投影矩阵,所述公式(1)满足以下条件:
[0032][0033]其中,A为第一相似矩阵,S为第二相似矩阵,W为目标投影矩阵,||
·
||
F
表示矩阵的Frobenius范数;k表示目标投影矩阵中的特征数量,λ和α都是用来调整平衡的参数,L
S
=D
S

(S+S
T
)/2表示所述第二相似矩阵S的拉普拉斯矩阵,其中的DS表示对角度矩阵,第i 个对角元素为∑
j
(s
ij
+s
ji
)/2。
[0034]结合第二方面,在另一种可能实现的方式中,所述目标投影矩阵满足以下公式(2)的条件:
[0035]||W||
2,0
=k
ꢀꢀꢀ
(2)。
[0036]结合第二方面,在另一种可能实现的方式中,所述第一构建模块具体用于:
[0037]采用公式(3),构建所述第一相似矩阵,所述公式(3)满足以下条件:
[0038][0039]其中,a
ij
代表第i个目标对象和第j个目标对象之间的相似性,γ≥0代表正则化参数,正则化项用于避免平凡解。
[0040]第三方面,本专利技术提供一种电子设备,所述电子设备包括处理器和存储器,所述存储器中存储有至少一条指令或至少一段程序本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种无监督特征选择方法,其特征在于,包括:获取用户输入的n个目标对象中每个目标对象的初始特征数据,所述初始特征数据包括d种特征数据,n和d为大于1的正整数;根据所述n个目标对象中任意两个目标对象的初始特征数据,确定所述任意两个目标对象的第一相似度;根据所述任意两个目标对象的第一相似度,以及正则化参数,构建第一相似矩阵;根据用户输入的多个候选对象的初始特征数据,确定任意两个候选对象的第二相似度,并根据所述任意两个候选对象的第二相似度和所述正则化参数构建第二相似矩阵,所述多个候选对象与所述n个目标对象完全不同或者部分不同;利用损失函数,根据所述第一相似矩阵对所述第二相似矩阵进行迭代学习,得到目标相似矩阵,以及相应的目标投影矩阵,所述目标相似矩阵为与所述第一相似矩阵的相似度最高的矩阵;根据所述初始特征数据和所述目标投影矩阵,确定目标特征数据,所述目标特征数据包括k种特征数量,k为小于d的正整数。2.根据权利要求1所述的无监督特征选择方法,其特征在于,所述利用损失函数,根据所述第一相似矩阵对所述第二相似矩阵进行迭代学习,得到目标相似矩阵,以及相应的目标投影矩阵,包括:采用公式(1),确定所述目标相似矩阵,以及相应的所述目标投影矩阵,所述公式(1)满足以下条件:其中,A为第一相似矩阵,S为第二相似矩阵,W为目标投影矩阵,||
·
||
F
表示矩阵的Frobenius范数;k表示目标投影矩阵中的特征数量,λ和α都是用来调整平衡的参数,L
S
=D
S

(S+S
T
)/2表示所述第二相似矩阵S的拉普拉斯矩阵,其中的D
S
表示对角度矩阵,第i个对角元素为∑
j
(s
ij
+s
ji
)/2。3.根据权利要求2所述的无监督特征选择方法,其特征在于,所述目标投影矩阵满足以下公式(2)的条件:||W||
2,0
=k
ꢀꢀꢀꢀ
(2)。4.根据权利要求1

3中任一项所述的无监督特征选择方法,其特征在于,所述根据所述任意两个目标对象的第一相似度,以及正则化参数,构建第一相似矩阵,包括:采用公式(3),构建所述第一相似矩阵,所述公式(3)满足以下条件:其中,a
ij
代表第i个目标对象和第j个目标对象之间的相似性,γ≥0代表正则化参数,正则化项用于避免平凡解。5.一种无监督特征选择装置,其特征在于,包括:获取模块,用于获取用户输入的n个目标对象中每个目标对象的初始特征数据,所述初
始特征数据包括d种特征数据,n和d为大于1的正整数;第一确定模块,用...

【专利技术属性】
技术研发人员:朱培灿侯鑫高超刘洋赵银平王震
申请(专利权)人:西北工业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1