一种可调权重的高维数据降维方法及系统技术方案

技术编号:33528388 阅读:31 留言:0更新日期:2022-05-19 01:54
本发明专利技术公开了涉及数据降维技术领域,公开了一种可调权重的高维数据降维方法及系统,该降维方法,包括以下步骤:Step1,提取数据;Step2,获取属性权重矩阵;Step3,计算加权欧式点对距离;Step4,计算高维空间联合概率;Step5,获取低维空间点分布。本发明专利技术解决了现有技术存在的降维准确度较低、误差较大等问题。误差较大等问题。误差较大等问题。

【技术实现步骤摘要】
一种可调权重的高维数据降维方法及系统


[0001]本专利技术涉及数据降维
,具体是一种可调权重的高维数据降维方法及系统。

技术介绍

[0002]目前人类社会正进入大数据时代,随着计算机信息技术的飞速发展,社会中各行各业逐渐数据化,越来越多的数据被产生、被存储。如何将这些复杂高维的数据转变为我们能够观测以及方便进一步使用的低维数据是一个急需解决的重要问题。现在大部分的降维方法分为线性与非线性,主要代表为PCA,MDS,t

SNE等,其中t

SNE通过条件概率来衡量高维空间和低维空间点对之间的相似度,并且将KL散度作为目标函数使得低维空间能保持较好嵌入效果,而正是由于t

SNE算法在计算高维空间点对的相似度时,采用了高斯核函数,因此不可避免的会计算点对之间的欧式距离。由于数据本身的特点,属性之间存在差异性,在计算欧式距离时,并不是每个数据属性的距离同等重要,所以采用欧式距离的高斯核函数可能并不能完全反映真实高维空间的概率结构,导致在此基础上的降维效果不够理想,很难根据数据特点来进行更加准确,灵活的降维,导致降维效果随着数据复杂性的增加而变弱。
[0003]现有一些对高维复杂数据降维聚类方法。专利《一种易混淆数字手写体的再识别方法》(中国专利公布号:CN 109034021 A,公开时间2018.12.18)将原始t

SNE高维空间点对距离计算进行分组加权,减小了降维误差,提高了再识别准确率。但是,此专利技术并没有考虑到原始数据中各个属性之前的差异性,只是对已经计算出的欧式距离进行分组加权,在分析多属性数据时仍然存在一定的局限性。专利《一种基于t

SNE的成绩聚类分析方法》(中国专利公布号:CN 111625576 A,公开时间2020.09.04)直接使用了t

SNE算法对高维学生成绩数据进行降维处理,虽然可视化实验结果表明对学生成绩数据降维有效果,但是针对于属性特征较强的学生成绩数据,没有考虑属性之间的关联性,而且缺乏对实验结果的量化对比指标。

技术实现思路

[0004]为克服现有技术的不足,本专利技术提供了一种可调权重的高维数据降维方法及系统,解决现有技术存在的降维准确度较低、误差较大等问题。
[0005]本专利技术解决上述问题所采用的技术方案是:
[0006]一种可调权重的高维数据降维方法,包括以下步骤:
[0007]Step1,提取数据:提取n个m维的高维数据,形成n*m的数据矩阵X;
[0008][0009]其中,x
ik
为高维数据的第i行第k列数据,n>2且为正整数,m>3且为正整数,i为正整数且1≤i≤n,k为正整数且1≤k≤m;
[0010]Step2,获取属性权重矩阵:对数据矩阵X进行属性权重计算,得出属性权重矩阵weight;
[0011]weight=[w
c1
ꢀ…ꢀ
w
ci
ꢀ…ꢀ
w
cm
];
[0012]其中,w
ci
为数据矩阵X中第i列数据的属性权重值;
[0013]Step3,计算加权欧式点对距离:将weight代入高维空间点对欧式距离计算公式中,得出每个点对之间的属性加权欧式点对距离矩阵D;
[0014][0015]其中,d
ij
为数据矩阵X中第i行数据与第j行数据在高维空间中的加权欧式距离,高维空间指维度>3的空间;x
ik
为数据矩阵X中第i行第k列的数据,x
jk
为数据矩阵X中第j行第k列的数据;
[0016]Step4,计算高维空间联合概率:根据每个点对之间的属性加权欧式点对距离矩阵D,继续计算数据矩阵X高维空间的联合条件概率p
ij

[0017]Step5,获取低维空间点分布:计算低维空间联合概率q
ij
,采用KL散度作为目标函数,不断计算低维空间的相似度,直至KL散度函数的值收敛,得到低维空间点的分布情况;其中,低维空间指维度≤3的空间。
[0018]作为一种优选的技术方案,Step2中,采用SVD权值法和Critic权值法各计算出一个属性权重,两个属性权重分别记为weight
a
和weight
b
,然后将weight
a
和weight
b
作为粒子群算法的两个样本点的初始位置,计算出全局最优解对应的属性权重值weight。
[0019]作为一种优选的技术方案,步骤Step4中,根据设置的困惑度值,使用二分查找来搜寻数据矩阵X中以第i行数据为中心的最佳标准差δ
i
、以第j行数据为中心的最佳标准差δ
j
,计算高维数据矩阵条件概率p
i|j
、p
j|i
,再计算高维空间联合概率p
ij
,计算公式为:
[0020][0021][0022][0023]其中,k为正整数且1≤k≤n。
[0024]作为一种优选的技术方案,二分查找停止的条件为:设置的困惑度值与当前计算所得困惑度值的差值的绝对值<0.0001或二分查找次数>50次。
[0025]作为一种优选的技术方案,步骤Step5中,采用KL散度作为目标函数,通过梯度下降法不断更新低维空间所有点的位置,重新计算低维空间的条件概率和联合概率,以及KL散度新的值,直至KL散度函数C的值收敛,得到低维空间点的分布情况;
[0026][0027][0028]其中,Y为随机初始化的一个符合t分布的n*2的低维空间矩阵,y
i
表示随机初始化低维空间矩阵的第i个点,y
i1
是第i个点的横坐标,y
i2
是第i个点的纵坐标。
[0029]作为一种优选的技术方案,步骤Step5中,还引入动量参数改变低维空间点的位置,迭代计算低维空间联合概率,至KL散度函数的值收敛,得到低维空间点的分布情况。
[0030]作为一种优选的技术方案,步骤Step5中,直至KL散度函数的值收敛的判断条件是本次迭代的KL散度函数值与上一次迭代的KL散度函数值之间的差值是否小于0.005。如果小于0.005,则输出低维空间降维结果矩阵;否则继续迭代更新低维空间点的位置,直至差值小于0.005。
[0031]作为一种优选的技术方案,步骤Step5中,得到低维空间点的分布情况的计算公式如下:
[0032][0033]其中,y
u
为更新后的低维空间二维空间矩阵,y
(u

1)
为上一次迭代产生的低维空间二维空间矩阵,η为步长,α(u)为学习率,α(u)(y
(u

1)

y
(u

2)
)是本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种可调权重的高维数据降维方法,其特征在于,包括以下步骤:Step1,提取数据:提取n个m维的高维数据,形成n*m的数据矩阵X;其中,x
ik
为高维数据的第i行第k列数据,n>2且为正整数,m>3且为正整数,i为正整数且1≤i≤n,k为正整数且1≤k≤m;Step2,获取属性权重矩阵:对数据矩阵X进行属性权重计算,得出属性权重矩阵weight;weight=[w
c1
ꢀ…ꢀ
w
ci
ꢀ…ꢀ
w
cm
];其中,w
ci
为数据矩阵X中第i列数据的属性权重值;Step3,计算加权欧式点对距离:将weight代入高维空间点对欧式距离计算公式中,得出每个点对之间的属性加权欧式点对距离矩阵D;其中,d
ij
为数据矩阵X中第i行数据与第j行数据在高维空间中的加权欧式距离,高维空间指维度>3的空间;x
ik
为数据矩阵X中第i行第k列的数据,x
jk
为数据矩阵X中第j行第k列的数据;Step4,计算高维空间联合概率:根据每个点对之间的属性加权欧式点对距离矩阵D,继续计算数据矩阵X高维空间的联合条件概率p
ij
;Step5,获取低维空间点分布:计算低维空间联合概率q
ij
,采用KL散度作为目标函数,不断计算低维空间的相似度,直至KL散度函数的值收敛,得到低维空间点的分布情况;其中,低维空间指维度≤3的空间。2.根据权利要求1所述的一种可调权重的高维数据降维方法,其特征在于,Step2中,采用SVD权值法和Critic权值法各计算出一个属性权重,两个属性权重分别记为weight
a
和weight
b
,然后将weight
a
和weight
b
作为粒子群算法的两个样本点的初始位置,计算出全局最优解对应的属性权重值weight。3.根据权利要求2所述的一种可调权重的高维数据降维方法,其特征在于,步骤Step4中,根据设置的困惑度值,使用二分查找来搜寻数据矩阵X中以第i行数据为中心的最佳标准差δ
i
、以第j行数据为中心的最佳标准差δ
j
,计算高维数据矩阵条件概率p
i|j
、p
j|i
,再计算
高维空间联合概率p
ij
,计算公式为:,计算公式为:,计算公式为:其中,k为正整数且1≤k≤n。4.根据权利要求3所述的一种可调权重的高维数据降维方法,其特征在于,二分查找停止的条件为:设置的困惑度值与当前计算所得困惑度值的差值的绝对值<0.0001或二分查找次数>50次。5.根据权利要求4所述的一种可调权重的高维数据降维方法,其特征在于,步骤Step5中,采用KL散度作为目标函数,通过梯度下降法不断更新低维空间所有点的位置,重新计算低维空间的条件概率和联合概率,以及KL散度新的值,直至KL散度函数C的值收敛,得到低维空间点的分布情况;维空间点的分布情况;维空间点的分布情况;其中,Y为随机初始化的一个符合t分布的n*2的低维空间矩阵,y
i
表示随机初始化低维空间矩阵的第i个点,y

【专利技术属性】
技术研发人员:杨旭东张树巍刘焰明张庆明
申请(专利权)人:西南科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1