【技术实现步骤摘要】
一种可调权重的高维数据降维方法及系统
[0001]本专利技术涉及数据降维
,具体是一种可调权重的高维数据降维方法及系统。
技术介绍
[0002]目前人类社会正进入大数据时代,随着计算机信息技术的飞速发展,社会中各行各业逐渐数据化,越来越多的数据被产生、被存储。如何将这些复杂高维的数据转变为我们能够观测以及方便进一步使用的低维数据是一个急需解决的重要问题。现在大部分的降维方法分为线性与非线性,主要代表为PCA,MDS,t
‑
SNE等,其中t
‑
SNE通过条件概率来衡量高维空间和低维空间点对之间的相似度,并且将KL散度作为目标函数使得低维空间能保持较好嵌入效果,而正是由于t
‑
SNE算法在计算高维空间点对的相似度时,采用了高斯核函数,因此不可避免的会计算点对之间的欧式距离。由于数据本身的特点,属性之间存在差异性,在计算欧式距离时,并不是每个数据属性的距离同等重要,所以采用欧式距离的高斯核函数可能并不能完全反映真实高维空间的概率结构,导致在此基础上的降维效果不够理想,很难根据数据特点来进行更加准确,灵活的降维,导致降维效果随着数据复杂性的增加而变弱。
[0003]现有一些对高维复杂数据降维聚类方法。专利《一种易混淆数字手写体的再识别方法》(中国专利公布号:CN 109034021 A,公开时间2018.12.18)将原始t
‑
SNE高维空间点对距离计算进行分组加权,减小了降维误差,提高了再识别准确率。但是,此专利技术并没有考虑到原始数据中 ...
【技术保护点】
【技术特征摘要】
1.一种可调权重的高维数据降维方法,其特征在于,包括以下步骤:Step1,提取数据:提取n个m维的高维数据,形成n*m的数据矩阵X;其中,x
ik
为高维数据的第i行第k列数据,n>2且为正整数,m>3且为正整数,i为正整数且1≤i≤n,k为正整数且1≤k≤m;Step2,获取属性权重矩阵:对数据矩阵X进行属性权重计算,得出属性权重矩阵weight;weight=[w
c1
ꢀ…ꢀ
w
ci
ꢀ…ꢀ
w
cm
];其中,w
ci
为数据矩阵X中第i列数据的属性权重值;Step3,计算加权欧式点对距离:将weight代入高维空间点对欧式距离计算公式中,得出每个点对之间的属性加权欧式点对距离矩阵D;其中,d
ij
为数据矩阵X中第i行数据与第j行数据在高维空间中的加权欧式距离,高维空间指维度>3的空间;x
ik
为数据矩阵X中第i行第k列的数据,x
jk
为数据矩阵X中第j行第k列的数据;Step4,计算高维空间联合概率:根据每个点对之间的属性加权欧式点对距离矩阵D,继续计算数据矩阵X高维空间的联合条件概率p
ij
;Step5,获取低维空间点分布:计算低维空间联合概率q
ij
,采用KL散度作为目标函数,不断计算低维空间的相似度,直至KL散度函数的值收敛,得到低维空间点的分布情况;其中,低维空间指维度≤3的空间。2.根据权利要求1所述的一种可调权重的高维数据降维方法,其特征在于,Step2中,采用SVD权值法和Critic权值法各计算出一个属性权重,两个属性权重分别记为weight
a
和weight
b
,然后将weight
a
和weight
b
作为粒子群算法的两个样本点的初始位置,计算出全局最优解对应的属性权重值weight。3.根据权利要求2所述的一种可调权重的高维数据降维方法,其特征在于,步骤Step4中,根据设置的困惑度值,使用二分查找来搜寻数据矩阵X中以第i行数据为中心的最佳标准差δ
i
、以第j行数据为中心的最佳标准差δ
j
,计算高维数据矩阵条件概率p
i|j
、p
j|i
,再计算
高维空间联合概率p
ij
,计算公式为:,计算公式为:,计算公式为:其中,k为正整数且1≤k≤n。4.根据权利要求3所述的一种可调权重的高维数据降维方法,其特征在于,二分查找停止的条件为:设置的困惑度值与当前计算所得困惑度值的差值的绝对值<0.0001或二分查找次数>50次。5.根据权利要求4所述的一种可调权重的高维数据降维方法,其特征在于,步骤Step5中,采用KL散度作为目标函数,通过梯度下降法不断更新低维空间所有点的位置,重新计算低维空间的条件概率和联合概率,以及KL散度新的值,直至KL散度函数C的值收敛,得到低维空间点的分布情况;维空间点的分布情况;维空间点的分布情况;其中,Y为随机初始化的一个符合t分布的n*2的低维空间矩阵,y
i
表示随机初始化低维空间矩阵的第i个点,y
【专利技术属性】
技术研发人员:杨旭东,张树巍,刘焰明,张庆明,
申请(专利权)人:西南科技大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。