一种基于随机遍历的高熵KNN聚类方法、设备及介质技术

技术编号：38227707 阅读：17 留言：0更新日期：2023-07-25 17:57

本发明专利技术公开了一种基于随机遍历的高熵KNN聚类方法、设备及介质，涉及电数字数据处理领域，方法包括：获取需要进行聚类的样本集合；基于随机遍历的方式，根据在先已经分类完成的其他指定样本的类别标签，对该指定样本进行分类；针对样本集合中，除先验样本以外剩余的待分类样本，选取与待分类样本距离最近的K个先验样本，作为对比样本；基于相似度相异的方式，以及对比样本已确定的类别标签，得到待分类样本的类别标签。保证了先验样本的高熵效果。基于相似度相异的方式，有效实现类间同质、类内迥异的需求，实现对所有样本的高熵聚类过程，满足了对于高熵聚类的需求。满足了对于高熵聚类的需求。满足了对于高熵聚类的需求。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于随机遍历的高熵KNN聚类方法、设备及介质

[0001]本专利技术涉及电数字数据处理领域，具体涉及一种基于随机遍历的高熵KNN聚类方法、设备及介质。

技术介绍

[0002]K最邻近分类算法（K
‑
NearestNeighbor，KNN）是一种监督学习算法，其能够根据K个最近的邻居的状态来决定样本的状态，常用于样本分类。通常来说，KNN算法能够呈现类间迥异、类内同质的特点，也就是能起到类间高熵、类内低熵的效果。
[0003]但是，随着技术的发展，出现一些类间同质、类内迥异的应用需求，比如，在对多类型产品或者多类型的数据进行分类时，只需要保证每个类别中，各类型的产品或者数据是符合一定比例的即可。此时在分类过程中，需要保证实现类间低熵、类内高熵的效果，通过传统的KNN算法是难以实现的。

技术实现思路

[0004]为了解决上述问题，本专利技术提出了一种基于随机遍历的高熵KNN聚类方法，包括：获取需要进行聚类的样本集合，并在所述样本集合中，选取若干个指定样本；基于随机遍历的方式，在所述若干个指定样本中依次选取每个指定样本，针对该指定样本，根据在先已经分类完成的其他指定样本的类别标签，对该指定样本进行分类，并将完成分类的该指定样本作为先验样本；针对所述样本集合中，除所述先验样本以外剩余的待分类样本，选取与所述待分类样本距离最近的K个先验样本，作为对比样本；所述K为预先设置的正整数值；基于相似度相异的方式，以及所述对比样本已确定的类别标签，得到所述待分类样本的类别标签，直至对所有待分...

【技术保护点】

【技术特征摘要】
1.一种基于随机遍历的高熵KNN聚类方法，其特征在于，包括：获取需要进行聚类的样本集合，并在所述样本集合中，选取若干个指定样本；基于随机遍历的方式，在所述若干个指定样本中依次选取每个指定样本，针对该指定样本，根据在先已经分类完成的其他指定样本的类别标签，对该指定样本进行分类，并将完成分类的该指定样本作为先验样本；针对所述样本集合中，除所述先验样本以外剩余的待分类样本，选取与所述待分类样本距离最近的K个先验样本，作为对比样本；所述K为预先设置的正整数值；基于相似度相异的方式，以及所述对比样本已确定的类别标签，得到所述待分类样本的类别标签，直至对所有待分类样本完成分类。2.根据权利要求1所述的方法，其特征在于，基于相似度相异的方式，以及所述对比样本已确定的类别标签，得到所述待分类样本的类别标签，具体包括：确定所述对比样本中出现的类别标签，以及出现的各类别标签分别对应的出现次数；在所有类别标签中，选取出现次数最少的类别标签，作为所述待分类样本的类别标签。3.根据权利要求1所述的方法，其特征在于，所述先验样本的数量至少为K+1个，且每个类别中所包含的先验样本的数量相同。4.根据权利要求3所述的方法，其特征在于，针对该指定样本，根据在先已经分类完成的其他指定样本的类别标签，对该指定样本进行分类，具体包括：针对该指定样本，确定在先已经分类完成的其他指定样本的样本数量；若所述样本数量为所需划分的类别数量的整数倍，则确定该指定样本与每个类别标签下对应的其他指定样本之间的距离和，并将距离和最高对应的类别标签，作为该指定样本的类别标签；否则，则在所述其他指定样本对应的所有类别标签中，选取数量最少的类别标签，作为该指定样本的类别标签。5.根据权利要求4所述的方法，其特征在于，针对该指定样本，确定在先已经分类完成的其他指定样本的样本数量之后，所述方法还包括：若所述样本数量为0，则在所有类别标签，随机选取...

【专利技术属性】
技术研发人员：徐同明，鹿海洋，魏代森，张梅，祝静，孙帅，林卉，马娉婷，蔺永建，
申请(专利权)人：浪潮通用软件有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人