一种基于随机遍历的高熵KNN聚类方法、设备及介质技术

技术编号:38227707 阅读:17 留言:0更新日期:2023-07-25 17:57
本发明专利技术公开了一种基于随机遍历的高熵KNN聚类方法、设备及介质,涉及电数字数据处理领域,方法包括:获取需要进行聚类的样本集合;基于随机遍历的方式,根据在先已经分类完成的其他指定样本的类别标签,对该指定样本进行分类;针对样本集合中,除先验样本以外剩余的待分类样本,选取与待分类样本距离最近的K个先验样本,作为对比样本;基于相似度相异的方式,以及对比样本已确定的类别标签,得到待分类样本的类别标签。保证了先验样本的高熵效果。基于相似度相异的方式,有效实现类间同质、类内迥异的需求,实现对所有样本的高熵聚类过程,满足了对于高熵聚类的需求。满足了对于高熵聚类的需求。满足了对于高熵聚类的需求。

【技术实现步骤摘要】
一种基于随机遍历的高熵KNN聚类方法、设备及介质


[0001]本专利技术涉及电数字数据处理领域,具体涉及一种基于随机遍历的高熵KNN聚类方法、设备及介质。

技术介绍

[0002]K最邻近分类算法(K

NearestNeighbor,KNN)是一种监督学习算法,其能够根据K个最近的邻居的状态来决定样本的状态,常用于样本分类。通常来说,KNN算法能够呈现类间迥异、类内同质的特点,也就是能起到类间高熵、类内低熵的效果。
[0003]但是,随着技术的发展,出现一些类间同质、类内迥异的应用需求,比如,在对多类型产品或者多类型的数据进行分类时,只需要保证每个类别中,各类型的产品或者数据是符合一定比例的即可。此时在分类过程中,需要保证实现类间低熵、类内高熵的效果,通过传统的KNN算法是难以实现的。

技术实现思路

[0004]为了解决上述问题,本专利技术提出了一种基于随机遍历的高熵KNN聚类方法,包括:获取需要进行聚类的样本集合,并在所述样本集合中,选取若干个指定样本;基于随机遍历的方式,在所述若干个指定样本中依次选取每个指定样本,针对该指定样本,根据在先已经分类完成的其他指定样本的类别标签,对该指定样本进行分类,并将完成分类的该指定样本作为先验样本;针对所述样本集合中,除所述先验样本以外剩余的待分类样本,选取与所述待分类样本距离最近的K个先验样本,作为对比样本;所述K为预先设置的正整数值;基于相似度相异的方式,以及所述对比样本已确定的类别标签,得到所述待分类样本的类别标签,直至对所有待分类样本完成分类。
[0005]另一方面,本专利技术还提出了一种基于随机遍历的高熵KNN聚类设备,包括:至少一个处理器;以及,与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行如:上述基于随机遍历的高熵KNN聚类方法。
[0006]另一方面,本专利技术还提出了一种非易失性计算机存储介质,存储有计算机可执行指令,所述计算机可执行指令设置为:上述基于随机遍历的高熵KNN聚类方法。
[0007]通过本专利技术提出基于随机遍历的高熵KNN聚类方法能够带来如下有益效果:通过随机遍历过程中得到的先验样本,并且可以在随机遍历过程中以就远原则,保证了先验样本的高熵效果。基于相似度相异的方式,有效实现类间同质、类内迥异的需求,实现对所有样本的高熵聚类过程,满足了对于高熵聚类的需求。
附图说明
[0008]此处所说明的附图用来提供对本专利技术的进一步理解,构成本专利技术的一部分,本专利技术的示意性实施例及其说明用于解释本专利技术,并不构成对本专利技术的不当限定。在附图中:图1为本专利技术实施例中基于随机遍历的高熵KNN聚类方法的流程示意图;图2为本专利技术实施例中,一种场景下对先验样本的分类示意图;图3为本专利技术实施例中传统KNN聚类算法的结果示意图;图4为本专利技术实施例中,相似度相异的方式进行分类的示意图;图5为本专利技术实施例中相似度相异的方式的分类结果示意图;图6为本专利技术实施例中基于随机遍历的高熵KNN聚类设备的示意图。
具体实施方式
[0009]为使本专利技术的目的、技术方案和优点更加清楚,下面将结合本专利技术具体实施例及相应的附图对本专利技术技术方案进行清楚、完整地描述。显然,所描述的实施例仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。
[0010]以下结合附图,详细说明本专利技术各实施例提供的技术方案。
[0011]如图1所示,本专利技术实施例提供基于随机遍历的高熵KNN聚类方法,包括:S101:获取需要进行聚类的样本集合,并在所述样本集合中,选取若干个指定样本。
[0012]与传统的KNN聚类不同的是,在本文中的高熵KNN聚类所要实现的目的不同。在预先获取的数据集合中,选取若干个数据,该数据里可以是产品数据、图像数据、音频数据等。
[0013]将若干个数据作为样本集合,以对样本集合进行聚类,此时,聚类的目的不再是将相同或相似类别的数据汇集在一个类簇中,而是在聚类结果的类簇中,不同类别的数据符合预设比例。比如,以产品数据为例,最终得到的每个类簇中,产品质量的比例符合预设比例,优品、良品、差品的比例符合5:3:2的比例,即可达到预先的目的。
[0014]在样本集合中,选取若干个指定样本,指定样本为具有可识别特点(也可以称作显著特点)的样本,比如,以产品数据为例,某些产品的质量非常优秀,或者具有非常明显的残次,则可以认为其具有可识别特点。或者,对图像数据进行识别时,图像中明显存在指定物品,或者明显不存在指定物品的,认为其具有可识别特点。通常来说选取的指定样本数量相比于样本集合为少量,S102:基于随机遍历的方式,在所述若干个指定样本中依次选取每个指定样本,针对该指定样本,根据在先已经分类完成的其他指定样本的类别标签,对该指定样本进行分类,并将完成分类的该指定样本作为先验样本。
[0015]随机遍历指的是,在所有指定样本中,每次通过随机选取的方式,选取一个指定样本,在确定了该指定样本的类别标签后,再通过随机选取的方式选取下一个指定样本,进行分类,直至将所有指定样本都遍历,完成分类。
[0016]具体地,针对选取出的该指定样本,确定在先已经分类完成的其他指定样本的样本数量。当然,此时若样本数量为0,则说明该指定样本为第一个样本,则在所有类别标签,随机选取一个类别标签,作为该指定样本的类别标签,在此假设,将该指定样本的类别标签
定义为A,将其所属的类别称作A类。
[0017]若样本数量为所需划分的类别数量(所需划分的类别数量,也就是类别标签的类别数量,在本文中为方便解释,以两类为例)的整数倍,则确定该指定样本与每个类别标签下对应的其他指定样本之间的距离和,并将距离和最高对应的类别标签,作为该指定样本的类别标签。以两类的类别数量为例,当样本数量为偶数时,则为整数倍,当样本数量为奇数倍时,则为非整数倍。
[0018]当样本数量并非所需划分的类别数量的整数倍时,则在其他指定样本对应的所有类别标签中,选取数量最少的类别标签,作为该指定样本的类别标签。
[0019]仍以两类的类别数量为例,当分到第2个指定样本(如图2所示,在图2中,以数字1~6分别对应于第1个指定样本~第6个指定样本,将空心方框的图标代表A类,将方框内包含叉的图标代表B类,以这6个指定样本来举例进行解释说明)时,此时只有第1个指定样本被分到了A类,而类别总共包含A类和B类两类,此时A类对应的数量为1,B类对应的数量为0,则第2个指定样本被分到B类,其类别标签为B。
[0020]当分类到第3个指定样本时,计算与前述第1个、第2个指定样本分别对应的距离,若距离第2个指定样本的距离大,根据就远原则,则分到B类,反之,分到A类。假设第3个指定样本分到B类,则此时A类和B类分别对应的样本数量为1和2。
[002本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于随机遍历的高熵KNN聚类方法,其特征在于,包括:获取需要进行聚类的样本集合,并在所述样本集合中,选取若干个指定样本;基于随机遍历的方式,在所述若干个指定样本中依次选取每个指定样本,针对该指定样本,根据在先已经分类完成的其他指定样本的类别标签,对该指定样本进行分类,并将完成分类的该指定样本作为先验样本;针对所述样本集合中,除所述先验样本以外剩余的待分类样本,选取与所述待分类样本距离最近的K个先验样本,作为对比样本;所述K为预先设置的正整数值;基于相似度相异的方式,以及所述对比样本已确定的类别标签,得到所述待分类样本的类别标签,直至对所有待分类样本完成分类。2.根据权利要求1所述的方法,其特征在于,基于相似度相异的方式,以及所述对比样本已确定的类别标签,得到所述待分类样本的类别标签,具体包括:确定所述对比样本中出现的类别标签,以及出现的各类别标签分别对应的出现次数;在所有类别标签中,选取出现次数最少的类别标签,作为所述待分类样本的类别标签。3.根据权利要求1所述的方法,其特征在于,所述先验样本的数量至少为K+1个,且每个类别中所包含的先验样本的数量相同。4.根据权利要求3所述的方法,其特征在于,针对该指定样本,根据在先已经分类完成的其他指定样本的类别标签,对该指定样本进行分类,具体包括:针对该指定样本,确定在先已经分类完成的其他指定样本的样本数量;若所述样本数量为所需划分的类别数量的整数倍,则确定该指定样本与每个类别标签下对应的其他指定样本之间的距离和,并将距离和最高对应的类别标签,作为该指定样本的类别标签;否则,则在所述其他指定样本对应的所有类别标签中,选取数量最少的类别标签,作为该指定样本的类别标签。5.根据权利要求4所述的方法,其特征在于,针对该指定样本,确定在先已经分类完成的其他指定样本的样本数量之后,所述方法还包括:若所述样本数量为0,则在所有类别标签,随机选取...

【专利技术属性】
技术研发人员:徐同明鹿海洋魏代森张梅祝静孙帅林卉马娉婷蔺永建
申请(专利权)人:浪潮通用软件有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1