聚类簇质量评估方法、装置、设备及存储介质制造方法及图纸

技术编号:22689596 阅读:39 留言:0更新日期:2019-11-30 03:57
本申请实施例公开了一种聚类簇质量评估方法、装置、设备及存储介质,涉及数据处理领域,其包括:获取目标簇中每个样本在样本集内的S近邻样本集,所述目标簇包含在所述样本集中;统计每个所述样本在全部所述S近邻样本集中出现的频次;根据所述目标簇的样本数量与S值之间的数值关系确定所述目标簇的标准化因子;根据所述标准化因子和所述频次计算所述目标簇的质量得分。采用上述方法可以解决现有技术中无法对聚类得到的单个聚的质量进行有效评价的技术问题。

Cluster quality evaluation methods, devices, devices and storage media

The embodiment of the application discloses a clustering cluster quality evaluation method, device, device and storage medium, relating to the field of data processing, which includes: obtaining the s-nearest-neighbor sample set of each sample in the target cluster in the sample set, including the target cluster in the sample set; counting the frequency of each sample in all the s-nearest-neighbor sample sets; according to the The numerical relationship between the number of samples and the s value determines the standardization factor of the target cluster; the quality score of the target cluster is calculated according to the standardization factor and the frequency. The above method can be used to solve the technical problem that the quality of a single cluster can not be effectively evaluated in the existing technology.

【技术实现步骤摘要】
聚类簇质量评估方法、装置、设备及存储介质
本申请实施例涉及数据处理
,尤其涉及一种聚类簇质量评估方法、装置、设备及存储介质。
技术介绍
聚类分析指将物理或抽象对象的集合分组为由类似的对象组成的多个类的分析过程。通常,对包含多个样本的样本集进行聚类后,可以得到多个簇。一般而言,簇内相似度越高、簇间相似度越低,说明聚类效果越好。为了保证聚类效果,在聚类时,需要考虑性能度量。其中,性能度量也可以称为有效性指标,其包括外部指标和内部指标两类。专利技术人在实现本申请的过程中,发现现有技术存在如下缺陷:无论选择外部指标还是内部指标对聚类结果进行性能评价时,只能对聚类得到的多个簇的整体质量进行评价,无法对单个簇的质量进行有效评价。
技术实现思路
本申请提供了一种聚类簇质量评估方法、装置、设备及存储介质,以解决现有技术中无法对聚类得到的单个簇的质量进行有效评价的技术问题。第一方面,本申请实施例提供了一种聚类簇质量评估方法,包括:获取目标簇中每个样本在样本集内的S近邻样本集,所述目标簇包含在所述样本集中;统计每个所述样本在全部所述S近邻样本集中出现的频次;根据所述目标簇的样本数量与S值之间的数值关系确定所述目标簇的标准化因子;根据所述标准化因子和所述频次计算所述目标簇的质量得分。进一步的,所述根据所述目标簇的样本数量与S值之间的数值关系确定所述目标簇的标准化因子包括:若所述目标簇的样本数量等于或小于S值,则基于所述样本数量确定标准化因子;所述标准化因子的计算方式为N=n*(n-1),其中,N为标准化因子,n为样本数量。进一步的,所述根据所述目标簇的样本数量与S值之间的数值关系确定所述目标簇的标准化因子包括:若所述目标簇的样本数量大于S值,则基于所述样本数量确定标准化因子,所述标准化因子的计算方式为N=n*(n-1),其中,N为标准化因子,n为样本数量;所述统计每个所述样本在全部所述S近邻样本集中出现的频次之后,还包括:确认各所述样本的频次与所述S值的数值关系;若存在频次大于S值的样本,则将所述频次大于S值的样本对应的频次修改为n-1。进一步的,所述根据所述目标簇的样本数量与S值之间的数值关系确定所述目标簇的标准化因子包括:若目标簇的样本数量大于S值,则基于所述样本数量和所述S值确定标准化因子;所述标准化因子的计算方式为N=n*S,其中,N为标准化因子,n为样本数量;所述统计每个所述样本在全部所述S近邻样本集中出现的频次之后,还包括:确认各所述样本的频次与所述S值的数值关系;若存在频次大于S值的样本,则将所述频次大于S值的样本对应的频次修改为S。进一步的,所述根据所述标准化因子和所述频次计算所述目标簇的质量得分包括:将各所述频次相加,以得到频次和值;将所述频次和值与所述标准化因子相除,以得到所述目标簇的质量得分。进一步的,所述根据所述标准化因子和所述频次计算所述目标簇的质量得分之前,还包括:获取所述目标簇的先验因子;所述将所述频次和值与所述标准化因子相除,以得到所述目标簇的质量得分包括:计算所述频次和值和所述先验因子的乘积;将所述乘积与所述标准化因子相除,以得到所述目标簇的质量得分。进一步的,所述获取所述目标簇的先验因子包括:统计目标簇中每个样本与相应S近邻样本集中各近邻样本的样本距离;计算全部所述样本距离的平均值;将所述平均值的倒数作为所述目标簇的先验因子。第二方面,本申请实施例还提供了一种聚类簇质量评估装置,包括:近邻获取模块,用于获取目标簇中每个样本在样本集内的S近邻样本集,所述目标簇包含在所述样本集中;频次统计模块,用于统计每个所述样本在全部所述S近邻样本集中出现的频次;标准化确定模块,用于根据所述目标簇的样本数量与S值之间的数值关系确定所述目标簇的标准化因子;得分计算模块,用于根据所述标准化因子和所述频次计算所述目标簇的质量得分。第三方面,本申请实施例还提供了一种聚类簇质量评估设备,包括:一个或多个处理器;存储器,用于存储一个或多个程序;当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如第一方面所述的聚类簇质量评估方法。第四方面,本申请实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如第一方面所述的聚类簇质量评估方法。上述聚类簇质量评估方法、装置、设备及存储介质,通过统计目标簇内每个样本在目标簇所属样本集中的S近邻样本集,之后,基于S近邻样本集内各样本出现的频次,体现目标簇内各样本的特征相似性,并计算用于标准化的标准化因子,进而根据标准化因子和频次得到质量得分的技术手段,解决了现有技术中无法对聚类得到的单个聚的质量进行有效评价的技术问题,实现了计算单个目标簇的质量得分。同时,该方法计算量小,仅需统计各样本出现在近邻样本中的频次,并且,对于密度不均匀的样本集而言,通过出现在S近邻样本集中的频次进行质量得分计算,而不考虑样本集整体的平均距离或最远距离,也保证准确、快速的计算质量得分。并且,通过先验因子保证质量得分准确性,尤其在数据分布较为均匀时,通过设定先验因子,可以将样本密度高的簇的质量得分升高,将样本密度低的簇的质量得分拉低,以进一步保证质量得分准确性。附图说明图1为本申请实施例一提供的样本集聚类结果示意图;图2为本申请实施例一提供的一种聚类簇质量评估方法的流程图;图3为本申请实施例二提供的一种聚类簇质量评估方法的流程图;图4为本申请实施例三提供的一种聚类簇质量评估方法的流程图;图5为本申请实施例四提供的一种聚类簇质量评估装置的结构示意图;图6为本申请实施例五提供的一种聚类簇质量评估设备的结构示意图。具体实施方式下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是,此处所描述的具体实施例用于解释本申请,而非对本申请的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本申请相关的部分而非全部结构。性能度量包括外部指标和内部指标两类。其中,外部指标可以认为是将聚类结果与某个预先设定的参考模型进行比较,例如,杰卡德(Jaccard)系数、FM指数(FowlkesandMallowsIndex,FMI)、兰德指数(Randindex)以及调整兰德指数(AdjustedRandIndex,ARI)是较为典型的外部指标。内部指标可以认为是直接考察聚类结果而不利用任何参考模型,例如,DB指数(Davies-BouldinIndex)、DI指数(DunnIndex,)是较为典型的内部指标。一般而言,内部指标可以对聚类得到的单个簇进行质量评价。此时,计算DB指数和DI指数时,需要计算簇内各样本之间的平均距离,或簇内各样本之间的最远距离,进而将平均距离和最本文档来自技高网...

【技术保护点】
1.一种聚类簇质量评估方法,其特征在于,包括:/n获取目标簇中每个样本在样本集内的S近邻样本集,所述目标簇包含在所述样本集中;/n统计每个所述样本在全部所述S近邻样本集中出现的频次;/n根据所述目标簇的样本数量与S值之间的数值关系确定所述目标簇的标准化因子;/n根据所述标准化因子和所述频次计算所述目标簇的质量得分。/n

【技术特征摘要】
1.一种聚类簇质量评估方法,其特征在于,包括:
获取目标簇中每个样本在样本集内的S近邻样本集,所述目标簇包含在所述样本集中;
统计每个所述样本在全部所述S近邻样本集中出现的频次;
根据所述目标簇的样本数量与S值之间的数值关系确定所述目标簇的标准化因子;
根据所述标准化因子和所述频次计算所述目标簇的质量得分。


2.根据权利要求1所述的聚类簇质量评估方法,其特征在于,所述根据所述目标簇的样本数量与S值之间的数值关系确定所述目标簇的标准化因子包括:
若所述目标簇的样本数量等于或小于S值,则基于所述样本数量确定标准化因子;
所述标准化因子的计算方式为N=n*(n-1),其中,N为标准化因子,n为样本数量。


3.根据权利要求1所述的聚类簇质量评估方法,其特征在于,所述根据所述目标簇的样本数量与S值之间的数值关系确定所述目标簇的标准化因子包括:
若所述目标簇的样本数量大于S值,则基于所述样本数量确定标准化因子,所述标准化因子的计算方式为N=n*(n-1),其中,N为标准化因子,n为样本数量;
所述统计每个所述样本在全部所述S近邻样本集中出现的频次之后,还包括:
确认各所述样本的频次与所述S值的数值关系;
若存在频次大于S值的样本,则将所述频次大于S值的样本对应的频次修改为n-1。


4.根据权利要求1所述的聚类簇质量评估方法,其特征在于,所述根据所述目标簇的样本数量与S值之间的数值关系确定所述目标簇的标准化因子包括:
若目标簇的样本数量大于S值,则基于所述样本数量和所述S值确定标准化因子;
所述标准化因子的计算方式为N=n*S,其中,N为标准化因子,n为样本数量;
所述统计每个所述样本在全部所述S近邻样本集中出现的频次之后,还包括:
确认各所述样本的频次与所述S值的数值关系;
若存在频次大于S值的样本,则将所述频次大于S值的样本对应的频次修改为S。


...

【专利技术属性】
技术研发人员:熊凯
申请(专利权)人:广州视源电子科技股份有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1