The embodiment of the application discloses a clustering cluster quality evaluation method, device, device and storage medium, relating to the field of data processing, which includes: obtaining the s-nearest-neighbor sample set of each sample in the target cluster in the sample set, including the target cluster in the sample set; counting the frequency of each sample in all the s-nearest-neighbor sample sets; according to the The numerical relationship between the number of samples and the s value determines the standardization factor of the target cluster; the quality score of the target cluster is calculated according to the standardization factor and the frequency. The above method can be used to solve the technical problem that the quality of a single cluster can not be effectively evaluated in the existing technology.
【技术实现步骤摘要】
聚类簇质量评估方法、装置、设备及存储介质
本申请实施例涉及数据处理
,尤其涉及一种聚类簇质量评估方法、装置、设备及存储介质。
技术介绍
聚类分析指将物理或抽象对象的集合分组为由类似的对象组成的多个类的分析过程。通常,对包含多个样本的样本集进行聚类后,可以得到多个簇。一般而言,簇内相似度越高、簇间相似度越低,说明聚类效果越好。为了保证聚类效果,在聚类时,需要考虑性能度量。其中,性能度量也可以称为有效性指标,其包括外部指标和内部指标两类。专利技术人在实现本申请的过程中,发现现有技术存在如下缺陷:无论选择外部指标还是内部指标对聚类结果进行性能评价时,只能对聚类得到的多个簇的整体质量进行评价,无法对单个簇的质量进行有效评价。
技术实现思路
本申请提供了一种聚类簇质量评估方法、装置、设备及存储介质,以解决现有技术中无法对聚类得到的单个簇的质量进行有效评价的技术问题。第一方面,本申请实施例提供了一种聚类簇质量评估方法,包括:获取目标簇中每个样本在样本集内的S近邻样本集,所述目标簇包含在所述样本集中;统计每个所述样本在全部所述S近邻样本集中出现的频次;根据所述目标簇的样本数量与S值之间的数值关系确定所述目标簇的标准化因子;根据所述标准化因子和所述频次计算所述目标簇的质量得分。进一步的,所述根据所述目标簇的样本数量与S值之间的数值关系确定所述目标簇的标准化因子包括:若所述目标簇的样本数量等于或小于S值,则基于所述样本数量确定标准化因子;所述标准 ...
【技术保护点】
1.一种聚类簇质量评估方法,其特征在于,包括:/n获取目标簇中每个样本在样本集内的S近邻样本集,所述目标簇包含在所述样本集中;/n统计每个所述样本在全部所述S近邻样本集中出现的频次;/n根据所述目标簇的样本数量与S值之间的数值关系确定所述目标簇的标准化因子;/n根据所述标准化因子和所述频次计算所述目标簇的质量得分。/n
【技术特征摘要】
1.一种聚类簇质量评估方法,其特征在于,包括:
获取目标簇中每个样本在样本集内的S近邻样本集,所述目标簇包含在所述样本集中;
统计每个所述样本在全部所述S近邻样本集中出现的频次;
根据所述目标簇的样本数量与S值之间的数值关系确定所述目标簇的标准化因子;
根据所述标准化因子和所述频次计算所述目标簇的质量得分。
2.根据权利要求1所述的聚类簇质量评估方法,其特征在于,所述根据所述目标簇的样本数量与S值之间的数值关系确定所述目标簇的标准化因子包括:
若所述目标簇的样本数量等于或小于S值,则基于所述样本数量确定标准化因子;
所述标准化因子的计算方式为N=n*(n-1),其中,N为标准化因子,n为样本数量。
3.根据权利要求1所述的聚类簇质量评估方法,其特征在于,所述根据所述目标簇的样本数量与S值之间的数值关系确定所述目标簇的标准化因子包括:
若所述目标簇的样本数量大于S值,则基于所述样本数量确定标准化因子,所述标准化因子的计算方式为N=n*(n-1),其中,N为标准化因子,n为样本数量;
所述统计每个所述样本在全部所述S近邻样本集中出现的频次之后,还包括:
确认各所述样本的频次与所述S值的数值关系;
若存在频次大于S值的样本,则将所述频次大于S值的样本对应的频次修改为n-1。
4.根据权利要求1所述的聚类簇质量评估方法,其特征在于,所述根据所述目标簇的样本数量与S值之间的数值关系确定所述目标簇的标准化因子包括:
若目标簇的样本数量大于S值,则基于所述样本数量和所述S值确定标准化因子;
所述标准化因子的计算方式为N=n*S,其中,N为标准化因子,n为样本数量;
所述统计每个所述样本在全部所述S近邻样本集中出现的频次之后,还包括:
确认各所述样本的频次与所述S值的数值关系;
若存在频次大于S值的样本,则将所述频次大于S值的样本对应的频次修改为S。
...
【专利技术属性】
技术研发人员:熊凯,
申请(专利权)人:广州视源电子科技股份有限公司,
类型:发明
国别省市:广东;44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。