对象的聚类方法、装置、设备、存储介质及产品制造方法及图纸

技术编号:39331143 阅读:14 留言:0更新日期:2023-11-12 16:07
本申请提供了一种对象的聚类方法、装置、电子设备、计算机可读存储介质及计算机程序产品,包括:获取用于对包括多个对象的对象集合进行聚类的至少三种聚类方式;基于至少三种聚类方式,分别对对象集合进行聚类,得到对应每种聚类方式的聚类结果,聚类结果包括:采用相应的聚类方式对多个对象进行聚类得到的多个聚类簇;针对得到的至少三个聚类结果中任意两个聚类结果,确定任意两个聚类结果间的相似度;基于确定的相似度,对至少三个聚类结果进行迭代融合,得到对应所述对象集合的目标聚类结果。通过本申请,能够提高聚类结果的精确度和准确性。和准确性。和准确性。

【技术实现步骤摘要】
对象的聚类方法、装置、设备、存储介质及产品


[0001]本申请涉及人工智能技术,尤其涉及一种对象的聚类方法、装置、电子设备、计算机可读存储介质以及计算机程序产品。

技术介绍

[0002]随着计算机技术的兴起,越来越多的数据通过计算机进行处理,聚类处理技术是计算机对数据进行处理的一个重要技术。聚类处理技术是根据对象数据自身的属性以及相互间的属性关系,将具有高相似度属性的对象数据放在同一个聚类簇中,将具有低相似度属性的对象数据放在不同的聚类簇中,以此得到多个聚类簇。
[0003]相关技术中,通常采用单一的聚类算法、或两种聚类算法融合的聚类方式对多个对象数据进行聚类处理。然而,由于聚类算法的种类繁多,采用单一的聚类算法或两种聚类算法融合的聚类方式对多个对象数据进行聚类处理,常常因聚类算法自身的局限性,影响聚类结果的准确性。

技术实现思路

[0004]本申请实施例提供一种对象的聚类方法、装置、电子设备、计算机可读存储介质以及计算机程序产品,能够提高聚类结果的准确性和精确度。
[0005]本申请实施例的技术方案是这样实现的:
[0006]本申请实施例提供一种对象的聚类方法,包括:
[0007]获取用于对包括多个对象的对象集合进行聚类的至少三种聚类方式;
[0008]基于至少三种聚类方式,分别对所述对象集合进行聚类,得到对应每种所述聚类方式的聚类结果,所述聚类结果包括:采用相应的聚类方式对所述多个对象进行聚类得到的多个聚类簇;
[0009]针对得到的至少三个所述聚类结果中任意两个聚类结果,确定所述任意两个聚类结果间的相似度;
[0010]基于确定的相似度,对所述至少三个聚类结果进行迭代融合,得到对应所述对象集合的目标聚类结果。
[0011]本申请实施例提供一种对象的聚类装置,包括:
[0012]获取模块,用于获取用于对包括多个对象的对象集合进行聚类的至少三种聚类方式;
[0013]聚类模块,用于基于至少三种聚类方式,分别对所述对象集合进行聚类,得到对应每种所述聚类方式的聚类结果,所述聚类结果包括:采用相应的聚类方式对所述多个对象进行聚类得到的多个聚类簇;
[0014]确定模块,用于针对得到的至少三个所述聚类结果中任意两个聚类结果,确定所述任意两个聚类结果间的相似度;
[0015]融合模块,用于基于确定的相似度,对所述至少三个聚类结果进行迭代融合,得到
对应所述对象集合的目标聚类结果。
[0016]本申请实施例提供一种电子设备,包括:
[0017]存储器,用于存储可执行指令;
[0018]处理器,用于执行所述存储器中存储的可执行指令时,实现本申请实施例提供的对象的聚类方法。
[0019]本申请实施例提供一种计算机可读存储介质,其中存储有计算机可执行指令,当计算机可执行指令被处理器执行时,将引起处理器执行本申请实施例提供的对象的聚类方法。
[0020]本申请实施例提供了一种计算机程序产品,该计算机程序产品包括计算机程序或计算机可执行指令,该计算机程序或计算机可执行指令存储在计算机可读存储介质中。电子设备的处理器从计算机可读存储介质读取该计算机可执行指令,处理器执行该计算机可执行指令,使得该电子设备执行本申请实施例提供的对象的聚类方法。
[0021]本申请实施例具有以下有益效果:
[0022]应用本申请实施例,针对包括多个对象的对象集合,通过至少三种聚类方式进行聚类处理,得到每种聚类方式对应的聚类结果,并基于任意两个聚类结果之间的相似度,实现针对多个聚类结果的迭代融合操作,从而得到融合了多个聚类结果的目标聚类结果,如此,能够提高聚类结果的精确度和准确性。
附图说明
[0023]图1是本申请实施例提供的对象的聚类系统100的架构示意图;
[0024]图2是本申请实施例提供的实施对象的聚类方法的电子设备500的结构示意图;
[0025]图3是本申请实施例提供的对象的聚类方法的流程示意图;
[0026]图4是本申请实施例提供的聚类结果间相似度的确定方式流程图;
[0027]图5是本申请实施例提供的两个聚类结果间的相似度的确定方式流程图;
[0028]图6是本申请实施例提供的聚类结果预处理过程示意图;
[0029]图7是本申请实施例提供的针对聚类结果的聚类质量的评分流程示意图;
[0030]图8是本申请实施例提供的至少三个聚类结果迭代融合的流程示意图;
[0031]图9是本申请实施例提供的两种聚类结果的融合方式示意图;
[0032]图10是本申请实施例提供的针对聚类结果的校正过程示意图;
[0033]图11A

11B是本申请实施例提供的对象的聚类方法的流程示意图;
[0034]图12是本申请实施例提供的多个聚类结果逐步融合成最终结果的示例图;
[0035]图13是本申请实施例提供的多种聚类方法的ARI的柱状图示意图。
具体实施方式
[0036]为了使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请作进一步地详细描述,所描述的实施例不应视为对本申请的限制,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本申请保护的范围。
[0037]在以下的描述中,涉及到“一些实施例”,其描述了所有可能实施例的子集,但是可以理解,“一些实施例”可以是所有可能实施例的相同子集或不同子集,并且可以在不冲突
的情况下相互结合。
[0038]在以下的描述中,所涉及的术语“第一\第二\第三”仅仅是是区别类似的对象,不代表针对对象的特定排序,可以理解地,“第一\第二\第三”在允许的情况下可以互换特定的顺序或先后次序,以使这里描述的本申请实施例能够以除了在这里图示或描述的以外的顺序实施。
[0039]除非另有定义,本文所使用的所有的技术和科学术语与属于本申请的
的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本申请实施例的目的,不是旨在限制本申请。
[0040]对本申请实施例进行进一步详细说明之前,对本申请实施例中涉及的名词和术语进行说明,本申请实施例中涉及的名词和术语适用于如下的解释。
[0041]1)调整兰德系数(ARI,Adjusted Rnd Index):一种聚类算法的衡量指标,ARI的取值范围[

1,1],值越大意味着聚类结果与真实情况越吻合。从广义角度来讲,ARI是衡量两个数据分布的吻合程度。
[0042]2)标准互信息(NMI,Normalized Mutual Information):与可称标准化互信息,是一种聚类算法的衡量指标。是基于互信息素的一种改进,总的来说互信息也是用来衡量两种聚类结果之间相似程度的一个指标。
[0043]3)轮廓系数(Silhouette Coefficent):轮廓系数取值范围为[

本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种对象的聚类方法,其特征在于,所述方法包括:获取用于对包括多个对象的对象集合进行聚类的至少三种聚类方式;基于至少三种聚类方式,分别对所述对象集合进行聚类,得到对应每种所述聚类方式的聚类结果,所述聚类结果包括:采用相应的聚类方式对所述多个对象进行聚类得到的多个聚类簇;针对得到的至少三个所述聚类结果中任意两个聚类结果,确定所述任意两个聚类结果间的相似度;基于确定的相似度,对所述至少三个聚类结果进行迭代融合,得到对应所述对象集合的目标聚类结果。2.如权利要求1所述的方法,其特征在于,所述针对得到的至少三个所述聚类结果中任意两个聚类结果,确定所述任意两个聚类结果间的相似度之前,所述方法还包括:对每个所述聚类结果的聚类质量进行评分,得到评分结果,并从所述至少三个聚类结果中移除最小所述评分结果对应的聚类结果,得到目标数量的聚类结果,所述目标数量大于等于2;所述针对得到的至少三个所述聚类结果中任意两个聚类结果,确定所述任意两个聚类结果间的相似度,包括:针对所述目标数量的聚类结果中任意两个聚类结果,确定所述任意两个聚类结果间的相似度。3.如权利要求2所述的方法,其特征在于,所述对每个所述聚类结果的聚类质量进行评分,得到评分结果,包括:获取用于对聚类结果进行质量评分的评分方式,所述评分方式包括方差比标准、轮廓系数中至少之一;基于所述评分方式,针对每个所述聚类结果的聚类质量进行评分,得到每个所述聚类结果对应所述评分方式的评分结果。4.如权利要求2所述的方法,其特征在于,所述对每个所述聚类结果的聚类质量进行评分,得到评分结果,包括:获取用于对聚类结果进行质量评分的至少两种评分方式;基于每种所述评分方式,针对每个所述聚类结果的聚类质量分别进行评分,得到每个所述聚类结果对应每种所述评分方式的中间评分结果;对每个所述聚类结果对应的至少两个中间评分结果进行加权求和,得到每个所述聚类结果的评分结果。5.如权利要求1所述的方法,其特征在于,所述针对得到的至少三个所述聚类结果中任意两个聚类结果,确定所述任意两个聚类结果间的相似度,包括:获取用于确定任意两个聚类结果间的相似度的确定方式,所述确定方式包括调兰德系数、标准互信息中至少之一;基于所述确定方式,针对得到的至少三个所述聚类结果中任意两个聚类结果,确定所述任意两个聚类结果间的相似度。6.如权利要求1所述的方法,其特征在于,所述针对得到的至少三个所述聚类结果中任意两个聚类结果,确定所述任意两个聚类结果间的相似度,包括:
获取用于确定任意两个聚类结果间的相似度的至少两种确定方式;基于至少两种确定方式,分别针对得到的至少三个所述聚类结果中任意两个聚类结果进行相似度计算,得到所述任意两个聚类结果对应每种所述确定方式的相似度;对所述任意两个聚类结果对应每种所述确定方式的相似度进行融合,得到融合相似度作为所述任意两个聚类结果间的相似度。7.如权利要求6所述的方法,其特征在于,所述对所述任意两个聚类结果对应每种所述确定方式的相似度进行融合,得到融合相似度,包括:获取所述任意两个聚类结果对应每种所述确定方式的相似度的权重;对每个所述相似度以及相应的所述权重进行加权求和,得到融合相似度。8.如权利要求1所述的方法,其特征在于,所述基于确定的相似度,对所述至少三个聚类结果进行迭代融合,得到对应所述对象集合的目标聚类结果,包括:获取用于选择两个聚类结果的选择方式;基于确定的相似度,采用所述选择方式,从所述至少三个聚类结果中选择两个聚类结果,并对所述两个聚类结果进行融合,得到中间聚类结果;确定所述中间聚类结果与其他聚类结果中任意两个聚类结果的第二相似度,并基于确定的第二相似度,采用所述选择方式,从所述中间聚类结果与其他聚类结果中选择两个新的聚类结果,并对所述两个新的聚类结果进行融合,得到新的中间聚类结果,迭代执行上述处理,直至...

【专利技术属性】
技术研发人员:王亮姚建华
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1