数据聚类方法、装置和处理器及电子设备制造方法及图纸

技术编号:38559354 阅读:8 留言:0更新日期:2023-08-22 21:01
本申请公开了一种数据聚类方法、装置和处理器及电子设备。涉及大数据领域,该方法包括:获取数据样本集合,其中,数据样本集合包括有序排列的N个数据样本,N为正整数;从N个数据样本中确定出K组样本组合,其中,每一组样本组合包括M个连续排列的数据样本,K为正整数、M为小于N的正整数;对每一组样本组合进行筛选处理,得到K组筛选后的样本组合;获取每一组筛选后的样本组合的中心样本,并将中心样本确定为筛选后的样本组合的质心,得到K个质心;基于K个质心,对数据样本集合进行聚类。通过本申请,解决了相关技术中数据聚类的准确性低下的问题。决了相关技术中数据聚类的准确性低下的问题。决了相关技术中数据聚类的准确性低下的问题。

【技术实现步骤摘要】
数据聚类方法、装置和处理器及电子设备


[0001]本申请涉及大数据领域,具体而言,涉及一种数据聚类方法、装置和处理器及电子设备。

技术介绍

[0002]聚类算法在初始化阶段需要确定聚类中心,即质心,现有技术中常常采用随机抽取的方式以确定预设数量的质心,然而,该方式存在抽取的质心分布过于分散或集中的情况,进而导致质心分布不够均匀,从而造成后续数据聚类的准确性较低。
[0003]针对相关技术中数据聚类的准确性较低的问题,目前尚未提出有效的解决方案。

技术实现思路

[0004]本申请的主要目的在于提供一种数据聚类方法、装置和处理器及电子设备,以解决相关技术中数据聚类的准确性较低的问题。
[0005]为了实现上述目的,根据本申请的一个方面,提供了一种数据聚类方法。该方法包括:获取数据样本集合,其中,上述数据样本集合包括有序排列的N个数据样本,N为正整数;从上述N个数据样本中确定出K组样本组合,其中,每一组样本组合包括M个连续排列的数据样本,K为正整数、M为小于N的正整数;对上述每一组样本组合进行筛选处理,得到K组筛选后的样本组合;获取每一组上述筛选后的样本组合的中心样本,并将上述中心样本确定为上述筛选后的样本组合的质心,得到K个质心;基于上述K个质心,对上述数据样本集合进行聚类。
[0006]作为一种可选的方案,上述对上述每一组样本组合进行筛选处理,得到K组筛选后的样本组合包括:获取第i组样本组合中密度最大的第一数据样本,其中,i为小于K的正整数;依次遍历上述第i组样本组合包括的全部数据样本,得到符合预设距离条件的目标数据样本,其中,上述第i组样本组合对应的上述筛选后的样本组合包括上述目标数据样本,上述预设距离条件用于指示上述目标数据样本与上述第一数据样本之间的余弦距离小于预设余弦距离阈值。
[0007]作为一种可选的方案,上述获取第i组样本组合中样本密度最大的第一数据样本包括:获取上述第i组样本组合包括的各个数据样本的样本密度,并从中确定出样本密度最大的上述第一数据样本;其中,获取上述第i组样本组合的当前数据样本的样本密度包括:获取上述当前数据样本关联的P个第一近邻数据样本,其中,上述P个第一近邻数据样本在上述第i组样本组合中与上述当前数据样本的余弦距离最近,上述第i组样本组合包括上述P个第一近邻数据样本;获取每一个第一近邻数据样本关联的P个第二近邻数据样本,其中,上述P个第二近邻数据样本在上述第i组样本组合中与上述第一近邻数据样本的余弦距离最近,上述第i组样本组合包括上述P个第二近邻数据样本;对上述P个第一近邻数据样本和上述每一个第一近邻数据样本关联的P个第二近邻数据样本做并集处理,得到上述当前数据样本关联的目标近邻数据样本集合;获取上述目标近邻数据样本集合包括的近邻数据样
本的数量和值、以及获取上述目标近邻数据样本集合包括的各个近邻数据样本与上述当前数据样本的余弦距离的累加和值;将上述数量和值和上述累加和值的商确定为上述当前数据样本的样本密度。
[0008]作为一种可选的方案,上述从上述N个数据样本中确定出K组样本组合包括:获取第j个样本组合关联的窗口中心,其中,上述窗口中心用于指示上述N个数据样本中的第(2j

1)*N/2a个数据样本;将上述N个数据样本中的第(2j

1)*N/2a个数据样本至第(2j

1)*N/2a+M

1个数据样本在内的M个数据样本确定为上述第j个样本组合。
[0009]作为一种可选的方案,上述获取每一组上述筛选后的样本组合的中心样本,并将上述中心样本确定为上述筛选后的样本组合的质心包括:从上述筛选后的样本组合中选取一个数据样本作为初始质心近邻点;从上述筛选后的样本组合的其他数据样本确定出满足预设相似条件的至少一个目标数据样本,其中,上述预设相似条件用于指示上述至少一个目标数据样本与上述初始质心近邻点之间的余弦相似度大于预设相似度阈值;将上述至少一个目标数据样本的中心确定为上述中心样本。
[0010]作为一种可选的方案,上述获取数据样本集合包括:获取待排序的初始数据样本集合,其中,上述初始数据样本集合包括无序排列的N个初始数据样本;依次遍历上述N个初始数据样本,获取每一个初始数据样本的样本密度,并将样本密度最小的初始数据样本确定为边缘数据样本;根据其他初始数据样本与上述边缘数据样本之间的余弦距离,对上述其他初始数据样本进行排序,并将排序后的初始数据样本集合确定为上述数据样本集合,其中,上述边缘数据样本位于边缘位置,与上述边缘数据样本之间的余弦距离越大的数据样本的位置,与上述边缘位置相距越远、且靠前中心位置。
[0011]作为一种可选的方案,上述获取待排序的初始数据样本集合包括:从历史消费日志集合中获取上述初始样本集合,其中,上述历史消费日志集合包括客户端关联的账号在历史时间段的使用过程中产生的消费日志数据;在得到聚类后的目标样本集合之后,上述方法还包括:利用数据聚类结果,对上述账号关联的消费风险等级进行分类。
[0012]为了实现上述目的,根据本申请的另一方面,提供了一种数据聚类装置。该装置包括:第一获取单元,用于获取数据样本集合,其中,上述数据样本集合包括有序排列的N个数据样本,N为正整数;确定单元,用于从上述N个数据样本中确定出K组样本组合,其中,每一组样本组合包括M个连续排列的数据样本,K为正整数、M为小于N的正整数;筛选单元,用于对上述每一组样本组合进行筛选处理,得到K组筛选后的样本组合;第二获取单元,用于获取每一组上述筛选后的样本组合的中心样本,并将上述中心样本确定为上述筛选后的样本组合的质心,得到K个质心;聚类单元,用于基于上述K个质心,对上述数据样本集合进行聚类。
[0013]作为一种可选的方案,上述筛选单元,包括:第一获取模块,用于获取第i组样本组合中密度最大的第一数据样本,其中,i为小于K的正整数;第一遍历模块,用于依次遍历上述第i组样本组合包括的全部数据样本,得到符合预设距离条件的目标数据样本,其中,上述第i组样本组合对应的上述筛选后的样本组合包括上述目标数据样本,上述预设距离条件用于指示上述目标数据样本与上述第一数据样本之间的余弦距离小于预设余弦距离阈值。
[0014]作为一种可选的方案,上述获取模块,用于包括:第一获取子模块,用于获取上述
第i组样本组合包括的各个数据样本的样本密度,并从中确定出样本密度最大的上述第一数据样本;其中,获取上述第i组样本组合的当前数据样本的样本密度包括:第二获取子模块,用于获取上述当前数据样本关联的P个第一近邻数据样本,其中,上述P个第一近邻数据样本在上述第i组样本组合中与上述当前数据样本的余弦距离最近,上述第i组样本组合包括上述P个第一近邻数据样本;第三获取子模块,用于获取每一个第一近邻数据样本关联的P个第二近邻数据样本,其中,上述P个第二近邻数据样本在上述第i组样本组合中与上述第一近邻数据样本的余弦距离最近,上述第i组样本组合包括上述P个第二近邻数据样本;第四获取子模块,用于本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种数据聚类方法,其特征在于,包括:获取数据样本集合,其中,所述数据样本集合包括有序排列的N个数据样本,N为正整数;从所述N个数据样本中确定出K组样本组合,其中,每一组样本组合包括M个连续排列的数据样本,K为正整数、M为小于N的正整数;对所述每一组样本组合进行筛选处理,得到K组筛选后的样本组合;获取每一组所述筛选后的样本组合的中心样本,并将所述中心样本确定为所述筛选后的样本组合的质心,得到K个质心;基于所述K个质心,对所述数据样本集合进行聚类。2.根据权利要求1所述的方法,其特征在于,所述对所述每一组样本组合进行筛选处理,得到K组筛选后的样本组合包括:获取第i组样本组合中密度最大的第一数据样本,其中,i为小于K的正整数;依次遍历所述第i组样本组合包括的全部数据样本,得到符合预设距离条件的目标数据样本,其中,所述第i组样本组合对应的所述筛选后的样本组合包括所述目标数据样本,所述预设距离条件用于指示所述目标数据样本与所述第一数据样本之间的余弦距离小于预设余弦距离阈值。3.根据权利要求2所述的方法,其特征在于,所述获取第i组样本组合中样本密度最大的第一数据样本包括:获取所述第i组样本组合包括的各个数据样本的样本密度,并从中确定出样本密度最大的所述第一数据样本;其中,获取所述第i组样本组合的当前数据样本的样本密度包括:获取所述当前数据样本关联的P个第一近邻数据样本,其中,所述P个第一近邻数据样本在所述第i组样本组合中与所述当前数据样本的余弦距离最近,所述第i组样本组合包括所述P个第一近邻数据样本;获取每一个第一近邻数据样本关联的P个第二近邻数据样本,其中,所述P个第二近邻数据样本在所述第i组样本组合中与所述第一近邻数据样本的余弦距离最近,所述第i组样本组合包括所述P个第二近邻数据样本;对所述P个第一近邻数据样本和所述每一个第一近邻数据样本关联的P个第二近邻数据样本做并集处理,得到所述当前数据样本关联的目标近邻数据样本集合;获取所述目标近邻数据样本集合包括的近邻数据样本的数量和值、以及获取所述目标近邻数据样本集合包括的各个近邻数据样本与所述当前数据样本的余弦距离的累加和值;将所述数量和值和所述累加和值的商确定为所述当前数据样本的样本密度。4.根据权利要求1所述的方法,其特征在于,所述从所述N个数据样本中确定出K组样本组合包括:获取第j个样本组合关联的窗口中心,其中,所述窗口中心用于指示所述N个数据样本中的第(2j

1)*N/2a个数据样本;将所述N个数据样本中的第(2j

1)*N/2a个数据样本至第(2j

1)*N/2a+M
‑...

【专利技术属性】
技术研发人员:程永龙王钰范淑君王睿
申请(专利权)人:中国工商银行股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1