数据聚类方法、装置和处理器及电子设备制造方法及图纸

技术编号：38559354 阅读：8 留言：0更新日期：2023-08-22 21:01

本申请公开了一种数据聚类方法、装置和处理器及电子设备。涉及大数据领域，该方法包括：获取数据样本集合，其中，数据样本集合包括有序排列的N个数据样本，N为正整数；从N个数据样本中确定出K组样本组合，其中，每一组样本组合包括M个连续排列的数据样本，K为正整数、M为小于N的正整数；对每一组样本组合进行筛选处理，得到K组筛选后的样本组合；获取每一组筛选后的样本组合的中心样本，并将中心样本确定为筛选后的样本组合的质心，得到K个质心；基于K个质心，对数据样本集合进行聚类。通过本申请，解决了相关技术中数据聚类的准确性低下的问题。决了相关技术中数据聚类的准确性低下的问题。决了相关技术中数据聚类的准确性低下的问题。

全部详细技术资料下载

【技术实现步骤摘要】
数据聚类方法、装置和处理器及电子设备

[0001]本申请涉及大数据领域，具体而言，涉及一种数据聚类方法、装置和处理器及电子设备。

技术介绍

[0002]聚类算法在初始化阶段需要确定聚类中心，即质心，现有技术中常常采用随机抽取的方式以确定预设数量的质心，然而，该方式存在抽取的质心分布过于分散或集中的情况，进而导致质心分布不够均匀，从而造成后续数据聚类的准确性较低。
[0003]针对相关技术中数据聚类的准确性较低的问题，目前尚未提出有效的解决方案。

技术实现思路

[0004]本申请的主要目的在于提供一种数据聚类方法、装置和处理器及电子设备，以解决相关技术中数据聚类的准确性较低的问题。
[0005]为了实现上述目的，根据本申请的一个方面，提供了一种数据聚类方法。该方法包括：获取数据样本集合，其中，上述数据样本集合包括有序排列的N个数据样本，N为正整数；从上述N个数据样本中确定出K组样本组合，其中，每一组样本组合包括M个连续排列的数据样本，K为正整数、M为小于N的正整数；对上述每一组样本组合进行筛选处理，得到K组筛选后的样本组合；获取每一组上述筛选后的样本组合的中心样本，并将上述中心样本确定为上述筛选后的样本组合的质心，得到K个质心；基于上述K个质心，对上述数据样本集合进行聚类。
[0006]作为一种可选的方案，上述对上述每一组样本组合进行筛选处理，得到K组筛选后的样本组合包括：获取第i组样本组合中密度最大的第一数据样本，其中，i为小于K的正整数；依次遍历上述第i组样本组合包括的全部数...

【技术保护点】

【技术特征摘要】
1.一种数据聚类方法，其特征在于，包括：获取数据样本集合，其中，所述数据样本集合包括有序排列的N个数据样本，N为正整数；从所述N个数据样本中确定出K组样本组合，其中，每一组样本组合包括M个连续排列的数据样本，K为正整数、M为小于N的正整数；对所述每一组样本组合进行筛选处理，得到K组筛选后的样本组合；获取每一组所述筛选后的样本组合的中心样本，并将所述中心样本确定为所述筛选后的样本组合的质心，得到K个质心；基于所述K个质心，对所述数据样本集合进行聚类。2.根据权利要求1所述的方法，其特征在于，所述对所述每一组样本组合进行筛选处理，得到K组筛选后的样本组合包括：获取第i组样本组合中密度最大的第一数据样本，其中，i为小于K的正整数；依次遍历所述第i组样本组合包括的全部数据样本，得到符合预设距离条件的目标数据样本，其中，所述第i组样本组合对应的所述筛选后的样本组合包括所述目标数据样本，所述预设距离条件用于指示所述目标数据样本与所述第一数据样本之间的余弦距离小于预设余弦距离阈值。3.根据权利要求2所述的方法，其特征在于，所述获取第i组样本组合中样本密度最大的第一数据样本包括：获取所述第i组样本组合包括的各个数据样本的样本密度，并从中确定出样本密度最大的所述第一数据样本；其中，获取所述第i组样本组合的当前数据样本的样本密度包括：获取所述当前数据样本关联的P个第一近邻数据样本，其中，所述P个第一近邻数据样本在所述第i组样本组合中与所述当前数据样本的余弦距离最近，所述第i组样本组合包括所述P个第一近邻数据样本；获取每一个第一近邻数据样本关联的P个第二近邻数据样本，其中，所述P个第二近邻数据样本在所述第i组样本组合中与所述第一近邻数据样本的余弦距离最近，所述第i组样本组合包括所述P个第二近邻数据样本；对所述P个第一近邻数据样本和所述每一个第一近邻数据样本关联的P个第二近邻数据样本做并集处理，得到所述当前数据样本关联的目标近邻数据样本集合；获取所述目标近邻数据样本集合包括的近邻数据样本的数量和值、以及获取所述目标近邻数据样本集合包括的各个近邻数据样本与所述当前数据样本的余弦距离的累加和值；将所述数量和值和所述累加和值的商确定为所述当前数据样本的样本密度。4.根据权利要求1所述的方法，其特征在于，所述从所述N个数据样本中确定出K组样本组合包括：获取第j个样本组合关联的窗口中心，其中，所述窗口中心用于指示所述N个数据样本中的第(2j
‑
1)*N/2a个数据样本；将所述N个数据样本中的第(2j
‑
1)*N/2a个数据样本至第(2j
‑
1)*N/2a+M
‑...

【专利技术属性】
技术研发人员：程永龙，王钰，范淑君，王睿，
申请(专利权)人：中国工商银行股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人