一种适用于大数据挖掘的混合聚类方法及系统技术方案

技术编号:35788840 阅读:12 留言:0更新日期:2022-12-01 14:37
本发明专利技术公开了一种适用于大数据挖掘的混合聚类方法及系统,涉及大数据技术领域。使用K

【技术实现步骤摘要】
一种适用于大数据挖掘的混合聚类方法及系统


[0001]本专利技术涉及大数据
,具体涉及一种适用于大数据挖掘的混合聚类方法及系统。

技术介绍

[0002]聚类分析是大数据挖掘的一项关键技术。聚类分析的概念很简单,即在没有给定划分类别的情况下,根据数据相似度进行样本分组的一种方法,顾名思议就是将物理或抽象对象的集合分组为由类似的对象组成的多个类的分析过程。聚类分析被用于包括机器学习、模式识别、图像分析、信息检索、生物信息学、数据压缩和计算机图形学等在内的诸多领域。各行各业的大数据或宏观或微观的任何价值发现,无不借助于大数据聚类分析的结果。
[0003]DBSCAN算法是一种典型的基于密度的聚类算法,该算法采用空间索引技术来搜索对象的邻域,从核心对象出发,把所有密度可达的对象组成一个簇。该算法的时间复杂度为O(n2),导致使用该算法处理大数据集时,执行聚类操作的速度低,影响大数据挖掘效率。

技术实现思路

[0004]本专利技术的目的就在于解决上述
技术介绍
的问题,而提出一种适用于大数据挖掘的混合聚类方法及系统。
[0005]本专利技术的目的可以通过以下技术方案实现:
[0006]本专利技术实施例第一方面,提供了一种适用于大数据挖掘的混合聚类方法,所述方法包括以下步骤:
[0007]S1:从数据库获取待处理的原始数据集;
[0008]S2:使用K

means++算法对所述原始数据集进行第一次聚类操作,将所述原始数据分组为多个第一数据集;
[0009]S3:针对每一第一数据集,使用预设的改进DBSCAN算法对该第一数据集进行第二次聚类操作,得到数据簇;所述改进DBSCAN算法在确定聚类簇时,针对每一样本数据点,根据该样本数据点各邻居数据点的本地数据确定该样本数据点的第二数据集,根据第二数据集确定该样本数据点是否为核心数据点;第二数据集为该第一数据集的子集;
[0010]S4:将各第一数据集的数据簇进行合并,得到所述原始数据集的聚类结果。
[0011]可选地,步骤S3包括以下步骤:
[0012]S31:针对每一第一数据集,从该第一数据集中随机选择一个初始数据点,计算该点到该第一数据集中其他数据点的距离,作为初始数据点的第一本地数据;
[0013]S32:根据第一本地数据和预设聚类参数确定所述初始数据点是否为核心数据点,并确定所述初始数据点密度直达的第三数据集;
[0014]S33:针对第三数据集中的每一密度直达数据点,根据本地数据和预设聚类参数确定该密度直达数据点的第二数据集;
[0015]S34:根据第二数据集判断该密度直达数据点是否为核心数据点,并确定所述初始
数据点密度相连的第四数据集;
[0016]S35:重复上述步骤S33

S34,直到确定出与所述初始数据点密度相连的数据点中的所有核心数据点;
[0017]S36:重复上述步骤S31

S35,直到确定出该第一数据集中所有数据簇。
[0018]可选地,步骤S34包括以下步骤:
[0019]计算该密度直达数据点到第二数据集中其他数据点的距离,作为该密度直达数据点的第二本地数据;
[0020]根据第二本地数据和预设聚类参数确定该密度直达数据点是否为核心数据点,并确定该密度直达数据点密度直达的第五数据集;
[0021]合并第三数据集和第五数据集得到第四数据集。
[0022]可选地,步骤S4包括以下步骤:
[0023]计算各第一数据集之间的数据集距离,将数据集距离小于预设距离值的两个第一数据集作为待合并数据集对;
[0024]计算待合并数据集对的一个第一数据集中的数据簇与另一个第一数据集中的数据簇之间的数据簇距离,将数据簇距离小于预设距离值的两个数据簇作为待合并数据簇对;
[0025]使用预设的改进DBSCAN算法对待合并数据簇对进行第三次聚类操作,进行数据簇合并,得到所述原始数据集的聚类结果。
[0026]本专利技术实施例第二方面,还提供了一种适用于大数据挖掘的混合聚类系统,其特征在于,包括数据获取模块、第一次聚类模块、第二次聚类模块与结果模块:
[0027]所述数据获取模块,用于从数据库获取待处理的原始数据集;
[0028]所述第一次聚类模块,用于使用K

means++算法对所述原始数据集进行第一次聚类操作,将所述原始数据分组为多个第一数据集;
[0029]所述第二次聚类模块,用于针对每一第一数据集,使用预设的改进DBSCAN算法对该第一数据集进行第二次聚类操作,得到数据簇;所述改进DBSCAN算法在确定聚类簇时,针对每一样本数据点,根据该样本数据点各邻居数据点的本地数据确定该样本数据点的第二数据集,根据第二数据集确定该样本数据点是否为核心数据点;第二数据集为该第一数据集的子集;
[0030]所述结果模块,用于将各第一数据集的数据簇进行合并,得到所述原始数据集的聚类结果。
[0031]可选地,所述第二次聚类模块包括第一本地数据计算模块、第一判断模块、第二数据集确定模块、第二判断模块、第一循环模块和第二循环模块:
[0032]所述第一本地数据计算模块,用于针对每一第一数据集,从该第一数据集中随机选择一个初始数据点,计算该点到该第一数据集中其他数据点的距离,作为初始数据点的第一本地数据;
[0033]所述第一判断模块,用于根据第一本地数据和预设聚类参数确定所述初始数据点是否为核心数据点,并确定所述初始数据点密度直达的第三数据集;
[0034]所述第二数据集确定模块,用于针对第三数据集中的每一密度直达数据点,根据本地数据和预设聚类参数确定该密度直达数据点的第二数据集;
[0035]所述第二判断模块,用于根据第二数据集判断该密度直达数据点是否为核心数据点,并确定所述初始数据点密度相连的第四数据集;
[0036]所述第一循环模块,用于依次循环执行所述第二数据集确定模块和所述第二判断模块的操作,直到确定出与所述初始数据点密度相连的数据点中的所有核心数据点;
[0037]所述第二循环模块,用于依次循环执行所述第一本地数据计算模块、所述第一判断模块、所述第二数据集确定模块、所述第二判断模块和所述第一循环模块的操作,直到确定出该第一数据集中所有数据簇。
[0038]可选地,所述第二判断模块包括第一本地数据计算模块、第五数据集确定模块和数据合并模块:
[0039]所述第一本地数据计算模块,用于计算该密度直达数据点到第二数据集中其他数据点的距离,作为该密度直达数据点的第二本地数据;
[0040]所述第五数据集确定模块,用于根据第二本地数据和预设聚类参数确定该密度直达数据点是否为核心数据点,并确定该密度直达数据点密度直达的第五数据集;
[0041]所述数据合并模块,用于合并第三数据集和第五数据集得到第四数据集。
[0042]可选地,所述结本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种适用于大数据挖掘的混合聚类方法,其特征在于,所述方法包括以下步骤:S1:从数据库获取待处理的原始数据集;S2:使用K

means++算法对所述原始数据集进行第一次聚类操作,将所述原始数据分组为多个第一数据集;S3:针对每一第一数据集,使用预设的改进DBSCAN算法对该第一数据集进行第二次聚类操作,得到数据簇;所述改进DBSCAN算法在确定聚类簇时,针对每一样本数据点,根据该样本数据点各邻居数据点的本地数据确定该样本数据点的第二数据集,根据第二数据集确定该样本数据点是否为核心数据点;第二数据集为该第一数据集的子集;S4:将各第一数据集的数据簇进行合并,得到所述原始数据集的聚类结果。2.根据权利要求1所述的一种适用于大数据挖掘的混合聚类方法,其特征在于,步骤S3包括以下步骤:S31:针对每一第一数据集,从该第一数据集中随机选择一个初始数据点,计算该点到该第一数据集中其他数据点的距离,作为初始数据点的第一本地数据;S32:根据第一本地数据和预设聚类参数确定所述初始数据点是否为核心数据点,并确定所述初始数据点密度直达的第三数据集;S33:针对第三数据集中的每一密度直达数据点,根据本地数据和预设聚类参数确定该密度直达数据点的第二数据集;S34:根据第二数据集判断该密度直达数据点是否为核心数据点,并确定所述初始数据点密度相连的第四数据集;S35:重复上述步骤S33

S34,直到确定出与所述初始数据点密度相连的数据点中的所有核心数据点;S36:重复上述步骤S31

S35,直到确定出该第一数据集中所有数据簇。3.根据权利要求2所述的一种适用于大数据挖掘的混合聚类方法,其特征在于,步骤S34包括以下步骤:计算该密度直达数据点到第二数据集中其他数据点的距离,作为该密度直达数据点的第二本地数据;根据第二本地数据和预设聚类参数确定该密度直达数据点是否为核心数据点,并确定该密度直达数据点密度直达的第五数据集;合并第三数据集和第五数据集得到第四数据集。4.根据权利要求1所述的一种适用于大数据挖掘的混合聚类方法,其特征在于,步骤S4包括以下步骤:计算各第一数据集之间的数据集距离,将数据集距离小于预设距离值的两个第一数据集作为待合并数据集对;计算待合并数据集对的一个第一数据集中的数据簇与另一个第一数据集中的数据簇之间的数据簇距离,将数据簇距离小于预设距离值的两个数据簇作为待合并数据簇对;使用预设的改进DBSCAN算法对待合并数据簇对进行第三次聚类操作,进行数据簇合并,得到所述原始数据集的聚类结果。5.一种适用于大数据挖掘的混合聚类系统,其特征在于,包括数据获取模块、第一次聚类模块、第二次聚类模块与结果模块:
所述数据获取模块,用于从数据库获取待处理的原始数据集;所述第一次聚类模块,用于使用K

means++算法对所述原始数据集进行第一次聚类操作,将所述原始数据分组为多个第一数据集;所述第二次聚类模块,用于针对每一第一数据集,使用预设的改进DBSCAN算法对该第一数据集进行第二次聚类操作,得到数据簇;所述改进DBSCAN算法在确定聚类簇时,针对每一样本数据点,根据该样本数据点各邻居数据点的本地...

【专利技术属性】
技术研发人员:刘利红
申请(专利权)人:广东天舜信息科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1