一种基于内存计算的并行化聚类方法技术

技术编号：14130666 阅读：122 留言：0更新日期：2016-12-09 19:16

本发明专利技术提供了一种基于内存计算的并行化聚类方法，其主旨在于解决聚类算法DBSCAN在处理海量数据下的效率问题，其方案为：S1：基于简单随机抽样的数据划分，以<ID,Raw_data>作为此阶段的输入，通过对原始数据进行简单随机抽样来完成数据的切分，并将切分的结果保存到不同的RDD；S2：利用内存计算模型在各个计算节点并行执行DBSCAN算法，对不同的RDD中的原始数据进行聚类，产生局部类簇；S3：基于重心合并所有的局部类簇，利用内存计算模型对局部类簇进行合并，从而产生全局聚类结果。本发明专利技术基于内存计算模型，通过简单的数据划分方式对原始数据进行切割，极大地提高了算法的处理效率。同时，基于重心距离的局部类簇合并能快速地构建全局类簇，满足了处理大规模数据的用户需求。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及数据挖掘算法并行化领域，特别涉及一种基于内存计算的并行化聚类方法。
技术介绍
如今，随着信息技术的不断创新，数据正以爆炸式的速度增长。如何对大规模数据进行有效地处理已然成为一项严峻的挑战。为了能够从海量数据中挖掘出规律信息，找出数据间的区别与联系，数据挖掘作为一门新型学科出现在人们的视线中，并在各行业发挥着重要作用。聚类分析在数据挖掘中占据着举足轻重的地位，得到了人们的广泛关注。聚类通常是按照一定的相似度度量方法，使得相似度较高的一组数据聚在一起。DBSCAN算法是1996年由Ester Martin等人提出的基于高密度连接区域的密度聚类方法，它能发现任意形状的类簇，并能够有效地处理噪声点。该算法简单、效率高，目前已被广泛地应用于工业生产与科学研究中。在DBSCAN算法中，类簇中的每个数据对象，对于给定的阈值(MinPts)，该对象的Eps邻域包含的数据对象的个数必须大于等于阈值。因此当相邻区域的对象数不小于阈值时，将继续聚类。DBSCAN算法在进行海量数据聚类时，需要数据集载入内存，同时要计算两两对象之间的距离，当数据量过大时会造成内存溢出。如果不将数据集载入内存，频繁的I/O操作会造成算法效率低下。因此，传统的DBSCAN算法无法适用于大规模数据集合的聚类分析。现有的并行DBSCAN算法在进行数据分区时，通常是将原始数据库划分为若干个互不相交的分区，并通过一定的策略保证分区之间的负载均衡，随着数据维数的增加，对高维空间的切分将会消耗大量的时间。同时，在分区边界合并时，针对每个分区，都需要找出位于2m个方向上的边界数据进行边界判定，其中m...
一种基于内存计算的并行化聚类方法

【技术保护点】
一种基于内存计算的并行化聚类方法，包括如下步骤：S1：基于简单随机抽样的数据划分，以<ID,Raw_data>作为此阶段的输入，通过对原始数据进行简单随机抽样来完成数据的切分，并将切分的结果保存到不同的RDD；S2：利用内存计算模型在各个计算节点并行执行DBSCAN算法，对不同的RDD中的原始数据进行聚类，产生局部类簇；S3：基于重心合并所有的局部类簇，利用内存计算模型对局部类簇进行合并，从而产生全局聚类结果。

【技术特征摘要】
1.一种基于内存计算的并行化聚类方法，包括如下步骤：S1：基于简单随机抽样的数据划分，以<ID,Raw_data>作为此阶段的输入，通过对原始数据进行简单随机抽样来完成数据的切分，并将切分的结果保存到不同的RDD；S2：利用内存计算模型在各个计算节点并行执行DBSCAN算法，对不同的RDD中的原始数据进行聚类，产生局部类簇；S3：基于重心合并所有的局部类簇，利用内存计算模型对局部类簇进行合并，从而产生全局聚类结果。2.根据权利要求书1所述的一种基于内存计算的并行化聚类方法，包括如下步骤：S11：在集群中启动实现map接口的作业，各个节点以原始数据作为输入，通过自定义的random()函数所产生的随机数作为当前数据的key值，生成带有新的划分标识的原始数据RDD集合；S12：将S11中产生的RDD集合按照划分标识分解成对应的局部RDD集合。3.根据权利要求书1所述的一种基于内存计算的并行化聚类方法，...

【专利技术属性】
技术研发人员：田玲，罗光春，陈爱国，殷光强，
申请(专利权)人：电子科技大学，
类型：发明
国别省市：四川;51

全部详细技术资料下载我是这个专利的主人