一种基于云计算平台的大数据聚类算法制造技术

技术编号：15837192 阅读：285 留言：0更新日期：2017-07-18 15:15

本发明专利技术公开了一种基于云计算平台的大数据聚类算法，对原始数据进行预处理；将数据分割为M个子数据，并分配给M个Map函数；对子数据进行局部聚类；对相同key的类进行合并；如果实际聚类个数R小于聚类个数k，则调整代表点个数c与收缩因子a，重新进行聚类，直到达到结束条件为止。如果有新的数据集产生，则依据判断条件：如果新数据源中心个数K大于没有更新前获得的聚类数K或者新数据源的点数大于更新前数据源的点数，进行局部聚类。该方法利用云计算的高性能集群系统的并行计算能力来解决聚类面临的海量数据处理问题，以便能够快速，有效的挖掘出数据的关系。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于云计算平台的大数据聚类算法
本专利技术属于数据挖掘
，涉及一种基于云计算平台的大数据聚类算法。
技术介绍
聚类分析作为统计学、机器学习和数据挖掘等领域的交叉学科，吸引了众多研究者投身其中，使之成为数据挖掘研究领域的一个非常活跃的研究课题。迄今为止国内外的研究者们提出了很多聚类算法，主要的聚类方法可以分为：基于划分的方法、基于层次的方法、基于密度的方法、基于网格的方法和基于模型的方法等。在2012年8月21日举办的“第六届移动互联网国际研讨会”上，美国卡内基梅隆计算机机器人专业博士邓侃表示，发现大数据中的价值，要依靠数据挖掘的算法，并且要有数据挖掘的算法加上云计算的并行计算。分布式的云存储平台则提供更加廉洁的成本和高处理性能，加上高效的数据挖掘算法，成为了解决大数据问题的良药。英国南安普顿大学《云计算下的海量数据挖掘研究》中提到云计算的出现为愈来愈多的中小企业分析海量数据提供廉价的解决方案。介绍基于云计算Hadoop集群框架和数据挖掘技术中的SPRINT(ScalableParallelizableInductionofDecisionofTrees，一种具有可伸缩性的决策树分类算法)分类算法的基础上，详细描述SPRINT并行算法在Hadoop(一种分布式编程框架)中的MapReduce(一个数据处理模型)编程模型上的执行流程，并利用分析出的决策树模型对输入数据进行分类。目前，基于云计算平台的数据挖掘工作已取得众多成果。ApacheMahout(ApacheSoftWareFoudation旗下的一个开源项目)项目开发出多种面向商业角度的并行数...
一种基于云计算平台的大数据聚类算法

【技术保护点】
一种基于云计算平台的大数据聚类算法，其特征在于，包括以下步骤：1)对原始数据集进行预处理；2)将数据U分割为M个子数据，并分配给M个Map函数；3)在Map阶段，对子数据进行局部聚类；4)在Reduce阶段，对相同key的类进行合并；5)如果实际聚类个数R小于聚类个数k，则调整代表点个数c与收缩因子，重新进行聚类，直到实际聚类个数R等于聚类个数k为止；6)如果N

【技术特征摘要】
1.一种基于云计算平台的大数据聚类算法，其特征在于，包括以下步骤：1)对原始数据集进行预处理；2)将数据U分割为M个子数据，并分配给M个Map函数；3)在Map阶段，对子数据进行局部聚类；4)在Reduce阶段，对相同key的类进行合并；5)如果实际聚类个数R小于聚类个数k，则调整代表点个数c与收缩因子，重新进行聚类，直到实际聚类个数R等于聚类个数k为止；6)如果...

【专利技术属性】
技术研发人员：孟海东，任敬佩，宋宇辰，
申请(专利权)人：内蒙古科技大学，
类型：发明
国别省市：内蒙古,15

全部详细技术资料下载我是这个专利的主人