本发明专利技术公开了一种基于云计算平台的大数据聚类算法,对原始数据进行预处理;将数据分割为M个子数据,并分配给M个Map函数;对子数据进行局部聚类;对相同key的类进行合并;如果实际聚类个数R小于聚类个数k,则调整代表点个数c与收缩因子a,重新进行聚类,直到达到结束条件为止。如果有新的数据集产生,则依据判断条件:如果新数据源中心个数K大于没有更新前获得的聚类数K或者新数据源的点数大于更新前数据源的点数,进行局部聚类。该方法利用云计算的高性能集群系统的并行计算能力来解决聚类面临的海量数据处理问题,以便能够快速,有效的挖掘出数据的关系。
【技术实现步骤摘要】
一种基于云计算平台的大数据聚类算法
本专利技术属于数据挖掘
,涉及一种基于云计算平台的大数据聚类算法。
技术介绍
聚类分析作为统计学、机器学习和数据挖掘等领域的交叉学科,吸引了众多研究者投身其中,使之成为数据挖掘研究领域的一个非常活跃的研究课题。迄今为止国内外的研究者们提出了很多聚类算法,主要的聚类方法可以分为:基于划分的方法、基于层次的方法、基于密度的方法、基于网格的方法和基于模型的方法等。在2012年8月21日举办的“第六届移动互联网国际研讨会”上,美国卡内基梅隆计算机机器人专业博士邓侃表示,发现大数据中的价值,要依靠数据挖掘的算法,并且要有数据挖掘的算法加上云计算的并行计算。分布式的云存储平台则提供更加廉洁的成本和高处理性能,加上高效的数据挖掘算法,成为了解决大数据问题的良药。英国南安普顿大学《云计算下的海量数据挖掘研究》中提到云计算的出现为愈来愈多的中小企业分析海量数据提供廉价的解决方案。介绍基于云计算Hadoop集群框架和数据挖掘技术中的SPRINT(ScalableParallelizableInductionofDecisionofTrees,一种具有可伸缩性的决策树分类算法)分类算法的基础上,详细描述SPRINT并行算法在Hadoop(一种分布式编程框架)中的MapReduce(一个数据处理模型)编程模型上的执行流程,并利用分析出的决策树模型对输入数据进行分类。目前,基于云计算平台的数据挖掘工作已取得众多成果。ApacheMahout(ApacheSoftWareFoudation旗下的一个开源项目)项目开发出多种面向商业角度的并行数据挖掘算法;中国科学院计算技术研究所推出的并行分布式数据挖掘平台(PDMiner,ParallelDistributedMiner)已可实现TB级别的海量数据处理;中国移动通信的并行数据挖掘工具(BC-PDM,BlueCarrierbasedParallelDataMining)更是提供了基于Web的服务模式。这些标志性成果,大力推动了该领域的发展。在云计算编程模型MapReduce的基础上,已有多种数据挖掘算法被实现。2007年CHU等学者提出了基于MapReduce的朴素贝叶斯分类算法。该算法采用分布处理的思想,通过采用对样本进行分散统计与集中整合的方式来构造分类器,但它能处理离散型数据,不能对连续型数据提供有效的支持。另外,数据挖掘工作中常用聚类算法的MapReduce实现,就我们所知道的范围内,尚未见到相关权威报道。当前,国内外在对聚类方法的研究上还多停留在串行法的优化上。串行聚类算法在统计和数据库领域得到了大量的研究和应用,如K-Means(K平均方法)算法、面向大规模数据库系统的综合层次聚类(BIRCH,BalancedReducingandClusteringUsingHierarchies)算法、处理空间数据的统计信息网格(STING,StatisticalInformationGrid)算法等。面对日益增长的海量数据库和高维数据类型,为了获得更好的计算能力,研究并行模型下的聚类算法,利用集群的高速计算能力来解决大数据的聚类运算,具有非常重要的意义。随着互联网、实时数据流、连接设备多样化的发展,以及搜索服务、社会网络、移动商务和开放协作等需求的推动,云计算迅速发展起来。不同于以往的并行分布式计算,云计算的产生从理念上将推动整个互联网模式、企业管理模式发生革命性的变革。因此,各大IT厂商均在大力投资云计算的研究,推广各自的云计算服务和产品的谷歌、亚马逊、IBM、微软和雅虎(Google、Amazon、IBM、Microsoft和Yahoo!)等大公司是云计算的先行者。Google当数最大的云计算的使用者。目前,Google已经允许第三方在Google的云计算中通过GoogleAppEngine(谷歌应用搜索引擎)运行大型并行应用程序。MapReduce是由Google在2004年最先提出的分布式计算编程框架,它可以支持大数据量的分布式处理。Hadoop是Apache开源组织的一个分布式计算开源架构,在很多大型网站上都已得到了应用,Hadoop框架中最核心的设计是MapReduce和Hadoop分布式文件系统(HDFS,HadoopDistributedFileSystem)。Amazon使用弹性计算云(EC2,ElasticComputeCloud)和简单存储服务(S3,SimpleStorageService)为企业提供计算和存储服务。IBM在2007年11月推出了“改变游戏规则”的“蓝云”计算平台,为客户带来即买即用的云计算平台。微软紧跟云计算步伐,于2008年10月推出WindowsAzure操作系统。Azure(译为“蓝天”)是继Windows取代DOS之后,微软的又一次颠覆性转型,通过在互联网架构上打造新云计算平台,让Windows真正由PC延伸到“蓝天”。在我国,云计算发展也非常迅猛。2008年IBM先后在中国无锡和北京建立了两个云计算中心;世纪互联推出了CloudEx(云快线弹性云计算平台)产品线,提供互联网主机服务、在线存储虚拟化服务等;中国移动研究院已经建立起1024个CPU的云计算实验中心;解放军理工大学研制了云存储系统MassCloud(海量云存储平台),并以它支撑基于3G的大规模视频监控应用和数字地球系统。基于数据挖掘聚类研究的现状,现有的对于大数据聚类的挖掘,采用的方法多是采用对数据的抽样,选取具有代表性的数据,实现以点代面的聚类分析。在面对大数据处理时,一般采用的是基于样本抽取概率的方法实现,但抽样方法没有考虑数据点之间或区间之间全局的相对距离以及数据分布不均匀,出现划分区间过硬的问题。虽然后来,又引入聚类、模糊概念以及云模型等对区间划分过硬问题进行了改善,也取得了很好的效果,但这些方法均没有考虑大数据数据点对知识发现任务的不同作用。因此,为使挖掘得到的聚类规则更有效,更快速,必须从充分考虑数据点的不同作用入手,对聚类分析进行更深入的研究。而云计算正是基于现实中的大数据数据点之间的处理而提出的,这为挖掘更有效聚类规则提供了强大的理论基础。
技术实现思路
本专利技术的目的在于克服上述技术存在的缺陷,提供一种基于云计算平台的大数据聚类算法,该方法利用云计算的高性能集群系统的并行计算能力来解决聚类面临的大数据处理问题,以便能够快速,有效的挖掘出数据的关系。其具体技术方案为:一种基于云计算平台的大数据聚类算法,包括以下步骤:(1)对原始数据进行预处理;其基本思想为:首先,扫描整个数据源,查看是否存在空值,补充遗漏值;遗漏值的选取根据空值所在的那一维的平均值进行补充;其次,对数据集进行向量化并进行分割,分割后将数据块分布到节点上,各个节点把数据块分配给M个Map函数,在函数中设置一个阈值T(点与点之间的距离)、M(簇内所允许最少的个数),选取c个距离相距最远的点作为代表点进行聚类,将符合T要求的点聚为一类,放到一个簇中,如此循环直到没有符合的点为止,然后把剩余的点划分为一类,形成一个簇,并且在每个簇用(N(簇内所有点的数目),SUM(所有点每维向量之和),SUMSQ(所有点在每一维的分量平方和))表示一个簇的中心;最本文档来自技高网...
【技术保护点】
一种基于云计算平台的大数据聚类算法,其特征在于,包括以下步骤:1)对原始数据集进行预处理;2)将数据U分割为M个子数据,并分配给M个Map函数;3)在Map阶段,对子数据进行局部聚类;4)在Reduce阶段,对相同key的类进行合并;5)如果实际聚类个数R小于聚类个数k,则调整代表点个数c与收缩因子,重新进行聚类,直到实际聚类个数R等于聚类个数k为止;6)如果N
【技术特征摘要】
1.一种基于云计算平台的大数据聚类算法,其特征在于,包括以下步骤:1)对原始数据集进行预处理;2)将数据U分割为M个子数据,并分配给M个Map函数;3)在Map阶段,对子数据进行局部聚类;4)在Reduce阶段,对相同key的类进行合并;5)如果实际聚类个数R小于聚类个数k,则调整代表点个数c与收缩因子,重新进行聚类,直到实际聚类个数R等于聚类个数k为止;6)如果...
【专利技术属性】
技术研发人员:孟海东,任敬佩,宋宇辰,
申请(专利权)人:内蒙古科技大学,
类型:发明
国别省市:内蒙古,15
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。