基于Spark内存计算大数据平台的CLR多标签数据分类方法技术

技术编号:14875682 阅读:82 留言:0更新日期:2017-03-23 23:16
本发明专利技术提供一种基于Spark大数据平台的CLR多标签分类方法,涉及数据挖掘技术。本发明专利技术通过特征与标签的关系将每个数据集划分成一个区;将训练集中的数据集随机抽取一部分当作测试集,剩余的数据集当训练集建立基分类器,再将测试集用来测试分类器并修改其基分类器的参数,从而在训练的多个基分类器中选取最好的一个基分类器作为本数据集的基分类器。利用最终的多个基分类器对预测集进行预测。本发明专利技术结合了CLR多标签学习算法和Spark基于内存的高效计算理论,充分利用了CLR算法中标签转化后的无相关性,降低了不同的基分类器之间的干扰性,再充分利用Spark的计算框架的运行速度,能有效的对数据进行挖掘。

【技术实现步骤摘要】

本专利技术涉及计算机信息处理,数据挖掘
,提供了一种基于Spark大数据平台的校准标签排序算法CLR(CalibratedLabelRanking)多标签数据挖掘方法。
技术介绍
随着信息技术的发展,互联网数据及资源呈海量特征。为了有效地管理和利用这些海量信息,基于内容的信息检索和数据挖掘逐渐成为备受关注的领域。在数据量不断增大的同时,数据的标注结构复杂程度也在增加,传统的单标签数据挖掘已经不能满足技术发展的需要,多标签数据挖掘的重要性逐渐突显,该项技术所涉及到的应用也在不断地增加,例如图像视频的语义标注、基因功能组、音乐情感分类以及营销指导等,这些已经成为了当今研究的一个热点。利用数据挖掘技术在海量数据中挖掘出未知的信息,给用户提供一个合理的预测分析。大数据的分析结果更多是为决策者和普通用户提供决策支持和参考,其对较为深奥的数据含义不会太了解。因此,提供一种对未来趋势的预测分析的思路。这种预测分析得到了广大用户的好评。数据挖掘这一学科近年来发展十分迅速,不仅产生了大量不同类型的挖掘算法,而且也表现出与机器学习等学科深度融合的态势。数据挖掘一般是指从大量的数据中通过算法搜索隐藏于其中信息的过程,利用了来自如下一些领域的思想:(1)来自统计学的抽样、估计和假设检验,(2)人工智能、模式识别和机器学习的搜索算法、建模技术和学习理论。数据挖掘也迅速地接纳了来自其他领域的思想,这些领域包括最优化、进化计算、信息论、信号处理、可视化和信息检索。一些其他领域也起到重要的支撑作用。特别地,需要数据库系统提供有效的存储、索引和查询处理支持。源于高性能(并行)计算的技术在处理海量数据集方面常常是重要的。分布式技术也能帮助处理海量数据,并且当数据不能集中到一起处理时更是至关重要。Spark是一个基于内存的分布式计算系统,是由UCBerkeleyAMPLab实验室开发的开源数据分析集群计算框架。Spark基于内存计算,提高了在大数据环境下数据处理的实时性,同时保证了高容错性和高可伸缩性,允许用户将Spark部署在大量廉价硬件纸上,形成集群。拥有MapReduce的所有优点,与MapReduce不同的是.Spark将计算的中间结果数据持久地存储在内存中,通过减少磁盘I/O。使后续的数据运算效率更高。Spark的这种架构设计尤其适合于机器学习、交互式数据分析等应用,这些应用都需要重复地利用计算的中间数据。在Spark和Hadoop的性能基准测试对比中,运行基于内存的logisticregression,在迭代次数相同的情况下,Spark的性能超出HadoopMapReduce100倍以上。Spark不局限于MapReduce简单的编程范式,Spark是基于内存计算的大数据并行计算框架。同时在上层支持图计算、迭代式计算、流式计算、内存SQL等多种计算范式,因此相对于MapReduce更具有通用性。为了支持在多次迭代计算过程中重复利用内存数据集,Spark在借鉴传统分布式共享内存思想的基础上,提出了一种新的数据抽象模型RDD(resilientdistributeddataset),RDD是只读、支持容错、可分区的内存分布式数据集。可以一部分或者全部缓存在集群内存中,以便在多次计算过程中重用。用户可以显式控制RDD的分区、物化、缓存策略等,同时RDD提供了一套丰富的编程接口,供用户操作。RDD是Spark分布式计算的核心,Spark的所有计算模式都必须围绕RDD进行。RDD是一种分布式的内存抽象,表示只读的、分区记录的集合,它只能通过在稳定物理存储中的数据集或其它已有的RDD上执行一些确定性操作(并行操作中的转换操作)来创建,并行操作包括转换(transform)和动作(action)两种类型。转换表示对现有的RDD创建一个新的RDD,动作则表示在RDD上执行计算,结果返回一个普通的类型值或将RDD中的数据输出到存储系统中。RDD之间的依赖关系有两种:窄依赖(narrowdependencies)和宽依赖(widedependencies)。窄依赖是指父RDD分区至多被一个子RDD的每个分区所依赖;宽依赖是指子RDD的多个分区都依赖于父RDD的每个分区。机器学习(MachineLearning,ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。它是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域,它主要使用归纳、综合而不是演绎。机器学习是继专家系统之后人工智能应用的又一重要研究领域,也是人工智能和神经计算的核心研究课题之一。现有的计算机系统和人工智能系统没有什么学习能力,至多也只有非常有限的学习能力,因而不能满足科技和生产提出的新要求。对机器学习的讨论和机器学习研究的进展,必将促使人工智能和整个科学技术的进一步发展。BR(BinaryRelevance)二元关系法。该方法为每一个标签λj产生一个单独的数据集,总共产生n个数据集Dλj(j=1…n),每个数据集包含训练集中的全部样本。对于任意j个数据集Dλj,包含在该数据集中的所有样本仅被标注出是否属于λj,用该数据集训练一个仅输出样本是否属于λj的二分类器,为每一个标签训练一个二分类器。对于一个未知类别样本,将全部二分类器结果组合在一起即得到了该样本最终的标签分类结果。RPC(RankingbyPairwiseComparison)成对比较排序法,RPC算法为每一对标签(λi,λj)(1≤i≤j≤n)产生一个数据集,该数据集中仅选取被这一对标签中的某个标签所标注的样本(不包括被这两个标签同时标注的样本),总共将产生C2n个数据集,用每一个数据集训练出一个二分类器(因为每个分类器只需要处理(﹁λi,λj)和(λi,﹁λj)两种情况)。在预测一个未知样本时,所有的二分类器被激活,通过“委员会投票机制”,根据每个标签所得票数得出所有与该样本相关标签的排序。MLPP(Multi-LabelPairwisePerceptron)多标签成对感知器算法是RPC应用的一个实例,该方法将RPC运用于感知器来解决多标签分类问题。CLR(CalibratedLabelRanking)校准的标签排序算法,该算法是RPC算法的拓展,该算法在RPC的基础上加入了一个人工的校准标签,该标签作为标签集中相关标签和不相关标签集合的分割点。新增加的校准标签与其他真实标签组合的模型中,每一个训练样本对于其相关标签是一个正例,而对于校准标签是负例;对于其不相关标签是一个负例,而对于校准标签是一个正例。通过CLR方法处理多标签数据将会同时产生BR和RPC的结果。CLR的优点采用了投票选择的机制和考虑了BR算法的标签间非关系和RPC标签间的关系,其导致了算法计算更加复杂,大大的增加了时间空间的复杂性,给计算和存储带来了极大的压力。综上所述,现有技术采用的数据分类和处理方法,从数据获取后不能及时有效的利用大量的历史数据并从中快速地挖掘出有利的信息,不能快速地进行数据的处理,建立模型耗费大量时间
技术实现思路
本专利技术针对现有技术存在的从数本文档来自技高网
...
<a href="http://www.xjishu.com/zhuanli/55/201611120338.html" title="基于Spark内存计算大数据平台的CLR多标签数据分类方法原文来自X技术">基于Spark内存计算大数据平台的CLR多标签数据分类方法</a>

【技术保护点】
一种基于Spark内存计算大数据平台的CLR多标签学习分类方法,其特征在于,包括步骤:获取历史数据,转化成Spark平台的分布式数据集RDD;利用Spark的RDD构建训练集特征,将训练集特征与其对应的多标签结合;并行计算将多标签及其特征进行标签转化形成训练集组;从所有训练集组中随机取出一部分作为训练测试集,用训练集训练基分类器,用训练测试集对经过训练的基分类器进行预测结果分析和模型参数调整;将预测集中的每个数据样本在训练好的所有基分类器中进行预测,将预测结果转化为对应的标签,获得预测标签;转化预测标签并同类合并,投票选取标签预测结果,统一预测集特征与选取的标签,并保存结果。

【技术特征摘要】
1.一种基于Spark内存计算大数据平台的CLR多标签学习分类方法,其特征在于,包括步骤:获取历史数据,转化成Spark平台的分布式数据集RDD;利用Spark的RDD构建训练集特征,将训练集特征与其对应的多标签结合;并行计算将多标签及其特征进行标签转化形成训练集组;从所有训练集组中随机取出一部分作为训练测试集,用训练集训练基分类器,用训练测试集对经过训练的基分类器进行预测结果分析和模型参数调整;将预测集中的每个数据样本在训练好的所有基分类器中进行预测,将预测结果转化为对应的标签,获得预测标签;转化预测标签并同类合并,投票选取标签预测结果,统一预测集特征与选取的标签,并保存结果。2.根据权利要求1所述的方法,其特征在于,创建一个程序入口SparkContext对象负责连接Spark集群,创建分布式数据集RDD累积量和广播量,然后用SparkContext对象直接转化已读取的数据parallelize,根据数据集地址读取并转化数据集textFile函数将读取的数据转化成Spark平台的分布式数据集RDD,该分布式数据集可以被并行操作。3.根据权利要求1所述的方法,其特征在于,将预测结果转化为对应的标签时,当多个预测结果对应预测集中样本的一个标签时,采用投票的方式选取统计数量最多的一个标签预测结果,如果统计数量相同,对标签预测结果采用RPC转化获得奇数个标签预测结果,再采用投票的方式选取统计数量最多的一个标签预测结果,合并特征和对应的标签...

【专利技术属性】
技术研发人员:胡峰张其龙邓维斌于洪张清华
申请(专利权)人:重庆邮电大学
类型:发明
国别省市:重庆;50

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1