一种海量数据预处理方法及其系统技术方案

技术编号:8022485 阅读:287 留言:0更新日期:2012-11-29 04:43
本发明专利技术涉及一种海量数据预处理方法及其系统,通过以相关系数作为数据降维和压缩的依据,有效的利用的属性之间的相关性。将海量数据以时间片轮转的方式进行存储和顺序编号,通过随机数生成算法和取模运算后,确定抽样样本的编号。提取样本后进行相关性的分析,将属性间的相关系数作为属性相关性矩阵的值,通过相关系数的计算得到体现属性相关性的权值。权值越大即属性的相关性越强,反之亦然。以相关性分析为基础,将相关性强的属性在降维过程中吸收掉,将相关性弱的属性进行聚类分析,有效的利用属性相关性,在保持原数据内在信息的基础上,实现海量数据的降维和压缩。

【技术实现步骤摘要】

本专利技术涉及数据处理领域,具体涉及一种基于相关系数的海量数据预处理方法及其系统
技术介绍
随着信息化时代的到来,计算机的使用已经深入到了我们的工作和生活的各个方面,在众多的领域中,数据量都正在爆炸式的增长。当数据量增长超过普通桌面硬盘的存储容量时,称之为海量数据。海量数据是一种重要的数据资源,包含了很多有用的信息。如何对海量的数据进行管理并从中提取有用的知识是现在面临的一个重大的问题。数据挖掘中的预处理主要是接受并理解用户的发现要求,确定发现任务,抽取与发现任务相关的知识源,根据与知识源相关的背景知识中的约束性规则对数据进行检查,通过清理和归纳等操作,生成供挖掘核心算法使用的目标数据,即知识基。知识基是原始数据库经过数据汇集处理得到的二维表,纵向为属性,横向为元组。它汇集了原始数据库中与发现任务相关的所有数据的总体特征,是知识发现状态空间的基地,也可以认为是最初始的知识模板。而海量数据预处理的主要任务是对数据的纵向降维和横向压缩。目前对海量数据的处理大部分是采用分布式、硬件升级以及云计算相结合的方式来解决。如果不采用有效的预处理技术,将极大的浪费这些宝贵的资源增加数据处理系统的压力,因此找到一种高效的对海量数据的预处理的方法十分必要。
技术实现思路
针对现有技术的不足,本专利技术提供一种海量数据预处理方法及其系统,可以有效的对海量数据进行降维和压缩,便于从中提取有用的信息,提高资源的利用率,而不损失原数据的内在信息。本专利技术提供的一种海量数据预处理方法,其改进之处在于,所述方法包括如下步骤(I)将海量数据以时间片轮转的方式进行存储,存储为文本文件并从小到大顺序编号;(2)通过随机数生成算法和取模运算后,得到时间片编号,将此编号的时间片作为海量数据属性相关性分析的抽样样本;(3)计算所述抽样样本中各个属性间的相关系数,建立属性相关系数为权值的矩阵;(4)将所述矩阵通过和值计算得到各个属性的相关性权值Wi,该权值代表了该属性和其它属性的相关性程度。(5)将属性的相关性权值Wi (其中i G ),按照由大到小顺序进行排序,体现了属性相关性的强弱排序;(6)选取所述相关性权值Wi由大到小的前n个属性为要压缩的属性;(7)将选取的n个属性从属性集中去除,留q_n个属性,完成数据降维的过程;其中,n为要降的维度,q为属性个数;(8)选取所述相关性权值Wi由小到大的前m个属性;其中m+n〈=q ;m为聚类分析的维数;(9)将所述m个属性进行聚类分析,设定压缩后的数据数量,采用k中心算法对其进行计算分析,从而使数据压缩为设定的量,并使压缩后的数据具有代表性且保持数据间的相互关系。优选的,步骤(2)所述采用一个随机数产生器,通过随机数产生算法,将产生的数值对时间片的总数取模计算,得到的值作为抽样时间片的编号;通过随机数产生器产生随机数,对时间片总数取模运算,得到抽样时间片编号的公式为num = rand ()mod sum ; 其中,rand()为随机数产生器,sum为时间片的总数,num为最后抽样的时间片编号。优选的,步骤(3)计算属性的相关系数的公式为权利要求1.一种海量数据预处理方法,其特征在于,所述方法包括如下步骤 (1)将海量数据以时间片轮转的方式进行存储,存储为文本文件并从小到大顺序编号; (2)通过随机数生成算法和取模运算后,得到时间片编号,将此编号的时间片作为海量数据属性相关性分析的抽样样本; (3)计算所述抽样样本中各个属性间的相关系数,建立属性相关系数为权值的矩阵; (4)将所述矩阵通过和值计算得到各个属性的相关性权值Wi; (5)将属性的相关性权值Wi,按照由大到小顺序进行排序; (6)选取所述相关性权值Wi由大到小的前n个属性为要压缩的属性; (7)将选取的n个属性从属性集中去除,留q_n个属性,完成数据降维的过程;其中,n为要降的维度,q为属性个数; (8)选取所述相关性权值wi由小到大的前m个属性;其中m+n〈=q;m为聚类分析的维数; (9)将所述m个属性进行聚类分析,设定压缩后的数据数量,采用k中心算法对其进行计算分析,从而使数据压缩为设定的量,并使压缩后的数据具有代表性且保持数据间的相互关系。2.如权利要求I所述的预处理方法,其特征在于,步骤(2)所述采用一个随机数产生器,通过随机数产生算法,将产生的数值对时间片的总数取模计算,得到的值作为抽样时间片的编号; 通过随机数产生器产生随机数,对时间片总数取模运算,得到抽样时间片编号的公式为num = rand Omodsum ; 其中,rand()为随机数产生器,sum为时间片的总数,num为最后抽样的时间片编号。3.如权利要求I所述的预处理方法,其特征在于,步骤(3)计算属性的相关系数的公式为 _ ^(A-A)(B-B) ^ (q-l)aAa,, 其中,I和I分别是A和B的均值,0 A和0 B是A和B的标准差,q为属性个数。4.如权利要求I所述的预处理方法,其特征在于,步骤(3)所述属性相关系数为权值的矩阵为 1 …jU1 r H r_ qJm_ 其中,该矩阵为对称矩阵,r.j为属性i、j的相关系数,q为属性个数。5.如权利要求I所述的预处理方法,其特征在于,步骤(3)和值计算公式为 W>4Zi|l;l 其中,为属性i、j的相关系数,q为属性个数。6.如权利要求I所述的预处理方法,其特征在于,步骤(2)采用一个随机数产生器,将产生的数值对所述时间片的总数进行取模计算,得到时间片编号。7.如权利要求3所述的预处理方法,其特征在于,所述计算属性的相关系数公式中,若rAB > O,则A增加B也增加,rAB越大,则A、B之间的关联就越紧密;若rAB = 0,则A和B是独立的;若< 0,则A和B是负相关的,一个值随另一个值的减少而增加。8.—种海量数据预处理系统,其特征在于,所述系统包括海量数据抽样模块、相关系数矩阵处理模块、数据降维模块和数据压缩模块; 所述海量数据抽样模块用于对海量数据以时间片轮转的方式进行存储,通过随机数生成算法和取模运算后,得到时间片编号,将此编号的时间片作为海量数据属性相关性分析的抽样样本; 所述相关系数矩阵处理模块用于得到抽样样本后,计算属性间数据相关系数,建立以相关系数为权值的属性相关性矩阵,并对通过矩阵的和值计算得到的相关性权值排序; 所述数据降维模块用于选取与其它属性相关性强的属性进行降维; 所述数据压缩模块用于选取降维之后的与其它属性相关性弱的属性进行聚类分析。9.如权利要求7所述的预处理系统,其特征在于,采用一个随机数产生器,通过随机数产生算法,将产生的数值对时间片的总数取模计算,得到的值作为时间片编号; 所述通过随机数产生器产生随机数,对时间片总数取模运算,得到抽样时间片编号的公式为num = rand Omodsum ; 其中,rand()为随机数产生器,sum为时间片的总数,num为最后抽样的时间片编号。10.如权利要求7所述的预处理系统,其特征在于,所述相关系数矩阵处理模块计算属性间相关系数的公式为 其中,S和5分别是A和B的均值,%和%是八和B的标准差,q为属性个数;若rAB> 0,则A增加B也增加,rAB越本文档来自技高网...

【技术保护点】
一种海量数据预处理方法,其特征在于,所述方法包括如下步骤:(1)将海量数据以时间片轮转的方式进行存储,存储为文本文件并从小到大顺序编号;(2)通过随机数生成算法和取模运算后,得到时间片编号,将此编号的时间片作为海量数据属性相关性分析的抽样样本;(3)计算所述抽样样本中各个属性间的相关系数,建立属性相关系数为权值的矩阵;(4)将所述矩阵通过和值计算得到各个属性的相关性权值wi;(5)将属性的相关性权值wi,按照由大到小顺序进行排序;(6)选取所述相关性权值wi由大到小的前n个属性为要压缩的属性;(7)将选取的n个属性从属性集中去除,留q?n个属性,完成数据降维的过程;其中,n为要降的维度,q为属性个数;(8)选取所述相关性权值wi由小到大的前m个属性;其中m+n<=q;m为聚类分析的维数;(9)将所述m个属性进行聚类分析,设定压缩后的数据数量,采用k中心算法对其进行计算分析,从而使数据压缩为设定的量,并使压缩后的数据具有代表性且保持数据间的相互关系。

【技术特征摘要】
...

【专利技术属性】
技术研发人员:李伟伟邓松张涛林为民时坚汪晨周诚管小娟朱其军蒋静刘时敏钱炫宇
申请(专利权)人:中国电力科学研究院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1