一种海量数据预处理方法及其系统技术方案

技术编号：8022485 阅读：292 留言：0更新日期：2012-11-29 04:43

本发明专利技术涉及一种海量数据预处理方法及其系统，通过以相关系数作为数据降维和压缩的依据，有效的利用的属性之间的相关性。将海量数据以时间片轮转的方式进行存储和顺序编号，通过随机数生成算法和取模运算后，确定抽样样本的编号。提取样本后进行相关性的分析，将属性间的相关系数作为属性相关性矩阵的值，通过相关系数的计算得到体现属性相关性的权值。权值越大即属性的相关性越强，反之亦然。以相关性分析为基础，将相关性强的属性在降维过程中吸收掉，将相关性弱的属性进行聚类分析，有效的利用属性相关性，在保持原数据内在信息的基础上，实现海量数据的降维和压缩。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及数据处理领域，具体涉及一种基于相关系数的海量数据预处理方法及其系统。
技术介绍
随着信息化时代的到来，计算机的使用已经深入到了我们的工作和生活的各个方面，在众多的领域中，数据量都正在爆炸式的增长。当数据量增长超过普通桌面硬盘的存储容量时，称之为海量数据。海量数据是一种重要的数据资源，包含了很多有用的信息。如何对海量的数据进行管理并从中提取有用的知识是现在面临的一个重大的问题。数据挖掘中的预处理主要是接受并理解用户的发现要求，确定发现任务，抽取与发现任务相关的知识源，根据与知识源相关的背景知识中的约束性规则对数据进行检查，通过清理和归纳等操作，生成供挖掘核心算法使用的目标数据，即知识基。知识基是原始数据库经过数据汇集处理得到的二维表，纵向为属性，横向为元组。它汇集了原始数据库中与发现任务相关的所有数据的总体特征，是知识发现状态空间的基地，也可以认为是最初始的知识模板。而海量数据预处理的主要任务是对数据的纵向降维和横向压缩。目前对海量数据的处理大部分是采用分布式、硬件升级以及云计算相结合的方式来解决。如果不采用有效的预处理技术，将极大的浪费这些宝贵的资源增加数据处理系统的压力，因此找到一种高效的对海量数据的预处理的方法十分必要。
技术实现思路
针对现有技术的不足，本专利技术提供一种海量数据预处理方法及其系统，可以有效的对海量数据进行降维和压缩，便于从中提取有用的信息，提高资源的利用率，而不损失原数据的内在信息。本专利技术提供的一种海量数据预处理方法，其改进之处在于，所述方法包括如下步骤(I)将海量数据以时间片轮转的方式进行存储，存储为文本文件并从小...

【技术保护点】
一种海量数据预处理方法，其特征在于，所述方法包括如下步骤：（1）将海量数据以时间片轮转的方式进行存储，存储为文本文件并从小到大顺序编号；（2）通过随机数生成算法和取模运算后，得到时间片编号，将此编号的时间片作为海量数据属性相关性分析的抽样样本；（3）计算所述抽样样本中各个属性间的相关系数，建立属性相关系数为权值的矩阵；（4）将所述矩阵通过和值计算得到各个属性的相关性权值wi；（5）将属性的相关性权值wi，按照由大到小顺序进行排序；（6）选取所述相关性权值wi由大到小的前n个属性为要压缩的属性；（7）将选取的n个属性从属性集中去除，留q？n个属性，完成数据降维的过程；其中，n为要降的维度，q为属性个数；（8）选取所述相关性权值wi由小到大的前m个属性；其中m+n<=q；m为聚类分析的维数；（9）将所述m个属性进行聚类分析，设定压缩后的数据数量，采用k中心算法对其进行计算分析，从而使数据压缩为设定的量，并使压缩后的数据具有代表性且保持数据间的相互关系。

【技术特征摘要】
...

【专利技术属性】
技术研发人员：李伟伟，邓松，张涛，林为民，时坚，汪晨，周诚，管小娟，朱其军，蒋静，刘时敏，钱炫宇，
申请(专利权)人：中国电力科学研究院，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人