一种数据处理系统技术方案

技术编号:14766413 阅读:55 留言:0更新日期:2017-03-08 10:51
本发明专利技术提供了一种数据处理系统,其包括:初始化数据模块:将分布在局域网中的不同存储空间中的数据进行合并,将数据中的缺省项进行补充完整并清洗脏数据;数据选择模块:从所述初始化处理的数据中将不同格式的数据转化为统一格式;数据预处理模块:检查所述统一格式的数据,并对数据进行处理;数据挖掘模块:其具体执行以下操作:确定要发现的目标数据的特征值;根据目标数据的具体特征值类型选择相应的数据挖掘算法;采用所述挖掘算法对数据进行处理后导出并存储。本发明专利技术提供的数据处理系统通过对不同的存储空间内存储的数据进行处理优化,根据目标数据的特征值通过挖掘算法进行找寻,本发明专利技术在数据搜索时的速率提高,且搜索精度得到很大的保障。

【技术实现步骤摘要】

本专利技术涉及到数据处理
,特别是一种用于数据挖掘的数据处理系统
技术介绍
目前,随着计算机应用的日益广泛以及不同领域的业务种类的日益丰富,从与特定的对象相关的海量数据记录中有效地挖掘出不同类别的对象以便针对不同类别的对象实施不同的处理方案变的越来越重要。在现有的技术方案中,通常根据与目标对象相关联的一个或多个属性数据来对目标对象进行分类,即基于每个目标对象的某个或某些特定的属性数据的值对目标对象进行分类。现有的技术方案存在如下问题:由于仅仅基于单一或数个属性数据对目标对象进行分类,故分类结果的精确度较低,并且由于需要对每个目标对象的属性数据进行相同的评估操作,故数据挖掘的效率较低。因此,存在如下需求:提供能够根据目标对象的综合特征来挖掘和分类目标对象的基于局域网的数据处理系统。
技术实现思路
为解决上述技术问题,本专利技术提供了一种数据处理系统,其包括:初始化数据模块:将分布在局域网中的不同存储空间中的数据进行合并,将数据中的缺省项进行补充完整并清洗脏数据;数据选择模块:从所述初始化处理的数据中将不同格式的数据转化为统一格式;数据预处理模块:检查所述统一格式的数据,将含有噪声数据、冗余的数据剔除,对缺省数据进行补充,同时对数据通过编码进行标识,将数据转化为0和1区分的数值型数据;数据挖掘模块:其具体执行以下操作:确定挖掘目标:确定要发现的数据关键词、数据类型、数据名称、存储日期作为目标数据的特征值;选择算法:根据目标数据的具体特征值类型选择相应的数据挖掘算法;数据挖掘:采用所述挖掘算法对数据进行处理,将挖掘出的数据附加上标识后导出并存储。较佳地,所述局域网中的不同存储空间为局域网中的服务器。较佳地,所述挖掘算法为k—means聚类算法或者基于层次的聚类分析算法。较佳地,所述缺省数据的补充内容包括数据扩展名与系统存储路径。较佳地,所述脏数据是指源系统中的数据不在给定的范围内或对于实际业务毫无意义,或是数据格式非法,以及在源系统中存在不规范的编码和含糊的业务逻辑的数据。本专利技术具有以下有益效果:本专利技术提供的数据处理系统通过对不同的存储空间内存储的数据进行处理优化,根据目标数据的特征值通过挖掘算法进行找寻,本专利技术在数据搜索时的速率提高,且搜索精度得到很大的保障。当然,实施本专利技术的任一产品并不一定需要同时达到以上所述的所有优点。附图说明为了更清楚地说明本专利技术实施例的技术方案,下面将对实施例描述所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1为本专利技术实施例提供的数据处理系统示意图。具体实施方式下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都属于本专利技术保护的范围。如图1所示,本专利技术实施例提供了一种数据处理系统,其包括:初始化数据模块1:将分布在局域网中的不同存储空间中的数据进行合并,将数据中的缺省项进行补充完整并清洗脏数据;数据选择模块2:从所述初始化处理的数据中将不同格式的数据转化为统一格式;数据预处理模块3:检查所述统一格式的数据,将含有噪声数据、冗余的数据剔除,对缺省数据进行补充,同时对数据通过编码进行标识,将数据转化为0和1区分的数值型数据;数据挖掘模块4:其具体执行以下操作:确定挖掘目标:确定要发现的数据关键词、数据类型、数据名称、存储日期作为目标数据的特征值;选择算法:根据目标数据的具体特征值类型选择相应的数据挖掘算法;数据挖掘:采用所述挖掘算法对数据进行处理,将挖掘出的数据附加上标识后导出并存储。本实施例中,所述局域网中的不同存储空间为局域网中的服务器。其中所述挖掘算法为k—means聚类算法或者基于层次的聚类分析算法。所述缺省数据的补充内容包括数据扩展名与系统存储路径。所述脏数据是指源系统中的数据不在给定的范围内或对于实际业务毫无意义,或是数据格式非法,以及在源系统中存在不规范的编码和含糊的业务逻辑的数据。本专利技术提供的数据处理系统通过对不同的存储空间内存储的数据进行处理优化,根据目标数据的特征值通过挖掘算法进行找寻,本专利技术在数据搜索时的速率提高,且搜索精度得到很大的保障。以上公开的本专利技术优选实施例只是用于帮助阐述本专利技术。优选实施例并没有详尽叙述所有的细节,也不限制该专利技术仅为所述的具体实施方式。显然,根据本说明书的内容,可作很多的修改和变化。本说明书选取并具体描述这些实施例,是为了更好地解释本专利技术的原理和实际应用,从而使所属
技术人员能很好地理解和利用本专利技术。本专利技术仅受权利要求书及其全部范围和等效物的限制。本文档来自技高网
...
一种数据处理系统

【技术保护点】
一种数据处理系统,其特征在于,包括:初始化数据模块:将分布在局域网中的不同存储空间中的数据进行合并,将数据中的缺省项进行补充完整并清洗脏数据;数据选择模块:从所述初始化处理的数据中将不同格式的数据转化为统一格式;数据预处理模块:检查所述统一格式的数据,将含有噪声数据、冗余的数据剔除,对缺省数据进行补充,同时对数据通过编码进行标识,将数据转化为0和1区分的数值型数据;数据挖掘模块:其具体执行以下操作:确定挖掘目标:确定要发现的数据关键词、数据类型、数据名称、存储日期作为目标数据的特征值;选择算法:根据目标数据的具体特征值类型选择相应的数据挖掘算法;数据挖掘:采用所述挖掘算法对数据进行处理,将挖掘出的数据附加上标识后导出并存储。

【技术特征摘要】
1.一种数据处理系统,其特征在于,包括:初始化数据模块:将分布在局域网中的不同存储空间中的数据进行合并,将数据中的缺省项进行补充完整并清洗脏数据;数据选择模块:从所述初始化处理的数据中将不同格式的数据转化为统一格式;数据预处理模块:检查所述统一格式的数据,将含有噪声数据、冗余的数据剔除,对缺省数据进行补充,同时对数据通过编码进行标识,将数据转化为0和1区分的数值型数据;数据挖掘模块:其具体执行以下操作:确定挖掘目标:确定要发现的数据关键词、数据类型、数据名称、存储日期作为目标数据的特征值;选择算法:根据目标数据的具体特征值类型选择相应的数据挖掘算法;数据挖掘...

【专利技术属性】
技术研发人员:李让剑
申请(专利权)人:安徽天达网络科技有限公司
类型:发明
国别省市:安徽;34

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1