具有数据清洗的海量数据系统技术方案

技术编号:14491116 阅读:143 留言:0更新日期:2017-01-29 13:55
本发明专利技术公开了具有数据清洗的海量数据系统,包括:数据采集模块:从各类数据源收集数据到数据处理中心,数据处理模块:针对所述数据采集模块中采集到的经过初步加工的数据进行解码和格式转换,数据清洗模块:首先完成数据分析、定义错误类型,其次完成搜索、识别错误记录,最后修正错误;数据存储管理模块:对经过所述数据处理模块加工处理之后的数据进行存储管理;数据服务模块:实现客户对数据的访问需求,数据监控模块:对所述数据采集模块、数据处理模块、数据服务模块中的数据进行监控记录和处理。本发明专利技术能发现结构级错误和记录级错误并修正,解决值缺失、值错误、重复记录以及数据源内部与数据源之间不一致性的错误。

【技术实现步骤摘要】

本专利技术涉及一种数据系统,具体涉及具有数据清洗的海量数据系统
技术介绍
近年来,随着信息化技术的迅猛发展,收集、存储、处理和分析的数据量越来越大。面向海量数据的处理越来越火,区别于传统的数据结构化特点,大数据有三个特点,包括海量性、分布性、和异构性。其海量性主要是指数据规模的巨大并且增长速度持续增加;其分布性主要体现在巨大的数据量不能在一台机器上存储计算和分析;其异构性主要体现在数据类型和数据来源的多样化。利用传统的面向结构化数据的集中式处理方式,很难解决大数据带来的问题,针对这三个特性,面向大数据的集成和清洗变得尤为重要。大数据同时还包含不确定性数据,现阶段不确定数据产生的原因比较多样化,主要体现在原始数据不准确、使用粗粒度数据集合、数据字段缺失以及数据集成。
技术实现思路
本专利技术所要解决的技术问题是发现结构级错误和记录级错误并修正,目的在于提供具有数据清洗的海量数据系统,解决值缺失、值错误、重复记录以及数据源内部与数据源之间不一致性的错误。本专利技术通过下述技术方案实现:具有数据清洗的海量数据系统,包括:数据采集模块:从各类数据源收集数据到数据处理中心,针对所收集的各类数据进行初步加工,即格式检查和标准化处理;数据处理模块:针对所述数据采集模块中采集到的经过初步加工的数据进行解码和格式转换,生成标准格式的数据产品,设置每个数据的质量控制码,生成带有质量控制码的标准格式数据产品;对部分实时和非实时海量数据进行选取、融合以及统计加工,生成处理后的数据;数据清洗模块:首先完成数据分析、定义错误类型,其次完成搜索、识别错误记录,最后修正错误;数据存储管理模块:对经过所述数据处理模块加工处理之后的数据进行存储管理;数据服务模块:将所述数据存储管理模块存储的数据以各种方式与客户之间进行交互,实现客户对数据的访问需求,所述数据服务模块包括数据共享分发、元数据交换、Web检索服务、数据定制服务、数据直接服务、数据访问服务接口和用户服务管理;数据监控模块:对所述数据采集模块中的数据收集过程、多维数据集处理模块的多维度数据集、数据服务模块中的数据访问过程进行监控记录和处理。进一步地,错误类型包括结构级错误和记录级错误。进一步地,识别错误的方法是基于数据按照预定义的清理规则,查找不匹配的记录。进一步地,修正错误是指按照编制程序或借助于外部标准源文件或数据字典修正错误,又或者根据数理统计知识自动修正。本专利技术与现有技术相比,具有如下的优点和有益效果:发现结构级错误和记录级错误并修正,解决值缺失、值错误、重复记录以及数据源内部与数据源之间不一致性的错误。附图说明此处所说明的附图用来提供对本专利技术实施例的进一步理解,构成本申请的一部分,并不构成对本专利技术实施例的限定。在附图中:图1为本专利技术结构示意图。具体实施方式为使本专利技术的目的、技术方案和优点更加清楚明白,下面结合实施例和附图,对本专利技术作进一步的详细说明,本专利技术的示意性实施方式及其说明仅用于解释本专利技术,并不作为对本专利技术的限定。实施例如图1所示,具有数据清洗的海量数据系统,包括:数据采集模块:从各类数据源收集数据到数据处理中心,针对所收集的各类数据进行初步加工,即格式检查和标准化处理;数据处理模块:针对所述数据采集模块中采集到的经过初步加工的数据进行解码和格式转换,生成标准格式的数据产品,设置每个数据的质量控制码,生成带有质量控制码的标准格式数据产品;对部分实时和非实时海量数据进行选取、融合以及统计加工,生成处理后的数据;数据清洗模块:首先完成数据分析、定义错误类型,其次完成搜索、识别错误记录,最后修正错误;错误类型包括结构级错误和记录级错误;识别错误的方法是基于数据按照预定义的清理规则,查找不匹配的记录;修正错误是指按照编制程序或借助于外部标准源文件或数据字典修正错误,又或者根据数理统计知识自动修正。数据存储管理模块:对经过所述数据处理模块加工处理之后的数据进行存储管理;数据存储管理模块具有集中化备份管理、集中化复制管理、连续数据保护、分析和报告和简化管理的优点,提高了数据库可用性、增加了应用程序正常运行时间、减少了业务风险。数据服务模块:将所述数据存储管理模块存储的数据以各种方式与客户之间进行交互,实现客户对数据的访问需求,所述数据服务模块包括数据共享分发、元数据交换、Web检索服务、数据定制服务、数据直接服务、数据访问服务接口和用户服务管理;数据监控模块:对所述数据采集模块中的数据收集过程、数据处理模块的数据处理、数据服务模块中的数据访问过程进行监控记录和处理。以上所述的具体实施方式,对本专利技术的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本专利技术的具体实施方式而已,并不用于限定本专利技术的保护范围,凡在本专利技术的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本专利技术的保护范围之内。本文档来自技高网...
具有数据清洗的海量数据系统

【技术保护点】
具有数据清洗的海量数据系统,其特征在于,包括:数据采集模块:从各类数据源收集数据到数据处理中心,针对所收集的各类数据进行初步加工,即格式检查和标准化处理;数据处理模块:针对所述数据采集模块中采集到的经过初步加工的数据进行解码和格式转换,生成标准格式的数据产品,设置每个数据的质量控制码,生成带有质量控制码的标准格式数据产品;对部分实时和非实时海量数据进行选取、融合以及统计加工,生成处理后的数据;数据清洗模块:首先完成数据分析、定义错误类型,其次完成搜索、识别错误记录,最后修正错误;数据存储管理模块:对经过所述数据处理模块加工处理之后的数据进行存储管理;数据服务模块:将所述数据存储管理模块存储的数据以各种方式与客户之间进行交互,实现客户对数据的访问需求,所述数据服务模块包括数据共享分发、元数据交换、Web检索服务、数据定制服务、数据直接服务、数据访问服务接口和用户服务管理;数据监控模块:对所述数据采集模块中的数据收集过程、数据处理模块的数据处理、数据服务模块中的数据访问过程进行监控记录和处理。

【技术特征摘要】
1.具有数据清洗的海量数据系统,其特征在于,包括:数据采集模块:从各类数据源收集数据到数据处理中心,针对所收集的各类数据进行初步加工,即格式检查和标准化处理;数据处理模块:针对所述数据采集模块中采集到的经过初步加工的数据进行解码和格式转换,生成标准格式的数据产品,设置每个数据的质量控制码,生成带有质量控制码的标准格式数据产品;对部分实时和非实时海量数据进行选取、融合以及统计加工,生成处理后的数据;数据清洗模块:首先完成数据分析、定义错误类型,其次完成搜索、识别错误记录,最后修正错误;数据存储管理模块:对经过所述数据处理模块加工处理之后的数据进行存储管理;数据服务模块:将所述数据存储管理模块存储的数据以各种方式与客户之间进行交互,实现客户对数据的访...

【专利技术属性】
技术研发人员:朱焰冰
申请(专利权)人:成都卡莱博尔信息技术股份有限公司
类型:发明
国别省市:四川;51

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1