一种重复数据的检查处理方法技术

技术编号：12014890 阅读：109 留言：0更新日期：2015-09-06 01:24

本发明专利技术公开了一种重复数据的检查处理方法，该方法包括：A、获取待校验数据，初始化待校验数据的数据结构；B、计算获得待校验数据中各条数据的散列码；C、根据各条数据的散列码，检查各条数据之间是否存在重复数据，并根据检查结果更新各条数据的标记码；D、将已更新标记码的各条数据发送到各分布式计算节点中，以供各分布式计算节点比对所述已更新标记码的各条数据与本地数据之间是否存在重复数据；E、将各分布式计算节点比对后的各条数据发送到汇总节点。采用本发明专利技术实施例，能缩短海量数据的对比时间，提高数据查找和清理的效率。

全部详细技术资料下载

【技术实现步骤摘要】
【专利摘要】本专利技术公开了，该方法包括：A、获取待校验数据，初始化待校验数据的数据结构；B、计算获得待校验数据中各条数据的散列码；C、根据各条数据的散列码，检查各条数据之间是否存在重复数据，并根据检查结果更新各条数据的标记码；D、将已更新标记码的各条数据发送到各分布式计算节点中，以供各分布式计算节点比对所述已更新标记码的各条数据与本地数据之间是否存在重复数据；E、将各分布式计算节点比对后的各条数据发送到汇总节点。采用本专利技术实施例，能缩短海量数据的对比时间，提高数据查找和清理的效率。【专利说明】
本专利技术涉及计算机
，尤其涉及。
技术介绍
随着移动互联网络、物联网和企业信息化的快速发展，企业每天产生的数据数以万计，数据规模呈现海量增长趋势，对企业在数据存储和处理方面都提出了更高的要求。而找出重复数据进行清除是减少数据存储进而降低处理要求的一种方式。重复数据清理技术旨在清除冗余的备份数据、确保只有"独有的"数据存储在磁盘上。即容量优化保护技术。重复数据清理技术的关键是只保留唯一的数据实例，有效地解决了"容量膨胀"的效率问题。而由于中文数据之间没有空格进行分割，造成数据查找识别上的困难，因此，现有大部分的研究都只是针对英文数据的清除处理。对中文重复数据的检查清理首先需要将数据进行查找，筛选出重复数据，再进行清除或其他处理。而重复数据的查找最直观的方法是将每一个记录与数据库中其余记录逐个进行对比，该方法精确度高。但是没有考虑到字段不等长、中文字段语义重点偏后等重复记录特点。面对海量数据时，由...

【技术保护点】
一种重复数据的检查处理方法，其特征在于，包括：A、获取待校验数据，初始化所述待校验数据的数据结构；B、计算获得所述待校验数据中各条数据的散列码；C、根据所述各条数据的散列码，检查所述各条数据之间是否存在重复数据，并根据检查结果更新所述各条数据的标记码；D、将所述已更新标记码的各条数据发送到各分布式计算节点中，以供各分布式计算节点比对所述已更新标记码的各条数据与本地数据之间是否存在重复数据；E、将各分布式计算节点比对后的各条数据发送到汇总节点。

【技术特征摘要】

【专利技术属性】
技术研发人员：李爱民，陈承志，龙庆麟，梁国辉，熊道勇，
申请(专利权)人：广州科腾信息技术有限公司，
类型：发明
国别省市：广东;44

全部详细技术资料下载我是这个专利的主人