一种数据清洗方法技术

技术编号：24455833 阅读：21 留言：0更新日期：2020-06-10 15:31

本发明专利技术提供了一种数据清洗方法，包括：获取待清洗的训练样本集合，对训练样本集合进行转码后存储到数据文件中；提取并将训练样本集合中第一行训练样本的数据转化成二维数组数据，以作为特征向量；对得到的特征向量进行聚类处理，挑选出类别性质相近的数据，以确定训练样本集合中孤立的训练样本；基于孤立的训练样本，将异常、冗余的训练样本集合标注为离群点；删除离群点，对象再次聚类；响应于检测到针对目标数量训练样本中的训练样本的删除操作，删除上述操作所指示的训练样本，得到清洗后的训练样本集合；将清洗后的数据按照原顺序格式复制粘贴于新的数据文件中；不断更新清洗后的样本数据。本发明专利技术可以提高数据清洗的效率以及质量。

A data cleaning method

全部详细技术资料下载

【技术实现步骤摘要】
一种数据清洗方法
本专利技术涉及数据处理
，具体而言，涉及一种数据清洗方法。
技术介绍
目前，因调研数据和轻量级数据的多变性，对数据往往采取人工清洗的方式，其缺少统一、标准的清洗流程。而人工清洗数据的方式存在以下问题：1、数据清洗耗时长，人工清洗的方式依赖于操作人员进行数据判断，且判断后需要一步步完成清洗，需要大量时间；2、数据清洗容易出现遗漏，操作人员在进行大量数据操作时会因为某些条件遗漏而导致部分样本未被清洗；3、数据清洗结果不稳定，数据清洗的结果会因操作人员的不同而出现清洗结果不一致的问题。经过大量检索发现一些典型的现有技术，如图3所示，申请号为201010578479.9的专利公开了一种数据清洗方法及装置，其可以同时对多类别数据进行清洗，适用于数据分类处理。又如图4所示，申请号为201610959853.7的专利公开了一种海量数据的清洗方法和系统，其用于提高数据清洗的速度和效率。又如图5所示，申请号为201210289550.0的专利公开了一种海量数据的清洗方法及装置，其能够对海量数据进行有效的清洗。可见，如何对数据进行清洗，其实际应用中的亟待处理的实际问题(如提高数据清洗的效率等)还有很多未提出具体的解决方案。
技术实现思路
为了克服现有技术的不足提供了一种数据清洗方法，本专利技术的具体技术方案如下：一种数据清洗方法，其包括以下步骤：步骤1，获取待清洗的训练样本集合，对训练样本集合进行转码后存储到数据文件中；步骤2，提取训练样本集合中第一行训...

【技术保护点】
1.一种数据清洗方法，其特征在于，包括以下步骤：/n步骤1，获取待清洗的训练样本集合，对训练样本集合进行转码后存储到数据文件中；/n步骤2，提取训练样本集合中第一行训练样本的数据，并将训练样本集合中第一行训练样本的数据转化成二维数组数据，以作为特征向量；/n步骤3，对得到的特征向量进行聚类处理，通过欧式距离挑选出类别性质相近的数据，以确定训练样本集合中孤立的训练样本；/n步骤4，基于所确定的孤立的训练样本，将异常、冗余的训练样本集合标注为离群点；/n步骤5，删除离群点，对象再次聚类；/n步骤6，响应于检测到针对目标数量训练样本中的训练样本的删除操作，删除上述操作所指示的训练样本，得到清洗后的训练样本集合；/n步骤7，将清洗后的数据按照原顺序格式复制粘贴于新的数据文件中；/n步骤8，重复步骤2至6，不断更新清洗后的样本数据。/n

【技术特征摘要】
1.一种数据清洗方法，其特征在于，包括以下步骤：
步骤1，获取待清洗的训练样本集合，对训练样本集合进行转码后存储到数据文件中；
步骤2，提取训练样本集合中第一行训练样本的数据，并将训练样本集合中第一行训练样本的数据转化成二维数组数据，以作为特征向量；
步骤3，对得到的特征向量进行聚类处理，通过欧式距离挑选出类别性质相近的数据，以确定训练样本集合中孤立的训练样本；
步骤4，基于所确定的孤立的训练样本，将异常、冗余的训练样本集合标注为离群点；
步骤5，删除离群点，对象再次聚类；
步骤6，响应于检测到针对目标数量训练样本中的训练样本的删除操作，删除上述操作所指示的训练样本，...

【专利技术属性】
技术研发人员：陈向荣，王东，李伟强，
申请(专利权)人：佛山科学技术学院，
类型：发明
国别省市：广东;44

全部详细技术资料下载我是这个专利的主人