一种数据清洗方法技术

技术编号:24455833 阅读:21 留言:0更新日期:2020-06-10 15:31
本发明专利技术提供了一种数据清洗方法,包括:获取待清洗的训练样本集合,对训练样本集合进行转码后存储到数据文件中;提取并将训练样本集合中第一行训练样本的数据转化成二维数组数据,以作为特征向量;对得到的特征向量进行聚类处理,挑选出类别性质相近的数据,以确定训练样本集合中孤立的训练样本;基于孤立的训练样本,将异常、冗余的训练样本集合标注为离群点;删除离群点,对象再次聚类;响应于检测到针对目标数量训练样本中的训练样本的删除操作,删除上述操作所指示的训练样本,得到清洗后的训练样本集合;将清洗后的数据按照原顺序格式复制粘贴于新的数据文件中;不断更新清洗后的样本数据。本发明专利技术可以提高数据清洗的效率以及质量。

A data cleaning method

【技术实现步骤摘要】
一种数据清洗方法
本专利技术涉及数据处理
,具体而言,涉及一种数据清洗方法。
技术介绍
目前,因调研数据和轻量级数据的多变性,对数据往往采取人工清洗的方式,其缺少统一、标准的清洗流程。而人工清洗数据的方式存在以下问题:1、数据清洗耗时长,人工清洗的方式依赖于操作人员进行数据判断,且判断后需要一步步完成清洗,需要大量时间;2、数据清洗容易出现遗漏,操作人员在进行大量数据操作时会因为某些条件遗漏而导致部分样本未被清洗;3、数据清洗结果不稳定,数据清洗的结果会因操作人员的不同而出现清洗结果不一致的问题。经过大量检索发现一些典型的现有技术,如图3所示,申请号为201010578479.9的专利公开了一种数据清洗方法及装置,其可以同时对多类别数据进行清洗,适用于数据分类处理。又如图4所示,申请号为201610959853.7的专利公开了一种海量数据的清洗方法和系统,其用于提高数据清洗的速度和效率。又如图5所示,申请号为201210289550.0的专利公开了一种海量数据的清洗方法及装置,其能够对海量数据进行有效的清洗。可见,如何对数据进行清洗,其实际应用中的亟待处理的实际问题(如提高数据清洗的效率等)还有很多未提出具体的解决方案。
技术实现思路
为了克服现有技术的不足提供了一种数据清洗方法,本专利技术的具体技术方案如下:一种数据清洗方法,其包括以下步骤:步骤1,获取待清洗的训练样本集合,对训练样本集合进行转码后存储到数据文件中;步骤2,提取训练样本集合中第一行训练样本的数据,并将训练样本集合中第一行训练样本的数据转化成二维数组数据,以作为特征向量;步骤3,对步骤2得到的特征向量进行聚类处理,通过欧式距离挑选出类别性质相近的数据,以确定训练样本集合中孤立的训练样本;步骤4,基于步骤3所确定的孤立的训练样本,将异常、冗余的训练样本集合标注为离群点;步骤5,删除离群点,对象再次聚类;步骤6,响应于检测到针对目标数量训练样本中的训练样本的删除操作,删除上述操作所指示的训练样本,得到清洗后的训练样本集合;步骤7,将清洗后的数据按照原顺序格式复制粘贴于新的数据文件中;步骤8,重复步骤2至6,不断更新清洗后的样本数据。可选的,在步骤1中,所述数据文件为csv文件或者dat文件。可选的,在步骤2中,训练样本集合中第一行训练样本的数据通过numpy数据处理库以及ndrray处理函数转化成二维数组数据。可选的,所述数据清洗方法使用K近邻以及SVM算法制作分类模型与聚类模型。本专利技术所取得的有益效果包括:1、可以对原始样本数据进行标签化,进而根据调研目的,在样本数据中筛选出符合分析目标的样本群体点,保证数据结果的信度和效度;2、克服人工清洗存在的用时长,不稳定等问题,通过更加智能化的方法提高数据清洗的效率;3、通过聚类、K近邻等挖掘算法,使得数据清洗不在依赖于固定的模式,而会根据数据的不同归纳出不同的簇类,再对簇外的离群点进行剔除,使得清洗质量得到提高。附图说明从以下结合附图的描述可以进一步理解本专利技术,将重点放在示出实施例的原理上。图1是本专利技术实施例中一种数据清洗方法的流程示意图;图2是本专利技术实施例中一种数据清洗方法的效果图;图3是现有技术中,一种数据清洗方法及装置的流程示意图;图4是现有技术中,一种海量数据的清洗方法和系统的流程示意图;图5是现有技术中,一种海量数据的清洗方法及装置的流程示意图。具体实施方式为了使得本专利技术的目的、技术方案及优点更加清楚明白,以下结合其实施例,对本专利技术进行进一步详细说明;应当理解,此处所描述的具体实施例仅用于解释本专利技术,并不用于限定本专利技术。对于本领域技术人员而言,在查阅以下详细描述之后,本实施例的其它系统、方法和/或特征将变得显而易见。旨在所有此类附加的系统、方法、特征和优点都包括在本说明书内、包括在本专利技术的范围内,并且受所附权利要求书的保护。在以下详细描述描述了所公开的实施例的另外的特征,并且这些特征根据以下将详细描述将是显而易见的。本专利技术实施例的附图中相同或相似的标号对应相同或相似的部件;在本专利技术的描述中,需要理解的是,若有术语“上”、“下”、“左”、“右”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本专利技术和简化描述,而不是指示或暗示所指的装置或组件必须具有特定的方位、以特定的方位构造和操作,因此附图中描述位置关系的用语仅用于示例性说明,不能理解为对本专利的限制,对于本领域的普通技术人员而言,可以根据具体情况理解上述术语的具体含义。本专利技术为一种数据清洗方法,根据附图所示讲述以下实施例:实施例一:在大数据的时代,许多互联网产业为了自身优化和长远发展,需要获取大量的行业数据以优化产品,提高业务水平,但是不同领域、不同背景的用户对于数据的需求是不一样的,在所得到的原始数据群中,如何剔除冗余、残缺、孤立的数据,是一项费时费力的工作。在大数据和云计算尚未热门之时,在企业的数据清洗工作中,常采用人工清洗的方法。在寻找到具有残缺或重复元素的数据项,进行人工增补、删除或修改数据项。然而在数据样本数量较多时,使用此方法对于工作人员来说效率极低;在经历的大数据时代的爆发,数据量轻而易举达到了百万级别,人工清洗显然不合适时代的发展,但仍可以使用Excel或者数据库进行函数处理,进而对数据进行清洗,但数据库和办公软件始终不是智能化办公工具,如经常套用函数模板,不仅清洗质量较差,还具有相当大的局限性。在用户的定量研究和轻量级数据的处理过程中,均需对数据进行清洗处理,以剔除异常数据,保证数据结果的信度和效度。目前,因调研数据和轻量级数据的多变性,对数据往往采取人工清洗的方式,缺少统一、标准的清洗流程,人工清洗的方式主要存在以下问题:①数据清洗耗时长,人工清洗的方式依赖于操作人员进行数据判断,且判断后需要一步步完成清洗,需要大量时间;②数据清洗容易出现遗漏,操作人员在进行大量数据操作时会因为某些条件遗漏而导致部分样本未被清洗;③数据清洗结果不稳定,数据清洗的结果会因操作人员的不同而出现清洗结果不一致的问题;另外,现在的数据清洗技术,由于模型库是固定不变的,导致模型库中的数据清洗规则也是固定的,数据清洗引擎只是简单的基于模块库设立好的固定规则进行数据清洗,当面对复杂的海量数据时,数据清洗的效果和质量较差,具有局限性。本专利技术提供的一种数据清洗方法,其可以对原始样本数据进行标签化,进而根据调研目的,在样本数据中筛选出符合分析目标的样本群体点,保证数据结果的信度和效度。如图1所示,所述数据清洗方法通过以下步骤实现:步骤1,获取待清洗的训练样本集合,对训练样本集合进行转码后存储到数据文件中;步骤2,提取训练样本集合中第一行训练样本的数据,并将训练样本集合中第一行训练样本的数据转化成二维数组数据,以作为特征向量;步本文档来自技高网...

【技术保护点】
1.一种数据清洗方法,其特征在于,包括以下步骤:/n步骤1,获取待清洗的训练样本集合,对训练样本集合进行转码后存储到数据文件中;/n步骤2,提取训练样本集合中第一行训练样本的数据,并将训练样本集合中第一行训练样本的数据转化成二维数组数据,以作为特征向量;/n步骤3,对得到的特征向量进行聚类处理,通过欧式距离挑选出类别性质相近的数据,以确定训练样本集合中孤立的训练样本;/n步骤4,基于所确定的孤立的训练样本,将异常、冗余的训练样本集合标注为离群点;/n步骤5,删除离群点,对象再次聚类;/n步骤6,响应于检测到针对目标数量训练样本中的训练样本的删除操作,删除上述操作所指示的训练样本,得到清洗后的训练样本集合;/n步骤7,将清洗后的数据按照原顺序格式复制粘贴于新的数据文件中;/n步骤8,重复步骤2至6,不断更新清洗后的样本数据。/n

【技术特征摘要】
1.一种数据清洗方法,其特征在于,包括以下步骤:
步骤1,获取待清洗的训练样本集合,对训练样本集合进行转码后存储到数据文件中;
步骤2,提取训练样本集合中第一行训练样本的数据,并将训练样本集合中第一行训练样本的数据转化成二维数组数据,以作为特征向量;
步骤3,对得到的特征向量进行聚类处理,通过欧式距离挑选出类别性质相近的数据,以确定训练样本集合中孤立的训练样本;
步骤4,基于所确定的孤立的训练样本,将异常、冗余的训练样本集合标注为离群点;
步骤5,删除离群点,对象再次聚类;
步骤6,响应于检测到针对目标数量训练样本中的训练样本的删除操作,删除上述操作所指示的训练样本,...

【专利技术属性】
技术研发人员:陈向荣王东李伟强
申请(专利权)人:佛山科学技术学院
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1