数据预处理方法、设备和存储介质技术

技术编号:22847618 阅读:46 留言:0更新日期:2019-12-17 23:00
本发明专利技术实施例公开了一种数据预处理方法、设备和存储介质,属于数据预处理领域。其中,该方法包括:监测原始数据所在的路径;当检测到存在未处理的原始数据后,根据配置文件中预设的各个步骤执行顺序,执行各个步骤对应的预处理脚本或程序;其中,配置文件中预设有数据预处理的所有步骤及其执行顺序、各个步骤对应的数据输入路径、数据输出路径、以及预处理脚本或程序。本发明专利技术实施例通过将各个步骤进行标准化,各个步骤之间由数据驱动,由预处理脚本或程序从数据输入路径读取数据,将生成的结果保存到数据输出路径,从而能适用各种各样数据及各种程序脚本语言,同时,也无需用户轮询各步骤的执行结果,减少了各个步骤之间执行结果的等待。

Data preprocessing method, equipment and storage medium

【技术实现步骤摘要】
数据预处理方法、设备和存储介质
本专利技术涉及数据预处理领域,特别涉及一种人工智能的数据预处理方法、设备和存储介质。
技术介绍
人工智能模型训练需要的训练数据来源众多,数据文件格式各种各样,数据内容五花八门、数据处理的脚本或者程序也各不相同,必须经过预处理后,才能用于人工智能模型训练。不同任务(人脸、人形、车辆),不同算法,比如在人脸识别,MTCNN(Multi-taskconvolutionalneuralnetworks,将多任务级联卷积神经网络)需要编写不同的预处理脚本、所需要的预处理步骤也不相同、脚本运行的时间有长有短。目前,数据预处理聚焦在具体一个步骤,着眼在文件格式、不同字段类型的自动化处理,对预处理各个步骤没有标准化,各个步骤之间基本是手工运行,针对处理耗时较长的步骤,还需要人工轮询查看生成结果,下一个步骤需要等待上一个步骤预处理输出的中间数据。
技术实现思路
有鉴于此,本专利技术实施例的目的在于提供一种数据预处理方法、设备和存储介质,以解决对预处理各个步骤没有标准化,各个步骤之间基本是手工运行,针对处理耗时较长的步骤,还需要人工轮询查看生成结果的技术问题。本专利技术解决上述技术问题所采用的技术方案如下:根据本专利技术实施例的一个方面,提供的一种数据预处理方法包括:监测原始数据所在的路径;当检测到存在未处理的原始数据后,根据配置文件中预设的各个步骤执行顺序,执行各个步骤对应的预处理脚本或程序;其中,所述配置文件中预设有数据预处理的所有步骤及其执行顺序、各个步骤对应的数据输入路径、数据输出路径、以及预处理脚本或程序。根据本专利技术实施例的另一个方面,提供给的一种数据预处理设备包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,该所述计算机程序被所述处理器执行时,实现上述数据预处理方法的步骤。根据本专利技术实施例的再一个方面,还提供了一种存储介质,所述存储介质上存储有计算机程序,所述计算机程序被处理器执行时,实现上述数据预处理方法的步骤。本专利技术实施例的数据预处理方法、设备和存储介质,通过将各个步骤的执行任务的脚本或程序当作黑盒,每个黑盒接收预处理脚本或程序、数据输入路径、以及数据输出路径。各个步骤之间由数据驱动,由预处理脚本或程序从数据输入路径读取数据,将生成的结果保存到数据输出路径,从而实现标准化,能适用各种各样数据及各种程序脚本语言。同时,无需用户轮询各步骤的执行结果,减少了步骤间的等待。附图说明图1为本专利技术实施例一提供的一种数据预处理方法的流程图;图2为本专利技术实施例一提供的一种配置文件的示意图;图3为本专利技术实施例二提供的一种数据预处理方法的流程图;图4为本专利技术实施例三提供的一种人脸识别预处理方法的流程图。本专利技术目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。具体实施方式为了使本专利技术所要解决的技术问题、技术方案及有益效果更加清楚、明白,以下结合附图和实施例,对本专利技术进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅以解释本专利技术,并不用于限定本专利技术。实施例一如图1所示,本专利技术实施例提供的一种数据预处理方法包括:S101、监测原始数据所在的路径。具体的,原始数据可以是人工智能训练数据的预处理,也可以是需要数据清理的大数据。数据文件格式可以各种各样,包括但不限于图像、文本、或表格等形式的数据源。S102、当检测到存在未处理的原始数据后,根据配置文件中预设的各个步骤执行顺序,执行各个步骤对应的预处理脚本或程序。其中,所述预处理脚本或程序采用相同或者不相同的程序语言实现,用于对数据输入路径下的数据进行预处理,并将预处理结果保存到所述数据输出路径。具体的,在数据预处理过程中,各个步骤的流程基本一致,都是读取原始数据调用脚本或者程序进行数据加工,生成需要的结果。因此,故本专利技术实施例将各个步骤执行任务的脚本或程序当作黑盒。在配置文件中,预定义数据预处理的所有步骤及其执行顺序、各个步骤对应的数据输入路径、数据输出路径、以及预处理脚本或程序。举例来说,如图2所示的配置文件的示意图中,定义预处理方法包括N个步骤,依次按照Step1、Step2、……、StepN来编号,这N个步骤下分别设置了数据输入路径文件夹input、数据输出路径文件夹output、以及数据预处理处理脚本或者程序的文件夹script等。不难看出,一般情况下,上一个步骤的数据输出路径和下一个步骤的数据输入路径是相同的。而预处理脚本或程序则由用户提供,用户可以根据自己的实际应用采用任一程序语言来实现。但用户必须按照约定规则编写预处理脚本,即要求脚本或者程序的数据输入路径要参数化且相同,数据输出路径也要参数化且相同。为了更灵活,预处理脚本或程序可以进一步标准化为入口脚本和子任务脚本或程序。入口脚本用于定义所述子任务脚本或程序的执行顺序,所述子任务脚本或程序是一系列按预设的规则进行编写的实现该步骤功能的子任务的脚本或程序。入口脚本基本内容就是调用该步骤中各个脚本或者程序满足不同的需要。在图2中,入口脚本和子任务脚本或程序都存在Script路径下,main.py就是一个入口脚本,由它调用子任务脚本或程序Script1和Script2。在一些优选的实施例中,为了节省磁盘空间和提高扫描效率,所述执行各个步骤对应的预处理脚本或程序之后,还包括:删除各个步骤对应的所述数据输入路径下已处理的中间数据。在一些优选的实施例中,为了让用户及时了解数据预处理情况,特别是预处理异常后,通知用户及时处理,该方法还包括:当所述方法执行完成或失败时、或者每一步骤执行完成或失败时,通过所述用户地址向用户发送信息。该用户地址可以是邮箱地址。本专利技术实施例中,通过将各个步骤的执行任务的脚本或程序当作黑盒,每个黑盒接收预处理脚本或程序、数据输入路径、以及数据输出路径。各个步骤之间由数据驱动,由预处理脚本或程序从数据输入路径读取数据,将生成的结果保存到数据输出路径,从而能适用各种各样数据及各种程序脚本语言,实现标准化。同时,无需用户轮询各步骤的执行结果,减少了步骤间的等待。实施例二如图3所示,本专利技术实施例提供的一种数据预处理方法包括:S301、预定义数据预处理的配置文件。其中,根据实际的应用场景,定义预处理配置文件。在配置文件中,预定义数据预处理的所有步骤及其执行顺序、各个步骤对应的数据输入路径、数据输出路径、入口脚本、以及子任务脚本或程序。入口脚本用于定义所述子任务脚本或程序的执行顺序。入口脚本基本内容就是调用该步骤中各个脚本或者程序,根据返回值判断是异常退出还是继续下一步。子任务脚本或程序是一系列按预设的规则进行编写的实现步骤功能的子任务的脚本或程序。各个步骤的子任务脚本或程序的数量和采用的程序语言没有要求,完全根据用户自己的需要编写。入口脚本解决了脚本实现语言不同、脚本的个数不同、执行顺序不同等问题。为本文档来自技高网...

【技术保护点】
1.一种数据预处理方法,其特征在于,该方法包括:/n监测原始数据所在的路径;/n当检测到存在未处理的原始数据后,根据配置文件中预设的各个步骤执行顺序,执行各个步骤对应的预处理脚本或程序;/n其中,所述配置文件中预设有数据预处理的所有步骤及其执行顺序、各个步骤对应的数据输入路径、数据输出路径、以及预处理脚本或程序。/n

【技术特征摘要】
1.一种数据预处理方法,其特征在于,该方法包括:
监测原始数据所在的路径;
当检测到存在未处理的原始数据后,根据配置文件中预设的各个步骤执行顺序,执行各个步骤对应的预处理脚本或程序;
其中,所述配置文件中预设有数据预处理的所有步骤及其执行顺序、各个步骤对应的数据输入路径、数据输出路径、以及预处理脚本或程序。


2.根据权利要求1所述的数据预处理方法,其特征在于,所述预处理脚本或程序采用相同或者不相同的程序语言实现,用于对数据输入路径下的数据进行预处理,并将处理结果保存到所述数据输出路径。


3.根据权利要求1所述的数据预处理方法,其特征在于,所述预处理脚本或程序包括入口脚本、以及至少一个子任务脚本或程序,其中:
所述入口脚本用于定义所述至少一个子任务脚本或程序的执行顺序;
所述子任务脚本或程序是一系列按预设的规则进行编写的实现该步骤功能的子任务的脚本或程序。


4.根据权利要求2所述的数据预处理方法,其特征在于,所述根据配置文件中预设的各个步骤执行顺序,执行各个步骤对应的预处理脚本或程序包括:
按照所述配置文件中预设的各个步骤的执行顺序,依次扫描每个步骤的数据输入路径;
当所述步骤的数据输入路径下存在未处理的中间数据...

【专利技术属性】
技术研发人员:陈小强
申请(专利权)人:中兴通讯股份有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1