一种批量数据导入方法及装置制造方法及图纸

技术编号:28623108 阅读:30 留言:0更新日期:2021-05-28 16:18
本申请提供了一种批量数据导入方法及装置,在执行批量数据导入时,采用预先训练的配置生成模型生成参数配置信息。该过程无需过多的人工干预,由配置生成模型较大程度的承担了确定参数配置信息的职能,减少了人力资源的消耗,降低了确定参数配置信息的门槛。此外,本说明书中的配置生成模型是以数据的信息和服务器的硬件参数为输入确定参数配置信息的,则由配置生成模型输出的参数配置信息能够更加适于待导入的数据,也更加适于执行数据存储的服务器。并且,本说明书中的技术方案适于多种业务处理场景,尤其适用于金融业务处理场景。

【技术实现步骤摘要】
一种批量数据导入方法及装置
本申请涉及数据处理
,具体而言,本申请涉及一种批量数据导入方法及装置。
技术介绍
随着计算机技术和网络时代的推进,批处理技术已经得到了非常广泛的应用。特别在一些与传统行业结合的系统中,存在大量传统行业数据需要进行电子化存储,这时一般都会利用基于批量导入的批处理技术。。批处理就是将数据导出到数据文件,再将文件传输给相关的系统,由相关系统自行编写存储逻辑(即对参数进行配置),以将数据文件的数据解析到自己的数据库中。在现有的批处理过程中,不同的数据文件通常需要不同的存储逻辑进行处理,而相关系统所面临的数据文件通常种类不单一。这就使得相关系统的维护人员需针对不同的数据文件编写不同的存储逻辑,可见该编写存储逻辑的过程较为耗费人力。此外,若存储逻辑编写的存在问题,将导致存储过程处理文件时相对较慢,在进行批处理时还需要考虑是否处理数据量过大造成服务崩溃。进一步地,若批处理过程涉及的相关系统的数量众多,则针对各个相关系统分别地进行存储逻辑编写,将使得针对存储逻辑编写的过程消耗人力资源较多的问题更加突出。
技术实现思路
本申请提供了一种批量数据导入方法及装置,有效地降低了批量数据导入过程中对人力资源消耗的程度,使得确定参数配置信息的过程更加便捷,本申请采用的技术方案如下:第一方面,提供了一种批量数据导入方法,所述批量数据导入方法基于批量数据导入系统,所述系统包括服务器、预先训练的配置生成模型和数据库;所述方法包括:获取待导入的数据;根据所述待导入的数据,生成多个任务;将所述待导入的数据的信息和所述服务器的硬件参数,输入预先训练的配置生成模型,得到所述配置生成模型输出的参数配置信息;根据所述参数配置信息,对所述服务器进行配置,得到配置后的服务器;采用所述配置后服务器,对各任务进行处理,以将任务对应的批量数据导入所述数据库。在本说明书一个可选的实施例中,所述预先训练的配置生成模型是通过以下步骤得到:根据历史中进行批量数据导入时获取到的数据的信息,得到训练样本;将所述训练样本和服务器的硬件参数输入待训练的配置生成模型,得到待训练的配置生成模型输出的待定参数配置信息;采用所述待定参数配置信息对所述服务器进行配置,得到待定服务器;采用所述待定服务器对所述训练样本对应的数据得到的各任务进行处理,根据处理的效果确定待训练的配置生成模型的损失;以损失最小化为训练目标,对所述待训练的配置生成模型的参数进行调整,得到预先训练的配置生成模型。在本说明书一个可选的实施例中,所述待导入的数据的信息包括待导入的数据的量、待导入的数据的格式中的至少一种。在本说明书一个可选的实施例中,所述参数配置信息包括主线程数、辅线程数、各线程处理任务的第一粒度、缓冲池的容量、读取文件的缓冲池大小、允许执行失败次数、失败次数阈值、第二粒度中的至少一种;其中,所述第二粒度时对处理失败的任务进行在再次处理时对处理失败的任务重新确定的粒度。在本说明书一个可选的实施例中,采用所述配置后服务器,对各任务进行处理,包括:所述服务器的主线程将所述待导入的数据读取到缓冲池;辅线程从所述缓冲池中获取待导入的数据,并根据获取到的待导入的数据执行该辅线程对应的任务。在本说明书一个可选的实施例中,所述方法还包括:若进行任务进行处理时采用的任一辅线程出现异常,则在所述服务器的缓冲池中不存在待导入的数据时,将由该异常的辅线程处理的任务分配至其他辅线程重新进行处理。在本说明书一个可选的实施例中,将由该异常的辅线程处理的任务分配至其他辅线程重新进行处理,包括:将由该异常的辅线程处理的任务确定为目标任务;根据所述预先训练的配置生成模型输出的第二粒度,将所述目标任务划分为若干个子任务,分配至出异常辅线程以外的其他辅线程。在本说明书一个可选的实施例中,将由该异常的辅线程处理的任务分配至其他辅线程重新进行处理,包括:将由该异常的辅线程处理的任务的执行失败次数记录为1,并在此后,根据对由该异常的辅线程处理的任务再次执行失败的情况,更新执行失败次数;在所述更新后的执行失败次数达到预先训练的配置生成模型输出的失败次数阈值时,生成告警信息并展示。在本说明书一个可选的实施例中,所述配置生成模型是RNN模型。第二方面,提供了一种批量数据导入装置,可执行本申请上述实施例中提供的一种批量数据导入过程。所述装置用于批量数据导入系统,如图3所示,所述装置包括以下模块中的一个或多个:获取模块,配置为获取待导入的数据;任务生成模块,配置为根据所述待导入的数据,生成多个任务;参数配置信息生成模块,配置为将所述待导入的数据的信息和所述服务器的硬件参数,输入预先训练的配置生成模型,得到所述配置生成模型输出的参数配置信息;配置模块,配置为根据所述参数配置信息,对所述服务器进行配置,得到配置后的服务器;导入模块,配置为采用所述配置后服务器,对各任务进行处理,以将任务对应的批量数据导入所述数据库。在本说明书一个可选的实施例中,所述批量数据导入装置还可以包括训练模块。所述训练模块,配置为根据历史中进行批量数据导入时获取到的数据的信息,得到训练样本;将所述训练样本和服务器的硬件参数输入待训练的配置生成模型,得到待训练的配置生成模型输出的待定参数配置信息;采用所述待定参数配置信息对所述服务器进行配置,得到待定服务器;采用所述待定服务器对所述训练样本对应的数据得到的各任务进行处理,根据处理的效果确定待训练的配置生成模型的损失;以损失最小化为训练目标,对所述待训练的配置生成模型的参数进行调整,得到预先训练的配置生成模型。在本说明书一个可选的实施例中,所述待导入的数据的信息包括待导入的数据的量、待导入的数据的格式中的至少一种。在本说明书一个可选的实施例中,所述参数配置信息包括主线程数、辅线程数、各线程处理任务的第一粒度、缓冲池的容量、读取文件的缓冲池大小、允许执行失败次数、失败次数阈值、第二粒度中的至少一种;其中,所述第二粒度时对处理失败的任务进行在再次处理时对处理失败的任务重新确定的粒度。在本说明书一个可选的实施例中,所述导入模块,具体配置为所述服务器的主线程将所述待导入的数据读取到缓冲池;辅线程从所述缓冲池中获取待导入的数据,并根据获取到的待导入的数据执行该辅线程对应的任务。在本说明书一个可选的实施例中,所述批量数据导入装置还可以包括异常处理模块。所述异常处理模块,配置为若进行任务进行处理时采用的任一辅线程出现异常,则在所述服务器的缓冲池中不存在待导入的数据时,将由该异常的辅线程处理的任务分配至其他辅线程重新进行处理。在本说明书一个可选的实施例中,所述异常处理模块具体配置为将由该异常的辅线程处理的任务确定为目标任务;根据所述预先训练的配置生成模型输出的第二粒度,将所述目标任务划分为若干个子任务,分配至出异常辅线程以外的本文档来自技高网...

【技术保护点】
1.一种批量数据导入方法,所述批量数据导入方法基于批量数据导入系统,所述系统包括服务器、预先训练的配置生成模型和数据库;所述方法包括:/n获取待导入的数据;/n根据所述待导入的数据,生成多个任务;/n将所述待导入的数据的信息和所述服务器的硬件参数,输入预先训练的配置生成模型,得到所述配置生成模型输出的参数配置信息;/n根据所述参数配置信息,对所述服务器进行配置,得到配置后的服务器;/n采用所述配置后服务器,对各任务进行处理,以将任务对应的批量数据导入所述数据库。/n

【技术特征摘要】
1.一种批量数据导入方法,所述批量数据导入方法基于批量数据导入系统,所述系统包括服务器、预先训练的配置生成模型和数据库;所述方法包括:
获取待导入的数据;
根据所述待导入的数据,生成多个任务;
将所述待导入的数据的信息和所述服务器的硬件参数,输入预先训练的配置生成模型,得到所述配置生成模型输出的参数配置信息;
根据所述参数配置信息,对所述服务器进行配置,得到配置后的服务器;
采用所述配置后服务器,对各任务进行处理,以将任务对应的批量数据导入所述数据库。


2.根据权利要求1所述的方法,其特征在于,所述预先训练的配置生成模型是通过以下步骤得到:
根据历史中进行批量数据导入时获取到的数据的信息,得到训练样本;
将所述训练样本和服务器的硬件参数输入待训练的配置生成模型,得到待训练的配置生成模型输出的待定参数配置信息;
采用所述待定参数配置信息对所述服务器进行配置,得到待定服务器;
采用所述待定服务器对所述训练样本对应的数据得到的各任务进行处理,根据处理的效果确定待训练的配置生成模型的损失;
以损失最小化为训练目标,对所述待训练的配置生成模型的参数进行调整,得到预先训练的配置生成模型。


3.根据权利要求1所述的方法,其特征在于,所述待导入的数据的信息包括待导入的数据的量、待导入的数据的格式中的至少一种。


4.根据权利要求1所述的方法,其特征在于,所述参数配置信息包括主线程数、辅线程数、各线程处理任务的第一粒度、缓冲池的容量、读取文件的缓冲池大小、允许执行失败次数、失败次数阈值、第二粒度中的至少一种;其中,所述第二粒度时对处理失败的任务进行在再次处理时对处理失败的任务重新确定的粒度。


5.根据权利要求1所述的方法,其特征在于,采用所述配置后服务器,对各任务进行处理,包括:
所述服务器的主线程将所述待导入的数据读取到缓冲池;
辅线程从所述缓冲池中获取待导入的数据,并根据获取到的待导入的数据执行该辅线程对应的任务。


6.根据权利要求4所述的方法,其特征在于,所述方法还包括:
若进行任务进行处理时采用的任一辅线程出现异常,则在所述服务器的缓冲池中不存在...

【专利技术属性】
技术研发人员:卢凤龙
申请(专利权)人:中信银行股份有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1