一种数据集获取方法、系统、设备以及介质技术方案

技术编号:27618674 阅读:24 留言:0更新日期:2021-03-10 10:54
本发明专利技术公开了一种数据集获取方法,包括以下步骤:接收若干个数据集获取请求;将每一个所述请求中待获取数据集的唯一标识与下载进程ID关联;根据所述下载进程ID创建下载进程并利用所述下载进程下载对应的数据集;监控每一个所述下载进程的下载进度并反馈给对应的请求方。本发明专利技术还公开了一种系统、计算机设备以及可读存储介质。本发明专利技术提出的方案可以实现高效的对接分布式存储系统,实现高效、准确的数据集缓存、实时获取缓存进度、准确的中断问题数据集缓存进程,从而提高训练任务训练的速度,避免因为文件系统不统一,导致深度学习平台无法使用分布式文件系统中的数据集进行训练。练。练。

【技术实现步骤摘要】
一种数据集获取方法、系统、设备以及介质


[0001]本专利技术涉及深度学习领域,具体涉及一种数据集获取方法、系统、设备以及存储介质。

技术介绍

[0002]目前,以深度学习为代表的人工智能技术取得了飞速的发展,这些技术正落地应用于各行各业。随着深度学习的广泛应用,很多领域产生了大量的、强烈的高效便捷训练人工智能模型方面的需求,而这些训练都是依赖于数据集,这些数据集小则几百G,大的甚至几T、几十T,甚至是PB级别的,这些数据大部分都是存储在私有的数据中心中,这些用户希望在构建私有的人工智能训练平台时,可以直接使用这些数据集数据,然而这种“私有存储+集群训练”的训练模式加剧了计算存储分离架构带来的远程数据访问的性能影响。计算存储分离这种基本架构虽然可以为计算资源和存储资源的配置和扩展带来更高的灵活性,但是如果从数据访问效率的角度来看,由于受限于网络传输带宽,用户在不经调优的情况下,简单使用这种架构通常会遇到模型训练性能下降的问题。同时,又因为大部分私有数据中心中采用分布式文件系统来存储数据集,比如HDFS等分布式文件系统,造成深度学习平台对接的困难;
[0003]在目前的技术中,大部分深度学习平台都是支持对接NFS这种文件系统,而针对HDFS这种分布式文件系统没有一种很好的对接方式。

技术实现思路

[0004]有鉴于此,为了克服上述问题的至少一个方面,本专利技术实施例提出一种数据集获取方法,包括以下步骤:
[0005]接收若干个数据集获取请求;
[0006]将每一个所述请求中待获取数据集的唯一标识与下载进程ID关联;
[0007]根据所述下载进程ID创建下载进程并利用所述下载进程下载对应的数据集;
[0008]监控每一个所述下载进程的下载进度并反馈给对应的请求方。
[0009]在一些实施例中,还包括:
[0010]响应于在下载过程中再次接收到数据集获取请求,根据再次接收到的请求对应的待获取数据集的唯一标识判断当前是否存在关联的下载进程ID;
[0011]响应于存在,直接将所述关联的下载进程ID对应的下载进度反馈给请求方。
[0012]在一些实施例中,接收若干个数据集获取请求,进一步还包括:
[0013]将接收到的若干个数据集获取请求分别对应的唯一标识进行去重处理;
[0014]将进行去重处理得到的若干个待获取数据集的唯一标识分别与所述对应的请求方进行关联。
[0015]在一些实施例中,还包括:
[0016]响应于接收到请求方的中断下载数据集的请求,根据待中断下载的数据集的唯一
标识判断是否存在其他请求方请求下载所述待中断下载的数据集;
[0017]响应于不存在,根据所述待中断下载的数据集的唯一标识确定对应的所述下载进程ID,以通过中断命令结束与所述对应的下载进程ID相对应的所述下载进程。
[0018]在一些实施例中,监控每一个所述下载进程的下载进度并反馈给对应的请求方,进一步包括:
[0019]将所述待获取数据集的下载进度反馈给每一个与所述待获取数据集的唯一标识关联的请求方。
[0020]在一些实施例中,还包括:
[0021]响应于所述待下载的数据集下载完毕或中断下载,将对应的下载进度、下载进程ID以及请求方持久化保存。
[0022]在一些实施例中,还包括:
[0023]创建用于生成所述下载进程ID第一资源池、用于创建下载进程的第二资源池以及用于保存下载进度的第三资源池。
[0024]基于同一专利技术构思,根据本专利技术的另一个方面,本专利技术的实施例还提供了一种数据集获取系统,,包括:
[0025]接收模块,所述接收模块配置为接收若干个数据集获取请求;
[0026]关联模块,所述关联模块配置为将每一个所述请求中待获取数据集的唯一标识与下载进程ID关联;
[0027]下载模块,所述下载模块配置为根据所述下载进程ID创建下载进程并利用所述下载进程下载对应的数据集;
[0028]反馈模块,所述反馈模块配置为监控每一个所述下载进程的下载进度并反馈给对应的请求方。
[0029]基于同一专利技术构思,根据本专利技术的另一个方面,本专利技术的实施例还提供了一种计算机设备,包括:
[0030]至少一个处理器;以及
[0031]存储器,所述存储器存储有可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时执行如上所述的任一种数据集获取方法的步骤。
[0032]基于同一专利技术构思,根据本专利技术的另一个方面,本专利技术的实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时执行如上所述的任一种数据集获取方法的步骤。
[0033]本专利技术具有以下有益技术效果之一:本专利技术提出的方案可以实现高效的对接分布式存储系统,实现高效、准确的数据集缓存、实时获取缓存进度、准确的中断问题数据集缓存进程,从而提高训练任务训练的速度,避免因为文件系统不统一,导致深度学习平台无法使用分布式文件系统中的数据集进行训练。
附图说明
[0034]为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以
根据这些附图获得其他的实施例。
[0035]图1为本专利技术的实施例提供的数据集获取方法的流程示意图;
[0036]图2为本专利技术的实施例提出的三个资源池之间的关联图;
[0037]图3为本专利技术的实施例提出的监控进程的流程框图;
[0038]图4为本专利技术的实施例提供的数据集获取系统的结构示意图;
[0039]图5为本专利技术的实施例提供的计算机设备的结构示意图;
[0040]图6为本专利技术的实施例提供的计算机可读存储介质的结构示意图。
具体实施方式
[0041]为使本专利技术的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本专利技术实施例进一步详细说明。
[0042]需要说明的是,本专利技术实施例中所有使用“第一”和“第二”的表述均是为了区分两个相同名称非相同的实体或者非相同的参量,可见“第一”“第二”仅为了表述的方便,不应理解为对本专利技术实施例的限定,后续实施例对此不再一一说明。
[0043]根据本专利技术的一个方面,本专利技术的实施例提出一种数据集获取方法,如图1所示,其可以包括步骤:
[0044]S1,接收若干个数据集获取请求;
[0045]S2,将每一个所述请求中待获取数据集的唯一标识与下载进程ID关联;
[0046]S3,根据所述下载进程ID创建下载进程并利用所述下载进程下载对应的数据集;
[0047]S4,监控每一个所述下载进程的下载进度并反馈给对应的请求方。
[0048]本专利技术提出的方案可以实现高效的对接分本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种数据集获取方法,其特征在于,包括以下步骤:接收若干个数据集获取请求;将每一个所述请求中待获取数据集的唯一标识与下载进程ID关联;根据所述下载进程ID创建下载进程并利用所述下载进程下载对应的数据集;监控每一个所述下载进程的下载进度并反馈给对应的请求方。2.如权利要求1所述的方法,其特征在于,还包括:响应于在下载过程中再次接收到数据集获取请求,根据再次接收到的请求对应的待获取数据集的唯一标识判断当前是否存在关联的下载进程ID;响应于存在,直接将所述关联的下载进程ID对应的下载进度反馈给请求方。3.如权利要求1所述的方法,其特征在于,接收若干个数据集获取请求,进一步还包括:将接收到的若干个数据集获取请求分别对应的唯一标识进行去重处理;将进行去重处理得到的若干个待获取数据集的唯一标识分别与所述对应的请求方进行关联。4.如权利要求3所述的方法,其特征在于,还包括:响应于接收到请求方的中断下载数据集的请求,根据待中断下载的数据集的唯一标识判断是否存在其他请求方请求下载所述待中断下载的数据集;响应于不存在,根据所述待中断下载的数据集的唯一标识确定对应的所述下载进程ID,以通过中断命令结束与所述对应的下载进程ID相对应的所述下载进程。5.如权利要求3所述的方法,其特征在于,监控每一个所述下载进程的下载进度并反馈给对应的请求方,进一步包括:将所述待...

【专利技术属性】
技术研发人员:邢良占
申请(专利权)人:苏州浪潮智能科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1