一种数据集获取方法、系统、设备以及介质技术方案

技术编号：27618674 阅读：24 留言：0更新日期：2021-03-10 10:54

本发明专利技术公开了一种数据集获取方法，包括以下步骤：接收若干个数据集获取请求；将每一个所述请求中待获取数据集的唯一标识与下载进程ID关联；根据所述下载进程ID创建下载进程并利用所述下载进程下载对应的数据集；监控每一个所述下载进程的下载进度并反馈给对应的请求方。本发明专利技术还公开了一种系统、计算机设备以及可读存储介质。本发明专利技术提出的方案可以实现高效的对接分布式存储系统，实现高效、准确的数据集缓存、实时获取缓存进度、准确的中断问题数据集缓存进程，从而提高训练任务训练的速度，避免因为文件系统不统一，导致深度学习平台无法使用分布式文件系统中的数据集进行训练。练。练。

全部详细技术资料下载

【技术实现步骤摘要】
一种数据集获取方法、系统、设备以及介质

[0001]本专利技术涉及深度学习领域，具体涉及一种数据集获取方法、系统、设备以及存储介质。

技术介绍

[0002]目前，以深度学习为代表的人工智能技术取得了飞速的发展，这些技术正落地应用于各行各业。随着深度学习的广泛应用，很多领域产生了大量的、强烈的高效便捷训练人工智能模型方面的需求，而这些训练都是依赖于数据集，这些数据集小则几百G，大的甚至几T、几十T，甚至是PB级别的，这些数据大部分都是存储在私有的数据中心中，这些用户希望在构建私有的人工智能训练平台时，可以直接使用这些数据集数据，然而这种“私有存储+集群训练”的训练模式加剧了计算存储分离架构带来的远程数据访问的性能影响。计算存储分离这种基本架构虽然可以为计算资源和存储资源的配置和扩展带来更高的灵活性，但是如果从数据访问效率的角度来看，由于受限于网络传输带宽，用户在不经调优的情况下，简单使用这种架构通常会遇到模型训练性能下降的问题。同时，又因为大部分私有数据中心中采用分布式文件系统来存储数据集，比如HDFS等分布式文件系统，造成深度学习平台对接的困难；
[0003]在目前的技术中，大部分深度学习平台都是支持对接NFS这种文件系统，而针对HDFS这种分布式文件系统没有一种很好的对接方式。

技术实现思路

[0004]有鉴于此，为了克服上述问题的至少一个方面，本专利技术实施例提出一种数据集获取方法，包括以下步骤：
[0005]接收若干个数据集获取请求；
[0006]将每一个所述请求中待获取...

【技术保护点】

【技术特征摘要】
1.一种数据集获取方法，其特征在于，包括以下步骤：接收若干个数据集获取请求；将每一个所述请求中待获取数据集的唯一标识与下载进程ID关联；根据所述下载进程ID创建下载进程并利用所述下载进程下载对应的数据集；监控每一个所述下载进程的下载进度并反馈给对应的请求方。2.如权利要求1所述的方法，其特征在于，还包括：响应于在下载过程中再次接收到数据集获取请求，根据再次接收到的请求对应的待获取数据集的唯一标识判断当前是否存在关联的下载进程ID；响应于存在，直接将所述关联的下载进程ID对应的下载进度反馈给请求方。3.如权利要求1所述的方法，其特征在于，接收若干个数据集获取请求，进一步还包括：将接收到的若干个数据集获取请求分别对应的唯一标识进行去重处理；将进行去重处理得到的若干个待获取数据集的唯一标识分别与所述对应的请求方进行关联。4.如权利要求3所述的方法，其特征在于，还包括：响应于接收到请求方的中断下载数据集的请求，根据待中断下载的数据集的唯一标识判断是否存在其他请求方请求下载所述待中断下载的数据集；响应于不存在，根据所述待中断下载的数据集的唯一标识确定对应的所述下载进程ID，以通过中断命令结束与所述对应的下载进程ID相对应的所述下载进程。5.如权利要求3所述的方法，其特征在于，监控每一个所述下载进程的下载进度并反馈给对应的请求方，进一步包括：将所述待...

【专利技术属性】
技术研发人员：邢良占，
申请(专利权)人：苏州浪潮智能科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人