一种数据集缓存处理方法、装置和系统制造方法及图纸

技术编号:26969534 阅读:13 留言:0更新日期:2021-01-05 23:58
本发明专利技术提供了一种数据集缓存处理方法、装置和系统,属于数据处理的技术领域,解决了现有技术中存在的AIStationV2.1版本数据集节点缓存模式设计的不完善,导致多用户在并发拉取小文件大数据集时,性能低下,并因对系统造成压力过大而产生告警的技术问题。包括在Pod中初始化容器,根据任务请求缓存数据集,判断是否为同一个用户发出的缓存请求,若为同一个用户的同一个任务缓存不同数据集,则以顺序排队方式执行缓存。本发明专利技术解决了initcontainer频繁重启导致卡死的技术问题,增加数据集唯一性校验,避免重复缓存相同数据集带来的性能消耗,不同的缓存请求由不同的数据集缓存流程更有针对性的处理,避免因资源抢占带来的资源浪费及性能消耗。

【技术实现步骤摘要】
一种数据集缓存处理方法、装置和系统
本专利技术涉及数据处理
,尤其是涉及一种数据集缓存处理方法、装置和系统。
技术介绍
近几年,以深度学习为代表的人工智能技术取得了飞速的发展,正落地应用于各行各业。但深度学习模型训练的常规方案主要采用手动方式进行数据准备,数据成本管理高昂。为了降低数据访问的高成本和复杂度,最常用的手段就是缓存。现有的技术方案:AIStation产品数据集缓存分为节点缓存模式、本地缓存模式,以下文中内容,均为针对节点缓存模式进行的陈述、说明、优化。AIStationV2.1版本在接收到用户的数据集缓存请求后,统一由数据集缓存管理CBB模块进行处理。S1:pod初始化容器initContainer.S2:数据集缓存处理模块接收到同一用户的多个请求或不同用户的多个请求,后将请求直接下发。S3:由数据集缓存管理模块CBB,按照请求的先后顺序统一进行处理,如数据集文件过大,不同用户之间,随之产生并发缓存的场景。S4:缓存结束。现有技术的缺点:1.全盘接收用户所有的数据集缓存请求,未对数据集进行唯一性的检测,导致initContainer频繁重启,达到一定量级后,会有一定概率导致initContainer卡死。2.数据集缓存生命周期粒度过粗,几近于无。3.由以上两点导致不合理的资源抢占,导致数据集缓存性能低下。
技术实现思路
本专利技术的目的在于提供数据集缓存处理方法、装置和系统,以解决了现有技术中存在的AIStationV2.1版本数据集节点缓存模式设计的不完善,导致多用户在并发拉取小文件大数据集时,性能低下,并因对系统造成压力过大而产生告警的技术问题。第一方面,本专利技术提供的数据集缓存处理方法,包括:在Pod中初始化容器;根据任务请求缓存数据集;判断是否为同一个用户发出的缓存请求;若为同一个用户的同一个任务缓存不同数据集,则以顺序排队方式执行缓存。进一步的,在判断是否为同一个用户发出的缓存请求的步骤之后,还包括:若为不同用户缓存不同数据集,则执行并发缓存。进一步的,根据任务请求缓存数据集的步骤,包括:进行数据集的唯一性检测;若多个任务缓存不同数据集,则请求直接缓存数据集;若多个任务缓存同一个数据集,则仅请求缓存一份数据集。进一步的,所述任务包括开发环境任务或训练任务。第二方面,本专利技术还提供一种数据集缓存处理装置,包括:初始化模块,用于在Pod中初始化容器;数据集缓存预处理模块,用于根据任务请求缓存数据集;判断模块,用于判断是否为同一个用户发出的缓存请求;数据集缓存管理CBB模块,用于若为同一个用户的同一个任务缓存不同数据集,则以顺序排队方式执行缓存。进一步的,还包括数据集缓存管理代理模块,用于若为不同用户缓存不同数据集,则执行并发缓存。进一步的,数据集缓存预处理模块,具体用于:进行数据集的唯一性检测;若多个任务缓存不同数据集,则请求直接缓存数据集;若多个任务缓存同一个数据集,则仅请求缓存一份数据集。进一步的,所述任务包括开发环境任务或训练任务。第三方面,本专利技术还提供一种数据集缓存处理系统,包括管理节点和多个计算节点,所述计算节点包括如所述的数据集缓存处理装置。本专利技术提供的数据集缓存处理方法、装置和系统,通过重构数据集缓存模块架构,增加对数据集生命周期更细粒度的管理,重新设计交互流程,增加数据集唯一性的检测,由不同的数据集缓存管理模块处理不同类的请求,有效利用分配资源,从而提高数据集并发缓存的效率,本专利技术在解决了数据高并发使用带来数据一致性及脏数据问题的基础上,仍对数据集缓存性能损失有一定的优化,并对数据集缓存的逻辑处理结构进行优化,从而解决数据集缓存高并发带来的一系列问题,解决了initcontainer频繁重启导致卡死的技术问题,增加数据集唯一性校验,避免重复缓存相同数据集带来的性能消耗,不同的缓存请求由不同的数据集缓存流程更有针对性的处理,避免因资源抢占带来的资源浪费及性能消耗。相应地,本专利技术实施例提供的一种数据集缓存处理方法、装置和系统,也同样具有上述技术效果。附图说明为了更清楚地说明本专利技术具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本专利技术的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1为本专利技术实施例提供的数据集缓存处理系统的构架图;图2为本专利技术实施例提供的数据集缓存处理方法流程。具体实施方式为使本专利技术实施例的目的、技术方案和优点更加清楚,下面将结合附图对本专利技术的技术方案进行清楚、完整地描述,显然,所描述的实施例是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。本专利技术实施例中所提到的术语“包括”和“具有”以及它们的任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可选地还包括其他没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。请参考附图1-2,本专利技术实施例提供一种数据集缓存处理方法包括:在Pod中初始化容器;根据任务请求缓存数据集;判断是否为同一个用户发出的缓存请求;若为同一个用户的同一个任务缓存不同数据集,则以顺序排队方式执行缓存。通过重构数据集缓存模块架构,增加对数据集生命周期更细粒度的管理,重新设计交互流程,增加数据集唯一性的检测,由不同的数据集缓存管理模块处理不同类的请求,有效利用分配资源,从而提高数据集并发缓存的效率,本专利技术在解决了数据高并发使用带来数据一致性及脏数据问题的基础上,仍对数据集缓存性能损失有一定的优化,并对数据集缓存的逻辑处理结构进行优化,从而解决数据集缓存高并发带来的一系列问题,解决了initcontainer频繁重启导致卡死的技术问题,增加数据集唯一性校验,避免重复缓存相同数据集带来的性能消耗,不同的缓存请求由不同的数据集缓存流程更有针对性的处理,避免因资源抢占带来的资源浪费及性能消耗。本专利技术实施例中,在判断是否为同一个用户发出的缓存请求的步骤之后,还包括:若为不同用户缓存不同数据集,则执行并发缓存。本专利技术实施例中,根据任务请求缓存数据集的步骤,包括:进行数据集的唯一性检测;若多个任务缓存不同数据集,则请求直接缓存数据集;若多个任务缓存同一个数据集,则仅请求缓存一份数据集。本专利技术实施例中,任务包括开发环境任务或训练任务。本专利技术实施例中,在数据集缓存请求时进行预处本文档来自技高网...

【技术保护点】
1.一种数据集缓存处理方法,其特征在于,包括:/n在Pod中初始化容器;/n根据任务请求缓存数据集;/n判断是否为同一个用户发出的缓存请求;/n若为同一个用户的同一个任务缓存不同数据集,则以顺序排队方式执行缓存。/n

【技术特征摘要】
1.一种数据集缓存处理方法,其特征在于,包括:
在Pod中初始化容器;
根据任务请求缓存数据集;
判断是否为同一个用户发出的缓存请求;
若为同一个用户的同一个任务缓存不同数据集,则以顺序排队方式执行缓存。


2.根据权利要求1所述的方法,其特征在于,在判断是否为同一个用户发出的缓存请求的步骤之后,还包括:
若为不同用户缓存不同数据集,则执行并发缓存。


3.根据权利要求1所述的方法,其特征在于,根据任务请求缓存数据集的步骤,包括:
进行数据集的唯一性检测;
若多个任务缓存不同数据集,则请求直接缓存数据集;
若多个任务缓存同一个数据集,则仅请求缓存一份数据集。


4.根据权利要求1所述的方法,其特征在于,所述任务包括开发环境任务或训练任务。


5.一种数据集缓存处理装置,其特征在于,包括:
初始化模块,用于在Pod中初始化容器;...

【专利技术属性】
技术研发人员:方雪静
申请(专利权)人:苏州浪潮智能科技有限公司
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1