一种计算资源的容错方法、系统、装置及计算机存储介质制造方法及图纸

技术编号:35033381 阅读:25 留言:0更新日期:2022-09-24 23:08
本发明专利技术提供了一种计算资源的容错方法、系统、装置及计算机存储介质,容错方法包括响应于用户的任务删除操作,获取当前用户占用的资源配额值Data2;查询数据库中当前用户的资源配额值Data1;比较Data1和Data2,若两者一致,则执行删除任务,释放任务占用的配额,否则,更新数据库中的资源配额值Data2为用户的资源配额值Data1,执行删除任务,释放任务占用的配额。本发明专利技术在接收到用户的任务删除操作时,首先对用户及其所在用户组内的实际配额进行采集,并与数据库中存储的资源配置值进行比较,在出现不一致时,将数据库内的数值修改为实际配额值,然后执行任务的删除操作,保证删除任务的顺利进行,从而达到释放资源的目的。从而达到释放资源的目的。从而达到释放资源的目的。

【技术实现步骤摘要】
一种计算资源的容错方法、系统、装置及计算机存储介质


[0001]本专利技术涉及资源容错
,尤其是一种计算资源的容错方法、系统、装置及计算机存储介质。

技术介绍

[0002]AI平台可以对项目用户、用户组进行维护。系统管理员可以在AI平台创建项目用户,用户可以在AI平台进行开发、脚本训练、模型训练。系统管理员可以在AI平台创建用户组,用户组内可以关联用户,关联用户组可以使用的资源组。
[0003]AI平台创建用户、用户组,为用户、用户组分配可以使用的资源配额,包括CPU、加速卡等资源的配额。用户在AI平台进行开发、脚本训练、模型训练时,需要占用的CPU、加速卡等资源,这些资源的占用会统计在用户、用户组的已使用配额中,用户、用户组的可以支配的配额减少。如果用户创建的任务占用完所有用户的可以使用的配额时,用户不能再创建新的任务。当用户训练的脚本运行完毕,或者用户删除了未运行完毕的任务时,任务占用的资源配额就会释放,用户、用户组的可以支配的配额增加。
[0004]在实际使用时,存在数据集更新错误、任务占用资源未及时刷新、使用者错误更新了数据库等问题,这样会导致任务在运行完成,释放配额后,用户、用户组的已用配额为负值,这样会导致无法删除当前未运行完成的任务,资源无法释放。

技术实现思路

[0005]本专利技术提供了一种计算资源的容错方法、系统、装置及计算机存储介质,用于解决现有数据库对资源配置的更新错误导致无法删除当前未运行完成的任务,造成资源无法释放的问题。
[0006]为实现上述目的,本专利技术采用下述技术方案:
[0007]本专利技术第一方面提供了一种计算资源的容错方法,所述容错方法包括以下步骤:
[0008]响应于用户的任务删除操作,获取当前用户占用的资源配额值Data2;
[0009]查询数据库中当前用户的资源配额值Data1;
[0010]比较Data1和Data2,若两者一致,则执行删除任务,释放任务占用的配额,否则,更新数据库中的资源配额值Data2为用户的资源配额值Data1,执行删除任务,释放任务占用的配额。
[0011]进一步地,所述方法在接收到删除任务之后,执行删除操作之前还包括步骤:
[0012]对用户所在用户组的资源进行校验。
[0013]进一步地,所述对用户所在用户组的资源进行校验的具体过程为:
[0014]获取当前用户所在用户组的资源配额值D3;
[0015]查询数据库中当前用户所在用户组的资源配额值D4;
[0016]比较D3和D4,若两者不一致,更新数据库中的资源配额D4为用户组的资源配额值D3。
[0017]进一步地,所述用户组内包括多个用户,所述资源配额值D3为当前用户组内每个用户下所有任务占用的资源配额值的和。
[0018]进一步地,所述资源配额值Data2为当前用户下所有任务占用的资源配额值的和。
[0019]进一步地,所述数据库内存储有任务表,任务表中包括每个用户的任务及每个任务占用的资源配额值。
[0020]本专利技术第二方面提供了一种计算资源的容错系统,所述系统包括:
[0021]用户数据采集单元;响应于用户的任务删除操作,获取当前用户占用的资源配额值Data2;
[0022]数据库数据获取单元,用于查询数据库中当前用户的资源配额值Data1;
[0023]比较处理单元,用于比较Data1和Data2,若两者一致,则执行删除任务,释放任务占用的配额,否则,更新数据库中的资源配额值Data2为用户的资源配额值Data1,执行删除任务,释放任务占用的配额。
[0024]进一步地,所述系统还包括资源校验单元,所述资源校验单元用于对用户所在用户组的资源进行校验。
[0025]本专利技术第三方面提供了一种计算资源的容错装置,基于AI平台,所述容错装置包括所述的容错系统,所述容错装置基于AI平台部署若干用户和用户组,所述用户在执行删除操作时,调用所述容错系统。
[0026]本专利技术第四方面提供了一种计算机存储介质,所述计算机存储介质中存储有计算机指令,所述计算机指令在所述系统上运行时,使所述系统执行所述方法的步骤。
[0027]本专利技术第二方面的所述计算资源的容错系统能够实现第一方面及第一方面的各实现方式中的方法,并取得相同的效果。
[0028]
技术实现思路
中提供的效果仅仅是实施例的效果,而不是专利技术所有的全部效果,上述技术方案中的一个技术方案具有如下优点或有益效果:
[0029]本专利技术在接收到用户的任务删除操作时,首先对用户及其所在用户组内的实际配额进行采集,并与数据库中存储的资源配置值进行比较,在出现不一致时,将数据库内的数值修改为实际配额值,然后执行任务的删除操作,保证删除任务的顺利进行,从而达到释放资源的目的。
附图说明
[0030]为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0031]图1是本专利技术所述方法其一实施例的流程示意图;
[0032]图2是本专利技术所述方法另一实施例的流程示意图;
[0033]图3是本专利技术所述系统实施例的结构示意图;
[0034]图4是本专利技术所述装置实施例的结构示意图。
具体实施方式
[0035]为能清楚说明本方案的技术特点,下面通过具体实施方式,并结合其附图,对本发
明进行详细阐述。下文的公开提供了许多不同的实施例或例子用来实现本专利技术的不同结构。为了简化本专利技术的公开,下文中对特定例子的部件和设置进行描述。此外,本专利技术可以在不同例子中重复参考数字和/或字母。这种重复是为了简化和清楚的目的,其本身不指示所讨论各种实施例和/或设置之间的关系。应当注意,在附图中所图示的部件不一定按比例绘制。本专利技术省略了对公知组件和处理技术及工艺的描述以避免不必要地限制本专利技术。
[0036]如图1所示,本专利技术实施例提供了一种计算资源的容错方法,所述容错方法包括以下步骤:
[0037]S1,响应于用户的任务删除操作,获取当前用户占用的资源配额值Data2;
[0038]S2,查询数据库中当前用户的资源配额值Data1;
[0039]S3,比较Data1和Data2,若两者一致,则执行删除任务,释放任务占用的配额,否则,更新数据库中的资源配额值Data2为用户的资源配额值Data1,执行删除任务,释放任务占用的配额。
[0040]步骤S1中,在用户进行删除任务操作时,所述当前用户占用的资源配额值Data2包括:查询当前用户所有的任务,以及每个任务占用的资源配额,将每个任务占用的资源配额的和作为资源配额值Data2。
[0041]数据库中存储有任务表,所述任务表内存储了每个用户的任务及每个任务占用的资源配额。
[0042]如图2所本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种计算资源的容错方法,其特征是,所述容错方法包括以下步骤:响应于用户的任务删除操作,获取当前用户占用的资源配额值Data2;查询数据库中当前用户的资源配额值Data1;比较Data1和Data2,若两者一致,则执行删除任务,释放任务占用的配额,否则,更新数据库中的资源配额值Data2为用户的资源配额值Data1,执行删除任务,释放任务占用的配额。2.根据权利要求1所述计算资源的容错方法,其特征是,所述方法在接收到删除任务之后,执行删除操作之前还包括步骤:对用户所在用户组的资源进行校验。3.根据权利要求2所述计算资源的容错方法,其特征是,所述对用户所在用户组的资源进行校验的具体过程为:获取当前用户所在用户组的资源配额值D3;查询数据库中当前用户所在用户组的资源配额值D4;比较D3和D4,若两者不一致,更新数据库中的资源配额D4为用户组的资源配额值D3。4.根据权利要求3所述计算资源的容错方法,其特征是,所述用户组内包括多个用户,所述资源配额值D3为当前用户组内每个用户下所有任务占用的资源配额值的和。5.根据权利要求1所述计算资源的容错方法,其特征是,所述资源配额值Data2为当前用户下所有任务占用的资源配额值的和。6.根据权利要求1...

【专利技术属性】
技术研发人员:潘燕燕
申请(专利权)人:苏州浪潮智能科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1