算力共享异常上报、处理方法及装置、存储介质、终端设备制造方法及图纸

技术编号:32428430 阅读:22 留言:0更新日期:2022-02-24 18:32
一种算力共享异常上报、处理方法及装置、存储介质、终端设备,算力共享异常上报方法,用于计算协作端,所述算力共享异常上报方法包括:检测当前的硬件状态以及电量状态;如果所述硬件状态或所述电量状态达到预设异常门限,或者,所述硬件状态的变化量或所述电量状态的变化量达到预设上报门限,则向网络单元上报异常信息,以供所述网络单元确定为所述计算协作端所分配的总任务量以及所述计算协作端剩余任务的剩余任务量;根据所述异常信息和所述剩余任务量确定对所述剩余任务量或所述总任务量重新分配。本发明专利技术技术方案能够实现在算力共享过程中的异常发现或处理,保证分布式计算业务的顺利开展。务的顺利开展。务的顺利开展。

【技术实现步骤摘要】
算力共享异常上报、处理方法及装置、存储介质、终端设备


[0001]本专利技术涉及通信
,尤其涉及一种算力共享异常上报、处理方法及装置、存储介质、终端设备。

技术介绍

[0002]在未来网络中,由于终端的计算性能过剩,因此终端可能会通过无线网络参与到分布式计算中。
[0003]但是,由于参与分布式计算终端大多并非计算专用终端,在计算过程中,可能会由于网络视频、游戏等导致终端中央处理器(Central Processing Unit,CPU)/内存使用率过高、终端电量不足等异常,如果不能及时发现和处理异常,可能会导致分布式计算出现中断。

技术实现思路

[0004]本专利技术解决的技术问题是如何实现在算力共享过程中的异常发现或处理,保证分布式计算业务的顺利开展。
[0005]为解决上述技术问题,本专利技术实施例提供一种算力共享异常上报方法,算力共享异常上报方法包括:检测当前的硬件状态以及电量状态;如果所述硬件状态或所述电量状态达到预设异常门限,或者,所述硬件状态的变化量或所述电量状态的变化量达到预设上报门限,则向网络单元上报异常信息,以供所述网络单元确定为所述计算协作端所分配的总任务量以及所述计算协作端剩余任务的剩余任务量;根据所述异常信息和所述剩余任务量确定对所述剩余任务量或所述总任务量重新分配。
[0006]可选的,所述向网络单元上报异常信息包括:向所述网络单元上报异常类型,所述异常类型选自硬件异常和电量异常。
[0007]可选的,所述向网络单元上报异常信息包括:向所述网络单元上报异常详情,所述异常详情选自所述硬件状态和所述电量状态。
[0008]可选的,所述向网络单元上报异常信息包括:向所述网络单元上报异常原因,所述异常原因选自硬件异常原因和电量异常原因。
[0009]可选的,所述硬件状态包括CPU使用率、NPU使用率、GPU使用率和/或内存使用率,所述电量状态包括电量剩余量。
[0010]为解决上述技术问题,本专利技术实施例还公开了一种算力共享异常处理方法,用于网络单元,所述算力共享异常处理方法包括:接收来自计算协作端上报的异常信息,其中,所述计算协作端检测当前的硬件状态以及电量状态;如果所述硬件状态或所述电量状态达到预设异常门限,则上报异常;确定为所述计算协作端所分配的总任务量以及所述计算协作端剩余任务的剩余任务量;根据所述异常信息和所述剩余任务量确定对所述剩余任务量或所述总任务量重新分配。
[0011]可选的,所述根据所述异常信息和所述剩余任务量确定对所述剩余任务量或所述
总任务量重新分配包括:根据第一其他协作端的算力资源将所述剩余任务量或所述总任务量分配至所述第一其他协作端,所述第一其他协作端与所述计算协作端为同一计算需求端提供算力服务。
[0012]可选的,所述根据所述异常信息和所述剩余任务量确定对所述剩余任务量或所述总任务量重新分配包括:向第二其他协作端发送协作询问,所述协作询问包括可提供算力上报请求;接收所述第二其他协作端响应所述协作询问返回的协作询问响应信息,所述协作询问响应信息包括响应所述可提供算力上报请求时返回的可提供算力信息;当所述可提供算力信息满足由所述剩余任务量或所述总任务量确定的算力需求时,授权所述第二其他协作端提供算力服务。
[0013]可选的,所述方法还包括:如果不存在其他协作端能够提供算力服务或者无法执行所述剩余任务量,则通知计算需求端任务失败。
[0014]可选的,所述根据所述异常信息和所述剩余任务量确定对所述剩余任务量或所述总任务量重新分配包括:确定为所述计算协作端分配任务时设置的完成时长,以及根据所述完成时长和预设延时比例确定延时时长;根据所述异常信息确定所述计算协作端的当前计算资源;计算所述计算协作端利用所述当前计算资源能否在所述延时时长内完成所述剩余任务量;如果所述计算协作端利用所述当前计算资源不能在所述延时时长内完成所述剩余任务量,则根据所述异常信息和所述剩余任务量确定对所述剩余任务量或所述总任务量重新分配。
[0015]可选的,所述确定所述计算协作端剩余任务的剩余任务量包括:根据所述计算协作端上报的剩余任务百分比以及所述总任务量计算所述剩余任务量,所述计算协作端上报的异常包括所述剩余任务百分比;或者,确定为所述计算协作端分配任务的第一时刻以及接收所述计算协作端上报的异常的第二时刻,并根据所述第一时刻和所述第二时刻的时间差以及所述计算协作端的计算资源估计出所述剩余任务量。
[0016]可选的,所述根据所述异常信息和所述剩余任务量确定对所述剩余任务量重新分配包括:根据所述计算协作端的计算性能以及所述剩余任务量确定剩余样本数;根据所述异常信息和所述剩余任务量确定对所述剩余样本数进行重新分配。
[0017]可选的,所述预设上报门限小于所述预设异常门限,所述异常信息包括当前设备信息,所述当前设备信息包括当前的硬件状态以及电量状态,所述根据所述异常信息和所述剩余任务量确定对所述剩余任务量或所述总任务量重新分配:检测算力共享任务的训练结果是否收敛;如果所述训练结果未收敛,则根据所述当前设备信息和所述剩余任务量确定对所述剩余任务量或所述总任务量重新分配。
[0018]本专利技术实施例还公开了一种算力共享异常上报装置,所述算力共享异常上报装置包括:状态检测模块,用于检测当前的硬件状态以及电量状态;异常上报模块,用于如果所述硬件状态或所述电量状态达到预设异常门限,或者,所述硬件状态的变化量或所述电量状态的变化量达到预设上报门限,则向网络单元上报异常信息,以供所述网络单元确定为所述计算协作端所分配的总任务量以及所述计算协作端剩余任务的剩余任务量;根据所述异常信息和所述剩余任务量确定对所述剩余任务量或所述总任务量重新分配。
[0019]本专利技术实施例还公开了一种算力共享异常处理装置,算力共享异常处理装置包括:异常接收模块,用于接收来自计算协作端上报的异常信息,其中,所述计算协作端检测
当前的硬件状态以及电量状态;如果所述硬件状态或所述电量状态达到预设异常门限,则上报异常;任务计算模块,用于确定为所述计算协作端所分配的总任务量以及所述计算协作端剩余任务的剩余任务量;分配模块,用于根据所述异常信息和所述剩余任务量确定对所述剩余任务量或所述总任务量重新分配。
[0020]本专利技术实施例还公开了一种存储介质,其上存储有计算机程序,所述计算机程序被处理器运行时执行所述算力共享异常上报方法的步骤,或者所述算力共享异常处理方法的步骤。
[0021]本专利技术实施例还公开了一种终端设备,包括存储器和处理器,所述存储器上存储有可在所述处理器上运行的计算机程序,所述处理器运行所述计算机程序时执行所述算力共享异常上报方法的步骤,或者所述算力共享异常处理方法的步骤。
[0022]与现有技术相比,本专利技术实施例的技术方案具有以下有益效果:
[0023]本专利技术技术方案中,计算协作端可以检测当前的硬件状态以及电量状态;如果所述硬件状态或所述电量状态达到预设异常门限,则向网络单元上报异常信息本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种算力共享异常上报方法,用于计算协作端,其特征在于,所述算力共享异常上报方法包括:检测当前的硬件状态以及电量状态;如果所述硬件状态或所述电量状态达到预设异常门限,或者,所述硬件状态的变化量或所述电量状态的变化量达到预设上报门限,则向网络单元上报异常信息,以供所述网络单元确定为所述计算协作端所分配的总任务量以及所述计算协作端剩余任务的剩余任务量,根据所述异常信息和所述剩余任务量确定对所述剩余任务量或所述总任务量重新分配。2.根据权利要求1所述的算力共享异常上报方法,其特征在于,所述向网络单元上报异常信息包括:向所述网络单元上报异常类型,所述异常类型选自硬件异常和电量异常。3.根据权利要求1所述的算力共享异常上报方法,其特征在于,所述向网络单元上报异常信息包括:向所述网络单元上报异常详情,所述异常详情选自所述硬件状态和所述电量状态。4.根据权利要求1所述的算力共享异常上报方法,其特征在于,所述向网络单元上报异常信息包括:向所述网络单元上报异常原因,所述异常原因选自硬件异常原因和电量异常原因。5.根据权利要求1所述的算力共享异常上报方法,其特征在于,所述硬件状态包括CPU使用率、NPU使用率、GPU使用率和/或内存使用率,所述电量状态包括电量剩余量。6.一种算力共享异常处理方法,用于网络单元,其特征在于,所述算力共享异常处理方法包括:接收来自计算协作端上报的异常信息,其中,所述计算协作端检测当前的硬件状态以及电量状态,如果所述硬件状态或所述电量状态达到预设异常门限,或者,所述硬件状态的变化量或所述电量状态的变化量达到预设上报门限;确定为所述计算协作端所分配的总任务量以及所述计算协作端剩余任务的剩余任务量;根据所述异常信息和所述剩余任务量确定对所述剩余任务量或所述总任务量重新分配。7.根据权利要求6所述的算力共享异常处理方法,其特征在于,所述根据所述异常信息和所述剩余任务量确定对所述剩余任务量或所述总任务量重新分配包括:根据第一其他协作端的算力资源将所述剩余任务量或所述总任务量分配至所述第一其他协作端,所述第一其他协作端与所述计算协作端为同一计算需求端提供算力服务。8.根据权利要求6所述的算力共享异常处理方法,其特征在于,所述根据所述异常信息和所述剩余任务量确定对所述剩余任务量或所述总任务量重新分配包括:向第二其他协作端发送协作询问,所述协作询问包括可提供算力上报请求;接收所述第二其他协作端响应所述协作询问返回的协作询问响应信息,所述协作询问响应信息包括响应所述可提供算力上报请求时返回的可提供算力信息;当所述可提供算力信息满足由所述剩余任务量或所述总任务量确定的算力需求时,授权所述第二其他协作端提供算力服务。
9.根据权利要求7或8所述的算力共享异常处理方法,其特征在于,还包括:如果不存在其他协作端能够提供算力服务或者无法执行所述剩余任务量,则通知计算需求端任务失败。10.根据权利要求6所述的算力共享异常处理方法,其特征在于,所述根据所述异常信息和所述剩余任务量确定对所述剩余任务量或所述总任务量重新分配包括:确定为所述计算协作端分配任务时设置的完成时长,以及根据所述完成时长和预设延时比例确定延时时长;根据所述异常信息确定所述计算协作端的...

【专利技术属性】
技术研发人员:苗润泉孙明刘莹莹
申请(专利权)人:展讯半导体南京有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1