System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本申请实施例涉及分布式计算领域,尤其涉及一种分布式芯片集群的异常恢复方法、装置及存储介质。
技术介绍
1、随着机器学习、深度学习等技术发展,数据越来越复杂,处理数据所需的计算量也越来越大,对用于进行数据处理的相关芯片设计提出更高的要求。由于单个芯片的内存和算力有限,对于较大的数据处理任务,例如较大的学习模型的训练任务,通常无法在单个芯片上实现,可以由多个芯片构建分布式芯片集群,共同去完成一个数据处理任务。
2、然而,分布式芯片集群中各芯片节点之间存在一定的拓扑连接关系,分布式芯片集群中任意一个或多个芯片出现异常,将导致数据处理任务执行失败。
技术实现思路
1、本申请实施例提供一种分布式芯片集群的异常恢复方法、装置及存储介质,以在分布式芯片集群任意芯片节点出现异常后能够自动恢复至正常状态,保证数据处理任务的正常执行。
2、第一方面,本申请实施例提供一种分布式芯片集群的异常恢复方法,所述分布式芯片集群包括多个芯片节点,所述多个芯片节点中部分或全部芯片节点构成拓扑结构;所述方法包括:
3、检测所述拓扑结构中任意芯片节点出现的异常,将异常通知传递给所述拓扑结构中其他芯片节点;
4、对于所述拓扑结构中的任一芯片节点,响应于所述异常通知,确定本芯片节点的当前状态,并根据所述当前状态对本芯片节点进行异常恢复。
5、在一种可能的设计中,所述检测所述拓扑结构中任意芯片节点出现的异常,包括:
6、对于所述拓扑结构中任一芯片节点,检
7、在一种可能的设计中,所述检测本芯片节点是否发生内源性异常,包括:
8、检测本芯片节点中的运算单元和/或片间通信单元是否出现异常。
9、在一种可能的设计中,所述检测本芯片节点中的运算单元是否出现异常,包括:
10、检测本芯片节点中的运算单元是否出现以下至少一项异常:
11、内存校验错误、io指令地址不合法、使用错误内存地址时内存访问报错、操作数不合法、数据溢出、除数为0。
12、在一种可能的设计中,所述检测本芯片节点中的片间通信单元是否出现异常,包括:
13、检测本芯片节点中的片间通信单元是否出现以下至少一项异常:
14、链路误码、链路断连、数据包超时、通过运算单元使用远端io指令发生错误。
15、在一种可能的设计中,所述检测本芯片节点中的运算单元和/或片间通信单元是否出现异常,包括:
16、通过本芯片节点中的处理单元,检测本芯片节点中的运算单元和/或片间通信单元是否出现异常。
17、在一种可能的设计中,检测是否接收到其他芯片节点传递的所述异常通知,包括:
18、检测本芯片节点中的片间通信单元是否接收到其他芯片节点的片间通信单元传递的所述异常通知;和/或
19、检测本芯片节点中的处理单元是否接收到其他芯片节点的处理单元传递的所述异常通知、或者其他芯片节点通过主机处理单元传递的所述异常通知,其中所述主机处理单元与本芯片节点以及所述其他芯片节点连接。
20、在一种可能的设计中,所述将异常通知传递给所述拓扑结构中其他芯片节点,包括:
21、将所述异常通知传递给所述拓扑结构中与本芯片节点连接的其他芯片节点。
22、在一种可能的设计中,所述根据所述当前状态对本芯片节点进行异常恢复,包括:
23、若本芯片节点的当前状态为已建立拓扑连接关系、且当前未执行运算任务的状态,则暂停本芯片节点中的片间通信单元的运行,并对本芯片节点中的片间通信单元进行动态复位;或者
24、若本芯片节点的当前状态为已建立拓扑连接关系、且当前正在执行运算任务的状态,则暂停本芯片节点中的运算单元和片间通信单元的运行,并对本芯片节点中的运算单元和片间通信单元进行动态复位。
25、在一种可能的设计中,所述对本芯片节点中的片间通信单元进行动态复位,包括:
26、在本芯片节点中的片间通信单元以及与该片间通信单元连接的另一芯片节点中的片间通信单元之间传递复位信息,根据复位信息对本芯片节点中的片间通信单元进行动态复位。
27、在一种可能的设计中,所述已建立拓扑连接关系、且当前未执行运算任务的状态,包括:
28、已建立拓扑连接关系、且当前尚未接收到运算任务的状态;或者
29、已建立拓扑连接关系、且当前已执行完运算任务的状态。
30、第二方面,本申请实施例提供一种分布式芯片集群的异常恢复装置,所述分布式芯片集群包括多个芯片节点,所述多个芯片节点中部分或全部芯片节点构成拓扑结构;所述装置包括:
31、检测模块,用于检测所述拓扑结构中任意芯片节点出现的异常;
32、传递模块,用于将异常通知传递给所述拓扑结构中其他芯片节点;
33、恢复模块,用于对于所述拓扑结构中的任一芯片节点,响应于所述异常通知,确定本芯片节点的当前状态,并根据所述当前状态对本芯片节点进行异常恢复。
34、第三方面,本申请实施例提供一种分布式芯片集群的异常恢复装置,包括:至少一个处理器及存储器;
35、所述存储器存储计算机执行指令;
36、所述至少一个处理器执行所述存储器存储的计算机执行指令,使得所述至少一个处理器执行如第一方面所述的方法。
37、第四方面,本申请实施例提供一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机程序,所述计算机程序被至少一个处理器执行时,实现如第一方面所述的方法。
38、本申请实施例提供的分布式芯片集群的异常恢复方法、装置及存储介质,通过检测分布式芯片集群拓扑结构中任意芯片节点出现的异常,将异常通知传递给拓扑结构中其他芯片节点;对于拓扑结构中的任一芯片节点,响应于异常通知,确定本芯片节点的当前状态,并根据当前状态对本芯片节点进行异常恢复。在分布式芯片集群拓扑结构中任意芯片节点出现异常后可快速将异常通知传递给分布式芯片集群拓扑结构中所有其他芯片节点,从而各芯片节点均能够快速根据自身当前状态进行异常恢复,使得拓扑结构中的所有芯片节点均能自动恢复至正常状态,进而可以快速重新开始运行数据处理任务,保证后续数据处理任务的正常执行。
本文档来自技高网...【技术保护点】
1.一种分布式芯片集群的异常恢复方法,其特征在于,所述分布式芯片集群包括多个芯片节点,所述多个芯片节点中部分或全部芯片节点构成拓扑结构;所述方法包括:
2.根据权利要求1所述的方法,其特征在于,所述检测所述拓扑结构中任意芯片节点出现的异常,包括:
3.根据权利要求2所述的方法,其特征在于,所述检测本芯片节点是否发生内源性异常,包括:
4.根据权利要求3所述的方法,其特征在于,所述检测本芯片节点中的运算单元是否出现异常,包括:
5.根据权利要求3所述的方法,其特征在于,所述检测本芯片节点中的片间通信单元是否出现异常,包括:
6.根据权利要求3所述的方法,其特征在于,所述检测本芯片节点中的运算单元和/或片间通信单元是否出现异常,包括:
7.根据权利要求2所述的方法,其特征在于,检测是否接收到其他芯片节点传递的所述异常通知,包括:
8.根据权利要求1-7任一项所述的方法,其特征在于,所述将异常通知传递给所述拓扑结构中其他芯片节点,包括:
9.根据权利要求1-7任一项所述的方法,其特征在于,所
10.根据权利要求9所述的方法,其特征在于,所述对本芯片节点中的片间通信单元进行动态复位,包括:
11.根据权利要求9所述的方法,其特征在于,所述已建立拓扑连接关系、且当前未执行运算任务的状态,包括:
12.一种分布式芯片集群的异常恢复装置,其特征在于,所述分布式芯片集群包括多个芯片节点,所述多个芯片节点中部分或全部芯片节点构成拓扑结构;所述装置包括:
13.一种分布式芯片集群的异常恢复装置,其特征在于,包括:至少一个处理器及存储器;
14.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有计算机程序,所述计算机程序被至少一个处理器执行时,实现如权利要求1-11任一项所述的方法。
...【技术特征摘要】
1.一种分布式芯片集群的异常恢复方法,其特征在于,所述分布式芯片集群包括多个芯片节点,所述多个芯片节点中部分或全部芯片节点构成拓扑结构;所述方法包括:
2.根据权利要求1所述的方法,其特征在于,所述检测所述拓扑结构中任意芯片节点出现的异常,包括:
3.根据权利要求2所述的方法,其特征在于,所述检测本芯片节点是否发生内源性异常,包括:
4.根据权利要求3所述的方法,其特征在于,所述检测本芯片节点中的运算单元是否出现异常,包括:
5.根据权利要求3所述的方法,其特征在于,所述检测本芯片节点中的片间通信单元是否出现异常,包括:
6.根据权利要求3所述的方法,其特征在于,所述检测本芯片节点中的运算单元和/或片间通信单元是否出现异常,包括:
7.根据权利要求2所述的方法,其特征在于,检测是否接收到其他芯片节点传递的所述异常通知,包括:
8.根据权利要求1-7任一项所述的...
【专利技术属性】
技术研发人员:请求不公布姓名,
申请(专利权)人:寒武纪西安集成电路有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。