System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 故障处理方法及装置、设备和介质制造方法及图纸_技高网

故障处理方法及装置、设备和介质制造方法及图纸

技术编号:44675930 阅读:7 留言:0更新日期:2025-03-19 20:29
本公开提供了一种应用于数据处理装置的故障处理方法及装置、设备和介质,涉及计算机技术领域,尤其涉及数据处理、故障处理和芯片技术领域。实现方案为:基于数据处理装置的网格形拓扑确定多个单元组;确定每个数据处理单元是否为故障单元;针对每个单元组,响应于确定该单元组中不包括故障单元,确定该单元组为有效组;响应于确定所述有效组的数量符合预设条件,针对所述多个单元组依次执行配置操作,所述配置操作包括:针对每个单元组,响应于确定该单元组中包括未被置为旁路状态的故障单元,将该单元组中的多个数据处理单元置为旁路状态,其中,被置为旁路状态的数据处理单元的数据输入端口和数据输出端口为短路连接;以及响应于确定有效组的数量不符合预设条件,确定数据处理装置为故障装置。

【技术实现步骤摘要】

本公开涉及计算机,尤其涉及数据处理、故障处理和芯片,具体涉及一种应用于数据处理装置的故障处理方法、装置、电子设备、计算机可读存储介质和计算机程序产品。


技术介绍

1、人工智能是研究使计算机来模拟人的某些思维过程和智能行为(如学习、推理、思考、规划等)的学科,既有硬件层面的技术也有软件层面的技术。人工智能硬件技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理等技术;人工智能软件技术主要包括计算机视觉技术、语音识别技术、自然语言处理技术以及机器学习/深度学习、大数据处理技术、知识图谱技术等几大方向。

2、随着人工智能技术的发展,越来越多的应用基于人工智能技术取得了远超过传统算法的效果。深度学习是数据密集型算法和计算密集型算法,为了提高大规模深度学习模型的训练速度和推理速度,需要更充分地利用数据处理装置的硬件资源,降低算力成本。

3、在此部分中描述的方法不一定是之前已经设想到或采用的方法。除非另有指明,否则不应假定此部分中描述的任何方法仅因其包括在此部分中就被认为是现有技术。类似地,除非另有指明,否则此部分中提及的问题不应认为在任何现有技术中已被公认。


技术实现思路

1、本公开提供了一种应用于数据处理装置的故障处理方法、装置、电子设备、计算机可读存储介质和计算机程序产品。

2、根据本公开的一方面,提供了一种应用于数据处理装置的故障处理方法,所述数据处理装置包括构成网格形拓扑的多个数据处理单元,所述网格形拓扑包括多个行和多个列,所述多个数据处理单元中的每个数据处理单元包括顺序连接的数据输入端口、数据处理区域和数据输出端口,所述方法包括:基于所述网格形拓扑确定多个单元组,其中,每个单元组中包括的多个数据处理单元能够构成所述网格形拓扑中的一个行或一个列;确定所述多个数据处理单元中的每个数据处理单元是否为故障单元;针对所述多个单元组中的每个单元组,响应于确定该单元组中不包括所述故障单元,确定该单元组为有效组;响应于确定所述有效组的数量符合预设条件,针对所述多个单元组依次执行配置操作,所述配置操作包括:针对每个单元组,响应于确定该单元组中包括未被置为旁路状态的故障单元,将该单元组中的多个数据处理单元置为旁路状态,其中,被置为旁路状态的数据处理单元的数据输入端口和数据输出端口为短路连接;以及响应于确定所述有效组的数量不符合所述预设条件,确定所述数据处理装置为故障装置。

3、根据本公开的一方面,提供了一种应用于数据处理装置的故障处理装置,所述数据处理装置包括构成网格形拓扑的多个数据处理单元,所述网格形拓扑包括多个行和多个列,所述多个数据处理单元中的每个数据处理单元包括顺序连接的数据输入端口、数据处理区域和数据输出端口,所述装置包括:第一确定单元,被配置为基于所述网格形拓扑确定多个单元组,其中,每个单元组中包括的多个数据处理单元能够构成所述网格形拓扑中的一个行或一个列;第二确定单元,被配置为确定所述多个数据处理单元中的每个数据处理单元是否为故障单元;第三确定单元,被配置为针对所述多个单元组中的每个单元组,响应于确定该单元组中不包括所述故障单元,确定该单元组为有效组;第一配置单元,被配置为响应于确定所述有效组的数量符合预设条件,针对所述多个单元组依次执行配置操作,所述配置操作包括:针对每个单元组,响应于确定该单元组中包括未被置为旁路状态的故障单元,将该单元组中的多个数据处理单元置为旁路状态,其中,被置为旁路状态的数据处理单元的数据输入端口和数据输出端口为短路连接;以及第四确定单元,被配置为响应于确定所述有效组的数量不符合所述预设条件,确定所述数据处理装置为故障装置。

4、根据本公开的一方面,提供了一种电子设备,包括:至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行上述故障处理方法。

5、根据本公开的一方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行上述故障处理方法。

6、根据本公开的一方面,提供了一种计算机程序产品,包括计算机程序,其中,计算机程序在被处理器执行时能够实现上述故障处理方法。

7、根据本公开的一个或多个实施例,可以更充分地利用数据处理装置的硬件资源。

8、应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

本文档来自技高网...

【技术保护点】

1.一种应用于数据处理装置的故障处理方法,所述数据处理装置包括构成网格形拓扑的多个数据处理单元,所述网格形拓扑包括多个行和多个列,所述多个数据处理单元中的每个数据处理单元包括顺序连接的数据输入端口、数据处理区域和数据输出端口,所述方法包括:

2.如权利要求1所述的方法,其中,所述数据处理单元还包括通路选择器,所述数据输出端口包括第一子输出端口和第二子输出端口,其中,所述第一子输出端口能够通过所述通路选择器的第一通路与所述数据处理区域连接,所述第二子输出端口能够通过所述通路选择器的第二通路与所述数据输入端口短路连接,并且其中,所述将该单元组中的多个数据处理单元置为旁路状态包括:

3.如权利要求2所述的方法,还包括:

4.如权利要求1-3中任一项所述的方法,其中,所述多个数据处理单元中的每个数据处理单元包括多个初始子单元和至少一个备用子单元,所述备用子单元不与所述多个初始子单元连接,并且其中,所述多个数据处理单元中的每个数据处理单元是否为故障单元是通过如下过程确定的:

5.如权利要求4所述的方法,其中,所述检测所述多个初始子单元中的每个初始子单元和所述至少一个备用子单元中的每个备用子单元是否为故障子单元包括:

6.如权利要求1-5中任一项所述的方法,其中,所述响应于确定所述有效组的数量不符合所述预设条件,确定所述数据处理装置为故障装置包括:

7.一种应用于数据处理装置的故障处理装置,所述数据处理装置包括构成网格形拓扑的多个数据处理单元,所述网格形拓扑包括多个行和多个列,所述多个数据处理单元中的每个数据处理单元包括顺序连接的数据输入端口、数据处理区域和数据输出端口,所述装置包括:

8.如权利要求7所述的装置,其中,所述数据处理单元还包括通路选择器,所述数据输出端口包括第一子输出端口和第二子输出端口,其中,所述第一子输出端口能够通过所述通路选择器的第一通路与所述数据处理区域连接,所述第二子输出端口能够通过所述通路选择器的第二通路与所述数据输入端口短路连接,并且其中,所述第一配置单元被配置为:

9.如权利要求8所述的装置,还包括:

10.如权利要求7-9中任一项所述的装置,其中,所述多个数据处理单元中的每个数据处理单元包括多个初始子单元和至少一个备用子单元,所述备用子单元不与所述多个初始子单元连接,并且其中,所述第二确定单元包括:

11.如权利要求10所述的装置,其中,所述检测子单元被配置为:

12.如权利要求7-11中任一项所述的装置,其中,所述第四确定单元被配置为:

13.一种电子设备,包括:

14.一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使计算机执行根据权利要求1-6中任一项所述的方法。

15.一种计算机程序产品,包括计算机程序,其中,所述计算机程序在被处理器执行时实现根据权利要求1-6中任一项所述的方法。

...

【技术特征摘要】

1.一种应用于数据处理装置的故障处理方法,所述数据处理装置包括构成网格形拓扑的多个数据处理单元,所述网格形拓扑包括多个行和多个列,所述多个数据处理单元中的每个数据处理单元包括顺序连接的数据输入端口、数据处理区域和数据输出端口,所述方法包括:

2.如权利要求1所述的方法,其中,所述数据处理单元还包括通路选择器,所述数据输出端口包括第一子输出端口和第二子输出端口,其中,所述第一子输出端口能够通过所述通路选择器的第一通路与所述数据处理区域连接,所述第二子输出端口能够通过所述通路选择器的第二通路与所述数据输入端口短路连接,并且其中,所述将该单元组中的多个数据处理单元置为旁路状态包括:

3.如权利要求2所述的方法,还包括:

4.如权利要求1-3中任一项所述的方法,其中,所述多个数据处理单元中的每个数据处理单元包括多个初始子单元和至少一个备用子单元,所述备用子单元不与所述多个初始子单元连接,并且其中,所述多个数据处理单元中的每个数据处理单元是否为故障单元是通过如下过程确定的:

5.如权利要求4所述的方法,其中,所述检测所述多个初始子单元中的每个初始子单元和所述至少一个备用子单元中的每个备用子单元是否为故障子单元包括:

6.如权利要求1-5中任一项所述的方法,其中,所述响应于确定所述有效组的数量不符合所述预设条件,确定所述数据处理装置为故障装置包括:

7.一种应用于数据处理装置的故障处理装置,所...

【专利技术属性】
技术研发人员:张辉张心怡王京漆维欧阳剑
申请(专利权)人:昆仑芯北京科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1