共享数据架构处理客户端重置系统和方法技术方案

技术编号:38318972 阅读:16 留言:0更新日期:2023-07-29 09:01
本公开涉及一种包括共享数据架构的处理系统,该处理系统在操作第二客户端处理器的同时重置第一客户端处理器。指示第一客户端处理器停止向共享数据架构的一个或多个设备进行请求。在第一客户端处理器与存储器控制器、第二客户端处理器、或这两者之间阻止状态通信,使得第一客户端处理器进入临时离线状态。第一客户端处理器被指示为非相干的。因此,当第一客户端处理器被重置时,防止了由于在重置期间或之前发送的消息而导致的一些错误和效率损失。失。失。

【技术实现步骤摘要】
【国外来华专利技术】共享数据架构处理客户端重置系统和方法

技术介绍

[0001]共享数据架构系统包括多个异构处理客户端,在一些情况下包括各种中央处理单元(CPU)、图形处理单元(GPU)、数字信号处理器(DSP)、其他并行处理器、其他专用设备或它们的任何组合。在独立时,一些处理客户端诸如GPU可在系统操作期间被重置而不在其他部件处引起错误,因为那些部件不与其他处理客户端共享同一相干数据架构。然而,在共享数据架构系统中,因为处理客户端频繁地向彼此发送状态通信(包括探测和状态请求),所以在状态通信未完成时重置处理客户端会导致非预期后果诸如系统故障或系统性能劣化。
附图说明
[0002]通过参考附图,本公开被更好地理解,并且其许多特征和优点对于本领域技术人员是显而易见的。在不同附图中使用相同的附图标记表示类似或相同的项目。
[0003]图1是根据一些实施方案的包括多个处理客户端的共享数据架构处理系统的框图。
[0004]图2是根据一些实施方案的重置共享数据架构处理系统中的处理客户端的方法的流程图。
[0005]图3是根据一些实施方案的使用处理信用来向处理客户端发送分组的共享数据架构处理系统的一部分的框图。
[0006]图4是根据一些实施方案的管理探测的共享数据架构处理系统的一部分的框图。
具体实施方式
[0007]处理系统包括连接多个处理客户端的共享数据架构。处理客户端将状态通信(例如,分组和探测)发送给彼此以及发送给处理系统的各个其他设备诸如存储器控制器。在一些实施方案中,如本文所述,处理系统重置处理客户端中的第一处理客户端(例如,并行处理单元诸如GPU),而不将系统作为整体进行重置或重置其他处理客户端(例如,CPU)。特别地,处理系统拦截、阻止和/或欺骗第一处理客户端与处理系统的其他设备之间的状态通信。因此,第一处理客户端进入临时离线状态,其中第一处理客户端继续服务请求,但是处理系统就如同第一处理客户端离线那样发送状态通信。最终,第一处理客户端进入以下状态,即在该状态中,各个其他设备没有正在代表第一处理客户端执行操作并且第一处理客户端不被预期向各个其他设备发送消息。在那时,第一处理客户端被重置,并且处理系统停止拦截、阻止和/或欺骗通信。由于本文所描述的过程,避免了以下所描述的各种潜在错误、效率损失或这两者,尽管第一处理客户端被重置。
[0008]在一些情况下,由于第一处理客户端(例如,GPU)的简单重置,而发生各种问题。例如,如果CPU向GPU发送探测请求并且GPU在响应该探测之前被重置,则在一些情况下,没有任何对该探测的响应被发送。因此,在一些情况下,如果没有任何对探测请求的响应被接收到,则CPU将经历潜在的致命错误。又如,如果处理信用在GPU被重置之前被分配给GPU并且GPU不释放那些处理信用,则在一些情况下,GPU在重置之后不知道那些处理信用,导致处理
信用未被整个系统使用,从而降低系统性能。再如,如果GPU在GPU被重置之前向CPU发送通信(例如,状态请求),但CPU直到GPU被重置之后才对该通信进行响应,则在被重置之后,GPU不再预期接收响应。在一些情况下,GPU不知道发送该通信。因此,如果GPU在GPU被重置之后从CPU接收到对该通信的响应,则在一些情况下,GPU将该通信登记为错误或者GPU将该响应错误地登记为是对另一通信的响应。
[0009]在不同的实施方案中,本文中描述的技术用于多种并行处理器(例如,向量处理器、图形处理单元(GPU)、通用GPU(GPGPU)、非标量处理器、高度并行处理器、人工智能(AI)处理器、推理引擎、机器学习处理器、其他多线程处理单元等)中的任一种处理器。为了便于说明,本文参考在其中采用GPU的示例上下文。然而,应当理解,除非另外指出,否则本文中所描述的系统和技术同样适用于其他类型的并行处理器的使用。
[0010]图1示出了根据至少一些实施方案的重置处理客户端的处理系统100。处理系统100包括用于互连处理系统100的各个部件(包括多个处理客户端诸如处理客户端104

106、一个或多个存储器控制器108以及一个或多个I/O集线器110)的数据架构102。每个存储器控制器108又耦接到系统存储器112,并且每个I/O集线器110又耦接到一个或多个I/O设备,诸如I/O设备114、115。
[0011]处理客户端104

106包括一个或多个处理器内核和本地高速缓存分级结构。处理器内核包括例如CPU内核、GPU内核、DSP内核、并行处理器内核或它们的组合。处理客户端的本地高速缓存分级结构包括一级或多级高速缓存。在一些实施方案中,处理客户端104

106中的至少一者不同于处理客户端104

106中的至少另一者(即,处理客户端104

106是异构的)。在其他实施方案中,处理客户端104

106是同构的。
[0012]存储器控制器108作为相应系统存储器112与处理系统100的其他部件之间的接口来操作。因此,要被缓存在处理客户端的本地高速缓存分级结构中的数据通常作为被称为“高速缓存行”的数据块来操纵,并且利用系统存储器112的物理地址在存储器分级结构中对其进行寻址或以其他方式定位。存储器控制器108响应于来自处理客户端的存取请求而从系统存储器112存取高速缓存行,并且高速缓存行被安置或缓存在处理客户端的一个或多个高速缓存中。同样地,当包含经修改数据的高速缓存行被从处理客户端的本地高速缓存分级结构中逐出并且因此需要在系统存储器112中更新时,存储器控制器108管理这个回写过程。
[0013]I/O设备114、115操作以利用DMA存取操作将数据传送到节点101中以及传送出该节点。例如,I/O设备114、115中的一者可包括用于将该节点连接到网络以用于接收和传输数据的网络接口卡(NIC)、或者用于非易失性存储相对大量的数据以供处理客户端104

106使用的硬盘驱动器(HDD)或其他大容量存储设备、等等。在至少一个实施方案中,I/O集线器110管理I/O设备114、115,并且充当数据架构102与I/O设备114、115之间的接口。为了说明,在一些实施方案中,I/O集线器110包括外围部件快速互连(PCIe)根联合体,以作为I/O设备114、115与数据架构102之间的PCIe互连来操作。
[0014]数据架构102包括传输层130和作为传输层130与相应处理客户端104

106之间的接口操作的多个相干代理134

136。另外,存储器控制器108作为用于系统存储器112的相干代理来操作。然而,在其他实施方案中,存储器控制器108位于数据架构102之外,并且用于存储器控制器108和系统存储器112的单独的相干代理被包括。I/O代理140作为用于I/O集
线器110和I/O设备114、115的相干代理来操作。此外,在一些实施方案中,传输层130经由桥部件(未示出)本文档来自技高网
...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种方法,包括:通过以下方式重置处理系统的第一客户端处理器:指示所述第一客户端处理器停止向连接到所述处理系统的共享数据架构的一个或多个设备进行请求;阻止所述第一客户端处理器与所述共享数据架构的存储器控制器之间的状态通信;以及使所述第一客户端处理器重置;以及重新启用所述第一客户端处理器。2.根据权利要求1所述的方法,其中所述第一客户端处理器停止进行请求包括所述第一客户端处理器终止链式写入操作以及完成写入操作。3.根据权利要求1或2所述的方法,还包括:在阻止所述状态通信之后,指示所述第一客户端处理器与所述存储器控制器是非相干的。4.根据权利要求3所述的方法,其中重新启用所述第一客户端处理器包括:允许恢复所述第一客户端处理器与所述存储器控制器之间的所述状态通信;以及指示所述第一客户端处理器与所述存储器控制器是相干的。5.根据权利要求4所述的方法,其中阻止所述状态通信使得所述第一客户端处理器进入临时离线状态,并且其中允许恢复所述状态通信使得所述第一客户端处理器退出所述临时离线状态。6.根据权利要求5所述的方法,还包括:在所述第一客户端处理器进入所述临时离线状态之后并且在指示所述第一客户端处理器是非相干的之前,等待对所述第一客户端处理器的剩余状态请求被应答。7.根据权利要求4所述的方法,其中阻止所述状态通信包括禁用所述第一客户端处理器对状态响应的流控制检查,并且其中允许恢复所述状态通信包括启用所述第一客户端处理器对状态响应的流控制检查。8.根据权利要求4所述的方法,其中阻止所述状态通信包括启用发送给所述第一客户端处理器的探测的欺骗,并且其中允许恢复所述状态通信包括禁用发送给所述第一客户端处理器的探测的所述欺骗。9.根据权利要求8所述的方法,其中启用探测的欺骗包括由与所述第一客户端处理器相关联的相干代理发送响应于寻址到所述第一客户端处理器的探测而生成的欺骗探测响应。10.根据权利要求9所述的方法,其中启用探测的欺骗包括由与所述第一客户端处理器相关联的相干代理生成所述欺骗探测响应。11.根据权利要求1至10中任一项所述的方法,其中使所述第一客户端处理器重置包括指示与所述第一客户端处理器相关联的相干代理将所述第一客户端处理器视为在所述共享数据架构中具有融合关闭状态。
12.一种集成电路(IC),包括:并行处理单元;中央处理单元(CPU);和数据架构,所述数据架构包括:存储器控制器,所述存储器控制器被配置为:从所述...

【专利技术属性】
技术研发人员:维德希亚纳坦
申请(专利权)人:ATI科技无限责任公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1