当前位置: 首页 > 专利查询>英特尔公司专利>正文

最小侵入性指令指针-察觉处理资源活动概要分析的方法和设备技术

技术编号:27881402 阅读:17 留言:0更新日期:2021-03-31 01:21
公开了用于最小侵入性指令指针‑察觉处理资源活动概要分析的系统和方法。在一个实施例中,图形处理器包含处理资源的分组和与处理资源的分组相关联的控制逻辑。所述控制逻辑被配置成对处理资源的分组中的至少一个处理资源的状态进行采样并根据所述状态来确定活动数据,其中所述活动数据包含以下中的至少一项:停顿活动的停顿和原因计数、指令类型、流水线利用率、线程利用率和着色器活动。

【技术实现步骤摘要】
最小侵入性指令指针-察觉处理资源活动概要分析的方法和设备
实施例一般涉及数据处理,并且更特定地涉及经由设备(例如,通用图形处理单元)的最小侵入性指令指针-察觉处理资源活动概要分析(awareprocessingresourceactivityprofiling)。
技术介绍
当前的并行图形数据处理包含开发用于对图形数据执行特定操作的系统和方法,所述特定操作例如线性插值、曲面细分(tessellation)、栅格化(rasterization)、纹理映射、深度测试等。传统上,图形处理器使用固定功能计算单元来处理图形数据;但是,更近一些,图形处理器的某些部分已变得可编程,从而使此类处理器可支持用于处理顶点和片段数据的各种各样的操作。为了进一步提高性能,图形处理器通常实现诸如流水线技术(pipelining)之类的处理技术,这些技术试图在整个图形流水线的不同部分中并行处理尽可能多的图形数据。具有单指令多线程(SIMT)架构的并行图形处理器被设计成使图形流水线中的并行处理量最大化。在SIMT架构中,并行线程的群组尝试尽可能频繁地一起同步执行程序指令,以提高处理效率。对于SIMT架构的软件和硬件的总体概述,可在ShaneCook的CUDAProgramming第3章,第37-51页(2013)中找到。附图说明为了可详细地理解本实施例的上述特征的方式,可通过参考实施例来得到对上文简要概述的实施例的更特定描述,其中一些实施例在附图中示出。然而,要注意,附图仅示出了典型的实施例,并且因此不应被认为是对其范围的限制。图1是根据实施例的处理系统100的框图;图2A-2D图示了根据实施例的计算系统和图形处理器;图3A-3C是根据实施例的另外的图形处理器和计算加速器架构的框图;图4是根据一些实施例的图形处理器的图形处理引擎410的框图;图5A-5B图示了根据实施例的线程执行逻辑500,其包含在图形处理器核中采用的处理元件的阵列;图6图示了根据实施例的另外的执行单元600;图7是图示根据一些实施例的图形处理器指令格式700的框图;图8是根据实施例的图形处理器800的另一个实施例的框图;图9A是图示根据一些实施例的图形处理器命令格式900的框图;图9B是图示根据实施例的图形处理器命令序列910的框图。图10图示了根据一些实施例的用于数据处理系统1000的示例性图形软件架构;图11A是图示根据实施例的可用于制造集成电路以执行操作的IP核开发系统1100的框图;图11B图示了根据一些实施例的集成电路封装组装件1170的截面侧视图。图11C图示了封装组装件1190,该封装组件1190包含连接至衬底1180(例如,基础管芯(basedie))的多个硬件逻辑小芯片(hardwarelogicchiplet)单元。图11D图示了根据实施例的包含可互换小芯片1195的封装组装件1194。图12图示了示例性集成电路以及图13A-13B图示了根据本文中描述的各种实施例的可使用一个或多个IP核来制造的相关联的图形处理器。图14示出了根据一个实施例的对于EU的分组的示例执行电路系统(circuitry)1400。图15提供了根据一个实施例的执行电路系统和EU停顿原因解析(stallreasonresolution)的图示。图16图示了根据一个实施例的方法1600,该方法1600具有用于处理类高速缓存的聚合结构(例如,高速缓存单元1450A-1450H)中新样本的示例性操作序列。图17图示了根据一个实施例的具有样本数据和停顿原因的类高速缓存的聚合结构的示例表。图18示出了根据一个实施例的主存储器循环缓冲器的内容的示例表。图19A-19C图示了根据实施例的另外的图形多处理器。具体实施方式在一些实施例中,图形处理单元(GPU)以通信方式耦合到主机/处理器核,以加速图形操作、机器学习操作、模式分析操作以及各种通用GPU(GPGPU)功能。GPU可通过总线或另一互连(例如,诸如PCIe或NVLink的高速互连)以通信方式耦合到主机处理器/核。在其它实施例中,GPU可集成在与核相同的封装件或芯片上,并通过内部处理器总线/互连(即,封装件或芯片的内部)以通信方式耦合到核。无论GPU被连接的方式如何,处理器核都可以以工作描述符中含有的命令/指令序列的形式将工作分配给GPU。然后,GPU将专用电路系统/逻辑用于高效地处理这些命令/指令。在下面的描述中,阐述了许多特定细节以提供更透彻的理解。然而,对于本领域的技术人员将明显的是,可在没有这些特定细节中的一个或多个的情况下实践本文中描述的实施例。在其它情况下,未描述公知的特征,以避免模糊本实施例的细节。系统概述图1是根据实施例的处理系统100的框图。系统100可用于单处理器台式计算机系统、多处理器工作站系统或具有大量处理器102或处理器核107的服务器系统中。在一个实施例中,系统100是并入在供移动、手持式或嵌入式装置中(诸如在带有到局域或广域网的有线或无线连接性的物联网(IoT)装置内)使用的片上系统(SoC)集成电路内的处理平台。在一个实施例中,系统100可包含以下各项、与以下各项耦合或者被集成在以下各项内:基于服务器的游戏平台;游戏控制台,包含游戏和媒体控制台、移动游戏控制台、手持式游戏控制台或在线游戏控制台。在一些实施例中,系统100是以下各项的一部分:移动电话、智能电话、平板计算装置或诸如带有低内部存储容量的膝上型计算机之类的移动因特网连接的装置。处理系统100还可包含以下各项、与以下各项耦合或者被集成在以下各项内:可穿戴装置,诸如智能手表可穿戴装置;智能眼镜(smarteyewear)或服装,其用增强现实(AR)或虚拟现实(VR)特征来被增强以提供视觉、音频或触觉输出,以补充现实世界视觉、音频或触觉体验或者以其它方式提供文本、音频、图形、视频、全息图像或视频、或者触觉反馈;其它增强现实(AR)装置;或者其它虚拟现实(VR)装置。在一些实施例中,处理系统100包含电视或机顶盒装置,或者是电视或机顶盒装置的一部分。在一个实施例中,系统100可包含以下各项、与以下各项耦合或者被集成在以下各项内:自动驾驶交通工具,诸如公共汽车、牵引车拖车、汽车、摩托车或电动自行车、飞机或滑翔机(或其任何组合)。自动驾驶交通工具可使用系统100来处理在交通工具周围感测到的环境。在一些实施例中,一个或多个处理器102各自包含一个或多个处理器核107以处理指令,所述指令在被执行时,执行用于系统或用户软件的操作。在一些实施例中,一个或多个处理器核107中的至少一个处理器核被配置成处理特定指令集109。在一些实施例中,指令集109可促进复杂指令集计算(CISC)、精简指令集计算(RISC)或经由超长指令字(VLIW)的计算。一个或多个处理器核107可处理不同指令集109,所述指令集109可包含用于促进对其它指令集本文档来自技高网...

【技术保护点】
1.一种图形处理器,包括:/n处理资源的分组;和/n与所述处理资源的分组相关联的控制逻辑,所述控制逻辑被配置成对所述处理资源的分组中的至少一个处理资源的状态进行采样并根据所述状态来确定活动数据,其中所述活动数据包含以下至少一项:停顿活动的停顿和原因计数、指令类型、流水线利用率、线程利用率或着色器活动。/n

【技术特征摘要】
20190927 US 16/5854271.一种图形处理器,包括:
处理资源的分组;和
与所述处理资源的分组相关联的控制逻辑,所述控制逻辑被配置成对所述处理资源的分组中的至少一个处理资源的状态进行采样并根据所述状态来确定活动数据,其中所述活动数据包含以下至少一项:停顿活动的停顿和原因计数、指令类型、流水线利用率、线程利用率或着色器活动。


2.根据权利要求1所述的图形处理器,还包括:
与所述处理资源的分组相关联的高速缓存单元,所述高速缓存单元用于接收包含与所述高速缓存单元相关联的处理资源的每种状态的停顿原因的所述活动数据和指令指针地址。


3.根据权利要求2所述的图形处理器,其中,对状态的每个采样在选定的时钟周期内被调度,并且是最小侵入性的。


4.根据权利要求1所述的图形处理器,其中,所述控制逻辑被配置成当在处理资源上分配线程而在被采样的选定周期内没有指令被执行时存储状态。


5.根据权利要求4所述的图形处理器,其中,所述控制逻辑被配置成如果所述处理资源是空闲的或正在执行指令,则在被采样的选定周期内丢弃状态。


6.根据权利要求1所述的图形处理器,其中所述控制逻辑被配置成:在所述处理资源的分组和处理资源的其它分组之间交织对处理资源的状态的采样,以将所述状态解析为多个支持的停顿原因之一,并基于所述停顿原因的优先级等级对所述支持的停顿原因按优先顺序排列。


7.根据权利要求1所述的图形处理器,其中停顿活动的所支持的停顿和原因计数包括用于线程之间到达公共点的停顿或延迟的同步停顿字段、用于被停顿的来自存储器的指令获取的指令获取字段、用于基于数据相关性的停顿的记分板字段、用于对处理资源的发送总线带宽限制的发送停顿字段、用于流水线内的停顿的管道停顿字段、以及用于由存储体冲突引起的停顿的内部停顿字段。


8.一种高速缓存结构,包括:
用于执行所述高速缓存结构的操作的逻辑;以及
与所述逻辑耦合的存储器,所述存储器用于存储指令指针地址和相关联的数据字段以指示来自处理资源的采样的活动数据,其中所述逻辑被配置成接收与所述高速缓存结构相关联的处理资源的状态的活动数据和指令指针地址。


9.根据权利要求8所述的高速缓存结构,其中所述逻辑被配置成在所述高速缓存结构内执行指令指针地址查找。


10.根据权利要求9所述的高速缓存结构,其中所述逻辑被配置成:当所述指令指针查找未命中时,为新的高速缓存行构建条目,以将所述指令指针地址和所述活动数据存储在所述新的高速缓存...

【专利技术属性】
技术研发人员:M科尔A库里莱夫S迈于兰V韦姆拉帕利S瓦德拉马尼P赖特
申请(专利权)人:英特尔公司
类型:发明
国别省市:美国;US

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1