跨多个计算引擎的程序化控制的数据多播制造技术

技术编号：38878312 阅读：29 留言：0更新日期：2023-09-22 14:10

本公开涉及跨多个计算引擎的程序化控制的数据多播。本说明书描述了一种程序化多播技术，该技术使一个线程(例如，在GPU上的协作组阵列(CGA)中)能够代表一个或更多个其他线程(例如，在GPU的相应处理器核心上执行)请求数据。多播由跟踪电路支持，该跟踪电路在从处理器核心接收的多播请求与可用存储器之间进行接口。多播被设计为减少高速缓存(例如，第2层高速缓存)带宽利用，从而实现强扩展和较小的图块尺寸。图块尺寸。图块尺寸。

全部详细技术资料下载

【技术实现步骤摘要】
跨多个计算引擎的程序化控制的数据多播
[0001]相关申请的交叉引用
[0002]本申请涉及以下共同转让的共同未决的美国专利申请，将这些专利申请中的每一个的全部内容通过引用合并：
[0003]2022年3月10日提交的题目为“用于高效访问多维数据结构和/或其他大数据块的方法和装置(Method And Apparatus For Efficient Access To Multidimensional Data Structures and/or other Large Data Blocks)”的美国申请No.17/691,276；
[0004]2022年3月10日提交的题目为“协作组阵列(Cooperative Group Arrays)”的美国申请No.17/691,621；
[0005]2022年3月10日提交的题目为“分布式共享存储器(Distributed Shared Memory)”的美国申请No.17/691,690；
[0006]2022年3月10日提交的题目为“虚拟化处理器中的硬件处理资源(Virtualizing Hardware Processing Resources in a Processor)”的美国申请No.17/691,759；
[0007]2022年3月10日提交的题目为“具有异步事务支持的硬件加速的同步(Hardware Accelerated Synchronization with Asynchronous Transaction Support)”的美国申...

【技术保护点】

【技术特征摘要】
1.一种处理系统，包括：多个处理器；分布式共享存储器，其包括多个分布式共享存储器区域，所述多个分布式共享存储器区域中的每一个本地连接到所述多个处理器中的相应处理器，其中所述多个处理器被配置为同时地执行多个线程，在所述多个处理器中的第一处理器上执行的所述线程中的一个生成对用于在所述多个处理器中的一个或更多个第二处理器上执行的所述线程中的一个或更多个其他线程的数据的存储器访问请求；以及分组分发电路被配置为将响应于所述存储器访问请求而接收的响应数据的相应部分路由到所述多个处理器中的所述相应处理器以存储在其相应的分布式共享存储器区域中。2.根据权利要求1所述的处理系统，还包括存储器接口电路，其中所述存储器接口电路被配置为将所述存储器访问请求发送到包括高速缓冲存储器的存储器层次结构。3.根据权利要求1所述的处理系统，其中所述分组分发电路包括跟踪电路，并且所述分组分发电路还被配置为响应于接收到所述存储器访问请求，将来自所述存储器访问请求的元数据存储在所述跟踪电路中，并且生成对所述请求的数据的修改的存储器访问请求，以及响应于接收所述响应数据，形成包括所述元数据的多播响应分组，并将所述多播响应分组发送到所述多个处理器中的至少所述一个或更多个第二处理器。4.根据权利要求3所述的处理系统，其中存储的元数据包括所述一个或更多个其他线程的标识信息，并且所述修改的存储器访问请求没有所述一个或更多个其他线程的所述标识信息。5.根据权利要求3所述的处理系统，其中所述分组分发电路还包括分组生成电路，该分组生成电路响应于接收到所述多播响应分组，生成第一响应分组和第二响应分组，所述第一响应分组和所述第二响应分组中的每一个被路由到所述多个处理器中的相应一个处理器。6.根据权利要求5所述的处理系统，其中所述分组分发电路被配置为在生成所述第一响应分组和所述第二响应分组之前在所述分组分发电路的一部分中传输所述多播响应分组。7.根据权利要求1所述的处理系统，其中所述多个线程包括作为协作组阵列CGA启动的多个协作线程阵列CTA，其中在所述多个处理器中的每个处理器上启动所述CTA中的相应一个CTA。8.根据权利要求...

【专利技术属性】
技术研发人员：A，
申请(专利权)人：辉达公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人