当前位置: 首页 > 专利查询>脸谱公司专利>正文

具有分布式请求广播主机的高带宽存储器系统技术方案

技术编号:28941712 阅读:28 留言:0更新日期:2021-06-18 21:47
公开了具有分布式请求广播主机的高带宽存储器系统。系统包括处理器和多个存储器单元。处理器通过多个网络连接耦合到多个存储器单元中的每一个。该处理器包括以二维阵列布置的多个处理元件和相应的二维通信网络,该二维通信网络将多个处理元件中的每一个通信连接到二维阵列的相同轴上的其他处理元件。沿着二维阵列的对角线定位的每个处理元件被配置为沿着二维阵列的相同轴定位的相应组的处理元件的请求广播主机。

【技术实现步骤摘要】
具有分布式请求广播主机的高带宽存储器系统专利技术背景使用神经网络可以解决一整类复杂的人工智能问题。由于这些问题通常是计算和数据密集型的,硬件解决方案通常有利于提高神经网络的性能。解决这些复杂的问题通常需要处理大量的数据。由于这些数据要求,基于存储器的操作的性能至关重要。处理大量数据通常涉及相应的大量存储器传输。在实现存储器访问性能和效率要求的同时,创建一个解决神经网络的硬件平台是一项技术挑战。因此,存在对硬件平台的需求,该硬件平台最小化存储器传输的费用,以有效地执行神经网络处理所需的存储器操作。附图简述在以下详细描述和附图中公开了本专利技术的各种实施例。图1是示出使用神经网络解决人工智能问题的系统的实施例的框图。图2是示出使用神经网络解决人工智能问题的系统的实施例的框图。图3是示出使用神经网络解决人工智能问题的系统的实施例的框图。图4是示出使用神经网络解决人工智能问题的系统的实施例的框图。图5是示出使用神经网络解决人工智能问题的处理元件的实施例的框图。图6是示出用于执行存储器访问的过程的实施例的流程图。图7是示出用于响应存储器数据请求的过程的实施例的流程图。图8是示出用于执行存储器访问的过程的实施例的流程图。详细描述本专利技术可以以多种方式实现,包括作为过程;装置;系统;物质的组成;体现在计算机可读存储介质上的计算机程序产品;和/或处理器,例如被配置为执行存储在耦合到处理器的存储器上和/或由该存储器提供的指令的处理器。在本说明书中,这些实现或者本专利技术可以采取的任何其他形式可以被称为技术。通常,在本专利技术的范围内,可以改变所公开的过程的步骤顺序。除非另有说明,否则被描述为被配置为执行任务的诸如处理器或存储器的组件可以被实现为在给定时间被临时配置为执行任务的通用组件或者被制造为执行任务的特定组件。如本文所使用的,术语“处理器”指的是被配置成处理数据(例如计算机程序指令)的一个或更多个设备、电路和/或处理核心。下面提供了本专利技术的一个或更多个实施例的详细描述连同说明本专利技术原理的附图。结合这些实施例描述了本专利技术,但是本专利技术不限于任何实施例。本专利技术的范围仅由权利要求限定,并且本专利技术包括许多替代、修改和等同物。为了提供对本专利技术的全面理解,在以下描述中阐述了许多具体细节。这些细节是出于示例的目的而提供的,并且本专利技术可以根据权利要求来被实施,而不需要这些具体细节中的一些或全部。为了清楚起见,没有详细描述与本专利技术相关的
中已知的技术材料,以便不会不必要地模糊本专利技术。公开了一种利用请求广播主机(requestbroadcastingmasters)的高带宽存储器系统。为了增加存储器的带宽,处理器系统通信地连接到多个存储器单元。在一些实施例中,存储器单元围绕处理组件布置。例如,处理组件可以被布置在相对于多个存储器单元的中央位置,存储器单元可以包括独立的北、东、南和西存储器单元。处理组件可以是具有多个处理元件的处理器,其中每个处理元件包括其自己的控制逻辑和矩阵计算引擎。处理元件排列成二维阵列,例如处理元件的8×8矩阵。也可以使用其他适当数量的处理元件。通过应用神经网络来解决复杂的人工智能问题,处理器的处理元件可以并行工作。网络将处理元件相互连接并连接到存储器单元。例如,处理元件的8×8矩阵(总共64个处理元件)通过例如片上网络子系统的8×8网络连接。每个处理元件可以通过网络向其他处理元件发送数据和/或访问其中一个存储器单元。在一些实施例中,为一组处理元件指定请求广播主机。请求广播主机充当管理该组中处理元件的存储器访问请求的主机。例如,为每一行处理元件指定一个请求广播主机,其中该组是该行中的每个处理元件。或者,该组可以是一列中的每个处理器,并且为每列处理元件指定请求广播主机。来自组中处理器的任何存储器请求都由该组的请求广播主机管理。在各种实施例中,组中的每个处理元件向其请求广播主机发送其存储器请求。请求广播主机将来自该组处理元件的所有存储器请求合并成压缩的存储器访问请求。压缩的存储器访问请求减少了总存储器访问请求的数量,但是每个存储器访问请求可以用于更多的数据。请求广播主机将合并的存储器访问请求导向存储器单元。在一些实施例中,合并的存储器访问请求被广播到所有存储器单元。例如,合并的存储器访问请求沿着网络子系统的行和列被传输到处理组件的北、东、南和西侧的存储器单元。在各种实施例中,对存储器单元的存储器访问请求仅由请求广播主机而不是由每个处理元件导向存储器单元。通过指定特定的请求广播主机并将存储器请求压缩为更少(但更大)的请求,网络上任何时候的存储器请求总数都可以最小化。消息的减少在一定程度上通过最小化网络冲突显著提高了存储器传输的效率。在各种实施例中,每个存储器单元响应其负责的存储器访问请求部分。例如,北存储器单元只响应北存储器单元负责的请求部分。类似地,东、南、西存储器单元只响应它们各自负责的请求部分。在各种实施例中,单个存储器访问请求的请求数据地址分布在不同的存储器单元中。可以使用动态可编程分配方案来执行分配。通过使用例如基于工作负荷的动态可编程分配方案在多个存储器单元之间分布数据,提高了存储器利用率和效率,并且具有不同工作负荷的处理元件可以避免彼此步调一致地操作。在一些实施例中,在网络子系统中,每组处理元件的请求广播主机被布置成彼此偏移。例如,每个请求广播主机被安排成最小化与其他请求广播主机的网络重叠,并且位于网络阵列或网格中的不同(行、列)位置。在一些实施例中,请求广播主机可以沿着网络网格的对角线放置。例如,对于8×8网络,请求广播主机可以沿任一对角线放置。对于从左上角到右下角的对角线遍历,最左上的请求广播主机使用网络的顶行和左侧列向存储器单元发送存储器请求和从存储器单元发送和接收存储器请求。类似地,最右下方的请求广播主机使用网络的底部行和右侧列向存储器单元发送存储器请求和从存储器单元接收存储器请求。沿着对角线的每个请求广播主机具有专用的列和行,用于向不同的存储器单元提供存储器访问请求和从不同的存储器单元接收存储器访问响应。一旦接收到存储器访问响应,请求广播主机就可以将该响应提供给该组的适当的请求处理元件。在各种实施例中,请求广播主机和该组的处理元件实现组协议来协调存储器访问请求的合并和响应的接收。例如,请求广播主机和每个处理元件可以执行握手来协调存储器访问请求和响应。在一些实施例中,处理器系统包括多个存储器单元和通过多个网络连接耦合到多个存储器单元中的每一个的处理器。例如,一个处理器或处理组件在四侧(sides)被存储器单元包围,并且与每个存储器单元有多个网络连接。处理器包括以二维阵列排列的多个处理元件,例如处理元件的二维矩阵或网格。在一些实施例中,二维阵列不是严格的矩形网格,而是处理元件的另一种适当的有序排列。处理器包括相应的二维通信网络,该二维通信网络将多个处理元件中的每一个通信连接到二维阵列的相同轴上的其他处理元件。例如,片上网络子系统连接排列在同一列中的处理元件和排列在同一行中的处理元件。在一些实施例中,多个处理元件中的沿着二维阵列的对角线本文档来自技高网
...

【技术保护点】
1.一种系统,包括:/n多个存储器单元;和/n处理器,其通过多个网络连接耦合到所述多个存储器单元中的每一个,其中所述处理器包括以二维阵列布置的多个处理元件和相应的二维通信网络,所述二维通信网络将所述多个处理元件中的每一个通信连接到所述二维阵列的相同轴上的其他处理元件,并且其中,所述多个处理元件中的沿着所述二维阵列的对角线定位的每个处理元件被配置为所述多个处理元件中的沿着所述二维阵列的相同轴定位的相应组的处理元件的请求广播主机。/n

【技术特征摘要】
20191212 US 16/712,2531.一种系统,包括:
多个存储器单元;和
处理器,其通过多个网络连接耦合到所述多个存储器单元中的每一个,其中所述处理器包括以二维阵列布置的多个处理元件和相应的二维通信网络,所述二维通信网络将所述多个处理元件中的每一个通信连接到所述二维阵列的相同轴上的其他处理元件,并且其中,所述多个处理元件中的沿着所述二维阵列的对角线定位的每个处理元件被配置为所述多个处理元件中的沿着所述二维阵列的相同轴定位的相应组的处理元件的请求广播主机。


2.根据权利要求1所述的系统,其中所述多个处理元件中的每个处理元件包括矩阵计算引擎、网络接口和控制逻辑。


3.根据权利要求2所述的系统,其中所述控制逻辑被配置为向所述相应组的处理元件的请求广播主机提供存储器请求,并使用动态可编程分配方案访问来自所述多个存储器单元的数据。


4.根据权利要求1所述的系统,其中,所述相应组的处理元件的请求广播主机被配置成从所述相应组的多个处理元件接收多个存储器请求。


5.根据权利要求4所述的系统,其中所述请求广播主机被配置成将所述多个存储器请求合并成压缩的存储器请求。


6.根据权利要求5所述的系统,其中所述请求广播主机被配置为向所述多个存储器单元广播所述压缩的存储器请求。


7.根据权利要求6所述的系统,其中所述请求广播主机被配置为从所述多个存储器单元接收响应于所广播的压缩的存储器请求的部分存储器响应。


8.根据权利要求6所述的系统,其中,所广播的压缩的存储器请求引用存储在所述多个存储器单元中的每一个中的数据。


9.根据权利要求6所述的系统,其中所述多个存储器单元中的每一个被配置成将所广播的压缩的存储器请求分解成对应的多个部分请求。


10.根据权利要求9所述的系统,其中所述多个存储器单元中的每一个被配置为确定所述对应的多个部分请求中的每一个是否对应于存储在与对应的存储器单元相关联的多个存储体中的对应的一个存储体中的数据。


11.根据权利要求10所述的系统,其中所述多个存储器单元中的每一个被配置为提供与所述对应的多个部分请求中的不同的一个部分请求相关联的部分响应。


12.根据权利要求11所述的系统,其中所述部分响应包括在多个部分响应中排序所述部分响应的对应序列标识符。


13.根据权利要求6所述的系统,其中,每个请求广播主机被配置为接收部分响应,组合所述部分响应以生成对所广播的压缩的存储器请求的完整响应,并将所述完整响应提供给所述相应组的处理元件中的处理元件。


14.根据权利要求6所述的系统,其中,每个请求广播主机被配置成接收部分响应,将所述部分响应中的每一个与所述相应...

【专利技术属性】
技术研发人员:阿卜杜勒卡迪尔·乌特库·迪里尔克里希纳库马尔·纳拉亚南·奈尔阿努普·拉梅什·卡德科尔阿拉温德·卡莱阿奥利维亚·吴潘卡杰·坎萨尔
申请(专利权)人:脸谱公司
类型:发明
国别省市:美国;US

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1