当前位置: 首页 > 专利查询>清华大学专利>正文

可重构异构化PEA互连方法技术

技术编号:27656017 阅读:18 留言:0更新日期:2021-03-12 14:18
本发明专利技术公开了一种可重构异构化PEA互连方法,每个PEA阵列包含8×8个处理单元PE,异构PE包括28个访存PE和64个计算PE,64个计算PE包括第一计算PE和第二计算PE,所述第二计算PE为对应的28个访存PE,第一计算PE为剩余的36个PE;可重构异构化PEA互连方法包括:28个访存PE的互连方式:将28个访存PE分为顶角PE和边沿PE,基于顶角PE和边沿PE,采用优化的mesh互连实现28个访存PE的互连;64个计算PE的互连方式:对于第一计算PE中的任一个PE连接相邻的PE和第二计算PE中与任一个PE同行和同列的PE。本发明专利技术可以满足频繁的访存要求。

【技术实现步骤摘要】
可重构异构化PEA互连方法
本专利技术涉及路由算法(RoutingAlgorithm)、超大规模集成电路(VLSI)和可重构计算(ReconfigurableComputing)等
,尤其涉及可重构异构化PEA互连方法。
技术介绍
本部分旨在为权利要求书中陈述的本专利技术实施例提供背景或上下文。此处的描述不因为包括在本部分中就承认是现有技术。可重构计算的概念在上世纪60年代被提出,但是受限于当时的集成电路工艺水平,直到上世纪90年代可重构计算才重新得到重视,成为学术界和产业界的热点。可重构计算的计算方式包括两类突出特点:一是制造后芯片的定制能力,即硅实现后计算功能仍可按需改变,区别于传统的集成电路;二是能实现很大程度上的算法到数据通路上的空间映射,区别于通用处理器的时域映射。在这些背景下,基于粗粒度可重构架构(Coarse-GrainedReconfigurableArchitecture,CGRA)的处理器应运而生。区别于细粒度的运算单元为1bit的FPGA或CPLD,CGRA的最小可配的运算单元为8bit或16bit,因此被称为粗粒度。CGRA的数据通路一般包括运算单元阵列、存储器、数据接口和配置接口等四个部分。配置接口从控制通路上获取控制信号和配置字,同时也送出状态量。配置接口继而解析配置字,配置运算单元阵列的功能,调度阵列上任务的执行顺序。运算单元阵列通常包含大量的运算单元,这些运算单元由算数逻辑单元和寄存器组成,以某种方式互相连接,实现并行计算。由于阵列单元存在大量重复的情况,因此在所有单元中加入一个面积很大但是使用频率较低的电路,例如乘法器,是一个很不经济的行为,这就涉及到了异构的概念。异构的概念可以分为两类:一类是广义上,从功能的角度出发,算法映射需要不同的结构,入路由单元、缓存结构、控制器等,它们和计算单元不同但又不可或缺;另一类是从效率的角度出发,优化功耗和面积等。在理想的情况下,设计一个大而全的计算单元是灵活的,但是有些功能的使用率很低,闲置也会导致面积和功耗的额外浪费,在该情况下应该对单元进行适当裁剪以得到基本运算单元的异构形式。互连网络是用来实现计算机系统内部多个处理机或多个功能部件之间相互连接的网络,它通常是由有向边或无向边连接的有限个结点组成的。对于并行处理系统,互连网络已成为其核心组成部分。就阵列单元的互连而言,计算单元行或列之间多采用总线、mesh连接(邻域相连)和crossbar结构(输入和输出之间两两相连)。总线和mesh结构代价较低,但是灵活性比crossbar差。根据乘法原理,crossbar结构的硬件开销是非常大的,但是其层间灵活性又被算法DFG图映射过程普遍。当阵列规模增加到一定程度时,crossbar的全互连代价可能无法承受,尤其在阵列的输入输出端。
技术实现思路
本专利技术实施例提供一种可重构异构化PEA互连方法,PEA结构包括4个可重构处理单元RPU,每个RPU包含4个运算单元阵列PEA,每个PEA阵列包含8×8个处理单元PE,其中,8×8个PE单元为异构PE,异构PE包括28个访存PE和64个计算PE,其中,28个访存PE包括8个第一访存PE和20个第二访存PE,8个第一访存PE为8×8个PE单元中的第1行的8个PE单元,20个第二访存PE为第8行的8个PE单元和第2行至第7行每行中的第一个PE单元和最后一个PE单元;64个计算PE包括第一计算PE和第二计算PE,所述第二计算PE为对应的28个访存PE,第一计算PE为剩余的36个PE;可重构异构化PEA互连方法包括:28个访存PE的互连方式:将28个访存PE分为顶角PE和边沿PE,基于顶角PE和边沿PE,采用优化的mesh互连实现28个访存PE的互连;64个计算PE的互连方式:对于第一计算PE中的任一个PE连接相邻的PE和第二计算PE中与任一个PE同行和同列的PE。本专利技术实施例中,与现有技术中传统的邻域mesh互连结构简单,但是不能满足频繁的访存要求的技术方案相比,通过将28个访存PE分为顶角PE和边沿PE,基于顶角PE和边沿PE,采用优化的mesh互连实现28个访存PE的互连;对于第一计算PE中的任一个PE连接相邻的PE和第二计算PE中与任一个PE同行和同列的PE,对异构化的PE互连组织方式进行相应的优化和改变,可以满足频繁的访存要求。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。在附图中:图1为本专利技术实施例中PEA模块的内部结构示意图;图2为本专利技术实施例中异构化的PE示意图;图3为本专利技术实施例中可重构异构化PEA互连方法示意图;图4为本专利技术实施例中PE结构原理图;图5为本专利技术实施例中访存PE的互连示意图;图6为本专利技术实施例中计算PE的互连示意图;图7为本专利技术实施例中多个PEA阵列之间通过SM示意图;图8为本专利技术实施例中PEA_Data_Control(数据控制器)的结构框图。具体实施方式为使本专利技术实施例的目的、技术方案和优点更加清楚明白,下面结合附图对本专利技术实施例做进一步详细说明。在此,本专利技术的示意性实施例及其说明用于解释本专利技术,但并不作为对本专利技术的限定。在介绍PEA互连组织方式之前,首先要了解PEA本身的结构。为了达到CGRA的运算能力不低于2000GOPS@8-bit的要求,通过计算,粗粒度处理单元PE(ProcessingElement)的数目至少为1000个。为了避免单个超大的PEA阵列的出现,经过综合考虑之后,本专利技术采用了4个可重构处理单元RPU,每个RPU包含4个运算单元阵列PEA,每个PEA阵列包含8×8个PE单元。PEA模块主要实现以下几个功能:1.实现阵列内部PE的集成和互连;2.实现PEA对阵列片上SharedMemory的访问;3.实现PEA和协处理器接口对阵列全局寄存器堆的访问;4.实现外部对阵列片上SharedMemory的读写访问,主要包括数据Cache和主控总线(如DMAC和RISCV);5.实现协处理器对配置Cache的访问和对PEA阵列各PE进行配置。PEA模块的内部结构如图1所示,PEA模块内部集成了一个8×8PEArray、PE的全局寄存器GlobalReg、协处理器接口CoprocessorInterface、数据控制器DataControl、数据共享存储器SharedMemory、处理单元阵列控制器PEAControl和配置控制器ContextControl。其中,协处理器接口CoprocessorInterface的主要功能在PEAInterface中实现。下面介绍异构化的PE。在异构计算系统上进行的并行计算通常称为异构计本文档来自技高网
...

【技术保护点】
1.一种可重构异构化PEA互连方法,其特征在于,PEA结构包括4个可重构处理单元RPU,每个RPU包含4个运算单元阵列PEA,每个PEA阵列包含8×8个处理单元PE,其中,8×8个PE单元为异构PE,异构PE包括28个访存PE和64个计算PE,其中,28个访存PE包括8个第一访存PE和20个第二访存PE,8个第一访存PE为8×8个PE单元中的第1行的8个PE单元,20个第二访存PE为第8行的8个PE单元和第2行至第7行每行中的第一个PE单元和最后一个PE单元;64个计算PE包括第一计算PE和第二计算PE,所述第二计算PE为对应的28个访存PE,第一计算PE为剩余的36个PE;/n可重构异构化PEA互连方法包括:/n28个访存PE的互连方式:将28个访存PE分为顶角PE和边沿PE,基于顶角PE和边沿PE,采用优化的mesh互连实现28个访存PE的互连;/n64个计算PE的互连方式:对于第一计算PE中的任一个PE连接相邻的PE和第二计算PE中与任一个PE同行和同列的PE。/n

【技术特征摘要】
1.一种可重构异构化PEA互连方法,其特征在于,PEA结构包括4个可重构处理单元RPU,每个RPU包含4个运算单元阵列PEA,每个PEA阵列包含8×8个处理单元PE,其中,8×8个PE单元为异构PE,异构PE包括28个访存PE和64个计算PE,其中,28个访存PE包括8个第一访存PE和20个第二访存PE,8个第一访存PE为8×8个PE单元中的第1行的8个PE单元,20个第二访存PE为第8行的8个PE单元和第2行至第7行每行中的第一个PE单元和最后一个PE单元;64个计算PE包括第一计算PE和第二计算PE,所述第二计算PE为对应的28个访存PE,第一计算PE为剩余的36个PE;
可重构异构化PEA互连方法包括:
28个访存PE的互连方式:将28个访存PE分为顶角PE和边沿PE,基于顶角PE和边沿PE,采用优化的mesh互连实现28个访存PE的互连;
64个计算PE的互连方式:对于第一计算PE中的任一个PE连接相邻的PE和第二计算PE中与任一个PE同行和同列的PE。


2.如权利要求1所述的可重构异构化PEA互连方法,其特征在于,将28个访存PE分为顶角PE和边沿PE,基于顶角PE和边沿PE,采用优化的mesh互连实现28个访存PE的互连,包括:
将28个访存PE分为4个顶角PE,所述4个顶角PE分别为8×8个PE单元中的第1行的第一个PE、第1行的第8个PE、第8行的第一个PE和第8行的第8个PE,28个访存PE中剩余的PE为边沿PE;
顶角PE按照如下方式实现28个访存PE的互连:
连接与顶角PE处于同行和同列距离为1、2、3和7的PE;
边沿PE按照如下方式实现28个访存PE的互连:
对处于第1行和第8行的边沿PE,连接与该边沿PE相邻的PE和与该边沿PE处于同一行的顶角PE,连接与该边沿PE处于同列的距离为1、2、3和7的PE;
对处于第1列和第8列的边沿PE,连接与该边沿PE相邻的PE和与该边沿PE处于同一列的顶角PE,连接与该边沿PE处于同行的距离为1、2、3和7的PE。


3.如权利要求1所述的可重构异构化PEA互连方法,其特征在于,对于第一计算PE中的任一个PE连接相邻的PE和第二计算PE中与任一个PE同行和同列的PE,包括:
对于处于第2行至第4行、第2列至第4列之间的第一计算PE中,任一PE连接相邻的4个PE,连接处于同行左端的访存PE,不连接处于同行右端的访存P...

【专利技术属性】
技术研发人员:尹首一林宥旭谷江源钟鸣罗列张淞韩慧明刘雷波魏少军
申请(专利权)人:清华大学
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1