一种基于随机计算的粗粒度可重构处理器架构制造技术

技术编号：34094400 阅读：13 留言：0更新日期：2022-07-11 21:57

本发明专利技术公开了一种基于随机计算的粗粒度可重构处理器架构，该可重构处理器架构包括：配置存储器，用于存储配置信息；数据存储器，用于存储数据；中央处理器，用于对数据存储器存储的数据进行计算处理；动态可重构PE阵列，用于根据配置存储器存储的配置信息利用基于随机计算的乘法器和加法移位器，对中央处理器进行的计算处理进行数据操作控制。本发明专利技术将随机计算应用在CGRA的设计中，动态改变CGRA的运算精度，从而可以在运算精度要求不高的场景下以较低的功耗完成计算任务，大大提高了CGRA的能效。效。效。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于随机计算的粗粒度可重构处理器架构

[0001]本专利技术涉及微处理
，尤其涉及种基于随机计算的粗粒度可重构处理器架构及其算子映射方法。

技术介绍

[0002]由于传统粗粒度可重构处理器(CGRA)采用精确计算单元，虽然计算准确度高但是功耗较大，在一些计算精度要求不高的场景下优势不够明显。
[0003]为了更好地适应智能计算特点及需求，提升资源利用率和计算能效比，具有硬件重构能力的空域计算架构——粗粒度可重构处理器(CGRA)成为研究热点。在2019年国际固态电路会议(ISSCC'19)的大会报告中指出，2016年至今，超过一半的人工智能芯片都采用了具有一定硬件重构能力的计算架构。CGRA以“动态重构、数据驱动”为基本设计思路，支持核心运算部件、处理单元PE、PE阵列以及计算模式等四个层次/粒度的硬件动态重构，整个架构在灵活性、高能效、低功耗方面极具优势。
[0004]为了进一步提升CGRA的能效，针对传统的CGRA加速阵列做了一定的改进工作，引入了近似计算的模式将近似计算与CGRA架构融合。进一步改进传统的CGRA架构，提出了全新的X
‑
CGRA架构。近似计算是一种可以改进硬件的计算模式，在近似计算下的乘法器和加法器拥有较低的面积、功耗和延时，其本质是将乘法器或加法器的结构进行精简化，但是会带来一定的精度损失。X
‑
CGRA依据这一计算模式，引入QSPE结构，为了保证运算过程中的准确率，X
‑
CGRA通过power
‑
>gating技术来控制运算器的计算模式。其近似计算模式分为多种等级，文章中也提出了准确的算法对每一个算子的计算准确敏感度进行衡量，从而对近似模式进行一定的指定，该问题通过ILP求解器解决。由于X
‑
CGRA引入了power
‑
gating技术，使得处理器在运算过程中的延时增加，且根据近似计算设计的硬件反而使得电路面积增大，并没有改变传统的乘法运算模式。
[0005]随机计算(Stochastic computing，SC)是一种非常规的计算方法，它将数据视为概率，从而彻底改变了传统乘法的运算模式。典型地，我们可以将一个小数P视作一串由0或1组成的N位随机比特流X，X中1出现的概率正好等于P，并且X可以由常规逻辑电路生成和处理。从而，单个与门可以执行乘法。SN的X值是由SN中1的个数来测量的，这也是一种在生物神经系统中发现的信息编码方案。SC在大规模并行系统中有着广泛的应用，对错误具有很强的容忍能力。它的缺点是精度低，处理速度慢，设计需要复杂。它能够有效地执行诸如通信解码和神经网络推理等任务，这重新激起了人们对该领域的兴趣。尽管SC具有上述优点，但随机数发生器(Stochastic Number Generator，SNG)带来的过多硬件开销仍然是基于SC的架构被广泛应用的主要阻碍。传统的SC串行生成随机比特流，将输入数据(二进制格式)转换成长的位流，其中每个数据以逐步的方式与线性反馈移位寄存器(LFSR)生成的数据进行比较，这是SNG的主要任务。由于SNG的必要性，其内部LFSR会造成很大的资源消耗。为了减少其内部的硬件消耗，提出了一种基于确定性生成方法的SNG设计，利用Sobol序列生成器，将输入数据与提前生成好的Sobol序列进行一一比较，从而大大降低了硬件资源消耗，
并且使得运算准确率进一步提升。提出了一种基于Sobol序列的并行SNG设计，即增大比较器的数量，从而使得一个时钟周期内可以直接生成一串随机比特流，进一步加快了SC的执行速度。
[0006]由于传统的可重构处理器中的运算器仍采用传统的运算范式，例如资源消耗较大的乘法器，其能效仍有提升空间。因此亟需引入新的计算模式进一步改进其硬件架构。

技术实现思路

[0007]本专利技术旨在至少在一定程度上解决相关技术中的技术问题之一。
[0008]为此，本专利技术的目的在于提出一种基于随机计算的粗粒度可重构处理器架构，能够将随机计算应用在CGRA的设计中，动态改变CGRA的运算精度，从而可以在运算精度要求不高的场景下以较低的功耗完成计算任务，大大提高了CGRA的能效。
[0009]本专利技术的另一个目的在于提出一种基于随机计算的粗粒度可重构处理器架构的算子映射方法。
[0010]为达上述目的，本专利技术一方面提出了一种基于随机计算的粗粒度可重构处理器架构，包括：
[0011]配置存储器，用于存储配置信息；数据存储器，用于存储数据；中央处理器，用于对所述数据存储器存储的数据进行计算处理；动态可重构PE阵列，用于根据所述配置存储器存储的配置信息利用基于随机计算的乘法器和加法移位器，对所述中央处理器进行的计算处理进行数据操作控制。
[0012]本专利技术实施例的基于随机计算的粗粒度可重构处理器架构，能够将随机计算应用在CGRA的设计中，动态改变CGRA的运算精度，从而可以在运算精度要求不高的场景下以较低的功耗完成计算任务，大大提高了CGRA的能效。
[0013]另外，根据本专利技术上述实施例的基于随机计算的粗粒度可重构处理器架构还可以具有以下附加的技术特征：
[0014]进一步地，在本专利技术的一个实施例中，所述动态可重构PE阵列，包括基于随机计算的算术逻辑单元SC
‑
ALU，所述SC
‑
ALU包括所述基于随机计算的乘法器ISC
‑
MUL。
[0015]进一步地，在本专利技术的一个实施例中，所述基于随机计算的乘法器ISC
‑
MUL，包括：基于随机计算的原始乘法器NSC
‑
MUL和前导零移位模块ZSAS。
[0016]进一步地，在本专利技术的一个实施例中，所述基于随机计算的原始乘法器NSC
‑
MUL包括：两个并行随机数发生器SNG、一个多位AND、一个APC和一个左移位器；其中，所述随机数发生器SNG根据Sobol序列实现。
[0017]进一步地，在本专利技术的一个实施例中，所述前导零移位模块ZSAS，用于提高所述基于随机计算的原始乘法器NSC
‑
MUL精度；其中，所述前导零移位模块ZSAS包括：两个前导零计数器、两个左移位器、一个4位加法器和一个4位减法器。
[0018]进一步地，在本专利技术的一个实施例中，还包括：渐进精度控制模块，所述渐进精度控制模块，用于连接不同PE阵列中的固定所述Sobol序列，得到预设长度的所述Sobol序列。
[0019]进一步地，在本专利技术的一个实施例中，还包括：移位平均模块，用于通过计算与门输出中的数确定所述NSC
‑
MUL的输出结果，将所述NSC
‑
MUL的输出结果与多个所述加法移位器相加，并将每个所述加法移位器的和右移进行平均化。
[0020]为达到上述目的，本专利技术另一方面提出一种基于随机计算的粗粒度可重构处理器架构的算子映射方法，包括：
[0021]采使用本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于随机计算的粗粒度可重构处理器架构，其特征在于，包括：配置存储器，用于存储配置信息；数据存储器，用于存储数据；中央处理器，用于对所述数据存储器存储的数据进行计算处理；动态可重构PE阵列，用于根据所述配置存储器存储的配置信息利用基于随机计算的乘法器和加法移位器，对所述中央处理器进行的计算处理进行数据操作控制。2.根据权利要求1所述的可重构处理器架构，其特征在于，所述动态可重构PE阵列，包括基于随机计算的算术逻辑单元SC
‑
ALU，所述SC
‑
ALU包括所述基于随机计算的乘法器ISC
‑
MUL。3.根据权利要求2所述的可重构处理器架构，其特征在于，所述基于随机计算的乘法器ISC
‑
MUL，包括：基于随机计算的原始乘法器NSC
‑
MUL和前导零移位模块ZSAS。4.根据权利要求3所述的可重构处理器架构，其特征在于，所述基于随机计算的原始乘法器NSC
‑
MUL包括：两个并行随机数发生器SNG、一个多位AND、一个APC和一个左移位器；其中，所述随机数发生器SNG根据Sobol序列实现。5.根据权利要求3所述的可重构处理器架构，其特征在于，所述前导零移位模块ZSAS，用于提高所述基于随机计算的原始乘法器NSC
‑
MUL精度；其中，所述前导零移位模块ZSAS包括：两个前导零计数器、两个左移位器、一个4位加法器和一个4位减法器。6.根据权利要求4所述的可重构处理器架构，其特征在于，还包括：渐进精度控制模块，所述渐进精度控制模块，用于连接不同PE阵列中的固定所述Sobol序列，得到预设长度的所述Sobol序列。7.根据权利要求6所述的可重构处理器架构，其特征在于，基于通过计算与门输出中的数确定所述NSC
‑
MUL的输出结果，将所述NSC
‑

【专利技术属性】
技术研发人员：刘大江，王博，
申请(专利权)人：重庆大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人