The invention discloses a hardware architecture of a recursive neural network accelerator based on model compression. The hardware architecture consists of the following parts: matrix multiply add unit, for the realization of matrix vector multiplication of neural network, the unit is composed of a plurality of MAC unit clusters, each cluster MAC unit includes a plurality of different basic elements multiply add multiply add unit block, the number of directly determines the degree of parallelism and throughput accelerator; static random access memory on a double end piece, which has three intermediate results for memory recurrent neural network method, and composed of two ping-pong structure in order to improve the efficiency of data access, the remaining memory for storing parameters of neural network; multiple nonlinear calculation unit, used to implement nonlinear function neural network; the control unit for generating control signal and control data flow. The invention can achieve high hardware efficiency and expansibility, and is a reasonable scheme for embedded system in intelligent human-machine interaction, robot control and other related fields.
【技术实现步骤摘要】
一种基于模型压缩的递归神经网络加速器的硬件架构
本专利技术涉及计算机及电子信息
,特别是一种基于模型压缩的递归神经网络加速器的硬件架构。
技术介绍
递归神经网络有着强大的非线性拟合能力,其天然的递归结构十分适用于建模序列数据,如文本、语音和视频等。目前,递归神经网络模型在自然语言处理领域,尤其是在语音识别和机器翻译上已经取得了接近甚至超过人类的效果或准确率;通过结合增强学习,递归神经网络在机器人自适应控制和学习领域也有广泛的应用前景。这些技术是实现智能人机交互所必须的,但是在嵌入式设备上运行递归神经网络模型存在着诸多问题。一方面,递归神经网络模型需要存储大量的参数,而且计算量巨大;另一方面,嵌入式系统所能提供的存储资源和计算能力十分有限,无法满足模型存储和计算的需求,实时性和功耗上也面临着诸多挑战。由前者催生出一些模型压缩技术来减少网络模型的参数以减少模型的存储需求,并降低模型的计算复杂度。但是,现有的解决方案多采用GPU芯片,过高的功耗使之无法应用于嵌入式场景;而目前嵌入式系统中广泛采用的硬件平台无法很好地利用前述模型压缩技术。因此有必要设计专门的硬件架构以充分利用已有模型压缩技术。现有的模型压缩技术可以粗略归为两大类,一类不减少模型参数个数,但可以减少参数存储所需要的空间。如通过剪枝使参数矩阵变稀疏,而后可通过特殊的格式存储稀疏参数矩阵;也可采用不同的参数量化方法,减少存储每个参数需要的比特。另一类是通过对参数矩阵施加特殊的约束减少参数个数或是减少计算复杂度,如通过哈希映射将网络参数限制为几种特殊的值,存储时存储值及每个参数所属的类别;或是将参数 ...
【技术保护点】
一种基于模型压缩的递归神经网络加速器的硬件架构,其特征在于,硬件架构包括:(11)矩阵乘加单元MAT‑VEC,用于实现神经网络中主要的矩阵向量乘法运算,该单元内含多个乘加单元簇MVU/CMVU,每个乘加单元簇用于处理递归神经网络中的一个矩阵向量乘法;(12)多个硬件友好的非线性计算单元Sigmoid/Tanh,用于实现神经网络中的非线性函数;(13)多个双端片上静态随机存储器,其中有两个存储中间状态的存储器HRAM0和HRAM1组成乒乓存储结构以提高数据存取效率,其余还包括另外一个状态存储器CRAM和由多个参数存储单元组成的参数存储单元块WRAMs用于存储递归神经网络的模型参数;(14)控制单元,用于产生相关控制信号及控制数据流的流动。
【技术特征摘要】
1.一种基于模型压缩的递归神经网络加速器的硬件架构,其特征在于,硬件架构包括:(11)矩阵乘加单元MAT-VEC,用于实现神经网络中主要的矩阵向量乘法运算,该单元内含多个乘加单元簇MVU/CMVU,每个乘加单元簇用于处理递归神经网络中的一个矩阵向量乘法;(12)多个硬件友好的非线性计算单元Sigmoid/Tanh,用于实现神经网络中的非线性函数;(13)多个双端片上静态随机存储器,其中有两个存储中间状态的存储器HRAM0和HRAM1组成乒乓存储结构以提高数据存取效率,其余还包括另外一个状态存储器CRAM和由多个参数存储单元组成的参数存储单元块WRAMs用于存储递归神经网络的模型参数;(14)控制单元,用于产生相关控制信号及控制数据流的流动。2.权利要求1所述的乘加单元簇MVU/CMVU,其特征在于,包括:(21)多个乘加单元块B-PE,每个乘...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。