当前位置: 首页 > 专利查询>浙江大学专利>正文

一种RISC-V架构的多核神经网络处理器芯片制造技术

技术编号:32830885 阅读:28 留言:0更新日期:2022-03-26 20:43
本发明专利技术公开了一种RISC

【技术实现步骤摘要】
一种RISC

V架构的多核神经网络处理器芯片


[0001]本专利技术涉及处理器芯片领域,尤其涉及一种RISC

V架构的多核神经网络处理器芯片,可用于神经网络算法的低功耗硬件实现。

技术介绍

[0002]深度神经网络是由大量简单元件广泛互连而成的复杂网络系统,其特点是分布式存储、异步并行处理、自适应、自学习和具有容错性,这使其在模式识别、语音分析与合成、计算机视觉等感官信号处理方面具有重大应用前景。然而,神经网络算法的实现需要消耗大量的计算资源,尤其是大规模算法,在通用CPU上运行效率极低。
[0003]为了高效的运行神经网络算法,人们不得不求助于GPU或者FPGA,但是在移动场景,或者数据边缘端场景,无法为GPU提供足够的电源和设备体积支持。而使用FPGA需要通用CPU的辅助,灵活性较差。

技术实现思路

[0004]本专利技术目的在于针对现有技术的不足,提出一种RISC

V架构的多核神经网络处理器芯片结构。RISC

V架构作为一种开源精简指令集架构,具有指令集模块化、支持扩展指令等优点,非常适合用于多核自定义功能处理器的设计。
[0005]本专利技术的目的是通过以下技术方案来实现的:一种RISC

V架构的多核神经网络处理器芯片,所述多核神经网络处理器芯片由主控模组和并行计算集群构成,二者通过缓存互访传输数据,所述并行计算集群具有硬件同步模块,进行并行线程调度和同步,控制集群中每个核心的时钟门控;主控模组通过硬件同步模块的信号实现对并行计算集群的控制和反馈,所述主控模组和并行计算集群工作在不同的电压域和时钟域。
[0006]进一步地,所述主控模组主要由RISC

V64GC指令集处理器、对外接口、电源管理模块、L1缓存、L2缓存、多通道I/O DMA、时钟模块和调试模块组成。
[0007]所述主控模组中的RISC

V64GC指令集处理器指令集可通过多通道I/O DMA控制多路对外接口的数据传输。
[0008]所述电源管理模块包括电源管理单元PMU、DC/DC转换器和低压差线性稳压器LDO;所述PMU通过信号线来控制DC/DC和LDO的开关。PMU开机后进行初始化,输出主控模组的供电电压,之后可被主控模组控制。
[0009]所述时钟模块由片上数控锁相环构成,产生初始时钟提供给主控模组,然后在主控模组的控制下输出可调时钟给并行计算集群。
[0010]进一步地,所述L1缓存为一个32Kb的SRAM,L2缓存为一个512kB的SRAM。
[0011]进一步地,所述对外接口包括一套完整的外设接口,能够并行捕获图像,声音和振动数据,以及4通道PWM接口。
[0012]进一步地,外设输入/输出的数据由一个多通道I/O DMA管理,以此减少交互的次数和执行I/O时的控制内核的工作负载。
[0013]进一步地,所述调试模块由调试模式控制信号线和JTAG接口组成,通过该模块调试主控内核的程序。
[0014]进一步地,所述并行计算集群由4个RISC

V内核、硬件同步模块、卷积加速引擎、多通道DMA、共享指令缓存、共享L2缓存和调试模块构成,工作在一个独立的电压域和时钟域,用于执行计算密集型的程序任务。
[0015]所述4个RISC

V内核为IMFC指令集结构,运行相同的二进制代码,使用共享指令缓存存储并行程序。
[0016]所述多通道DMA用于共享L2缓存到主控模组L2缓存的批量数据传输,以降低模块间的访问成本。
[0017]所述共享L2缓存通过一组交叉开关矩阵(crossbar)连接到4个RISC

V内核上。
[0018]所述硬件同步模块负责快速事件管理、并行线程调度和同步,支持细粒度的并行。该模块还控制集群中每个核心的时钟门控,处于等待状态的内核立即进入时钟屏蔽状态,使其动态功耗为零。
[0019]所述电源管理模块为了最大限度地提高能效和减少外部组件数量,芯片内部署一个外部电源供电的片上DC/DC转换器。当芯片处于工作状态时,可以提供1.0V到1.2V的电压。当芯片处于睡眠模式时,转换器关闭,仅留一个低压差线性稳压器用来为时钟供电,选择性地保留部分L2内存供电,具体为:仅保留L2中有效数据的bank的供电,关闭其它无数据的bank,用于保留应用程序的实时状态,以便等待唤醒。
[0020]进一步地,所述调试模块由调试模式控制信号线和JTAG接口组成,可通过该模块调试并行计算集群里的程序代码。
[0021]进一步地,所述RISC

V内核采用顺序的4级流水线结构,每个核内有L1缓存。
[0022]进一步地,所述卷积加速引擎,由处理单元PE阵列、全局缓存和片上网络组成。
[0023]所述全局缓存通过并行计算集群内的DMA控制从主控模组L2缓存读取待计算的数据。
[0024]所述片上网络连接全局缓存和所有的PE,将数据从全局缓存中读出,然后打包成数据包发送到片上网络中,该片上网络为一个广播网络,即所有数据会被送往所有的PE,数据包带有ID号码,对应于阵列里PE的ID。PE只接收与自己ID相同的数据包。
[0025]所述PE阵列由168个PE组成,12行14列排列。每个PE由乘加器、SRAM和控制逻辑模块组成。每个PE具有可配置的ID号码。PE从片上网络收到数据包后存在SRAM内,由控制逻辑模块控制计算过程,将数据读出后,送到乘加器进行计算,结果返回到SRAM中。完成一个批次的计算后,将PE内所有的结果数据通过片上网络发往全局缓存,然后通过DMA送到主控模组的L2缓存中。
[0026]本专利技术的有益效果:
[0027]1.本专利技术的主控模组能完成运行操作系统、控制外围接口、控制计算集群,能处理一般性的应用程序。
[0028]2.本专利技术中的卷积加速引擎,可以高效的运行神经网络中的卷积运算。
[0029]3.本专利技术中的并行计算集群可以高效的执行多种计算密集型程序,尤其是大型的神经网络算法。
附图说明
[0030]图1为本专利技术体系结构示意图;
[0031]图2为本专利技术卷积加速引擎的结构图。
具体实施方式
[0032]下面结合附图及具体实施例对本专利技术作进一步详细说明。
[0033]如图1所示,本专利技术的芯片具有两个大的模块划分,分别为主控模组和并行计算集群,二者通过缓存互访传输数据,所述并行计算集群具有硬件同步模块,进行并行线程调度和同步,控制集群中每个核心的时钟门控;主控模组通过硬件同步模块的信号实现对并行计算集群的控制和反馈,所述主控模组和并行计算集群工作在不同的电压域和时钟域,根据运行负载调控各自的电压和时钟频率。
[0034]主控模组的主核为RISC

V64GC架构,即支持I、M、A、F、本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种RISC

V架构的多核神经网络处理器芯片,其特征在于,所述多核神经网络处理器芯片由主控模组和并行计算集群构成,二者通过缓存互访传输数据,所述并行计算集群具有硬件同步模块,进行并行线程调度和同步,控制集群中每个核心的时钟门控;主控模组通过硬件同步模块的信号实现对并行计算集群的控制和反馈,所述主控模组和并行计算集群工作在不同的电压域和时钟域。2.根据权利要求1所述的一种RISC

V架构的多核神经网络处理器芯片,其特征在于,所述主控模组主要由RISC

V64GC指令集处理器、对外接口、电源管理模块、L1缓存、L2缓存、多通道I/O DMA、时钟模块和调试模块组成。所述主控模组中的RISC

V64GC指令集处理器指令集可通过多通道I/O DMA控制多路对外接口的数据传输。所述电源管理模块包括电源管理单元PMU、DC/DC转换器和低压差线性稳压器LDO;所述PMU通过信号线来控制DC/DC和LDO的开关。PMU开机后进行初始化,输出主控模组的供电电压,之后可被主控模组控制。所述时钟模块由片上数控锁相环构成,产生初始时钟提供给主控模组,然后在主控模组的控制下输出可调时钟给并行计算集群。3.根据权利要求2所述的一种RISC

V架构的多核神经网络处理器芯片,其特征在于,所述L1缓存为一个32Kb的SRAM,L2缓存为一个512kB的SRAM。4.根据权利要求2所述的一种RISC

V架构的多核神经网络处理器芯片,其特征在于,所述对外接口包括一套完整的外设接口,能够并行捕获图像,声音和振动数据,以及4通道PWM接口。5.根据权利要求4所述的一种RISC

V架构的多核神经网络处理器芯片,其特征在于,外设输入/输出的数据由一个多通道I/O DMA管理,以此减少交互的次数和执行I/O时的控制内核的工作负载。6.根据权利要求2所述的一种RISC

V架构的多核神经网络处理器芯片,其特征在于,所述调试模块由调试模式控制信号线和JTAG接口组成,通过该模块调试主控内核的程序。7.根据权利要求1所述的一种RISC

V架构的多核神经网络处理器芯片,其特征在于,所述并行计算集群由4个RISC

V内核、硬件同步模块、卷积加速引擎、多通道DMA、共享指令缓存、共享L2缓存和调试模块构成,工作在一个独立的电压域和时钟...

【专利技术属性】
技术研发人员:卓成张力
申请(专利权)人:浙江大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1