本发明专利技术提供一种加速神经网络模型预测过程的处理器系统,涉及神经网络算法领域和计算机硬件领域领域,所述神经网络模型预测过程包括卷积层、循环层和全连接层,所述处理器系统包括一第一处理单元和一三维非易失性存储器;所述三维非易失性存储器内部集成有一第二处理单元;所述第一处理单元用于处理保存在所述存储单元中的所述神经网络模型执行所述卷积层和所述循环层的命令时的相应数据;所述第二处理单元用于处理保存在所述三维非易失性存储器的存储阵列中的所述神经网络模型执行所述全连接层的命令时的相应数据。本发明专利技术有效提升神经网络模型预测过程的运行速度,充分利用了各处理器性能,避免系统资源浪费的同时降低能耗。
A processor system for accelerating the prediction process of neural network model
【技术实现步骤摘要】
一种加速神经网络模型预测过程的处理器系统
本专利技术涉及神经网络算法领域和计算机硬件领域,尤其涉及一种加速神经网络模型预测过程的处理器系统。
技术介绍
神经网络目前被广泛应用于视频处理、图像处理、语音识别和优化计算等领域,神经网络由于自身结构中的可并行性和良好的性能,受到了广泛的关注,也在潜移默化地影响着人们的生活。神经网络运算过程中需要大量的数据,数据的存储和传输已经成为神经网络运算过程的技术壁垒。如何使得神经网络在运算过程中,庞大的数据的传输和存储能够高效地运行,减小神经网络运算过程中的内存限制,成为目前所要解决的一项关键的问题。深度神经网络的计算过程主要包括训练过程和预测过程两部分,但由于其具有计算密集性和数据密集性的特点,当面对大规模数据时,往往存在计算资源需求大、计算时间过长、功耗较大等微调。训练过程采用离线方式即可满足一般应用的需求,而预测过程需要在线进行,对实时性要求更高,因此加速其预测过程更具有实践意义和应用市场。并行化是加速神经网络的预测过程的主要技术手段,但如果数据访问能力不能进一步提高,就形成了瓶颈,导致片上并行部件利用率不高,造成了现有资源的浪费。
技术实现思路
针对现有技术中存在的问题,本专利技术提供一种加速神经网络模型预测过程的处理器系统,所述神经网络模型预测过程包括卷积层、循环层和全连接层,所述处理器系统包括一第一处理单元和一三维非易失性存储器;所述三维非易失性存储器内部集成有一第二处理单元;所述第一处理单元连接一存储单元,用于处理保存在所述存储单元中的所述神经网络模型执行所述卷积层和所述循环层的命令时的相应数据;所述第二处理单元用于处理保存在所述三维非易失性存储器的存储阵列中的所述神经网络模型执行所述全连接层的命令时的相应数据。优选的,所述第一处理单元具有直接访问所述存储单元的权限,以及所述第二处理单元具有直接访问所述三维非易失性存储器的所述存储阵列的权限。优选的,所述存储单元包括内存,和/或三维非易失性存储器。优选的,所述第一处理单元包括中央处理单元,和/或图形处理单元,和/或张量处理单元,和/或现场可编辑逻辑门阵列,和/或专用集成电路芯片。优选的,所述第二处理单元包括中央处理单元,和/或图形处理单元,和/或张量处理单元,和/或现场可编辑逻辑门阵列,和/或专用集成电路芯片。优选的,所述第一处理单元的处理性能高于所述第二处理单元的处理性能。优选的,所述第二处理单元形成于所述三维非易失性存储器的所述存储阵列的上方;或者所述第二处理单元形成于所述三维非易失性存储器的所述存储阵列的下方。优选的,所述三维非易失性存储器包括三维相变存储器,和/或三维NAND闪存,和/或三维磁性存储器,和/或阻变存储器。上述技术方案具有如下优点或有益效果:根据神经网络模型卷积层、循环层和全连接层的数据运算特点,分别采用不同性能的处理器进行并行处理,且各处理器可以直接访问对应的存储单元和/或存储阵列,可以有效提升神经网络模型预测过程的运行速度,充分利用了各处理器性能,避免系统资源浪费的同时降低能耗。附图说明图1为本专利技术的较佳的实施例中,一种加速神经网络模型预测过程的处理器系统的结构示意图;图2为本专利技术的较佳的实施例中,现有技术中的神经网络模型预测过程的处理器系统的结构示意图;图3为本专利技术的较佳的实施例中,存储单元由三维非易失性存储器代替的结构示意图。具体实施方式下面结合附图和具体实施例对本专利技术进行详细说明。本专利技术并不限定于该实施方式,只要符合本专利技术的主旨,则其他实施方式也可以属于本专利技术的范畴。本专利技术的较佳的实施例中,基于现有技术中存在的上述问题,现提供一种加速神经网络模型预测过程的处理器系统,神经网络模型预测过程包括卷积层、循环层和全连接层,如图1所示,处理器系统4包括一第一处理单元1和一三维非易失性存储器2;三维非易失性存储器2内部集成有一第二处理单元21;第一处理单元1连接一存储单元3,用于处理保存在存储单元3中的神经网络模型执行卷积层和循环层的命令时的相应数据;第二处理单元21用于处理保存在三维非易失性存储器2的存储阵列22中的神经网络模型执行全连接层的命令时的相应数据。具体地,本实施例中,上述神经网络模型预测过程包括卷积层、循环层和全连接层,其中,卷积层和循环层中的数据运算较为复杂,且数据运算执行过程中需要频繁访问上述存储单元3;全连接层的数据运算较为简单,且数据运算执行过程中需要频繁访问上述三维非易失性存储器2的存储阵列22。现有技术中的神经网络模型预测过程的处理器系统4,如图2所示,采用第一处理单元1同时处理神经网络模型预测过程中的卷积层、循环层和全连接层的数据运算。由于全连接层的数据运算较为简单,使用高性能的第一处理单元进行处理,不仅占用卷积层和循环层数据处理资源,增加了神经网络模型预测过程的运行时间,且能耗较高,同时由于无法实现第一处理单元1的有效利用,造成现有资源的浪费。因此,本专利技术的处理器系统4中,根据神经网络模型预测过程的不同阶段的数据运算的特点,将上述的第一处理单元1设置为主处理单元,且其性能较上述的第二处理单元21的性能更好。当神经网络模型预测过程执行至卷积层或循环层时,由性能更好的第一处理单元1直接访问上述存储单元3,并进行更为复杂的数据运算过程;当神经网络模型预测过程执行至全连接层时,由性能较差的第二处理单元21直接访问上述三维非易失性存储器2的存储阵列22,并进行较为简单的数据运算过程;有效利用了各处理单元的性能,避免资源浪费的同时降低功耗,且有效提升了数据访问速度,进而实现神经网络模型预测过程的加速。本专利技术的较佳的实施例中,第一处理单元1具有直接访问存储单元3的权限,以及第二处理单元21具有直接访问三维非易失性存储器2的存储阵列22的权限。本专利技术的较佳的实施例中,存储单元3包括内存,和/或三维非易失性存储器。具体地,本实施例中,上述的存储单元3包括内存,且该内存可以部分或全部由三维非易失性存储器代替;如图3所示,为内存全部由三维非易失性存储器2代替。本专利技术的较佳的实施例中,第一处理单元1包括中央处理单元,和/或图形处理单元,和/或张量处理单元,和/或现场可编辑逻辑门阵列,和/或专用集成电路芯片。本专利技术的较佳的实施例中,第二处理单元21包括中央处理单元,和/或图形处理单元,和/或张量处理单元,和/或现场可编辑逻辑门阵列,和/或专用集成电路芯片。本专利技术的较佳的实施例中,第一处理单元1的处理性能高于第二处理单元21的处理性能。本专利技术的较佳的实施例中,第二处理单元21形成于三维非易失性存储器2的存储阵列22的上方;或者第二处理单元21形成于三维非易失性存储器2的存储阵列22的下方。具体地,本实施例中,上述的第二处理单元21和三维非易失性存储器2的存储阵列22制作于同一芯片之中。本专利技术的较佳的实施例中,三维非易失性存储器2包括三本文档来自技高网...
【技术保护点】
1.一种加速神经网络模型预测过程的处理器系统,所述神经网络模型预测过程包括卷积层、循环层和全连接层,其特征在于,所述处理器系统包括一第一处理单元和一三维非易失性存储器;/n所述三维非易失性存储器内部集成有一第二处理单元;/n所述第一处理单元连接一存储单元,用于处理保存在所述存储单元中的所述神经网络模型执行所述卷积层和所述循环层的命令时的相应数据;/n所述第二处理单元用于处理保存在所述三维非易失性存储器的存储阵列中的所述神经网络模型执行所述全连接层的命令时的相应数据。/n
【技术特征摘要】
1.一种加速神经网络模型预测过程的处理器系统,所述神经网络模型预测过程包括卷积层、循环层和全连接层,其特征在于,所述处理器系统包括一第一处理单元和一三维非易失性存储器;
所述三维非易失性存储器内部集成有一第二处理单元;
所述第一处理单元连接一存储单元,用于处理保存在所述存储单元中的所述神经网络模型执行所述卷积层和所述循环层的命令时的相应数据;
所述第二处理单元用于处理保存在所述三维非易失性存储器的存储阵列中的所述神经网络模型执行所述全连接层的命令时的相应数据。
2.根据权利要求1所述的处理器系统,其特征在于,所述第一处理单元具有直接访问所述存储单元的权限,以及
所述第二处理单元具有直接访问所述三维非易失性存储器的所述存储阵列的权限。
3.根据权利要求2所述的处理器系统,其特征在于,所述存储单元包括内存,和/或三维非易失性存储器。
4.根据权利要求2所述的处理器系...
【专利技术属性】
技术研发人员:景蔚亮,陈邦明,
申请(专利权)人:上海新储集成电路有限公司,
类型:发明
国别省市:上海;31
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。