处理装置、神经网络的处理方法及其装置制造方法及图纸

技术编号:30533988 阅读:22 留言:0更新日期:2021-10-30 13:07
本申请公开了一种处理装置、神经网络的处理方法及其装置,涉及深度学习、语音技术等领域。具体实现方案为:处理装置包括通过总线连接的神经网络处理单元NPU、伪静态随机存储器PSRAM和数字信号处理器DSP,其中,DSP在内部的存储器中存储待处理的输入数据及存储NPU对输入数据的运算结果;PSRAM存储神经网络的网络参数;NPU通过总线访问DSP内部的存储器,以读取得到待处理的输入数据,及通过总线访问PSRAM得到至少部分网络参数,根据读取到的至少部分网络参数对输入数据执行矩阵向量操作和卷积操作中的至少一个,并同步继续读取PSRAM中的其余网络参数。由此,可以实现数据读取/加载和计算的并行,从而可以提升计算效率。从而可以提升计算效率。从而可以提升计算效率。

【技术实现步骤摘要】
处理装置、神经网络的处理方法及其装置


[0001]本申请涉及深度学习、语音技术等AI(Artificial Intelligence,人工智能)领域,尤其涉及处理装置、神经网络的处理方法及其装置。

技术介绍

[0002]目前对于智能音箱等电子设备中的语音芯片,在对语音数据进行处理时,是通过加载所有待计算数据,利用已加载的待计算数据对语音数据进行处理,然而上述处理方式,只有当所有的待计算数据加载完成后,才能执行语音数据的处理过程,处理效率较低。

技术实现思路

[0003]本申请提供了一种用于处理装置、神经网络的处理方法及其装置。
[0004]根据本申请的一方面,提供了一种处理装置,包括:通过总线连接的神经网络处理单元NPU、伪静态随机存储器PSRAM和数字信号处理器DSP;
[0005]其中,所述DSP,用于在内部的存储器中存储待处理的输入数据;以及存储所述NPU对所述输入数据的运算结果;
[0006]所述PSRAM,用于存储神经网络的网络参数;
[0007]所述NPU,用于通过所述总线访问所述DSP内部的存储器,以读取得到所述待处理的输入数据,以及通过所述总线访问所述PSRAM得到至少部分网络参数;根据读取到的所述至少部分网络参数对所述输入数据执行矩阵向量操作和卷积操作中的至少一个,并同步继续读取所述PSRAM中的其余所述网络参数。
[0008]根据本申请的另一方面,提供了一种神经网络的处理方法,应用于处理装置,其中,所述处理装置包括总线连接的神经网络处理单元NPU、伪静态随机存储器PSRAM和数字信号处理器DSP;所述处理方法包括:
[0009]所述NPU通过所述总线访问所述DSP内部的存储器,以读取得到待处理的输入数据;
[0010]所述NPU通过所述总线访问所述PSRAM得到至少部分网络参数;
[0011]所述NPU根据读取到的所述至少部分网络参数对所述输入数据执行矩阵向量操作和卷积操作中的至少一个,并同步继续读取所述PSRAM中的其余所述网络参数;
[0012]所述DSP存储所述NPU对所述输入数据的运算结果。
[0013]根据本申请的又一方面,提供了一种电子设备,包括:
[0014]至少一个处理器;以及
[0015]与所述至少一个处理器通信连接的存储器;其中,
[0016]所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行本申请上述提出的神经网络的处理方法。
[0017]根据本申请的再一方面,提供了一种计算机指令的非瞬时计算机可读存储介质,
所述计算机指令用于使所述计算机执行本申请上述提出的神经网络的处理方法。
[0018]根据本申请的还一方面,提供了一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现本申请上述提出的神经网络的处理方法。
[0019]应当理解,本部分所描述的内容并非旨在标识本申请的实施例的关键或重要特征,也不用于限制本申请的范围。本申请的其它特征将通过以下的说明书而变得容易理解。
附图说明
[0020]附图用于更好地理解本方案,不构成对本申请的限定。其中:
[0021]图1为本申请实施例一所提供的处理装置的结构示意图;
[0022]图2为本申请实施例二所提供的处理装置的结构示意图;
[0023]图3为本申请实施例三所提供的处理装置的结构示意图;
[0024]图4为本申请实施例中卷积计算过程示意图;
[0025]图5为本申请实施例四所提供的处理装置的结构示意图;
[0026]图6为本申请实施例五所提供的神经网络的处理方法的流程示意图;
[0027]图7示出了可以用来实施本申请的实施例的示例电子设备的示意性框图。
具体实施方式
[0028]以下结合附图对本申请的示范性实施例做出说明,其中包括本申请实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本申请的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
[0029]为了节省语音芯片的成本,以及满足平衡算法需求,可以降低语音芯片的片内内存,再使用SIP(System In Package,系统级封装)封装PSRAM(Pseudo Static Random Access Memory,伪静态随机存储器)扩展内存的方法,将原语音芯片通过ESP32外挂PSRAM的方案的成本降低。即,现有方案中,是将PSRAM放在ESP32的主控芯片端,且外置于板级,需要额外的成本,因此,可以将PSRAM封装至语音芯片内,配合片内内存的降低,节省了外挂PSRAM的成本。
[0030]然而,随着片内内存的降低,高带宽的内部内存减少,数据加载的速度会降低,从而带来了AI计算和模型数据并行加载的风险,因此,如何提升PSRAM的带宽利用率至关重要。
[0031]并且,为了节省语音芯片的面积,可以将语音芯片中主控MCU(Microprogrammed Control Unit,微控制器)的功能(语音业务逻辑,控制逻辑等)从ESP32中挪到语音芯片中,语音芯片的双核架构中只有一个核心留给语音处理。
[0032]然而,将双核心的计算量全部放到一个核心之后,8x8,16x8乘加运算的算力不足,单核心处理所有语音处理的压力较大。
[0033]并且,PSRAM中数据的加载过程和语音数据的计算过程是分开执行的,在PSRAM中数据加载速度较慢的情况下,严重影响后续语音数据的计算效率。
[0034]因此针对上述存在的问题,本申请提出一种处理装置、神经网络的处理方法及其装置。
[0035]下面参考附图描述本申请实施例的处理装置、神经网络的处理方法及其装置。
[0036]图1为本申请实施例一所提供的处理装置的结构示意图。
[0037]如图1所示,该处理装置可以包括通过总线连接的NPU(Network Processing Unit,神经网络处理单元)110、PSRAM120和DSP(Digital Signal Processor,数字信号处理器)130。
[0038]其中,DSP130,用于在内部的存储器中存储待处理的输入数据;以及存储NPU110对输入数据的运算结果。
[0039]PSRAM120,用于存储神经网络的网络参数。
[0040]NPU110,用于通过总线访问DSP130内部的存储器,以读取得到待处理的输入数据,以及通过总线访问PSRAM120得到至少部分网络参数;根据读取到的至少部分网络参数对输入数据执行矩阵向量操作和卷积操作中的至少一个,并同步继续读取PSRAM120中的其余网络参数。
[0041]在本申请实施例中,当神经网络应用于语音识别场景中时,比如该NPU应用于语音本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种处理装置,包括:通过总线连接的神经网络处理单元NPU、伪静态随机存储器PSRAM和数字信号处理器DSP;其中,所述DSP,用于在内部的存储器中存储待处理的输入数据;以及存储所述NPU对所述输入数据的运算结果;所述PSRAM,用于存储神经网络的网络参数;所述NPU,用于通过所述总线访问所述DSP内部的存储器,以读取得到所述待处理的输入数据,以及通过所述总线访问所述PSRAM得到至少部分网络参数;根据读取到的所述至少部分网络参数对所述输入数据执行矩阵向量操作和卷积操作中的至少一个,并同步继续读取所述PSRAM中的其余所述网络参数。2.根据权利要求1所述的处理装置,其中,所述DSP存储的输入数据为浮点型,所述NPU包括:量化单元,用于获取所述浮点型的输入数据,对所述浮点型的输入数据进行量化得到量化后的输入数据,并将所述量化后的输入数据提供至运算单元;以及,用于对所述运算单元输出的运算结果进行反量化,得到反量化结果;所述运算单元,用于对所述量化后的输入数据执行矩阵向量操作和/或卷积操作,以得到所述输入数据的运算结果。3.根据权利要求2所述的处理装置,其中,所述运算单元,用于执行矩阵向量操作,所述量化单元用于:根据所述DSP内部的存储器所存储的浮点型的输入数据,求得用于量化的第一参数和用于反量化的第二参数;对所述浮点型的输入数据中待量化的浮点值乘以所述第一参数,并求整后转化为数值型,以得到数值型的输入数据;将所述数值型的输入数据发送至所述运算单元;将所述运算单元得到的运算结果转化为浮点型;将浮点型的运算结果乘以所述第二参数后发送至所述DSP的存储器进行存储。4.根据权利要求3所述的处理装置,其中,所述NPU还包括所述总线的主接口;所述主接口,用于通过所述总线向所述DSP发送内存拷贝函数,以访问所述DSP内部的存储器,得到所述DSP内部的存储器所存储的所述浮点型的输入数据。5.根据权利要求2所述的处理装置,其中,所述运算单元,用于执行卷积操作,所述量化单元用于:对所述浮点型的输入数据进行浮点转短型的转换操作,以对转换后的短型的输入数据执行卷积操作。6.根据权利要求5所述的处理装置,其中,所述处理装置还包括与所述NPU通过高速访问接口连接的随机存储器RAM;所述RAM,用于将所述短型的输入数据转存至所述RAM中。7.根据权利要求6所述的处理装置,其中,所述运算单元包括第一寄存器、第二寄存器和累加器;所述第一寄存器,用于在第一周期从所述RAM中读取所述短型的输入数据;所述第二寄存器,用于在第一周期之后的多个后续周期,读取所述PSRAM中至少部分网
络参数,将每个周期读取的所述至少部分网络参数与所述第一寄存器中对应的输入向量进行点积运算;所述累加器,用于获取点积运算的结果,根据所述点积运算的结果进行累加,以得到卷积操作的运算结果。8.根据权利要求1

7任一项所述的处理装置,其中,所述NPU包括:激活单元,用于根据所述DSP存储的卷积操作的运算结果采用激活函数进行激活,并将激活结果提供给所述DSP存储。9.一种神经网络的处理方法,应用于处理装置,其中,所述处理装置包括总线连接的神经网络处理单元NPU、伪静态随机存储器PSRAM和数字信号处理器DSP;所述处理方法包括:所述NPU通过所述总线访问所述DSP内部的存储器,以读取得到待处理的输入数据;所述NPU通过所述总线访问所述PSRAM得到至少...

【专利技术属性】
技术研发人员:田超贾磊严小平闻军会邓广来李强
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1